Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...
-
Upload
pino-mujica -
Category
Documents
-
view
1 -
download
0
Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...
Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4b.ppt
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
Síntesis de VozSíntesis de Voz
Sintetizadores de VozParamétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios
No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):
Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.
Text-to-phoneconversiontext
Phonestring Synthesis-
by-rule
Synthesisercontrol
parametersSynthesiser
“letter-to-sound”
rules
Exceptionsdictionary
Speakertable
Rules
Linguisticanalysis
Prosodyparameters
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control
Unvoiced Excitation
VoicedExcitation
A
A
A
A
F1
F2
F3
F4
ExcitationMixers
FormantAmplitude
Control
FormantResonators
VoicingControl
Speech Out+
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control
El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-
talk
Síntesis de VozSíntesis de Voz
Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.
Síntesis por concatenación de unidades:
• Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos.
• Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)
Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades
Generación de la base de datos
Lista de Unidades
Voz
Fonemas yProsodia
Informac.unidades
Sintetizador de VozModificación Prosódica
BD Unidadesde síntesis
Concatenación
Síntesis
DecodificaciónDe voz
Segmentaciónde unidades
Corpusde voz
BDUnidades
de VozAnálisis
BD Unidades
Parametriz. Ecualización
Codificaciónde voz
Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos
...# L L AA T T A A #
Modificación de paramètrosprosódicos
0 200 400 600 800 1000 1200 1400 1600 1800 2000-2
-1.5
-1
-0.5
0
0.5
1
1.5
2x 10
4
0 500 1000 1500 2000 2500-2
-1.5
-1
-0.5
0
0.5
1
1.5
2x 10
4
PSOLA: Pitch Synchronous Overlap and Add
• PSOLA (Charpentier, 1986)
• Most successful current approach to concatenative synthesis
• In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added
• BT’s Laureate is an example
PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Speech modification using PSOLA
• In addition to speech synthesis from segments, there are two other common applications of PSOLA:– Pitch modification– Duration modification
Increasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Decreasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Altering Pitch
X
Hanningwindow
=
Original diphone Extractedpitch period
Hannedpitch period‘C_A’
PSOLA – Pitch Synchronous Overlap and Add
=
Altering Pitch
50% Overlap + Add
Pitch Up > 50%Pitch Down < 50%
PSOLA strengths and weaknesses
• Strengths– Produces good quality speech
• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by
recording and labelling significant speech corpora from new speakers
• Automatic annotation of corpora using techniques from speech recognition
Síntesis de VozSíntesis de Voz
Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)
Hay otros modelos de síntesis: Modelos Armónicos
Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo
Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos
Modelos Articulatorios:
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +
prosodia {ti} (ti: target = sonido + prosodia):
S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)
u1 u2 u3 u4 ... ... ...... un
Gran BD deUnidades
de Voz ui
10 – 150 min.
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Se define:
Coste de ajuste al objetivo:
Coste de concatenación::
j: diferencia de f0, duración, contexto, ...
wjt: peso de cada factor
iit utC ,
iic uuC ,1
P
jii
tj
tjii
t utcwutC1
),(,
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Se define:
Coste de concatenación::
j: distancias en el punto de unión: cepstral, log-energía, f0, ...
wjc: peso de cada factor
iic uuC ,1
Q
jii
cj
iic
uucuuC
11
cj
1 ,w
la BD en existesecuencia la si 0
,
Síntesis de VozSíntesis de Voz
Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +
prosodia {ti} (ti: target = sonido + prosodia):
S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)
u1 u2 u3 u4 ... ... ...... un
{ui} óptima => mínimo
Gran BD deUnidades
de Voz ui
10 – 150 min. nn utC 11 ,
n
in
cii
cn
iii
tcnn SuCuuCutCuSCutC2
11
111 ),(),(),(,,
Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Problemas:
Qué factores y entrenamiento de los pesos: wjc, wj
t
Algoritmo de búsqueda de unidades
Tratamiento Digital de VozTratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
Síntesis de VozSíntesis de Voz
Sistemas y Dificultades
Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos
Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones
Personalización/Generación rápida de nuevas voces
Síntesis Audio-Visual
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesSistemas Comerciales (castellano):
Telefónica Investigación y Desarrollohttp://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...
ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm
ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique (http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)
Síntesis de VozSíntesis de Voz
Sistemas y Dificultades
Sistemas Investigación y Distribución Libre: Festivalhttp://www.cstr.ed.ac.uk/projects/festival/MBROLAhttp://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php
Otros Contextos: MPEG-4 & MPEG-7Microsoft Speech API
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual
Identificación de Sonidos(Reconocedor de Habla)
sonidos --> visemas
Audio(voz pre-grabada)
Conversor Texto-VozTexto
Animación
Audio
visemas
• Animación 2D o 3D
• Composición de Vídeo
Síntesis de VozSíntesis de Voz
Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual
Haptekhttp://www.haptek.comFaceWorkshttp://interface.digital.com/ Lipsync(aplicaciones http://www.annosoft.com/index.htm)
Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/
Web bots: Alicebot(aplicaciones http://www.alicebot.org/)