Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Post on 11-Apr-2015

111 views 0 download

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de VozSíntesis de Voz

Tipos de Síntesis de Voz y Aplicaciones

(A)Voz Pre-Grabada(codificación)

(B)Conversión de Texto

a VozText-to-Speech TTS

(C)Conversión de Concepto

a VozConcept-to-Speech CTS

Acceso a Inform.

Telefónica

Asistentes de Lectura

Comunicadores y Ayudas para Discapacitados

Locutores virtuales (visual – TTS)

Otros: Enseñanza (I. Cervantes), .. http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl

1791

• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

1835

• Sistema parlante diseñado por Sir Charles Wheatstone

Sprachsynthese (TTS, Vocoder)

Philipp S. Bach

1939

Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de:

• Un oscilador (controlado por un pedal) y una fuente de ruído blanco

• Diez filtros paso banda, con salida conectada a potenciómetros

• Algunos botones para generar consonantes como t, p, etc...

Historie der Sprachsynthese

Proseminar Sprachdialogsysteme

http://www.acoustics.hut.fi/~slemmett/dippa/appa.html

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz

ProcesoLingüístico-Prosódico

Proceso de Señal

•Sonidos (pausas)•Prosodia:

o F0o Duracióno Energía

Análisis del Texto Análisis FonéticoAnálisis Prosódico

Modelos de Síntesisde Voz

SINTETIZADOR

Texto Voz

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Componentes:

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Detección de la Estructura:– Segmentación de

párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura

de SMS, e-mail, página web, ...

– Identificación del Idioma, ...

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Normalización del Texto:– Abreviaturas (Vd. Sr. ),

acrónimos (CEE, BMW) , etc.

– Fechas, Horas, Cantidades, Números

– Corrección automática de errores o expansión de formas de escritura (SMSs)

– Identificación de palabras extranjeras, ..

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis del Texto

Análisis Lingüístico:– Análisis sintáctico y

semántico (posible)– Desambiguación de

palabras.– Estructura de la frase.– Identificación de tipo de

frase.

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético

Componentes: Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Análisis Morfológico:– Palabras de función:

pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)

– Palabras de contenido – Prefijos y sufijos,

conjugaciones, plurales, aumentativos, etc

– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Conversión Grafema-Alófono:– Soluciones basadas en

diccionario• Palabras divididas en

morfemas (para disminuir diccionario)

• Si la palabra no está: usa reglas

– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Componentes: Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Módulo Pausador:– Decisión de dónde insertar

pausas –ortográficas y no ortográficas- :

• Información gramatical: coeficientes de relación

• Número de sílabas– Asignación de la duración

adecuada a las pausas

Síntesis de VozSíntesis de Voz

Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Modelado Prosódico:– Modelos:

• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de

datos.– Modelado de F0 y duración:

¿independiente o conjunto?– Intensidad, generalmente

sólo normalización

Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS

Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos

Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética

Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y

luego combinar los modelos parciales.

Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,

Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:

Hispanic Institute. Guadarrama 1974.

http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf