Las etapas en la conversión de texto en habla -...

23
Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola La conversión de texto en habla Del texto… …al habla GTP-UPC Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola text-to-speech, TTS Un sistema de conversión de texto en habla (CTH) transforma transforma cualquier texto escrito en su realización sonora La estructura de un conversor suele ser modular modular Cada módulo se ocupa de un aspecto de la transformación de la cadena de caracteres inicial hasta llegar a la señal sonora La conversión de texto en habla Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Esquema general de un conversor de texto en habla Pre-procesado y normalización Análisis lingüístico Transcripción fonética Asignación de prosodia Selección de unidades Conversión en parámetros acústicos Joaquim Llisterri Grup de Fonètica, Departament de Filologia Espanyola Procesamiento previo del texto Transcripción fonética automática Análisis lingüístico Asignación de elementos prosódicos Conversión en parámetros acústicos Las etapas en la conversión de texto en habla

Transcript of Las etapas en la conversión de texto en habla -...

Page 1: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

La conversión de texto en habla

Del texto… …al habla GTP-UPC

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

text-to-speech, TTS• Un sistema de conversión de texto en habla

(CTH) transformatransforma cualquier texto escrito ensu realización sonora

• La estructura de un conversor suele sermodularmodular

• Cada módulo se ocupa de un aspecto de latransformación de la cadena de caracteresinicial hasta llegar a la señal sonora

La conversión de texto en habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Esquema general de unconversor de texto en habla

Pre-procesado y normalización

Análisis lingüístico Transcripción fonética

Asignación de prosodia Selección de unidades

Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos

Las etapas en la conversiónde texto en habla

Page 2: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos

Las etapas en la conversiónde texto en habla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

• El módulo de procesamiento previodel texto realiza las mismasoperaciones que un hablante leyendoen voz alta

• El objetivo es preparar el texto parala transcripción fonética automática

Procesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

• Elementos que se convierten en texto'deletreado'• Abreviaturas (Sr. D., Exmo., pts...)• Siglas (UE, ONU...)• Cifras y ordinales (3, 1º, 2ª...)• Fechas (13.06.1959)• Horas (15.30h...)• Medidas (m., cm., Km....)• Números romanos (Pedro IV...)• Letras aisladas• Símbolos especiales ($...)

Procesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas en el preprocesado deltexto• Siglas y acrónimos

OTAN [otan] *[oteaene] PP [pepe] *[pp] PSOE [pesoe] *[peeseoe] *?[psoe]

Procesamiento previo del texto

Page 3: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas en el preprocesado del texto

• Abreviaturas

VO *[bo] versión original

CV “caballos” - “curriculum vitae”

Procesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas en el preprocesado del texto• Concordancia en expresiones numéricas

* trescientos sesenta y cinco líneas* quinientos pesetas

• Formas apocopadas100 casos: cien casos10%: diez por ciento

Procesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas en el preprocesado del texto

• Números de teléfono

93581686: * Noventa y tres millonesquinientos ochenta y uno mil seis cientosochenta y seis

• Horas

4.15: *cuatro punto quince

Procesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas en el preprocesado del texto• Códigos postales

28002 Madrid: *veintiocho mil dosMadrid

• Fechas13-11-98: *trece once noventa y ocho

Procesamiento previo del texto

Page 4: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas en el preprocesado del texto

• Lectura del correo electrónico

• Errores mecanográficos

• Errores ortográficos

• Falta de signos de puntuación

• Lectura de SMS

• “Abreviaturas” nuevas

stoy n ksa 2# y slgo xa MAD tq

Procesamiento previo del texto

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo de preprocesamiento del texto CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

• Módulo normalizador• Selecciona la frase como

unidad de trabajo• Normaliza la forma de

escritura sin perderinformación relevante

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo normalizadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Texto: El Sr. José Luis López tiene 201 viñas.Texto: El Sr. José Luis López tiene 201 viñas.

NORMALIZADORNORMALIZADOR

Frase normalizada: el Sr. josé luis lópez tiene 201Frase normalizada: el Sr. josé luis lópez tiene 201viñas.viñas.

Formato: mm abr Mm Mm Mm mm mm mm sig

Códigos: mm: palabra en minúscula, Mm: palabra con

inicial mayúscula, abr: abreviatura, sig: signo

ortográfico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo de preprocesamiento del textoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

• Módulo de preproceso• Expande abreviaturas,

números, etc.• Incluye la silabificación y la

acentuación

Page 5: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo de preprocesoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Frase normalizada: el Sr. josé luis lópez tiene 201viñas.

Formato: mm abr Mm Mm Mm mm mm mm sig

PREPROCESOPREPROCESO

Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez tiene doscientas unaopez tiene doscientas unavi#as.vi#as.

Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez tio. pez ti’’e.ne dos.e.ne dos.cici’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

• Creación de una cadena de unidades fonéticas -fonemas o alófonos- a partir del texto escritopreprocesado

• “Un sistema de transcripción fonéticaautomática es un algoritmo que transforma untexto de entrada representado en caracteresgrafemáticos en una representación expresadamediante símbolos fonéticos”

Ríos (1993:381)

Transcripción fonética automáticaObjetivos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Transcripción fonética automática

• Implica una decisión sobre el inventariode alófonos que condiciona el inventariode unidades de síntesis

• Decisiones ortológicas• Decisión sobre el “estándar”• Decisión sobre variedad geográfica• Decisión sobre registro

Page 6: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

• Estrategias para la transcripción

• Diccionario ayudado por un analizador enlenguas con una correspondencia muyirregular entre grafía y sonido

• Reglas complementadas por un diccionariode excepciones en lenguas con unacorrespondencia regular entre sonido ygrafía

La transcripción fonética automática

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Tipos de reglas de transcripciónRÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español",

Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf

• Reglas de fonemización• Reglas de transcripción grafía-fonema• Reglas de silabificación• Reglas de ajuste silábico aplicadas a

extranjerismos para adaptar su estructurasilábica a la fonotaxis del español

• Reglas de acentuación• Reglas de fonetización

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Características de las reglas de transcripciónRÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español",

Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf

• Reglas dependientes del contexto• Reglas de substitución de un signo en otro

• p.ej.: regla de transcripción del grafema <g>como [x] ante <e,i>

• Reglas de elisión de un elemento• p.ej.: elisión de <u> en el dígrafo <gu> ante las

vocales <e,i>• Reglas de inserción de un elemento

• p. ej.: regla de inserción de [k] después delgrafema <x>

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas de la transcripción fonéticaautomática

• Nombres propios y palabras extranjeras<#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume)

<#w> [w] [gw] (whisky)

<ph> [f] (Humphrey)<sh> [S] [tS] (show, squash)

<sch> [S] (Schiller)

<tg> [dZ] (Sitges)

<#sC> [#esC] (stop, squash)

Page 7: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Problemas de la transcripción fonéticaautomática

• Nombres propios de persona en españolEsther <th>: [t]Lourdes <ou>: [u]Feijoo <oo>: [o]Desacentuación del primer elemento de los

nombres compuestos (implica detectar elnombre compuesto)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Forma de las reglas de conversión de grafía a representación fonéticadependientes del contexto

SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.)Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre -

2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356.http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf

<c> --> [k] / #_ [a], [o], [u]casa, cosa, cuna

<c> --> [T] / # _ [e], [i]cena, cine

<c> --> [k] / V _ [a], [o], [u]oca, acoso, acuna

<c> --> [T] / V _ [e], [i]hace, fácil

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Forma de las reglas de conversión de grafía a representación fonéticadependientes del contexto

SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.)Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre -

2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356.http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf

<c> --> [k] / # (c) V_# Cacción, actor

<c> --> [k] / # _ [l], [r]Vtecla, crío

<c> --> [k] / _ #coñac, vivac

<c> --> [tS] / _htecho

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo conversor grafema-alófonoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

• Transforma una secuencia degrafías en una secuencia dealófonos

Page 8: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo conversor grafema-alófonoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Palab_silab: el se. #or jo. s’e luis l’o. pezti’e.ne dos. ci’en. tas ‘u. na v’i. #as.

CONVERSOR GRAFEMA-ALÓFONOCONVERSOR GRAFEMA-ALÓFONO

Alófonos: el se. N~or xo. sAlófonos: el se. N~or xo. s’’e luis le luis l’’o. peTo. peT[sil] tj[sil] tj’’e.ne Dos. Tje.ne Dos. Tj’’en. tas en. tas ‘‘u. na Bu. na B’’i. N~asi. N~as[sil][sil]

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

División silábica o silabificación

• Divide la cadena de alófonos ensílabas

• Puede realizarse como parte delpreprocesado del texto,partiendo de la representaciónortográfica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Asignación de acento

• Determina las sílabas tónicas y las sílabasátonas de la cadena de alófonos

• Requiere información sobre palabras que sonsiempre átonas y reglas de acentuación para laspalabras que no llevan acento gráfico

• Puede realizarse como parte del preprocesadode texto una vez se ha llevado a cabo la divisiónsilábica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos

Page 9: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Análisis lingüístico

• Necesidad del análisis lingüístico en laconversión de texto a habla• Transcripción fonética

• Predicción de la representación fonética apartir de reglas morfológicas /morfofonológicas que implican elreconocimiento de morfemas en lenguascon una correspondencia irregular entregrafías y alófonos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Análisis lingüístico

• Necesidad del análisis lingüístico en laconversión de texto a habla• Asignación de elementos prosódicos

• La localización de las pausas no marcadasortográficamente, la asignación de acento yla determinación de las unidades melódicasrequieren un análisis sintáctico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Análisis morfológico

• Objetivos• Segmentación del texto en

morfemas• Asignación de etiquetas

correspondientes a las partes de laoración a las palabras (POStagging)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Conversión de texto en habla para el inglés en el sistema MITalkALLEN, J. - HUNNICUTT, M. S. - KLATT, D. H. (with R. C. ARMSTRONG and D. PISONI)

(1987) From Text to Speech: The MITalk System. Cambridge: Cambridge University Press

• Módulo DECOMP para la segmentacióndel texto de entrada en morfemas

• Diccionario de morfemas

• Gramática que predice las combinacionesposibles e imposibles de morfemas

Page 10: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo categorizadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

• Asigna categorías gramaticales alas palabras

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo categorizadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.

Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.ci’en. tas ‘u. na v’i. #as.

CATEGORIZADORCATEGORIZADOR

Categorías: ART N NP NP NP V NUM NUM N SIGCategorías: ART N NP NP NP V NUM NUM N SIG

Códigos: ART: artículo, N: nombre, NP: nombre propio,

V: verbo, NUM: número, SIG: signo ortográfico

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Análisis sintáctico

• Para una asignación de elementos prosódicosque tenga como resultado una síntesis con unalto grado de naturalidad es necesario unanálisis sintáctico, semántico y pragmático deltexto

• Segmentación del texto en unidades sintácticas

• Asignación de una estructura de constituyentes(parsing)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo de análisis sintácticoCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Palabras: el se#or jos’e luis l’opez tienedoscientas una vi#as.

Categorías: ART N NP NP NP V NUMNUM N SIG

ESTRUCTURADORESTRUCTURADOR

Árbol sintácticoÁrbol sintáctico

Page 11: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Asignación de elementos prosódicosObjetivos

Conjunto de reglas que especifican

• Duración de los segmentos

• Intensidad de los segmentos / delenunciado

• Contorno melódico del enunciado

• Colocación y duración de las pausas

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Asignación de duración

Asignación de intensidad

Asignación de pausas

Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Asignación de duración

Asignación de intensidad

Asignación de pausas

Asignación de curva melódica

Page 12: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Asignación de duración segmental

• Requiere un modelo de duraciónsegmental que considere

• Duración intrínseca de cadasegmento

• Modificaciones contextuales

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Factores que determinan la duraciónsegmental

• Acento• Consonante que sigue al segmento• Vocal que sigue al segmento• Pausa después del segmento• Posición del segmento en el enunciado• Longitud de la palabra en la que se encuentra

el segmento• Velocidad de elocución

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English

Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication

Research. New York: Academic Press. pp. 287-300

DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR

• INDUR: duración intrínseca del segmento (enms.) calculada a partir de un corpus en el quelos segmentos se analizan en frases marco

• MINDUR: duración mínima del segmento siestá acentuado

• PRCNT: porcentaje de reducción de laduración del segmento, determinado por regla

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English

Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication

Research. New York: Academic Press. pp. 287-300

• Elementos que determinan el porcentaje de reducciónde los segmentos• Inserción de pausas• Alargamiento al final de una frase• Acortamiento de sílabas que no se encuentran al

final de una palabra• Alargamiento debido al énfasis• Modificación de la duración en función del contexto

postvocálico de las consonantes

Page 13: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English

Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication

Research. New York: Academic Press. pp. 287-300

• Acortamiento de sílabas pertenecientesa palabras polisilábicas

• Acortamiento de consonantes enposición no inicial de palabra

• Acortamiento de segmentos noacentuados

• Acortamiento de los segmentospertenecientes a grupos consonánticos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de duración segmental para el inglésKLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English

Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication

Research. New York: Academic Press. pp. 287-300

• Alargamiento de vocales debido a lapresencia de una oclusiva sorda

• Acortamiento de sílabas que no seencuentran al final de una frase

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Asignación de duración

Asignación de intensidad

Asignación de pausas

Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Asignación de intensidad segmental

• Determina la intensidad de cadasegmento en función de las variablesque afectan a este parámetro

Page 14: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de intensidad vocálica para el español y el catalánBLECUA FALGUERAS, B. - ACÍN, V. (1995) "Propuesta de un modelo de intensidad vocálica del castellano y elcatalán aplicable a un sistema de conversión de texto a habla", Procesamiento del Lenguaje Natural, Revista nº 17:

257-271. http://www.sepln.org/revistaSEPLN/revista/17/17-Pag257.pdf

• Basado en el análisis de intensidad vocálica enun corpus de frases leídas

• Modelo en árbol que introduce una serie defactores que modifican la intensidad vocálica• Posición prepausal o no prepausal• Aparición de la vocal en sílaba tónica o átona• Posición inicial, medial o final de la vocal en el

enunciado• Aparición de la vocal en un enunciado corto o largo

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Asignación de duración

Asignación de intensidad

Asignación de pausas

Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Objetivos de la asignación de pausas

• Inserción de las pausas marcadasortográficamente en el texto

• Inserción las pausas no marcadasortográficamente en el texto

• Determinación de la duración de lapausa

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

La contribución de las pausas

• Texto sintetizado con pausas(Telefónica I+D, Amigo v. 2.6)

• Texto sintetizado sin pausas

Page 15: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Marcado ortográfico de pausas en uncorpus real

• 1629 pausas en total

• 1260 pausas marcadas ortográficamente

•• 578 con punto; 527 con coma578 con punto; 527 con coma; 17 con punto ycoma; 51 con dos puntos; 63 con signo deinterrogación; 22 con signo de admiración; 2con puntos suspensivos

•• 369 pausas no marcadas ortográficamente369 pausas no marcadas ortográficamente

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de duración y asignación de pausas para el españolPUIGVÍ, D. - JIMÉNEZ, D. - FERNÁNDEZ, J. M. (1994) "Parametrización de las pausas ortográficas en castellano. Aplicación a un

conversor de texto a habla", Actas del X Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural, Córdoba, 20-22 dejulio de 1994.

http://liceu.uab.es/publicacions/Puigvi_Jimenez_Fernandez_94_Pausas_Sintesis_Castellano.pdf

• Basado en al análisis de un corpus de lectura

• Determinación de la duración de las pausasmarcadas mediante signos de puntuación

• Factores fonéticos y sintácticos que determinanla aparición de pausas no marcadas por signosde puntuación

• Determinación de la duración de las pausas nomarcadas por signos de puntuación

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo pausadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

• Transforma en pausas laspalabras ortográficas

• Añade pausas no marcadasortográficamente

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo pausadorCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.

Categorías: ART N NP NP NP V NUM NUM N SIG

PAUSADORPAUSADOR

Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez [pau_v] tiene doscientasopez [pau_v] tiene doscientasuna vi#as.una vi#as.

Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez [pau_v] tio. pez [pau_v] ti’’e.nee.nedos. cidos. ci’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.

Códigos: [pau_v]: pausa insertada ante el verbo

Page 16: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Asignación de duración

Asignación de intensidad

Asignación de pausas

Asignación de curva melódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

La contribución de la curva melódica

• Texto sintetizado con variaciones deF0 (Telefónica I+D, Amigo v. 2.6)

• Texto sintetizado sin variación de F0

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Asignación de curva melódica

• En algunos sistemas laasignación de la curva melódicapuede utilizar un análisis previode la estructura entonativa de losenunciados (prosodic parsing)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo de generación de patrones melódicos para el españolGARRIDO, J. M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D. Thesis. Departament

de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols.http://liceu.uab.es/juanma/tesis.html

• Desarrollado a partir del análisis de un corpus detextos leídos

• Modelo fonético por nivelesNivel global I: asignación de un patrón melódico al párrafo,situación de los puntos de reset y delimitación de gruposmelódicosNivel global II: asignación de patrones a cada grupo melódicoy superposición de los movimientos locales de F0 que marcanlímites sintácticos o modalidad oracionalNivel local: superposición de los movimientos de F0 asociadoscon el acento léxico

Page 17: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

La estilización(Garrido 2001)

Reducción de la curvamelódica delenunciado ‘Ramón

llegó en avión’,pronunciado por unlocutor masculino, auna serie de puntos deinflexión relevantes

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

La declinaciónGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:

propuesta de modelización", Lingüística Española Actual 23, 2: 173-209

Tiempo

60

80

100

120

140

160

180

200

Línea superior

Línea inferior

F0

(Hz)

Contorno melódico correspondiente a la oración ‘La reina del

baile bailaba la rumba de moda.’ (locutor masculino),representado por medio de líneas de referencia. Ejemplo

extraído de Garrido et al. (1995)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Estructura jerárquicaGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:

propuesta de modelización", Lingüística Española Actual 23, 2: 173-209

+

Descomposición enpatrones melódicossuperpuestos de lacurva melódica delenunciado ‘Ramónllegó en avión’,pronunciada por unlocutor masculino

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Árbol prosódico inicialGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:

propuesta de modelización", Lingüística Española Actual 23, 2: 173-209

Page 18: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Nivel globalGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:

propuesta de modelización", Lingüística Española Actual 23, 2: 173-209

Líneas dereferencia: líneascontinuas de trazogruesocorrespondientes alos tres gruposfónicos de laoración.Líneas desupradeclinación:líneas discontinuasde distinto grosorCurva estilizadareal: puntos unidosmediante líneasrectas

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Nivel localGARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:

propuesta de modelización", Lingüística Española Actual 23, 2: 173-209

Líneas de referencia:líneas continuasPuntos de inflexión dela curva estilizadareal: puntos de colorclaroPuntos de inflexión dela curva estilizadagenerada por elmodelo: puntos decolor oscuro

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

• Las unidades de síntesis son fragmentos largosde señal extraída del contexto prosódicoapropiado

• La F0 de la señal original se mantieneinalterada

• Adecuado para “prosodia enunciativa neutra”representada en la base de datos acústica

• Necesidad de un módulo de cálculo de F0 paralos enunciados interrogativos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

• Estilización de la curva melódica

• Cuatro niveles tonales

• P (pico)

• V (valle)

• M (medio)

• P+ (nivel por encima de un pico)

Page 19: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

• Estructura jerárquica de los patronesmelódicos• Patrones locales

• En el ámbito del grupo acentual• Patrones globales

• En el ámbito del grupo entonativo• En el ámbito de la oración

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Modelo entonativo del conversor de texto en habla Actor (Loquendo) en españolGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

• Segmentación prosódica en• Grupo acentual

• Sílaba tónica + sílabas átonas• Grupo tónico

• Palabra tónica + átonas que la preceden• Marcado con etiquetas categoriales para la

asignación de pausas• Grupo entonativo

• Suele coincidir con el grupo fónico o con límitessintácticos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Estilización de la curva melódicaGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

Curva melódicadel enunciado‘¿Conoces elcontenido delartículo de laConstitución?’ enla que aparecenlos puntos deinflexiónconsideradosdurante elanálisis

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Asignación de niveles tonalesGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

M

P+

V

P

Curva melódica delsegmento ‘Sabescuando pasan…’perteneciente alenunciado '¿Sabescuándo pasan arecoger los mueblesviejos este mes?' enla que aparecenrepresentados lospuntos M, P+, V y P

Page 20: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Patrones localesGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

1 2 3 4

Curva melódica delenunciado‘¿Conoces elcontenido delartículo de laConstitución?’ en elque aparecenestilizados el patróninicial (1), dosintermedios (2,3) yel patrón final (4)

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Patrones globalesGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

Curva melódica delenunciado ‘El acto de lafirma transcurrió tal ycomo habían pactadoambas delegaciones lavíspera’, pronunciadapor un locutormasculino. Las líneasrectas representan las‘líneas de referencia’correspondientes a lospuntos P (superior) y V(inferior) de la curvamelódica

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Grupos entonativosGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

Curva melódicacorrespondiente alenunciado ‘El acto de lafirma transcurrió tal ycomo habían pactadoambas delegaciones lavíspera’ pronunciadopor un locutorfemenino. Sobre cadagrupo entonativo se handibujado las líneas dereferenciacorrespondientes

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Evaluación del modeloGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

• 24 pares formados por estímulo natural -estímulo sintetizado

• 10 jueces expertos y 20 no expertos

• Evaluación del grado de semejanza entrela curva melódica natural y la sintetizadaen una escala del 1 al 4

Page 21: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Evaluación del modeloGARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de

asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",Procesamiento del Lenguaje Natural 26: 183-190.

http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo de generación de parámetros prosódicosCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]

Categorías: ART N NP NP NP V NUM NUM N SIG

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas

PROSOPROSO

Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60

Entonación (Hz):Entonación (Hz):

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversión de texto enhabla

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Conversión en parámetros acústicos

• Conjunto de reglas que tiene como objetivo:

• Asignar valores de parámetros acústicos acada segmento o a cada unidad de síntesis

• Especificar las transiciones entre segmentos

• Los valores de los parámetros acústicoscontrolan un sintetizador que produce laonda sonora correspondiente al mensaje

Page 22: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Concatenación de unidades almacenadasmediante síntesis paramétrica

• Creación de un diccionario de unidades dediccionario de unidades desíntesissíntesis

•• ParametrizaciónParametrización de las unidades

•• Modelo del tracto vocalModelo del tracto vocal para la síntesis a partirde los parámetros utilizados

Síntesis por LPC (Linear Predictive Coding)

Síntesis por formantes

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulo de conversión en parámetros acústicosCASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un

conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

• Módulo de síntesis

• Transforma la información dela secuencia de unidades desíntesis y de los parámetrosprosódicos en una onda sonora

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulos de conversión en parámetros acústicos para laconversión de texto a habla

CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Unconversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]

Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60

Entonación (Hz):

PARLAPARLA Selección de unidades de síntesis en elSelección de unidades de síntesis en elinventarioinventario

Generación de tramas de síntesisGeneración de tramas de síntesis

SÍNTESISSÍNTESIS Conversión en una onda sonora mediante elConversión en una onda sonora mediante elsintetizadorsintetizador

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Módulos de un conversor de texto en habla

Page 23: Las etapas en la conversión de texto en habla - …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/synthesis/... · Joaquim Llisterri Grup de Fonètica, Departament de Filologia

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola

Las etapas en la conversiónde texto en habla

Procesamiento previo del texto

Transcripción fonética automática

Análisis lingüístico

Asignación de elementos prosódicos

Conversión en parámetros acústicos