Análisis de Rasgos Prosódicos en el -...

Post on 05-Mar-2019

221 views 0 download

Transcript of Análisis de Rasgos Prosódicos en el -...

Análisis de Rasgos Prosódicos en el

Español Rioplatense y su Aplicación

en el Reconocimiento del Habla

Tesista: Diego EvinDirector: Ing. Jorge GurlekianCodirector: Dr. Diego Milone

2

Organización de la Presentación

• IntroducciónReconocimiento Automático del HablaEstado del Arte en RAHProsodia

• Antecedentes• Modelos Propuestos• Experimentos - Resultados – Conclusiones• Discusión

3

Objetivo final: crear una máquina capaz de comprender el discurso hablado por cualquier locutor, sobre cualquier tema y en todos los ambientes.

Generalmente se adopta el término como sinónimo de Transcripción Automática del Habla separándolo del problema de comprensión del habla.

Aproximación más empleada en los sistemas actuales basada en Reconocimiento Estadístico de Patrones.

Reconocimiento Automático del Habla

4

Sistema Estándar de RAH

5

• Existe una brecha significativa entre el desempeño de reconocimiento del ser humano y las máquinas (habla espontánea, diferencias de acentos, canales limitados, ruido, etc).

• Los sistemas comerciales de RAH reducen las imperfecciones tecnológicas ajustando la interacción del sistema a la medida de la tarea, el contexto o del usuario.

Estado del Arte en RAH

6

Estado del Arte en RAH

7

Marco de la Investigación

• El hombre integra múltiples niveles de conocimiento en Reconocimiento del Habla.

• Elige entre alternativas léxicas en base al soporte acústico y la fortaleza de las hipótesis lingüísticas evocadas.

• No toda la información acústica transportada por el habla es empleada en los sistemas de RAH actuales.

• Características espectrales a nivel segmental se modifican con la posición del segmento en la jerarquía prosódica.

• Hipótesis: es posible aprovechar la información prosódica para mejorar el RAH.

8

• Objeto fonológico que surge de las combinaciones de la modulación controlada del tono de voz, las fluctuaciones intencionales de la sonoridad y las prolongaciones y reducciones en la duración de segmentos y sílabas.

• A nivel perceptual las propiedades mencionadas dan lugar a los patrones percibidos de prominencia relativa entre sílabas, codificada como aspectos melódicos y rítmicos del habla.

• Estructura lingüística que determina las propiedades suprasegmentales de una frase.

Prosodia

9

Modelos psicolingüísticos conciben el reconocimiento del habla como un proceso de activación y competencia entre palabras candidatas.

Potenciales usos de la prosodia en el reconocimiento humano del habla:• Restringir las primeras etapas de activación léxica. • Seleccionar entre palabras candidatas. • Proveer al oyente de información como número y localización de palabras individuales.

Prosodia en el Reconocimiento Humano del Habla

10

AntecedentesAplicación de prosodia en procesamiento del habla:

• Detección de disfluencias y fin de oraciones

• Segmentación de temas

• Análisis morfosintáctico

• Clasificación de tipo de frases

• Identificación de locutores - dialectos - emociones

Aplicaciones de prosodia en RAH:

• En modelos acústicos

• En modelo de pronunciaciones

• En modelo de lenguaje

11

Experimento 1 - Uso de Información de Acentos Léxicos en los Modelos Acústicos

• Acento léxico: acento de palabra determinado por reglas de ortografía (abstracto).

• La mayoría de las palabras en español poseen un acento léxico, que corresponde a la vocal fuerte de la sílaba acentuada.

• En muchos casos el acento léxico permite diferenciar palabras• En inglés vocales con énfasis (stress) presentan diferencias

segmentales respecto a vocales sin énfasis.• En español los acentos tonales (prosódicos) se ubican siempre

donde existe acento léxico.• No todo acento léxico recibe acento tonal.

Se estudió la utilización de información de acentos léxicos en los modelos acústicos, creando modelos acústicos diferentes para vocales acentuadas e inacentuadas lexicalmente.

12

Material: Corpus Sala I- Sur

• Habla continua leída.

• 1.301 frases, 9.948 palabras totales (2.722 palabras distintas).

• 138 hablantes (48 hombres y 90 mujeres) de 21 poblaciones diferentes: Buenos Aires, Santa Fe, Neuquén, Tierra del Fuego.

• Comunicaciones desde teléfonos fijos (8kHz, 16Bits).

13

Metodología

El desarrollo de este trabajo consistió en:

• Implementación de un sistema de reconocimiento

del habla estándar basado en MOM.

• Evaluación del desempeño del sistema

empleando como modelos acústicos: monofonos

estándar, trifonos, y monofonos acentuados.

14

Diccionario de Pronunciaciones y Modelo de Lenguaje

• El diccionario de pronunciaciones se construyó empleando el alfabeto fonético SAMPA.

• Se emplearon reglas ortográficas para asignación automática de acentos léxicos.

• Se consideraron palabras monosílabas como átonas.

• Se emplearon bigramas como modelo de lenguaje.

• 2723 nodos, Entropía: 5.4, Perplejidad: 42.5

15

Modelos Acústicos

Parametrización de las señales acústicas:• Ventanas Hamming, 25ms de duración y 10ms de avance.• Filtro de preénfasis y normalización de la energía a nivel de frase. • 12 coeficientes MFCC + delta y aceleración (39 parámetros).

Se construyeron modelos acústicos de:• 32 monofonos estándar.• 37 monofonos acentuados.• 849 trifonos dependientes del contexto interior de las palabras

(TdCIP).• 1314 trifonos dependientes del contexto entre palabras (TdCEP).

16

Resultados

N: cantidad total de palabras a reconocer, S: número de errores por substitución, D: número de errores por eliminación, I: número de errores por inserciónTrec: tiempo de reconocimiento promedio para una ventana de análisisTreal: es la duración de la ventana.

Se emplearon como figuras de mérito:

Tiempo de Reconocimiento Normalizado

Precisión

Tasa de Reconocimiento de Palabras

17

Resultados

18

Resultados

19

Conclusiones - Experimento 1• Se estudió la utilización de información de acentos léxicos en el

modelado acústico de un sistema de RAH basado en MOM. • Los resultados mostraron una leve mejora respecto al modelado

acústico estándar empleando como material de evaluación habla telefónica leída del español de Argentina.

• El empleo de los monofonos acentuados permitió mejorar el porcentaje de reconocimiento en un 1,78% con respecto a los trifonos dependientes del contexto entre palabras, con una reducción considerable del tiempo de procesamiento.

• En un futuro trabajo se evaluará esta propuesta aumentando el número de datos de entrenamiento para evaluar adecuadamente el desempeño con trifonos.

• Se espera utilizar la información de los acentos tonales como indicadores de la presencia de un acento léxico en palabras de contenido.

20

Experimento 2 – Clasificación de Grupos Entonativos a partir de rasgos

suprasegmentales

Se exploró la utilización de información suprasegmental para clasificar grupos entonativos en:

• Clase 1: grupo único de la oración.• Clase 2: primer grupo de una oración con más de un grupo.• Clase 3: grupo intermedio de una oración con al menos tres grupos.• Clase 4: último grupo de una oración con al menos dos grupos.

Objetivo final: construir modelos de lenguajes para cada tipo de grupo entonativo.

21

Material: Corpus Secyt

• Habla continua leída, calidad de laboratorio

• 2 Locutores, 741 frases

• 97% de las sílabas del español en las dos condiciones de acento y en todas las variantes posicionales (inicial, media y final)

Número de Grupos Número de Oraciones

1 11

2 371

3 319

4 36

5 1

6 3

22

Metodología

• Se estimaron las curvas de f0 correspondiente a cada oración mediante el algoritmo RAPT

• Se estilizó cada curva de f0 empleando el algoritmo MOMEL

• Se calcularon curvas de energía logarítmica para todas las oraciones.

• Se parametrizó el segmento de F0 y energía de cada grupo empleando los coeficientes de una aproximación polinómica de Legendre.

23

Clasificación de Grupos Entonativos

Conjunto completo de parámetros empleados:• Duración del grupo entonativo• Valor medio de la curva de f0 • Desvío estándar de la curva de f0• 12 coeficientes polinómicos que representan la curva de f0• Valor medio de la curva de energía• Desvío estándar de la curva de energía• 12 coeficientes polinómicos que representan la curva de energía

Se entrenaron clasificadores basados en mapas de Kohonen, con diversas configuraciones y elecciones de parámetros.

24

Resultados

25

Conclusiones - Experimento 2

• Se obtuvo una tasa de clasificación de 75-80% para el primer grupo entonativo de la oración y de un 90% para el último grupo entonativo de la oración.

• Se encontró mayor homogenieidad en clusters correspondientes a clases 2 y 4 indicando que los grupos entonativos iniciales y finales para estas oraciones son más similares entre sí que los intermedios.

• El empleo de duraciones de grupos entonativos y parámetros de energía no mejoran considerablemente las tasas de clasificación.

26

Preguntas?