EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

David EscuderoUniversidad de Valladolid

Índice

Evaluación de sistemas de reconocimiento de voz

Evaluación en sistemas de reconocimiento de locutor

Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial


)|(maxargˆ XWPWW


)(/)()|(maxargˆ XPWPWXPWW


)()|(maxargˆ WPWXPWW

Modelo de lenguajeModelo acústico

Evaluación de sistemas de reconocimiento de vozReconocimiento de palabras aisladas:

La tasa de error se define como la proporción media de items reconocidos incorrectamente. Un item puede ser una palabra, un fonema…

E=Ne/N; N es el número de palabras en el test y Ne los palabras incorrectamente reconocidas.

Ne=Ns+Nd; Ns son sustituciones y Nd son omisiones C=1-E es la corrección

La matriz de confusión con Cij definida como la probabilidad de que la palabra i sea reconocida como la palabra j y Cii la proporción de veces que la palabra i es correctamente reconocida

' 'j ij

ijij N

NC

Evaluación de sistemas de reconocimiento de vozReconocimiento continuo de palabras:

Ne=Ns+Ni+Nd ; Ni son inserciones de palabras no existentes. La tasa de error es E=Ne/N Y la precisión del sistema A=1-E NIST ofrece software para evaluar sistemas.

Dependencia del locutor Cabras (tasas de reconocimiento bajas) Obejas (altas tasas de reconocimiento)

Evaluación de sistemas de reconocimiento de vozEn sistemas de dictado

Precisión del reconocimiento Velocidad de dictado: número de palabras por minuto que

pueden ser procesadas Estrategias de corrección de errores.

En sistemas de diálogo1. Precisión del reconocimiento2. Rechazo OOV (out of vocabulary): un buen sistema debería

rechazar OOVs y pedir al usuario que diga las cosas de otra manera para que utilice palabras que pueda reconocer.

Evaluación de sistemas de reconocimiento de voz3. Recuperación ante errores: Tanto el sistema como el usuario

pueden equivocarse. Un buen sistema debería permitir al usuario deshacer acciones.

4. Tiempo de respuesta: Tiempo desde que termina una orden hasta que comienza la acción asociada.

5. Conocimiento de la situación: el usuario debería ser consciente de lo que puede decir en cada momento porque el vocabulario de reconocimiento depende de la situación. Puede expresarse como el número de veces que el usuario envió un comando en un contexto en el que no estaba permitido. Para evaluarlo se emplean preguntas subjetivas del tipo:

1. La lista de órdenes estaba clara?2. Hacen falta capacidades especiales para usar el sistema?3. La ayuda online fue útil?

Índice




Evaluación de sistemas de reconocimiento de locutor

Categorías: Verificación de locutor: es el proceso de aceptación o de rechazo de

la identidad de un hablante comparando un conjunto de medidas de una serie de locuciones con respecto a las mismas medidas en una serie de locuciones del hablante a verificar.

Identificación de locutor: es el proceso de determinar a quien de un conjunto de hablantes registrados corresponde una locución dada.

Evaluación de sistemas de reconocimiento de locutor Evaluación basada en curvas ROC (Receiver Operating

Characteristics): En verificación de locutor se pueden dar dos condiciones para

una locución de entrada: s, la condición de que la locución es del locutor registrado. n, lo contrario.

También hay dos decisiones S aceptar la locución como perteneciente al locutor N rechazar la locución

Se dan cuatro casos P(S|s) aceptación correcta P(S|n) falsa aceptación P(N|s) falso rechazo P(N|n) rechazo correcto.

Se dan las relaciones P(S|s)+P(N|s)=1; P(S|n)+P(N|n)=1 Las curvas ROC representan en una P(S|s) frente a P(S|n)


El sistema B tiene un rendimiento superior al sistema A.

El sistema C se corresponde con una decisión al azar.


La figura muestra la relación entre los dos tipos de error y los criterios de decisión.

Un criterio de decisión rígido hace difícil para el impostor ser falsamente reconocido. También se incrementan las posibilidades de rechazar al locutor. (punto a)

Un criterio de decisión suave facilita que el locutor sea reconocido pero también es fácil para el impostor ser reconocido (punto b)

El punto c es el valor óptimo conocido como la tasa de equierror EER.

Índice




Evaluación en sistemas de síntesis de voz Tres etapas en un sistema TTS:

Módulo de preproceso del texto.Módulo de generación prosódica.Módulo de generación de señal.

Evaluación en sistemas de síntesis de voz Módulo de proceso del texto:

La función de este módulo es producir una representación leíble por la máquina de manera que genere tanto la secuencia de palabras pronunciables como la relación entre ellas.

La entrada suele ser texto plano introducido por el usuario o texto generado en un sistema de diálogo.

Se admite SSML tags El objetivo es reducir ambigüedades.

Siglas: Dr. Doctor o Drive “Que salgan primero las señoras y señores mayores”.

La interpretación semántica no es obvia y por esto es necesario anotar.

Evaluación en sistemas de síntesis de voz Módulo de predicción prosódica:

La función de este módulo es convertir la representación abstracta del habla en una secuencia de parámetros que representan F0, energía, duración y cualidad del habla.

Suele faltar información siempre porque hay muchos factores que influyen: humor, carácter, situación…

Se ha dado más importancia a F0 pero el resto son todas muy importantes.

Variabilidad aceptable: Grandes diferencias en los parámetros se perciben como

iguales. Pequeños cambios pueden ser relevantes.

Evaluación en sistemas de síntesis de voz Módulo de generación de forma de onda:

Toma los parámetros de los módulos anteriores y los convierte en una forma de onda que puede ser enviada al altavoz.

Se apoya en la concatenación de segmentos: Parámetros de los fonemas o de los difonemas. Grabaciones

Compromiso tamaño-calidad. Paradójicamente los más pequeños ofrecen más

flexibilidad

Evaluación en sistemas de síntesis de voz Evaluación:

InteligibilidadNaturalidadLikeabilidad La realidad está bien, pero en

algunas aplicaciones lo que importa es que sea divertido.

Evaluación por módulos y evaluación conjunta

Evaluación en sistemas de síntesis de voz Evaluación del módulo de preproceso de

texto:Es el más fácil de evaluar porque sabemos lo

qué debería decir y por tanto medir el error.La dificultad está en los contextos $N: N

dólares o la variable N.Desafíos actuales en la pronunciación

arbitraria por ejemplo a la hora de leer extranjerismos.

Evaluación en sistemas de síntesis de voz Evaluación del módulo prosódico:

Es el más difícil de evaluar: no sabemos cual es la salida perfecta.

Hay una gran variabilidad de formas que pueden tener el mismo significado.

Difícil que un locutor diga lo mismo dos veces con los mismos parámetros prosódicos.

La palabra “si” se puede entonar con decenas de variaciones. Para los locutores es fácil distinguir la intención… para las

máquinas es difícil generarla. Se requiere a test perceptuales:

MOS Mean opinion score (se recomienda emplear 30 oyentes) ABX comparar dos versiones con el objetivo.

La tendencia debería ser emplear evaluaciones diagnósticas.

Evaluación en sistemas de síntesis de voz Evaluación del módulo de generación de audio:

Se ha pasado de evaluar la inteligibilidad a evaluar la expresividad.

La calidad en términos de calidad del sonido influye también.

Los usuarios tienen expectativas muy altas. Se emplean medidas de distancia de la forma de

onda entre la voz sintética y la original. También evaluaciones MOS.

Evaluación en sistemas de síntesis de voz Evaluación del sistema completo

La primera impresión se ha mostrado definitiva. Inteligibilidad:

Se hace emitir una secuencia de palabras sin sentido. Evaluación basada en una tarea: tiempo de respuesta. Se somete también a pruebas de resistencia ante habla acelerada y

ralentizada. Naturalidad:

Mejor emplear el término credibilidad: Walt Disney no es natural pero es creíble.

La selección de la voz se ha mostrado definitivo: ajustarse al contexto. Likeability:

La selección de la voz en la situación de nuevo es definitivo. Este concepto es determinante para la aceptación y uso del sistema.

Existe un estándar UIT-T P.85

Índice




Evaluación en sistemas de diálogo

Cada uno de estos componentes tiene sus métodos de evaluación.

Aquí se trata como un conjunto. Como producto SW.


El estándar ITU_T P.851 Eficacia: precisión y perfección con la que algunos usuarios

especificados pueden lograr objetivos específicos en entornos particulares. P.e. el éxito de la tarea.

Eficiencia: relación entre los recursos dedicados y la precisión y perfección de los objetivos logrados. P.e. la duración del diálogo..

Capacidad de uso describe la capacidad en la que un servicio puede ser comprendido, aprendido y utilizado por usuarios especificados bajo condiciones específicas.

La satisfacción del usuario es un indicador de la utilidad y la capacidad de uso que se percibe por el grupo destinado de usuarios del servicio.


Evaluación subjetiva basada en usuarios. Dos fuentes de información principales:

1) Durante la interacción, se recopilan parámetros del sistema, y se registran las palabras del sistema y del usuario. Los ficheros de registro se envían a la evaluación de un experto.

2) Después de la interacción, los agentes de prueba reciben un cuestionario que persigue recopilar información.

Se admite el uso del mago de oz Los casos de prueba se basan en hipótesis de

situaciones reales. La elección de los usuarios de prueba debe guiarse por

la finalidad de la prueba.


Cuestionarios rellenados por los usuarios: Preguntas relativas a los antecedentes de los usuarios. Preguntas relativas a la interacción individual. Preguntas relativas a la impresión general del usuario en

relación con el sistema. (ver el estándar) Evaluación de capacidades de uso

Realizado sobre los usuarios o por expertos. Análisis e interpretación de la información recopilada.

Valores medios con intervalos de confianza. Pruebas de relevancia con análisis de varianza ANOVA En caso de que una de las variables estadísticas tenga un

efecto significativo estadísticamente, podrá utilizarse una prueba post-hoc para realizar comparaciones por pares entre las medias, y para determinar las fuentes de las diferencias.

Índice




Evaluación de sistemas animación facial Los sistemas del KTH (Royal Institute of

Technology Sweden)http://www.speech.kth.se/multimodal/

http://www.speech.kth.se/multimodal/

Evaluación de sistemas animación facial Uno de sus proyectos presenta un interfaz de telefonía

para sordos. Los sordos asumen que no todas las personas son igual de

fáciles de interpretar en sus movimientos labios. Oportunidad para la síntesis facial.

Acentuación de movimientos Parametros: Jaw rotation, lip protrusion, mouth spread, tongue

tip elevation. Estos parámetros se acentuaron en grado desde el 25% al

200% sobre lo normal. Evaluación:

Los test consisten en la emisión de frases y preguntas ABX El 24% de usuarios prefiere la hipearticulación con grados entre

el 150% y el 90%

Evaluación de sistemas animación facial Prominencia:

Importancia del movimiento de cabeza y cejas en la prominencia. Se incluyen movimientos en locuciones. La percepción de prominencia se incrementa hasta en un 24%.

Prosodia e interacción: Uso de gestos para expresar el estado del diálogo. Sonrisa, Movimiento de cabeza, cejas, cierre de ojos, contorno de F0,

retardo Cada gesto tiene un valor positivo y otro negativo. Se plantea el diálogo:

Humano: Qiero ir a la estación de Valladolid desde MadridMaquina: Valladolid.

Y hay que decir si cree que la máquina ha entendido y acepta la presguna o no (1-5)

Los resultados demuestran que los usuarios son sensibles a estítulos acústicos y también visuales.

Evaluación de sistemas animación facial Expresividad facial

La cabeza hace de profesor de idiomas que quiere que el alumno mejore su pronunciación.

El profesor corrige cuando el alumno se equivoca. Los probadores deben reconocer la expresión del

avatar: neutral, happy, sad, angry. Tasas de hasta el 93%

Índice



Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

Evaluación de sistemas multimodales Terminología

Evaluación técnica: relativa exclusivamente a aspectos técnicos del sistema.

Evaluación objetiva: independiente de juicios humanos.

Evaluación de usabilidad. Evaluación subjetiva: Juicios de usuarios.

Evaluación cuantitativa: basada en métricas. Evaluación cualitativa: basada en

estimaciones o juicios sobre alguna cualidad.

Evaluación de sistemas multimodalesMétodos de evaluación Proceso de desarrollo:

Test unitario: aplicado a una parte pequeña o componente del sistema.

Test de integración: Aplicado sobre varios módulos de cooperan.

Function test: Realizado para comprobar que determinada funcionalidad está bien resuelta.

Caja blanca y caja negra: aplicados a nivel de módulo.

Evaluación de sistemas multimodalesMétodos de evaluación Ciclo de vida: necesitan usuarios representativos:

Mock-ups y walkthroughs: son borradores de los diálogos. La diferencia entre ambos es que los mock-ups necesitan usuarios.

Guideline-based Necesita un modelo del sistema y unas guías para confrontar. Puede ser una llamada a un consultor experto.

Mago de Oz que son diálogos simulados por personas. Prototipo: Interfaz similar a la del sistema final. No necesita toda

la funcionalidad pero los usuarios pueden interactuar. Test de campo: se utiliza en su escenario final. Think aloud Los usuarios hablan mientras desarrollan. Cuestionarios y entrevistas

Evaluación de sistemas multimodalesCriterios de evaluación Los criterios deben abarcar aspectos técnicos y

de usabilidad. Estarán en función del objetivo del sistema. Revisión handout adjunto sobre evaluación del

sistema multimodal de NICE Hans Christian Andersen Prototype

Índice



Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

Referencias

Evaluation of Text and Speech Systems. Springer; (May 4, 2007)

Laila Dybkjær (Editor), Holmer Hemsen (Editor), Wolfgang Minker (Editor)

ITU-T P.85 Método para la evaluación subjetiva de la calidad vocal de los dispositivos generadores de voz (06/94)

ITU-T P.851 Evaluación de la calidad subjetiva de los servicios telefónicos basados en sistemas Conversacionales (11/2003)

http://www.amazon.com/s/ref=ntt_athr_dp_sr_1?_encoding=UTF8&sort=relevancerank&search-alias=books&field-author=Laila%20Dybkj%C3%A6r



http://www.amazon.com/s/ref=ntt_athr_dp_sr_2?_encoding=UTF8&sort=relevancerank&search-alias=books&field-author=Holmer%20Hemsen



http://www.amazon.com/s/ref=ntt_athr_dp_sr_3?_encoding=UTF8&sort=relevancerank&search-alias=books&field-author=Wolfgang%20Minker



EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

Documents

Transcript of EVALUACIÓN DE SISTEMAS BASADOS EN VOZ