I v á n L ó p e z E s p e j o

41
Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla I v á n L ó p e z E s p e j o TRABAJO FIN DE CARRERA

description

TRABAJO FIN DE CARRERA. Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla. I v á n L ó p e z E s p e j o. SUMARIO. Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano Modelado del proceso de ruido - PowerPoint PPT Presentation

Transcript of I v á n L ó p e z E s p e j o

Page 1: I v á n   L ó p e z   E s p e j o

Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del HablaI v á n L ó p e z E s p e j o

TRABAJO FIN DE CARRERA

Page 2: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

SUMARIO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 3: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

1. INTRODUCCIÓN Y MOTIVACIÓN

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 4: I v á n   L ó p e z   E s p e j o

Acto de hablar: Usualmente en entornos acústicos ruidosos Alta capacidad de reconocimiento en el ser

humano Necesidad de adaptación de los sistemas ASR

1. INTRODUCCIÓN Y MOTIVACIÓN

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 5: I v á n   L ó p e z   E s p e j o

Acto de hablar: Usualmente en entornos acústicos ruidosos Alta capacidad de reconocimiento en el ser

humano Necesidad de adaptación de los sistemas ASR

Algunas técnicas para mejorar el matching: Adaptación de los modelos Descomposición de HMMs Realce de las características de voz

1. INTRODUCCIÓN Y MOTIVACIÓN

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 6: I v á n   L ó p e z   E s p e j o

1. INTRODUCCIÓN Y MOTIVACIÓN

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 7: I v á n   L ó p e z   E s p e j o

Motivaciones Mejora del rendimiento de un sistema ASR Ventajas de la metodología de realce Aplicaciones:

Búsqueda de información Ejecución de transacciones Control de sistemas (entornos industriales) …

1. INTRODUCCIÓN Y MOTIVACIÓN

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 8: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

2. FUNDAMENTOS DEL SEGUIMIENTO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 9: I v á n   L ó p e z   E s p e j o

Seguimiento: Estimación de la secuencia de estados de un sistema a partir de sus observaciones

Modelo compuesto de dos procesos Proceso de estados Proceso observado

Solución MMSE

2. FUNDAMENTOS DEL SEGUIMIENTO

SeguimientoBayesiano

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 10: I v á n   L ó p e z   E s p e j o

Justificación del filtro de partículas Evaluación compleja: Solución: modelado markoviano

Aproximación numérica: (muestreo y remuestreo de importancia + integración de Monte Carlo)

2. FUNDAMENTOS DEL SEGUIMIENTO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 11: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

3. DISEÑO DEL FILTRO BAYESIANO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 12: I v á n   L ó p e z   E s p e j o

Seguimiento de ruido en el domino log MelRuido (estado del sistema)Voz limpia (ruido que contamina la observación)Voz ruidosa (observación)

Definición del espacio de estados dinámico Proceso de ruido, Proceso observado,

3. DISEÑO DEL FILTRO BAYESIANO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 13: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

3.1 Modelado del proceso de ruido

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 14: I v á n   L ó p e z   E s p e j o

Codificación de la previsibilidad del ruido: proceso AR en el dominio log Mel

3.1 Modelado del proceso de ruido

Minimizar

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 15: I v á n   L ó p e z   E s p e j o

Definición implícita de una distribución gaussiana para el ruido:

Selección de orden unidad para el modelo AR

Distribución a priori modelada como una gaussiana:

3.1 Modelado del proceso de ruido

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 16: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

3.2 Relación entre estados y observaciones

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 17: I v á n   L ó p e z   E s p e j o

Se parte de la aproximación:

¿Cuál es la relación entre las observaciones y el ruido?

3.2 Relación entre estados y observaciones

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 18: I v á n   L ó p e z   E s p e j o

¿Cuál es la relación entre las observaciones y el ruido?

3.2 Relación entre estados y observaciones

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 19: I v á n   L ó p e z   E s p e j o

¿Cuál es la relación entre las observaciones y el ruido?

Distribución para la voz limpia:

3.2 Relación entre estados y observaciones

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 20: I v á n   L ó p e z   E s p e j o

Imponemos Se aplica la ley fundamental de

transformación de probabilidades

De esta forma,

3.2 Relación entre estados y observaciones

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 21: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

3.3 Filtro SIR aplicado

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 22: I v á n   L ó p e z   E s p e j o

1. Generación de N partículas

2. Cálculo de pesos normalizados

3. Remuestreo sobre las partículas

3.3 Filtro SIR aplicado

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 23: I v á n   L ó p e z   E s p e j o

Existencia de problemas en la práctica Si no se cumple para ningún j DROPOUT SOLUCIÓN:

Evolución independiente de la observación Pérdida de la trayectoria de seguimiento

SOLUCIÓN: Procedimiento de reinicialización del filtro

3.3 Filtro SIR aplicado

¡NUEVO PROBLEMA!

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 24: I v á n   L ó p e z   E s p e j o

Existencia de problemas en la práctica Modos de reinicialización

Generación de nuevas hipótesis sobre la distribución a priori de ruido

Inferir partículas de ruido a partir de muestrear un GMM

3.3 Filtro SIR aplicado

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 25: I v á n   L ó p e z   E s p e j o

Existencia de problemas en la práctica Pobre modelado de ruido

Subestimación de hipótesis SOLUCIÓN: Se incentiva una futura

reinicialización si

3.3 Filtro SIR aplicado

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 26: I v á n   L ó p e z   E s p e j o

Existencia de problemas en la práctica Mitigación de dropouts TEST DE

ACEPTACIÓN RÁPIDA

3.3 Filtro SIR aplicado

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 27: I v á n   L ó p e z   E s p e j o

Modos de inicialización Uso de las l primeras tramas Empleo de la distribución a priori de

ruido

3.3 Filtro SIR aplicado

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 28: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

4. GENERACIÓN DE MÁSCARAS SOFT

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 29: I v á n   L ó p e z   E s p e j o

4. GENERACIÓN DE MÁSCARAS SOFT

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

1

2 3

4

1

2 3 4

Page 30: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

5. TÉCNICA DE REALCE MULTIPLICATIVO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 31: I v á n   L ó p e z   E s p e j o

5. TÉCNICA DE REALCE MULTIPLICATIVO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

Tiempo

Can

ales

Mel

10 20 30 40 50 60 70 80 90 100

2

4

6

8

10

12

14

16

18

20

22

Page 32: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

6. TEST Y RESULTADOS

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 33: I v á n   L ó p e z   E s p e j o

Uso de la base de datos Aurora-2 Empleo del conjunto de test A:

1001 grabaciones con secuencias de dígitos Ruidos: metro, multitud conversando, coche y sala de

exposiciones SNRs: -5dB, 0dB, 5dB, 10dB, 15dB, 20dB y caso limpio

6. TEST Y RESULTADOS

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 34: I v á n   L ó p e z   E s p e j o

Test de reconocimiento del habla Aparente independencia del número de partículas

6. TEST Y RESULTADOS

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

-5 0 5 10 15 20 Limpio0.00

20.00

40.00

60.00

80.00

100.00

120.00

Acc. vs. SNR

Base-LineFP (100)Promediado

SNR (dB)

Acc.

(%

)

Page 35: I v á n   L ó p e z   E s p e j o

Test de reconocimiento del habla Aparente independencia del número de partículas

6. TEST Y RESULTADOS

Base-Line FP (100) Promediado0

10

20

30

40

50

60

70

80

90

Acc. vs. Técnica empleada

Técnica

Acc.

(%

)

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 36: I v á n   L ó p e z   E s p e j o

Test de reconocimiento del habla Aparente independencia del número de partículas

WAcc = 1 - WER

6. TEST Y RESULTADOS

16.43% 26.53% 11.71%

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 37: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

7. CONCLUSIONES

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 38: I v á n   L ó p e z   E s p e j o

Verificación experimental de la utilidad de una técnica de realce

Preferible, por el momento, uso de ruido estimado mediante promediado espectral: Mayor rendimiento del sistema ASR Menor coste computacional

Necesidad de mejorar la calidad de las estimaciones resultantes del filtro de partículas

7. CONCLUSIONES

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 39: I v á n   L ó p e z   E s p e j o

Introducción y Motivación Fundamentos del Seguimiento Diseño del Filtro Bayesiano

Modelado del proceso de ruido Relación entre estados y observaciones Filtro SIR aplicado

Generación de Máscaras Soft Técnica de Realce Multiplicativo Test y Resultados Conclusiones Trabajo Futuro

8. TRABAJO FUTURO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 40: I v á n   L ó p e z   E s p e j o

Solventar usuales pérdidas del seguimiento en el filtro de partículas Nuevo modelo de ruido a priori Inclusión del término de fase relativa (FAT

innecesario) Optimización de la implementación Experimentación con otros conjuntos de test Actualización del modelo AR de ruido y de la

distribución a priori Uso de un detector de actividad de voz

Experimentar con un filtro RPF

8. TRABAJO FUTURO

TFC | Generación de Máscaras Soft para Compensación de Características en RSR | Iván López Espejo

Page 41: I v á n   L ó p e z   E s p e j o

Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla

GRACIAS