procesamiento de señales de voz.pptx

Post on 13-Apr-2016

228 views 1 download

Transcript of procesamiento de señales de voz.pptx

1

CURSO: Procesamiento Digital de Señales I

Integrantes:

ABIA ARRIETA AUGUSTO CADENILLAS CABANILLAS SEGUNDO REYMUNDO GASPAR MICHAEL

Procesamiento de señales de voz

2

La comunicación oral

3

¿Qué es la voz?

• Onda de sonido (onda de presión)• Producida por el aparato fonador• Utilizada para comunicación (para

transmisión de mensajes)

4

Procesamiento de voz

• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de

locutores• Detección de patologías• Diseño de ayudas para la audición

5

Problemas del procesamiento de voz• Variabilidad

– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición

• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz

muy redundante• Multi-interactividad entre niveles:

– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental

• Ruido: perturbación + efecto Lombard

6

• Variabilidad de las señales de voz

• 40 ms correspondientes al fonema /a/

7

Modelo acústico de producción de voz

• Onda acústica: onda de presión en el aire con c = 350 m/s

• Longitud de onda l = c / f– Para 100 Hz, l = 3.5 m– Para 4 kHz, l = 8.75 cm

• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura

8

Formantes

• Formantes: resonancias del tracto vocal

• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz

• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

9

Pérdidas por radiación de onda

• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular

de radio a en plano infinito

• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década

10

u(L,f) / uG(f)

11

Solución numérica para función de área correspondiente a fonema /a/

12

Acoplamiento del tracto nasal

13

Modelo acústico de producción de voz

• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos

• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década

14

Modelo digital de producción de voz

15

Características de la voz• Excitación:

– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

16

Características de la voz• Excitación:

– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

17

Clasificación de los fonemas(desde el punto de vista de la producción)

• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas

• Modo de articulación– Vocales– Consonantes

• Lugar de articulación– Vocales– Consonantes

18

Clasificación de vocales

• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)

• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)

19

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

freq.

2o

form

ante

(Hz)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

20

Fonemas del español

21

Análisis de señales de voz

• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas

22

Transformada de Fourier

• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal

compleja:

Re(z)

Im(z)

x

yr

f

23

Espectro de potencia (1)

24

Espectro de potencia (2)

25

Descomposición en componentes freq.

26

Linealidad de la Transformada de Fourier

27

Linealidad de la Transformada de Fourier

28

Filtrado

• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o

respuesta en frecuencia)

filtroexcitación señal filtrada

29

Filtrado en el tiempo: convolución

30

Filtrado en frecuencia: multiplicación

31

Ventanas (multiplicación en tiempo)

32

Ventanas (multiplicación en tiempo)

33

Transformada de un tren de pulsos

34

Transformada de señal periódica

35

Muestreo de señales: T. de muestreo

36

Transformada Fourier: Resumen

37

DFT y FFT

• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)

• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento

digital de señales

38

La señal de voz

/sal/

39

La señal de voz

/s/ /a/ /l/

40

Estacionariedad de la voz

• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-

estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales

– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:

ventanas

41

Análisis con ventanas

42

Análisis con ventanas

43

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

44

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

45

Espectro de consonantes sonoras

/l/

/R/

/y/

/m/

/n/

/ñ/

46

Espectro de consonantes fricativas

/s/

/ss/

/sh/

/z/

/f/

/j/

47

Fonemas no estacionarios

• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/

48

Espectrograma (representación tiempo - frecuencia)

49

Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n

50

Ventana en el espectrograma: 64ms / 8 ms

51

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto• Información complementaria:

– Tono fundamental– Estructura fina del espectro