tecnologiasdelhabla 2tecnicasavanzadas 1 -...

13
TIC en Redes Móviles Programa Introducción 1. Generación y percepción de la señal de voz 2. 2. Técnicas avanzadas Técnicas avanzadas Análisis localizado en tiempo y en frecuencia Análisis localizado en tiempo y en frecuencia Predicción lineal Predicción lineal Cepstrum Realce 3. Reconocimiento automático del habla 4. Conversión texto-habla

Transcript of tecnologiasdelhabla 2tecnicasavanzadas 1 -...

TIC en Redes Móviles

Programa

Introducción 1. Generación y percepción de la señal de voz2.2. Técnicas avanzadasTécnicas avanzadas

•• Análisis localizado en tiempo y en frecuenciaAnálisis localizado en tiempo y en frecuencia•• Predicción linealPredicción lineal• Cepstrum• Realce

3. Reconocimiento automático del habla4. Conversión texto-habla

TIC en Redes Móviles

Técnicas avanzadasTécnicas avanzadas

Análisis localizado en tiempo y en frecuenciaAnálisis localizado en tiempo y en frecuenciaPredicción linealCodificadores LPC

TIC en Redes Móviles

Análisis de señales Dadas las características variantes de la señal de voz, será necesario realizar el análisis por intervalos. El proceso de selección de un intervalo se conoce como enventanado de la señal.La ventana atenúa gradualmente la amplitud de la señal en los extremos del intervalo, evitando cambios abruptos. Trama: distancia entre dos ventanas consecutivasEn frecuencia, el espectro de la ventana se convoluciona con el de la señal, realizando un filtrado paso bajo del espectro.

N: longitud ventana

Trama

)()·()( lnwnxnxl −=

Espectro de la ventana

Espectro de la señal

TIC en Redes Móviles

Análisis de señales

N: longitud ventana

Trama

Cálculo de parámetros

t

t

TIC en Redes Móviles

Análisis de señalesResolución frecuencial limitada por la anchura del lóbulo principal:

∆fmax~1/NTs (ventana rectangular)

~∆fmax~2/NTs (resto de las ventanas)

Pérdidas por lóbulos secundariosVentana ideal:

Alta resolución frecuencial: lóbulo principal muy estrecho y afilado.Bajas pérdidas: alta atenuación de los lóbulos secundarios.

Disminución de la longitud efectiva de la ventana: solape entre intervalos consecutivos.Típicamente, en voz: Longitud de ventana=20-30ms, Trama=5-10ms.

Espectro de 10 periodos de una senoide de 1KHz

TIC en Redes Móviles

Definición STFT:

Hay dos interpretaciones:1. Con n fija y Ω variable, es la transformada de Fourier de la señal

enventanada para el instante de tiempo n:

2. Con Ω fija, y n variable, es la representación paso bajo del contenido de la señal a la frecuencia Ω, y con el ancho de banda de la ventana:

Muestreo de la STFT (DSTFT):En el dominio frecuencial (Ω variable): Ωk=k·2π/N En el dominio temporal (n variable):

Ancho de banda de la ventana: B=2/NTs->2B

Análisis de Fourier Short-Time

∑∞

−∞=

Ω− −⋅=Ωm

mjn mnwemsS )()()(

)()·()( mnwnsFSn −=Ω

)()·()( nwensS njn ∗=Ω Ω−

TIC en Redes Móviles

Análisis Short-TimeEjemplo: Tomamos una ventana de Hamming N=100muestras, con fs=10KHz, (L=10ms., B=10· 2/100 KHz = 200Hz)En el tiempo, Sn(Ω) debe evaluarse al menos 400 veces por segundo, es decir, cada 25 muestras (f’s=400Hz., T’s=2,5ms)En frecuencia, debe evaluarse en puntos espaciados 2π/100 rad. (es decir, fs·/100=100Hz).En total se requiere espacio para 400*100 datos/seg.

TIC en Redes Móviles

EspectrogramasEs una representación gráfica del espectro de la señal en función del tiempo (una representación del módulo de Sn(W)). El tiempo se situa en el eje de abcisas, y la frecuencia en el eje de ordenadas. El valor de |Sn(W)| se representa con un color o nivel de gris.Espectrograma de banda ancha/ banda estrecha: considerando la interpretación 2 de la STFT, se refiere al ancho de banda de la ventana utilizada.

Banda estrecha: la ventana es larga, tendremos una buena resolución frecuencial, pero poca resolución temporal.Banda ancha: la ventana es corta, tendremos una buena resolución temporal, pero poca resolución frecuencial.

TIC en Redes Móviles

Si la señal presenta periodicidad (segmentos sonoros de la señal de voz), y la ventana es corta (menor que el periodo del pitch), aparecen estriaciones verticales (buena resolución temporal). Si la ventana es larga (mayor que el periodo de pitch), aparecen estriaciones horizontales (buena resolución frecuencial).El espectrógrafo clásico realizaba una modulación de la señal de entrada con un oscilador de frecuencia variable, y un filtrado paso banda. A la salida se obtenía una representación sobre papel térmico de la energía media de la señal filtrada, siendo esto una aproximación de la STFT. Al tratarse de un instrumento analógico, el ancho debanda de filtro podía ser configurado en dos posiciones, lo que dio lugar a la denominación de espectrograma de banda ancha (300Hz) y estrecha (40Hz).

Espectrogramas

TIC en Redes Móviles

EspectrogramaEspectrograma 3D

TIC en Redes Móviles

Espectrogramas

Espectrograma de banda ancha. Ventana de 5ms.

TIC en Redes Móviles

Espectrogramas

Espectrograma de banda estrecha. Ventana de 30ms.

TIC en Redes Móviles

Bibliografía

Rabiner & SchaferDigital Processing of Speech SignalsPrentice Hall, 1978Deller, J., Hansen, Proakis (2000) Discrete-Time Processing of Speech SignalsIEEE Press.

Herramientas:Praat: http://www.praat.orgMatlab (Signal Processing Toolbox)CoolEdit