F Contenidos Señales y Sistemas -...

8
Señales y Sistemas Procesamiento de la señal de voz H. Leonardo Rufiner y Gastón Schlotthauer [email protected] Laboratorio de Cibernética – Facultad de Ingeniería Universidad Nacional de Entre Ríos http://www.bioingenieria.edu.ar/grupos/cibernetica/ 30 de abril de 2013 Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F 0 Contenidos 1 Introducción 2 Aparato fonador 3 Percepción de la voz 4 Análisis Cepstral 5 Estimación de la F 0 Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 2 / 46 Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F 0 Contenidos 1 Introducción 2 Aparato fonador 3 Percepción de la voz 4 Análisis Cepstral 5 Estimación de la F 0 Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 3 / 46 Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F 0 Procesamiento de la señal de voz Introducción Hablante Aire Oyente Comprensión del mensaje Transducción neuronal Decodificación Movimiento membrana basilar Formulación del mensaje Codificación Acciones neuro- musculares Fuente del sonido Onda acústica Tracto vocal Ruido ambiente IDEA IDEA Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 4 / 46 Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F 0 Procesamiento de la señal de voz Mecanismo de producción del habla Área de Broca Corteza Auditiva Primaria Área de Asociación Auditiva Corteza Visual Área de Wernicke Área de Asociación Visual Área de Asociación Sensorial Corteza Somatosensorial Corteza Motora Fasciculo arqueado Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 5 / 46 Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F 0 Producción del habla Restricciones para la comunicación Acústico: Tracto vocal humano. Fonológico: No todos los sonidos posibles de generar son fonemas. Fonético: La realización particular de un fonema depende del contexto. Morfológico: las unidades de significación se combinan apropiadamente para formar palabras (plurales, conjugaciones). Léxico: Define las palabras válidas y su sentido. Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 6 / 46

Transcript of F Contenidos Señales y Sistemas -...

Señales y Sistemas

Procesamiento de la señal de voz

H. Leonardo Rufiner y Gastón Schlotthauer

[email protected]

Laboratorio de Cibernética – Facultad de Ingeniería

Universidad Nacional de Entre Ríos

http://www.bioingenieria.edu.ar/grupos/cibernetica/

30 de abril de 2013

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 2 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 3 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Procesamiento de la señal de voz

Introducción

Hablante Aire Oyente

Comprens ión de l

mensa je

Transducc ión

neurona l

Decodi f icac ión

Mov imien to

membrana

basilar

Formulac ión de l

mensa je

Codif icación

Acc iones neuro -

muscu la res

Fuen te

del sonido

Onda

acús t icaT r a c t o

voca l

Ru ido

ambien te

I DEA

I DEA

! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !

"#$#% & ' % ()* + &,- ./0 - 12* 34% 5 % 67' 12* 89% - ' 0 &21

:;<,= 0 >,1

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 4 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Procesamiento de la señal de voz

Mecanismo de producción del habla

Área de�

Broca�

Corteza�Auditiva�Primaria�

Área de�Asociación�Auditiva�

Corteza�Visual�

Área de�

Wernicke�

Área de�Asociación�Visual�

Área de�Asociación�Sensorial�

Corteza�Somatosensorial�

Corteza�Motora�

Fasciculo�arqueado�

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 5 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Producción del habla

Restricciones para la comunicación

Acústico: Tracto vocal humano.

Fonológico: No todos los sonidos posibles de generar son fonemas.

Fonético: La realización particular de un fonema depende delcontexto.

Morfológico: las unidades de significación se combinanapropiadamente para formar palabras (plurales, conjugaciones).

Léxico: Define las palabras válidas y su sentido.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 6 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Producción del habla

Restricciones para la comunicación

Sintáctico: No todas las combinaciones de palabras tienen sentido.

Prosódico: Relativo a la acentuación y entonación.

Semántico: No todas las frases gramaticalmente válidas tienensentido.Is the baby crying

Is the bay bee crying

Contextual/pragmático: Una respuesta debe cobrar sentido en laconversación.It is easy to recognize speech

It is easy to wreck on nice beach

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 7 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 8 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Transforma energía muscular en energía acústica.

Puede modelizarse como un sistema de filtros que modifica a una omás fuentes de sonidos.

Si H(ω) es la función de transferencia del filtro que representa eltracto vocal y X(ω) la fuente de excitación (perturbación acústica dela corriente de aire pulmonar), el sonido resultante puederepresentarse como Y (ω) = H(ω)X(ω).

Puede agregarse el efecto de radiación producido en los labios(pasa-altos).

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 9 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Corte esquemático del aparato fonador

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 10 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Diagrama esquemático del aparato fonador

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 11 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Mecanismos de excitación del tracto vocal

El sistema respiratorio es la principal fuente de energía para producirsonidos en el aparato fonador, en forma de flujo de aire y presiones.Existen tres mecanismos de excitación del tracto vocal:

1 Generación de pulsos cuasiperiódicos: las cuerdas vocales modulan elflujo de aire.

2 Generación de ruido de banda ancha: el flujo procedente de lospulmones pasa por una constricción del tracto vocal.

3 Excitación de tipo plosivo: el flujo produce una presión en un puntode oclusión total del tracto vocal y se libera rápidamente.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 12 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Laringe

!!Vestibulo!

de la!

laringe!

Cuerda!

vocal!

Ligamentos!

y músculos!

Espacio!

infraglótico!

Tráquea!

Cartílago!

tiroide! ""##Cartílago!

cricoide!

Epiglotis!

Pliegue!

vestibular!Tiempo!

Pre

sión

!

T!

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 13 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Función fonatoria de la laringe

Intervienen las cuerdas vocales, los cartílagos en los que se insertan ylos músculos laríngeos intrínsecos.

La forma de onda de los pulsos generados puede representarse enforma simplificada como una onda triangular. Un modelo másadecuado es el de Rosemberg, donde estos pulsos tienen la siguienteforma:

ug[n] =

1

2[1− cos (πn/N1)] 0 ≤ n ≤ N1

cos [π(n−N1)/2N2] N1 ≤ n ≤ N1 +N2

0 en otro caso.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 14 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Función fonatoria de la laringe

En el hombre, la frecuencia de esta onda varía entre 100 y 170 Hz, enlas mujeres entre 180 y 280 Hz y en los niños puede superar los 300Hz.

Los valores de esta frecuencia glótica se modifican en formavoluntaria y son los responsables de la frecuencia fundamental(denominada F0) que se percibe como "tono".

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 15 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Aparato fonador

Función transferencia H(ω)

H(ω) =Ul(ω)

Ug(ω)=

1

cos(ωLc)

donde U(ω) es la transformadade Fourier de u(t):U(ω) = F{u(t)}ug(t): flujo en la glotis.ul(t): flujo en los labios.L: longitud del tracto vocal(≈ 17,5 cm).c : velocidad del sonido en airehúmedo a 37 oC (≈ 350 m/s).

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 16 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Sonidos y fonemas

Fonema

Es el conjunto mínimo de unidades que permite decir cualquier palabra enun idioma dado. Dos fonemas son diferentes si al cambiar uno por otro,cambia la palabra. Ejemplo boda vs. moda.

Vocales: /a/ /e/ /i/ /o/ /u/ Fricativos: /f/ /s/ /j/ /y/ Africados: /ch/ Oclusivos: /b/ /d/ /g/ /p/ /t/ /k/ Nasales: /n/ /m/ /ñ/ Vibrantes: /r/ /rr/ Laterales: /l/ /ll/

������� Consonantes

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 17 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Producción de la señal de voz

Laringe

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 18 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Producción de la señal de voz

Modelo Fuente - Filtro

Generador

del tren de

impulsos

Modelo de

pulso

glótico G(z)

Generador

de ruido

aleatorio

Modelo del

tracto vocal

H(z)

Modelo de

radiación

R(z)

Interruptor

vocalizado / no vocalizado

Ganancia de la

fuente de ruido

Ganancia de la

fuente de voz

Período de pitch

Parámetros del

tracto vocal

Voz s[n]

ug [n]

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 19 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Análisis de la señal de voz

Vocal sostenida - Período y Frecuencia fundamental (F0)- Formantes

0 5 10 15 20 25 30 35 40 45 50

-0.2

-0.1

0

0.1

0.2

/a/

t (ms)

T0

500 1000 1500 2000 2500 3000 3500 4000 4500 5000

-20

0

20

40

60

f (Hz)

| H

(f)

| (d

B)

F1 F

2F

0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 20 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Análisis de la señal de voz

Vocal sostenida - Período y Frecuencia fundamental (F0) - Formantes

La frecuencia fundamental F0 corresponde a la frecuencia glótica, presenteen los fonemas sonoros, y es una componente importante de la entonaciónen el habla.Las frecuencias formantes (F1, F2, F3, · · · ) permiten discriminar entre lasvocales. Su variación temporal posibilita también diferenciar entre losdiferentes fonemas sonoros.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 21 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Análisis de la señal de voz

Sonograma y espectrograma

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 22 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Análisis de la señal de voz

Formantes

0� 200� 400� 600� 800� 1000�0�

500�

1000�

1500�

2000�

2500�

3000�

F 1 �

(Hz)�

F 2� (

Hz)

cerradas� medias� abiertas�

anteriores�

centrales

posteriores�

F 1�

F 2�

Abertura de la cavidad bucal�

Zon

a de

est

rech

amie

nto�

/a/�/o/�/u/�/e/�/i/�

Triángulo de las vocales�

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 23 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Modelo AR del tracto vocal

Modelo

H(z) =G

A(z)=

G

1−p∑

k=1

akz−k

Análisis por tramos

Tomamos ventanas de la señal s(n): sm(n) = s(m+ n)w(n), sm(n)idénticamente cero fuera de 0 ≤ n ≤ N − 1, w(n) es una ventana, comopor ejemplo la ventana de Hamming. Estimamos:rm(k) =

∑N−1−kn=0

sm(n)sm(n+ k),

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 24 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Modelo AR del tracto vocal

Solución

Se resuelve hallando la solución de la ecuación

rm(0) rm(1) rm(2) · · · rm(p− 1)rm(1) rm(0) rm(1) · · · rm(p− 2)rm(2) rm(1) rm(0) · · · rm(p− 3)

......

......

...rm(p− 1) rm(p− 2) rm(p− 3) · · · rm(0)

a1a2a3...ap

=

rm(1)rm(2)rm(3)

...rm(p)

Un método eficiente es el de Levinson-Durbin que aprovecha el hecho de que lamatriz dada es Toeplitz.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 25 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 26 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Audición

Pabellón�auditivo�

! ! ! !! ! ! !

Conducto�auditivo�

Trompa de�Eustaquio�

Ventana oval�

Ventana�redonda�

Martillo�

Yunque�

Estribo�

Cóclea�

Externo� Medio� Interno�

Tímpano�

Nervio�auditivo�

Base�

Ápex�

Membrana�basilar�

AIRE�LÍQUIDO�

AIRE�

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 27 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Frecuencia y Pitch

A menudo confundidos en la literatura, el pitch no es igual a la frecuenciafundamental. La frecuencia, intensidad y las propiedades espectrales de unsonido interactúan en formas muy complejas para dar una percepción depitch que puede ser un reflejo muy pobre de la F0. El pitch percibidocambia con la intensidad.El pitch se refiere a un atributo perceptual del sonido, generalmente enuna escala continua. La frecuencia es un atributo físico de las señales. LaAmerican Standards Association define al pitch como ”aquel atributo de lasensación auditiva por la cual los sonidos pueden ordenarse según unaescala musical”.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 28 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Frecuencia y Pitch

Mel

La unidad del pitch percibido de un tono puro es el mel. No se correspondelinealmente con la frecuencia física del tono. Stevens y Volkman (1940)establecieron arbitrariamente :

1000 Hz = 1000 mel

.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 29 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Frecuencia y Pitch

Fant (1973) (la más utilizada)

Fmel =1000

log 2log

(

1 +FHz

1000

)

O’Shaugnessy (1987)

Fmel = 2595 log

(

1 +FHz

700

)

Umesh (1999)

Fmel =FHz

0,00024FHz + 0,741

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 30 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Frecuencia y Pitch

102

103

104

0

1000

2000

3000

4000

Frecuencia (Hz)

Pitch (

mel)

Fant

O'Shaughnessy

Umesh

Stevens

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 31 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 32 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Procesamiento Homomórfico

Sistemas homomórficos

Los sistemas homomórficos obedecen a un “principio de superposicióngeneralizado”.Decimos que un sistema y[n] = h[n] ∗ x[n] es homomórfico para laconvolución si obedece a un principio de superposición donde la adición sereemplaza por la convolución:

H{x[n]} = H{x1[n] ∗ x2[n]}

= H{x1[n]} ∗H{x2[n]}

= y1[n] ∗ y2[n].

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 33 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Cepstrum

Cepstrum Real (Bogert, 1963)

Definición:

c[n] =1

π∫

−π

log∣

∣X(ejω)∣

∣ ejωndω

donde X(ejω) es la transformada discreta de Fourier de la señal x[n].

c[n] = IDTFT(log |DTFT(x[n])|)

Vocabulario

Spectrum → CepstrumFrequency → QuefrencyFilter → LifterPhase → Saphe

Amplitude → GamnitudeHarmonic → RahmonicPeriod → Repiod

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 34 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Cepstrum

Cepstrum Complejo

Definición:

γ[n] =1

π∫

−π

log{

X(ejω)}

ejωndω

donde X(ejω) es la transformada discreta de Fourier de la señal x[n].Cómo calculamos log

{

X(ejω)}

?

log{

X(ejω)}

= log∣

∣X(ejω)∣

∣+ j arg{X(ejω)}

.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 35 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Cepstrum

Preguntas...

Es posible revertir el proceso y volver a obtener x[n] ?

Cómo haría un liftrado ?

Qué podría hallar con el liftrado?

Elegiría para ello el cepstrum real, el complejo o no habría diferencia?

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 36 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Cepstrum

Aplicación del Cepstrum real: estimación de F0 (Noll, 1967)

Consideremos un análisis por tramos o ventanas de una señal de voz x[n].Sea G(ω) la transformada de fourier de la señal de excitación del tractovocal y H(ω) la respuesta en frecuencia de dicho tracto. Sean cx[n], cg[n],y ch[n] sus cepstra respectivamente. Entonces: cx[n] = cg[n] + ch[n].

cg[n] y ch[n] ocupan partes diferentes del eje de cuefrencias. Podemosseparar la parte que varía rápidamente (correspondiente a la excitación deltracto vocal) de la que varía lentamente (la respuesta en frecuencia deltracto).

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 37 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Cepstrum

0 5 10 15 20 25 30 35 40 45 50

-0.2

-0.1

0

0.1

0.2

/a/

t (ms)

T0

0 1 2 3 4 5 6 7 8 9 10-0.2

0

0.2

0.4

0.6

0.8

t (ms)

c[n

]

T0 = 8.26 ms

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 38 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 39 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Método de la autocorrelación

El fundamento de la técnica de extracción de F0 basada en laautocorrelación es que si la señal es periódica, entonces su función deautocorrelación muestra un pico en el retardo correspondiente al período,valiendo menos en todos los otros retardos (salvo en cero).

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 40 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Método de la autocorrelación

0 10 20 30 40 50 60 70 80 90 100-1

-0.5

0

0.5

1� n[ �]

0 10 20 30 40 50 60 70 80 90 100-1

-0.5

0

0.5

1� n[ �]

0 10 20 30 40 50 60 70 80 90 100-1

-0.5

0

0.5

1

Retardo �� n[ �]� = 82� = 82� = 82

a)

b)

c)

En rojo se indica la función de autocorrelación sesgada y en verde la función de

autocorrelación sin sesgo. Se utilizaron tres longitudes diferentes de señal: (a) 401

datos, (b) 251 datos y (c) 125 datos.Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 41 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Método de la autocorrelación y clipping

El principal problema de la utilización directa de la autocorrelación es quela frecuencia de la primera formante, que está a menudo cerca o aún pordebajo de la frecuencia fundamental, puede interferir con esta detección.Un problema secundario es que la señal de voz es en realidad sólo “cuasiperiódica”, causando que los picos de la función de autocorrelación seanmenos prominentes y así dificultar la detección de los picos.Para disminuir estos efectos se emplean técnicas de “aplanamiento delespectro”, consistentes en aplicar un operador no lineal sobre la señal devoz

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 42 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Método de la autocorrelación y clipping

Center Clipping

La técnica más habitual es la llamada clipping. La función clipping máscomún, llamada center clipping, está definida de la siguiente manera:

C (xs[n]) =

xs[n]− C+, xs[n] > C+

0, C− ≤ xs[n] ≤ C+

xs[n]− C−, xs[n] < C−.

Habitualmente, los límites C+ y C− se fijan desde ±30% hasta ±50% delmáximo del valor absoluto de la forma de onda.

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 43 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Método de la autocorrelación con clipping

0 10 20 30 40 50

-0.2

-0.1

0

0.1

0.2

0.3

t (ms)

y

0 10 20 30 40 50

-0.1

-0.05

0

0.05

0.1

0.15

t (ms)

yc

0 20 40 60 80 100-1

-0.5

0

0.5

1

Retardo �� n[ �]0 20 40 60 80 100

-1

-0.5

0

0.5

1

Retardo �� n[ �]

a) b)

c) d)� = 82 � = 82

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 44 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Método de la autocorrelación pesada (AP)

AP [τ, q] =

1

N−|τ |

N−1∑

n=0

xs[q + n]xs[q + n+ τ ]

ǫ+q+N−1∑

n=q

|xm[n]− xm[n+ τ ]|

.

0 20 40 60 80 100 120

0

0.2

0.4

0.6

0.8

1

Retardo �AP

[ �, q] � = 82

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 45 / 46

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Bibliografía

J. Deller, J. Proakis, J. Hansen, “Discrete Time Processing of SpeechSignals”. Macmillan Publishing, NewYork, 1993.

J. Makhoul, “Linear Prediction: A Tuturial Review,” Proc. IEEE, vol63, no. 4, pp. 561-580, apr. 1975.

J. W. Piccone, “Signal Modeling Techniques in Speech Recognition”,Proceedings of the IEEE, Vol. 81, N◦9, pp. 1215-1247, 1993.

H.L. Rufiner, “Análisis y modelado digital de la voz: Técnicasrecientes y aplicaciones”, Editorial UNL, 2009. (Capítulo 3).

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 46 / 46