Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

18
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/D OC/ Tema1b.ppt Dpto. Señales, Sistemas Dpto. Señales, Sistemas y Radiocomunicaciones y Radiocomunicaciones

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Page 1: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema1b.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Page 2: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Transformación

o Filtrado

(Tracto Vocal)

Exc

itaci

ón P

erió

dica

Segmento Sonoro

Page 3: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Propiedades acústicas de Propiedades acústicas de “segmentos sonoros”:“segmentos sonoros”:

PropiedadePropiedades s

acústicas:acústicas:

TONO (F. Fundamental)

Los sonidos tienen las siguientes propiedades acústicas, que se relacionan con las propiedades físicas:

INTENSIDAD

DURACIÓN

TIMBRE

www.auburn.edu/forlang/Spanish/FLSP0301mats/slides/fonesp-21.pptwww.auburn.edu/forlang/Spanish/FLSP0301mats/slides/fonesp-21.ppt

Page 4: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Tono (altura), Frecuencia Tono (altura), Frecuencia Fundamental, Pitch:Fundamental, Pitch:

Frecuencia Fundamental (F0): frecuencia de vibración de las cuerdas vocales.

En la voz humana, el tono depende del grosor y la elasticidad de las cuerdas vocales.

Rango de variación entre 50 Hz y 400 Hz (mujeres: 220 Hz varones: 120 Hz.

Variación para un mismo locutor en habla “normal”: 1 octava.

PitchPitch : relacionado con la percepciónpercepción de F0 (Ejemplo voz y ancho de banda telefónico)

Page 5: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Intensidad:Intensidad: Amplitud o energía de los sonidos (vocales mayor energía

“en general”: considerar casos como relajación al final de las locuciones)

Duración:Duración: Duración del sonido.

Lenguas como el alemán, el italiano, el latín y algunas variedades del inglés (Received Pronunciation) distinguen entre sonidos largoslargos y brevesbreves (p. ej., kin vs. keen).

En español las vocales tónicas son un poco más largas que las vocales átonas, pero esta diferencia no es importante.

En el inglés de EE. UU., las vocales tónicas son considerablemente más largas que las vocales átonas (p. ej., California).

Page 6: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Timbre:Timbre: El timbre está formado por el fundamental y los armónicos. El

timbre depende del tamaño, la forma y la composición de las cavidades supraglóticas.

Timbre: relación con respuesta en frecuencia del tracto vocal : permite distinguir los diferentes sonidos (Reconocimiento de Habla)

Page 7: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Segmentos sonoros:Segmentos sonoros: (@ J. Ortega EUITT)(@ J. Ortega EUITT)

Vibración de las cuerdas vocales:Vibración de las cuerdas vocales: frecuencia fundamental y armónicosfrecuencia fundamental y armónicos

3-4 Formantes (resonancias del tracto) bien definidos:3-4 Formantes (resonancias del tracto) bien definidos: diferenciación entre sonidosdiferenciación entre sonidos

0 5 10 15 20 25 30 35 40 45

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Tiempo(ms)

Estructura periódica, alta energía

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Am

plit

ud(

dB

)

Estructura fina (armónicos) y formantes

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 8: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Relación envolvente/frecuencia fundamentalRelación envolvente/frecuencia fundamental Mismo sonidoMismo sonido (Misma envolvente espectral)(Misma envolvente espectral)

Distinta frecuencia fundamentalDistinta frecuencia fundamental (Espaciamiento de armónicos) (Espaciamiento de armónicos) (@ J. Ortega EUITT)(@ J. Ortega EUITT)

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Am

plit

ud(

dB

)

Frecuencia fundamental: 122 Hz.

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Am

plitu

d(dB

)

Frecuencia fundamental: 196 Hz.

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 9: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sonido [i]: primer formante 250 Hz - segundo 2000 Hz (aprox.)

Sonido [u] : primer formante 250 Hz - segundo 600 Hz (aprox.)

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 10: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Introducción a laIntroducción a laFonética y FonologíaFonética y Fonología

EspañolasEspañolas

www.auburn.edu/forlang/Spanish/FLSP0301mats/slides/fonesp-02.ppt

Capítulo 2Capítulo 2

SP 301SP 301

Page 11: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Clasificación de las vocales (1)Clasificación de las vocales (1)

a) Localización anterior-posteriora) Localización anterior-posterior

Vocales anteriores:Vocales anteriores:El dorso de la lengua se levanta hacia el paladar duro.

Vocales centrales:Vocales centrales:El dorso de la lengua se levanta hacia un punto intermedio entre el paladar duro y el velo del paladar.

Vocales posteriores:Vocales posteriores:El dorso de la lengua se levanta hacia el velo del paladar.

Page 12: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Clasificación de las vocales (2)Clasificación de las vocales (2)

b) Altura:b) Altura:

Vocales altas:Vocales altas:El dorso de la lengua se levanta a una altura máxima.

Vocales medias:Vocales medias:El dorso de la lengua se levanta a una altura media.

Vocales bajas:Vocales bajas:El dorso de la lengua se levanta a una altura mínima.

Page 13: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Clasificación de las vocales (3)Clasificación de las vocales (3)

TriTriángulo vocálicoángulo vocálico::

Si unimos los puntos más altos que alcanza la lengua en la articulación de las vocales obtenemos una figura llamada “triángulo vocálico”“triángulo vocálico”

Descripción de las vocales:Descripción de las vocales:

[i] vocal anterior alta[e] vocal anterior media[a] vocal central baja[o] vocal posterior media[u] vocal posterior alta

Redondeamiento:Redondeamiento: Las vocales posteriores son

redondeadasredondeadas (se pronuncian con los labios redondeados).

Las vocales anteriores son labializadaslabializadas (se pronuncian con los labios estirados).

Page 14: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Carta de Formantes (aproximada)

PosteriorAnterior

Alta

(Cerrada)

Baja

(Abierta)

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 15: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Transformación

o Filtrado

(Tracto Vocal)

Exc

itaci

ón R

uido

sa

Segmento fricativo

Segmento fricativo /s/

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 16: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sonidos sordos:Sonidos sordos: •Constricción tracto sin vibración cuerdas vocalesConstricción tracto sin vibración cuerdas vocales

•Formantes (1-2) de alta frecuencia Formantes (1-2) de alta frecuencia (@ J. Ortega EUITT)(@ J. Ortega EUITT)

0 5 10 15 20 25 30 35 40 45

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Tiempo(ms)

Aspecto ruidoso, baja energía

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Am

plitu

d(dB

)

Estructura aleatoria de alta frecuencia

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 17: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Modelo simplificado de Producción de Voz (VOCODER)

Filtro IIR

(Todo Polos)

Tracto VocalVoz

Excitación

Ruidosa

Excitación

Sonora

T ; 1/T = Frecuencia Fundamental

ENERGÍA

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis

Page 18: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema1b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Modelo DINÁMICO

ENERGÍA: garantiza que la energía de la señal sintetizada = energía de la voz original

DURACIÓN: pone de manifiesto el carácter dinámico del modelo. Ritmo, pausas, …

FRECUENCIA FUNDAMENTAL: entonación y acentuación.

INFORMACIÓN PROSÓDICA(PROSODIA)

Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis