Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...
-
Upload
aldonza-aviles -
Category
Documents
-
view
5 -
download
0
Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...
Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema1b.ppt
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Transformación
o Filtrado
(Tracto Vocal)
Exc
itaci
ón P
erió
dica
Segmento Sonoro
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Propiedades acústicas de Propiedades acústicas de “segmentos sonoros”:“segmentos sonoros”:
PropiedadePropiedades s
acústicas:acústicas:
TONO (F. Fundamental)
Los sonidos tienen las siguientes propiedades acústicas, que se relacionan con las propiedades físicas:
INTENSIDAD
DURACIÓN
TIMBRE
www.auburn.edu/forlang/Spanish/FLSP0301mats/slides/fonesp-21.pptwww.auburn.edu/forlang/Spanish/FLSP0301mats/slides/fonesp-21.ppt
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Tono (altura), Frecuencia Tono (altura), Frecuencia Fundamental, Pitch:Fundamental, Pitch:
Frecuencia Fundamental (F0): frecuencia de vibración de las cuerdas vocales.
En la voz humana, el tono depende del grosor y la elasticidad de las cuerdas vocales.
Rango de variación entre 50 Hz y 400 Hz (mujeres: 220 Hz varones: 120 Hz.
Variación para un mismo locutor en habla “normal”: 1 octava.
PitchPitch : relacionado con la percepciónpercepción de F0 (Ejemplo voz y ancho de banda telefónico)
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Intensidad:Intensidad: Amplitud o energía de los sonidos (vocales mayor energía
“en general”: considerar casos como relajación al final de las locuciones)
Duración:Duración: Duración del sonido.
Lenguas como el alemán, el italiano, el latín y algunas variedades del inglés (Received Pronunciation) distinguen entre sonidos largoslargos y brevesbreves (p. ej., kin vs. keen).
En español las vocales tónicas son un poco más largas que las vocales átonas, pero esta diferencia no es importante.
En el inglés de EE. UU., las vocales tónicas son considerablemente más largas que las vocales átonas (p. ej., California).
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Timbre:Timbre: El timbre está formado por el fundamental y los armónicos. El
timbre depende del tamaño, la forma y la composición de las cavidades supraglóticas.
Timbre: relación con respuesta en frecuencia del tracto vocal : permite distinguir los diferentes sonidos (Reconocimiento de Habla)
Segmentos sonoros:Segmentos sonoros: (@ J. Ortega EUITT)(@ J. Ortega EUITT)
Vibración de las cuerdas vocales:Vibración de las cuerdas vocales: frecuencia fundamental y armónicosfrecuencia fundamental y armónicos
3-4 Formantes (resonancias del tracto) bien definidos:3-4 Formantes (resonancias del tracto) bien definidos: diferenciación entre sonidosdiferenciación entre sonidos
0 5 10 15 20 25 30 35 40 45
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
Tiempo(ms)
Estructura periódica, alta energía
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Am
plit
ud(
dB
)
Estructura fina (armónicos) y formantes
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Relación envolvente/frecuencia fundamentalRelación envolvente/frecuencia fundamental Mismo sonidoMismo sonido (Misma envolvente espectral)(Misma envolvente espectral)
Distinta frecuencia fundamentalDistinta frecuencia fundamental (Espaciamiento de armónicos) (Espaciamiento de armónicos) (@ J. Ortega EUITT)(@ J. Ortega EUITT)
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Am
plit
ud(
dB
)
Frecuencia fundamental: 122 Hz.
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Am
plitu
d(dB
)
Frecuencia fundamental: 196 Hz.
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Sonido [i]: primer formante 250 Hz - segundo 2000 Hz (aprox.)
Sonido [u] : primer formante 250 Hz - segundo 600 Hz (aprox.)
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Introducción a laIntroducción a laFonética y FonologíaFonética y Fonología
EspañolasEspañolas
www.auburn.edu/forlang/Spanish/FLSP0301mats/slides/fonesp-02.ppt
Capítulo 2Capítulo 2
SP 301SP 301
Clasificación de las vocales (1)Clasificación de las vocales (1)
a) Localización anterior-posteriora) Localización anterior-posterior
Vocales anteriores:Vocales anteriores:El dorso de la lengua se levanta hacia el paladar duro.
Vocales centrales:Vocales centrales:El dorso de la lengua se levanta hacia un punto intermedio entre el paladar duro y el velo del paladar.
Vocales posteriores:Vocales posteriores:El dorso de la lengua se levanta hacia el velo del paladar.
Clasificación de las vocales (2)Clasificación de las vocales (2)
b) Altura:b) Altura:
Vocales altas:Vocales altas:El dorso de la lengua se levanta a una altura máxima.
Vocales medias:Vocales medias:El dorso de la lengua se levanta a una altura media.
Vocales bajas:Vocales bajas:El dorso de la lengua se levanta a una altura mínima.
Clasificación de las vocales (3)Clasificación de las vocales (3)
TriTriángulo vocálicoángulo vocálico::
Si unimos los puntos más altos que alcanza la lengua en la articulación de las vocales obtenemos una figura llamada “triángulo vocálico”“triángulo vocálico”
Descripción de las vocales:Descripción de las vocales:
[i] vocal anterior alta[e] vocal anterior media[a] vocal central baja[o] vocal posterior media[u] vocal posterior alta
Redondeamiento:Redondeamiento: Las vocales posteriores son
redondeadasredondeadas (se pronuncian con los labios redondeados).
Las vocales anteriores son labializadaslabializadas (se pronuncian con los labios estirados).
Carta de Formantes (aproximada)
PosteriorAnterior
Alta
(Cerrada)
Baja
(Abierta)
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Transformación
o Filtrado
(Tracto Vocal)
Exc
itaci
ón R
uido
sa
Segmento fricativo
Segmento fricativo /s/
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Sonidos sordos:Sonidos sordos: •Constricción tracto sin vibración cuerdas vocalesConstricción tracto sin vibración cuerdas vocales
•Formantes (1-2) de alta frecuencia Formantes (1-2) de alta frecuencia (@ J. Ortega EUITT)(@ J. Ortega EUITT)
0 5 10 15 20 25 30 35 40 45
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
Tiempo(ms)
Aspecto ruidoso, baja energía
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Am
plitu
d(dB
)
Estructura aleatoria de alta frecuencia
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Modelo simplificado de Producción de Voz (VOCODER)
Filtro IIR
(Todo Polos)
Tracto VocalVoz
Excitación
Ruidosa
Excitación
Sonora
T ; 1/T = Frecuencia Fundamental
ENERGÍA
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis
Modelo DINÁMICO
ENERGÍA: garantiza que la energía de la señal sintetizada = energía de la voz original
DURACIÓN: pone de manifiesto el carácter dinámico del modelo. Ritmo, pausas, …
FRECUENCIA FUNDAMENTAL: entonación y acentuación.
INFORMACIÓN PROSÓDICA(PROSODIA)
Fonética Acústica: Técnicas de AnálisisFonética Acústica: Técnicas de Análisis