Post on 23-Mar-2020
Tecnologías de la Voz – Generación de la señal de voz: Producción
III. PercepciónPercepción
1. El oido: órganos y su función2. Percepción auditiva
a. Localización de sonidosb. Sonoridad y nivel de
sonoridadc. Bandas críticasd. Enmascaramiento e. Percepción de frecuencia
Tecnologías de la Voz – Generación de la señal de voz: Producción
Modelo de Comunicación Humana
Tecnologías de la Voz – Generación de la señal de voz: Producción
Anatomy and Physiology of the Ear
Outter EarEardrum protectionSound localizationresonance near 3 kHz
Tecnologías de la Voz – Generación de la señal de voz: Producción
Middle Ear• Protects the inner ear against excessively intense sounds• Impedance adaptation• Lowpass filtering
Anatomy and Physiology of the Ear
Tecnologías de la Voz – Generación de la señal de voz: Producción
• Inner Ear– transform mechanical
vibrations into electrical excitation of its neural fibers
– Organ of Corti: 30000 sensorial hair cells
– Basilar membrane:length: 35 mmstiff and thin at the beginningcompliant and massive at the apex
Anatomy and Physiology of the Ear
Tecnologías de la Voz – Generación de la señal de voz: Producción
• Basilar Membrane Behavior– traversal waves coming from outer ear – vibration coming through the bones – maximal vibration of the basilar membrane
at a point depending of the input frequency– the apex responds maximally to low-
frequency tones– the basal responds maximally to high-
frequency tones
Anatomy and Physiology of the Ear
4 0.722.510 zf z en cm−=
Tecnologías de la Voz – Generación de la señal de voz: Producción
Anatomy and Physiology of the Ear
Tecnologías de la Voz – Generación de la señal de voz: Producción
Sound Perception• Sound Localization
– Interaural Time Difference (ITD)– Interaural Intensity Difference (IID)– Head-Related Transfer Functions (HRTF)
a a
φ
φ
2a sen φ
Frequency Attenuation
3000 Hz 10 dB
6000 Hz 20 dB
10000 Hz 35 dB
Tecnologías de la Voz – Generación de la señal de voz: Producción
Percepción auditiva• Propiedades temporales
• Resolución Temporal ....... separación temporal entre sonidos aproximadamente 50 ms
• Efecto de precedencia o Haas .... separación inferior a 50 ms
Ley del primer frente de ondas
mecanismo de inhibición del sistema auditivo que permite localizar sonidos en presencia de reverberación
0 ms 0.6 ms 1.5 ms 10 ms 50 ms
Diferentes retardos sobre el canal izquierdo
Aumento del tamaño de la fuente de sonidoDesplazamiento del centro de gravedad
Tecnologías de la Voz – Generación de la señal de voz: Producción
Percepción espacial: Rayleigh1907 Lord Rayleigh: Teoría duplex
• La localización de los sonidos se lleva a cabo mediante
1. Diferencia de tiempos de llegada a los oidos (ITD Interaural Time Difference)
2. Diferencia de intensidad entre los oidos (IID Interaural Intensity Difference)
a a
φ
φ
2a sen φ
Tecnologías de la Voz – Generación de la señal de voz: Producción
Percepción espacial: ITDRetardo entre los sonidos captados por los dos oidos
τ φ φ= +ac
( sen )
donde c es la velocidad del sonido (340 m/s), a es el radio se la cabeza en el plano azimutal y f es el ángulo de incidencia
azimutal del frente de ondas
Algunos números:Máximo retardo para un ángulo de 90 º, suponiendo a = 10 cm
≈ 0756. msCon este retardo ¿ Cúal es la frecuencia máxima que podemos diferenciar ?
Tecnologías de la Voz – Generación de la señal de voz: Producción
Percepción espacial: ITDFrecuencia máxima
Retardo < Periodo de una sinusoideFrecuencia máxima < 1/Retardo máximo 1500 Hz ≈
0 0.5 1 1.50
102030405060708090
ITD ms
azim
ut
Percepción de diferencias temporales
Tecnologías de la Voz – Generación de la señal de voz: Producción
Percepción espacial: IIDEfecto de difracción en la cabeza
Diferencia entre los niveles de intensidad recibidos por los oidos
IID es dependiente de la frecuencia
Altas frecuencias: efecto de sombra
Diferencias de 20 a 30 dBfrecuencias > 1500 Hz
Bajas frecuenciasNo hay diferencias notables
Tecnologías de la Voz – Generación de la señal de voz: Producción
OnsetsLos “Onsets” están directamente relacionados con el efecto de precedencia:
Ejemplos:
1. Sistemas de refuerzo sonoro de auditoriosRetardos de 30 a 40 ms en el sistema de refuerzo
vs. cambio de localización
2. Sistemas de sonido en grandes almacenesEspaciosidad del sonido
vs. eco
3. Efecto de Franssen
Sonidos de banda estrecha en cámara reverberante
Tecnologías de la Voz – Generación de la señal de voz: Producción
Localización Vertical y delante/atrás
• La teoría duplex solo explica la localización en azimut, pero no en elevación ni en distancia
Cono de confusión : ángulo azimutal constante
d
a b
c
Tecnologías de la Voz – Generación de la señal de voz: Producción
Sensación de sonido externo: Distancia• Grabaciones estero con auriculares: el sonido está dentro de lacabeza
• Factores que afectan a la sensación de sonido externo:
1. Movimiento de la cabezaPequeños movimientos de la cabeza generan cambiosdel ITD e IID.
Si el sonido no cambia como esperamos, se destruye la imagen del sonido externo y se localiza dentro de la cabeza.
2. Ecos y reverberación
Relación entre la intensidad de sonido directo al reverberante es una indicación de distancia. Sonidos próximos dan ratios grandes
Tecnologías de la Voz – Generación de la señal de voz: Producción
HRTFWhite noise, free field Pinae folds occluded
Tecnologías de la Voz – Generación de la señal de voz: Producción
Head-Related Transfer Functions
Filtrado espectral del sonido antes de llegar al tímpano debido a las multiples reflexiones existentes en el pabellón del oido externo y partes próximas del cuerpo
Las HRTF varían con la frecuencia, azimut, elevación y distancia
fuente receptor
| ( ) | co s( )H ω ωτ
=2
h t t t( ) ( ) ( )= + −δ δ τ
Tecnologías de la Voz – Generación de la señal de voz: Producción
HRTF| ( ) | c o s ( )H ω ω
τ=
2
0 5 10 15 200
0.5
1retardo de 0.1 ms (diferencia de caminos de 3,4 cm)
0 5 10 15 200
0.5
1retardo de 0.05 ms (diferencia de caminos de 1,7 cm)
0 5 10 15 200
0.5
1retardo de 0.03 ms (diferencia de caminos de 1 cm)
kHz
kHz
kHz
Tecnologías de la Voz – Generación de la señal de voz: Producción
HRTFComponentes direccionales y no direccionales de las HRTF
0.1 - 2 kHz
Cuerpo
0.8 - 1.2 kHzreflexión hombros
0.5 - 1.6 kHzreflexión y difracción cabeza
2 - 14 kHzreflexionespabellón
+
Direccionales
No direccionales
> 3 kHzCanal externoimpedancia tímpano
Tecnologías de la Voz – Generación de la señal de voz: Producción
HRTF
0 20 40 60 80 100 120 140
hrtf (der superior, izq inferior) elev=0, azimut=-45
0 5 10 15 20-80
-70
-60
-50
-40
-30
-20
-10
0
10respuesta frecuencial hrtf.
izquierdo
derecho
frecuencia kHztiempo (muestras)
Tecnologías de la Voz – Generación de la señal de voz: Producción
HRTF
0 20 40 60 80 100 120 140
hrtf (der superior, izq inferior) elev=40, azimut=-45
0 5 10 15 20-70
-60
-50
-40
-30
-20
-10
0
10respuesta frecuencial
izquierdo
derecho
tiempo (muestras) frecuencia kHz
Tecnologías de la Voz – Generación de la señal de voz: Producción
Sound Perception• Nivel de Sonoridad
– relación entre el nivel de presión sonora y la sensación subjetiva que produce.
kHzenff10e5.6f64.3)f(T 43)3.3f(6.08.0q
2 −−−− +−=
Tecnologías de la Voz – Generación de la señal de voz: Producción
Sound PerceptionSonoridad
Unidad ..... Son: sonoridad de un tono a 1 kHz cuyo nivel de sonoridad es de 40 Phon.
1040F
2S−
=Un incremento de 10 Phon en el nivel de sonoridad, es decir 10 dBSPL a 1 kHz, supone doblar la sonoridad asociada al sonido correspondiente.
Tecnologías de la Voz – Generación de la señal de voz: Producción
Sound Perception• Masking
– Frequency masking: Simultaneous sounds• the perception of one sound is obscured by the
presence of another• the presence of one sound raises the threshold
of hearing for another• lower frequency sounds generally masks a
higher-frequency one• a 1 kHz tone in a narrow band of noise
becomes inaudible when it is 2-6 dB below the noise level
• a 1 kHz tone must be 24 dB higher than the noise to mask the noise
– Temporal masking
Tecnologías de la Voz – Generación de la señal de voz: Producción
back
Tecnologías de la Voz – Generación de la señal de voz: Producción
Frequency masking
Temporalmasking
Tecnologías de la Voz – Generación de la señal de voz: Producción
• Critical Bands– A band of noise kept at constant sound pressure
while its bandwidth is increased is heard with constant loudness until the critical bandwidth is attained.
– When two competing sounds signals pass energy through a critical-band, the sound with the higher energy within the critical band dominates the perception and masks the other sound.
– Critical bands correspond approximately to 1.5 mm spacing along the basilar membrane: Approximately there are 24 non overlapping critical bands.
– The loudness of a complex sound depends on the number of activated critical bands.
Sound Perception
2( ) 13arctan(0.00076 ) 3.5*arctan(( / 7500) )B f f f Bark= +
Tecnologías de la Voz – Generación de la señal de voz: Producción
• Pitch perception– Pitch ..... Perception of sound frequencies
depends on the frequency, loudness and waveformFrequency perception in based on the position of the
maximum excitation of the basilar membrane. Pitch unit: “mel”
1000 mel is the frequency sensation of a tone of 1 kHz
loudness dependencef < 300 increase of the loudness level -> pitch decrease f > 4000 increase of the loudness level -> pitch increase
m f= +⎛
⎝⎜⎞⎠⎟2595 1
70010log
Sound Perception
Tecnologías de la Voz – Generación de la señal de voz: Producción
Hearing AidsSordera, tipos:1. De transmisión, trastornos en la conducción aérea
(otitis, obstrucciones) suelen ser temporales2. De percepción, trastornos en la conducción ósea y
aérea, afección en la cóclea. Puede ser irreversible.
Soluciones: 1. los implantes Cocleares
Estimular directamente las neuronas auditivasque permanezcan sanas
2. Amplificadores (Sonotone), no útil para sorderas profundas
Tecnologías de la Voz – Generación de la señal de voz: Producción
Hearing AidsEsquema de dos alternativas de implante
Tecnologías de la Voz – Generación de la señal de voz: Producción
Hearing Aids
Tecnologías de la Voz – Generación de la señal de voz: Producción