04-TCM- La señal de audio -...

26
TEMA 4 La señal de Audio 4.1 DEFINICIÓN Y CARACTERÍSTICAS DEL SONIDO Una posible definición de sonido es la sensación auditiva producida por una alteración física en un medio. El elemento generador del sonido se denomina fuente sonora. La generación del sonido tiene lugar cuando dicha fuente entra en vibración y ésta es transmitida a las partículas de aire adyacentes, que a su vez, la transmiten a las partículas contiguas originándose variaciones en la presión del aire (compresiones y descompresiones). Estas variaciones de presión se propagan en el medio originando lo que recibe el nombre de ondas sonoras. El grado de compresión y des- compresión del aire es la amplitud de la presión de la onda sonora o presión sonora y está relacio- nada con el nivel sonoro. La distancia entre dos picos adyacentes de compresión o descompresión conforme la onda sonora viaja en el aire se conoce con el nombre de longitud de onda. En el aire, el sonido se propaga a una velocidad aproximada de 343 m/s (metros por segundo). Esta velocidad puede variar con la densidad del aire, afectada por factores como la temperatura o la humedad relativa. En cualquier caso, para distancias de decenas de metros las variaciones son mínimas. Aunque en este curso nos interesa principalmente la propagación del sonido en el aire, se puede dar en cualquier medio. Cuanto más denso sea el medio, mayor será la velocidad de propagación del sonido en el mismo. Así por ejemplo, en el agua, un valor típico de velocidad del sonido son 1500 m/s (el agua es más densa que el aire). En el agua, la densidad varía mucho en función de factores como la profundidad, la temperatura o la salinidad y sí hay que tenerlos en cuenta. En materiales metálicos, el sonido se propaga a velocidades superiores a las anteriores, por ejemplo, en el acero el sonido se propaga a una velocidad en torno a 5000 m/s. Cuando las ondas sonoras llegan al oído, el cerebro interpreta las variaciones de presión como sonido. La velocidad con que oscila la fuente sonora es la frecuencia de la onda sonora y se mide

Transcript of 04-TCM- La señal de audio -...

TEMA 4

La señal de Audio

4.1 DEFINICIÓN Y CARACTERÍSTICAS DEL SONIDO

Una posible definición de sonido es la sensación auditiva producida por una alteración física enun medio. El elemento generador del sonido se denomina fuente sonora. La generación delsonido tiene lugar cuando dicha fuente entra en vibración y ésta es transmitida a las partículas deaire adyacentes, que a su vez, la transmiten a las partículas contiguas originándose variaciones enla presión del aire (compresiones y descompresiones). Estas variaciones de presión se propaganen el medio originando lo que recibe el nombre de ondas sonoras. El grado de compresión y des-compresión del aire es la amplitud de la presión de la onda sonora o presión sonora y está relacio-nada con el nivel sonoro. La distancia entre dos picos adyacentes de compresión odescompresión conforme la onda sonora viaja en el aire se conoce con el nombre de longitud deonda.

En el aire, el sonido se propaga a una velocidad aproximada de 343 m/s (metros por segundo).Esta velocidad puede variar con la densidad del aire, afectada por factores como la temperatura ola humedad relativa. En cualquier caso, para distancias de decenas de metros las variaciones sonmínimas. Aunque en este curso nos interesa principalmente la propagación del sonido en el aire,se puede dar en cualquier medio. Cuanto más denso sea el medio, mayor será la velocidad depropagación del sonido en el mismo. Así por ejemplo, en el agua, un valor típico de velocidad delsonido son 1500 m/s (el agua es más densa que el aire). En el agua, la densidad varía mucho enfunción de factores como la profundidad, la temperatura o la salinidad y sí hay que tenerlos encuenta. En materiales metálicos, el sonido se propaga a velocidades superiores a las anteriores,por ejemplo, en el acero el sonido se propaga a una velocidad en torno a 5000 m/s.

Cuando las ondas sonoras llegan al oído, el cerebro interpreta las variaciones de presión comosonido. La velocidad con que oscila la fuente sonora es la frecuencia de la onda sonora y se mide

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.2 Tecnología de los Contenidos Multimedia

en Hertzios (Hz) o ciclos por segundo. Para que la vibración sea audible para un ser humano, lafuente debe oscilar a un ritmo de entre 20 y 20000 ciclos por segundo. Esto es lo que se deno-mina frecuencia y se mide en Hertzios (Hz). El periodo es el inverso de la frecuencia y es eltiempo que transcurre desde que una partícula se encuentra en una posición hasta que vuelve ahacerlo.

Las características de una onda sonora pueden representarse gráficamente mediante un eje verti-cal para la amplitud y un eje horizontal para el tiempo. Si dicha representación es una funciónseno o coseno, diremos que la fuente vibra con un movimiento vibratorio armónico simple y laonda sonora se denomina senoidal. En este caso, la onda representa un sonido puro, puesto quetiene su energía concentrada en una única frecuencia, y se denomina tono puro. El silbido de unapersona se aproxima bastante a una onda sinusoidal. La mayoría de los sonidos reales estánhechos a base de combinaciones de diferentes modelos vibratorios, de los que resulta una formade onda más compleja. Cuanto más compleja es una forma de onda, más tiende a parecerse alruido y cuando la onda presenta un modelo muy aleatorio y poco estructurado se dice que dichosonido es ruido. No obstante, podemos considerar ruido como sonido no deseado, ya que hayveces en las que precisamente lo que buscamos es generar ruido artificialmente con distintos pro-pósitos. En el apartado de síntesis se da algún ejemplo de este tipo de situaciones.

El espectro es la representación de las frecuencias que componen una señal de audio. Se obtienecalculando la energía que aporta cada frecuencia al sonido total. Normalmente la representaciónno se hace en términos de energía directamente, sino que se calcula el nivel (se definirá en elsiguiente apartado) respecto a la energía de referencia. Con esto se obtiene el nivel espectral. Larepresentación espectral (o el espectro) puede resultar muy útil puesto que aporta informaciónsobre cuanto contribuye cada frecuencia o cada banda de frecuencia al sonido total.

Esto no es mas que un cambio de representación, es decir se trata de la misma señal pero repre-sentada en el dominio de la frecuencia en lugar de hacerlo en el dominio del tiempo que nosresulta más directo y habitual. Sin embargo, el disponer de la señal en el dominio de la frecuencianos proporciona de forma directa información muy valiosa acerca del contenido frecuencial de lamisma. Este aspecto es fundamental a la hora de realizar la digitalización para evitar problemasde ‘aliasing’ que se comentarán más adelante.

El tono de un sonido está directamente relacionado con la frecuencia de la oscilación, peroambos términos no son sinónimos. De hecho, muchos sonidos como los generados por instru-mentos de percusión no tienen un tono definido. Lo que hace que un sonido tenga un tono defi-nido es su periodicidad, es decir la forma de la onda. No importa lo compleja que sea si repite supatrón a intervalos regulares y siempre de la misma manera. Todas estas ondas pueden descom-ponerse en serie de componentes conocidos como armónicos, mediante un proceso matemáticodenominado análisis de Fourier. Los sonidos musicales, a excepción de los generados por instru-mentos de percusión no temperados están formados por una frecuencia fundamental que es la fre-cuencia de vibración más grave y es la que determina el tono del sonido (tono o armónico

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.3

fundamental) y una serie de armónicos (frecuencias múltiplos enteros de la fundamental). La pre-sencia y número de armónicos confieren al sonido la cualidad subjetiva de timbre. El timbrepodría definirse como el ‘color’ de un sonido y nos permite distinguir y caracterizar distintostipos de instrumentos o a reconocer a las personas por su voz. Dos instrumentos musicales distin-tos pueden hacer sonar la misma nota musical, lo que implica que su tono fundamental es elmismo, pero la percepción de las mismas puede ser radicalmente distinta. Esta diferenciación laestablece el timbre y es lo que mos permite distinguir una nota generada por un piano de lamisma nota generada por una trompeta. Lo que cambia es el timbre, o lo que es lo mismo, el con-tenido armónico de la señal o para ser más precisos la cantidad de armónicos y las proporcionesrelativas entre ellos y entre ellos y el fundamental.

En general, las ondas asociadas a la frecuencia fundamental tienen amplitud mayor, mientras quelas amplitudes de los armónicos disminuyen conforme crece la frecuencia. Esto no siempre secorresponde con la realidad, puesto que muchas formas de onda tienen armónicos de amplitudmayor que la del tono fundamental. También es fácil encontrar espectros en los que desaparecenalgunos armónicos. Por último, para un determinado sonido pueden existir frecuencias superioresa la fundamental que no están relacionados con ésta mediante un simple múltiplo entero de ésta.En este caso se habla de sobretonos en lugar de armónicos. Es decir, todo armónico es sobretonopero no todo sobretono es armónico. Por ejemplo, en campanas puede percibirse a veces la pre-sencia de varios sobretonos fuertes.

Se dice que dos ondas de la misma frecuencia están en fase cuando sus semiciclos de compresión(positivos) y descompresión (negativos) coinciden exactamente en el tiempo y en el espacio. Sise superponen dos señales en fase y de igual amplitud, se obtiene otra señal de la misma frecuen-cia y doble amplitud. Se dice que dos señales están en contrafase cuando el semiciclo positivo deuna coincide con el semiciclo negativo de la otra. Si se suman estás señales se obtiene ausenciade señal. Estos son dos casos extremos y lo más frecuente es tener sonidos de la misma frecuen-cia parcialmente desfasados entre sí.

Figura 4.1 Gráfica que muestra el rango de sonidos audibles y detectables por el oído humano. En el eje horizontal semuestra la frecuencia y en el vertical el Nivel de Presión Sonora. La curva sombreada inferior indica elumbral de audición, donde se ve que la máxima sensibilidad se presenta sobre los 4kHz.

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.4 Tecnología de los Contenidos Multimedia

4.2 NIVEL DE PRESIÓN SONORA Y DECIBELIOS

Según se ha mencionado con anterioridad, la presión sonora constituye una manera habitual deexpresar la magnitud de un sonido. En principio el valor a considerar es la diferencia entre elvalor fluctuante de la presión sonora total y su valor de equilibrio correspondiente a la presiónatmosférica. Debido a la variación de dicha magnitud con el tiempo, se utiliza como valor repre-sentativo su promedio temporal, que recibe el nombre de valor eficaz o RMS (Root MeanSquare). Ahora bien, el uso de dicho valor eficaz no resulta muy útil debido por una parte, alamplio rango de presiones que el oído humano es capaz de detectar y, por otra, a la respuestalogarítmica del mismo.

En efecto, la gama de presiones que el oído humano es capaz de detectar va desde 2·10-5 Pa(valor umbral mínimo de audición) hasta 200 Pa (umbral de dolor), es decir, extraordinariamenteamplia (140dB), por lo que la aplicación de una escala lineal no sería nada práctico. Pa es la abre-viatura de Pascal que es una unidad de presión que se define como la presión ejercida por unafuerza de un Newton sobre una superficie de un metro cuadrado.

Además, el oído humano no responde linealmente a los estímulos que recibe, sino que más bienlo hace de forma logarítmica. Por ejemplo, si la presión de un tono puro de 1kHz se dobla, lasonoridad o sensación subjetiva producida por el mismo, no llegará a ser el doble. De hecho, paraobtener una sonoridad doble, es necesario multiplicar la presión sonora por un factor de 3,16.

Este comportamiento del oído humano hace conveniente el empleo de una escala logarítmicapara representar la presión sonora. Esta escala se expresa en valores relativos a un valor de refe-

rencia. Dicho valor de referencia es 2x10-5Pa (umbral de audibilidad). En este caso se habla deNPS que son las siglas de Nivel de Presión Sonora (SPL = Sound Pressure Level en inglés) y launidad utilizada es el decibelio (dB).

La utilización del umbral de audición como referencia tiene como objetivo que todos los sonidosaudibles sean representados por valores NPS positivos.

El uso de decibelios reduce la gama de presiones sonoras a niveles de presión sonora de 0 a140dB, donde 0dB representa una presión igual al umbral de audición (no significa, por tanto,ausencia de sonido) y 140dB el umbral aproximado de dolor. De esta manera, las cifras maneja-das son mucho más simples y, además, se dan las siguientes relaciones entre cambios de nivelsonoro y su efecto subjetivo:

• 1dB: mínimo cambio de nivel sonoro perceptible.• 5dB: cambio de nivel claramente percibido• 10dB: incremento asociado a una sonoridad doble.

Además el NPS disminuye aproximadamente 6dB cada vez que se duplica la distancia debido ala relación del cuadrado de la distancia. En la tabla 4.1 se muestran niveles de presión sonoracorrespondientes a sonidos y ruidos típicos.

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.5

Tabla 4.1 Niveles de presión sonora de algunos sonidos cotidianos.

4.2.1 NIVELES DE LA SEÑAL DE AUDIOCuando la señal de audio parte de un micrófono, atraviesa una mesa de mezclas, se graba en unmultipista y llega a un altavoz, a lo largo de todos esos pasos, sufre varios cambios en el nivel detensión. El nivel de potencia de una señal se define como:

donde Pre es el valor de referencia que se toma para establecer la escala de niveles y log(·) repre-

senta el logaritmo decimal.

Puesto que la potencia y la tensión tienen entre sí una relación cuadrática (de la ley de Ohm tene-

mos: P=V2/R), el nivel de tensión L en dB se define como:

donde Vre es el valor de la tensión de referencia. Cuando se trabaja con sonido, el valor 0dB es un

nivel de referencia nominal empleado para alinear equipos y ajustar niveles de grabación. Suvalor corresponde normalmente a una referencia de 0.775 V (0dBu). El valor 0dB no significaausencia de señal, significa que la señal a la que se refiere tiene el mismo nivel que la de referen-cia. Para indicar el estándar de referencia que se emplea en cada caso suele colocarse una letradespués de ‘dB’ (por ejemplo, dBm o dBu). A continuación se dan algunos ejemplos de las dife-rentes abreviaturas empleadas normalmente, que indican el nivel de referencia empleado. No hayque olvidar que los decibelios son una unidad de medida relativa, por lo que no sirven de nada sino se especifica el nivel de referencia.

Fuente Sonora NPS(dB)Despeque de un reactor 150

Concierto de rock 120Discoteca 112

Taladradora a 15m 94Camión pesado a 15m 86

Calle de ciudad 80Interior de automóvil 74

Aspiradora a 3m 68Conversación normal a 1m 60

Transformador grande a 15m 54Oficina, aula 50

Dormitorio (noche) 30Estudio de grabación 20

10logre

PL

P=

10logre

VL

V=

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.6 Tecnología de los Contenidos Multimedia

Tabla 4.2 Tabla de sufijos de dB y los correspondientes niveles de referencia.

dBV, dBu y dBv son medidas de tensión mientras que dBW y dBm lo son de potencia.

El valor de 0.775 Voltios viene porque es el nivel de tensión que libera un milivatio de potenciasobre una resistencia de 600 Ohmios, que es una resistencia estandar en sistemas de comunica-ciones.

Según esto tendremos:• dBu = dBm sobre una resistencia de 600 Ohmios• 0 dBu = 0.775 Voltios

Aunque los niveles utilizados por los dispositivos de audio varían en un rango muy amplio, sesuelen distinguir tres tipos diferentes:

• Nivel de micrófono (mic level). Se consideran de este tipo hasta -20dBu (77.5mV). Se obtienen ala salida de giradiscos, micrófonos, cintas magnéticas, pastillas de guitarras...

• Nivel de línea (line level). Se consideran de este tipo, niveles entre -20 y 30dBu. Son señales pro-cedentes de mesas de mezclas, procesadores de señal, teclados electrónicos y de la mayoría deaparatos que se encuentran en un estudio de grabación, excepto los amplificadores de potencia.

• Nivel de altavoz (speaker level) o niveles superiores a 30dBu. Se obtienen a la salida de losamplificadores de potencia y sirven para atacar los altavoces.

4.3 EL SISTEMA AUDITIVO

La audición es el resultado de una serie de procesos acústicos, mecánicos, nerviosos y mentalesdentro de la combinación oído-cerebro que dan la impresión de sonido. La impresión que unhumano recibe no es idéntica a la forma de onda acústica verdadera presente en el canal auditivoporque parte de la entropía de la onda se pierde.

La agudeza del oído humano es asombrosa, ya que puede detectar cantidades minúsculas de dis-torsión y aceptar un enorme rango dinámico. El único criterio de calidad de que se dispone con-siste en el hecho de que si el oído es incapaz de detectar distorsión alguna, se dice que el sonidoes perfecto. Por tanto, el criterio de calidad es completamente subjetivo y sólo se puede compro-bar mediante pruebas de audición.

Abreviatura Referencia

dBV 1 Voltio

dBu 0,775 Voltios (Europa)

dBv 0,775 Voltios (EE.UU.)

dBW 1 vatio

dBm 1 milivatio

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.7

El oído se divide en tres zonas, llamadas oído externo, oído medio y oído interno, de acuerdo a suubicación en el cráneo. El oído externo es la parte del aparato auditivo que se encuentra en posi-ción lateral al tímpano. Comprende la oreja y el conducto auditivo externo, que mide unos trescentímetros de longitud, como se puede observar en la figura 4.2.

Figura 4.2 Oído externo

El oído medio se encuentra situado en la cavidad timpánica llamada caja del tímpano, cuya caraexterna está formada por el tímpano, que lo separa del oído externo. Incluye el mecanismo res-ponsable de la conducción de las ondas sonoras hacia el oído interno. Es un conducto estrecho,que se extiende unos quince milímetros verticalmente y otros quince horizontalmente. La impe-dancia del oído es mucho más alta que la del aire y el oído medio actúa como un transformadoradaptador de impedancias que mejora la transferencia de potencia. Hay una cadena formada portres huesos pequeños y móviles que atraviesa el oído medio. Estos tres huesos reciben los nom-bres de martillo, yunque y estribo. Los tres conectan acústicamente el tímpano con el oídointerno, que contiene un líquido. La figura 4.3 muestra el oído medio.

Figura 4.3 Oído medio

El oído interno, o laberinto, se encuentra en el interior del hueso temporal que contiene los órga-nos auditivos y del equilibrio. Está separado del oído medio por la ventana oval. El oído interno

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.8 Tecnología de los Contenidos Multimedia

consiste en una serie de canales membranosos alojados en una parte densa del hueso temporal, yestá dividido en: cóclea (en griego, ‘caracol óseo’), vestíbulo y tres canales semicirculares. Lafigura 4.4 muestra el oído interno. Estos tres canales se comunican entre sí y contienen un fluidogelatinoso denominado endolinfa.

Figura 4.4 Oído interno

Los sonidos penetran al oído a través de la oreja y chocan con el tímpano haciéndolo vibrar. Estavibración es recibida por los tres huesecillos articulados en cadena y controlados por dos peque-ños pero poderosos músculos. El final de la cadena lo constituye el estribo que está alojado en unnicho llamado ventana oval que es el lugar por donde ingresa el sonido (oído interno) a la cócleao caracol. Los movimientos del estribo producen desplazamientos del líquido en el oído internoque estimulan las terminaciones nerviosas o células ciliadas, lugar donde realmente comienza elproceso auditivo. Las células nerviosas estimuladas, envían la señal por el nervio auditivo hastalos centros del cerebro, donde el estimulo eléctrico es procesado.

Figura 4.5 Membrana basilar extendida.

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.9

Como se observa en la figura 4.5, la membrana basilar se extiende a lo largo de la cóclea. Estamembrana varía en masa y rigidez a lo largo de su longitud. En el extremo más próximo a la ven-tana oval y al tímpano, la membrana es rígida y ligera, así que su frecuencia de resonancia es alta.En el extremo distante, próximo al ápice, la membrana es pesada y suave, y resuena a baja fre-cuencia. El rango de frecuencias de resonancia disponible determina el rango de frecuencias de laaudición humana, que va desde los 20Hz hasta los 20KHz, sin embargo, en la práctica sólo llegahasta los 16 kHz aproximadamente.

Frecuencias diferentes en la entrada de sonido causan que diferentes áreas de la membrana basi-lar vibren. Cada área tiene diferentes terminaciones nerviosas para permitir discriminar el tono.La membrana basilar además tiene músculos diminutos controlados por los nervios que juntosactúan como una especie de sistema de retroalimentación positiva que mejora el factor de reso-nancia. El comportamiento resonante de la membrana basilar es exactamente el mismo que el deun analizador de espectros; la parte de dicha membrana que resuena como resultado de la aplica-ción de un sonido es una función de la frecuencia.

El oído analiza el sonido con bandas de frecuencia, conocidas como bandas críticas. Los anchosde las bandas críticas dependen de la frecuencia, tal y como se ilustra en la figura 4.6. Por debajode los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia: el ancho debanda crítico centrado en una frecuencia superior a 500 Hz es de alrededor del 20% de la fre-cuencia central.

Basándose en los valores obtenidos mediante la figura 4.6, es posible subdividir el rango de fre-cuencias audibles en intervalos adyacentes de anchura igual a una banda crítica y que no se sola-pan entre sí. Esta subdivisión se presenta en la figura 4.7. En el rango audible de 20 Hz a 20 KHzse encuentran 25 bandas críticas adyacentes, numeradas en forma consecutiva en la figura.

Figura 4.6 Ancho de las bandas críticas en función de la frecuencia

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.10 Tecnología de los Contenidos Multimedia

Figura 4.7 Bandas críticas adyacentes en el rango de frecuencias audibles

En la tabla 4.3 se muestran los valores que definen las primeras 24 bandas críticas.

Estos valores se han convertido en un estándar “de facto” para describir la distribución de lasbandas críticas en función de la frecuencia.

Tabla 4.3 Distribución de las bandas críticas en función de la frecuencia

Nº Banda Frec. central Frec. Superior Ancho de banda1 50 100 1002 150 200 1003 250 300 1004 350 400 1005 450 510 1106 570 630 1207 700 770 1408 840 920 1509 1000 1080 16010 1170 1270 19011 1370 1480 21012 1600 1720 24013 1850 2000 28014 2150 2320 32015 2500 2700 38016 2900 3150 45017 3400 3700 55018 4000 4400 70019 4800 5300 90020 5800 6400 110021 7000 7700 130022 8500 9500 180023 10500 12000 250024 13500 15500 3500

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.11

4.4 PERCEPCIÓN DEL SONIDO

Como ya se ha comentado, la banda de frecuencias audibles va desde los 20Hz (sonidos más gra-ves) hasta los 20kHz (sonidos más agudos) para una persona normal de 18 a 25 años disminu-yendo paulatinamente con la edad. El rango dinámico del oído va desde los 0dB hasta los 120dB(umbral de molestia) o hasta 140dB (umbral de dolor).

Se comprueba fácilmente que un sonido nos parece más agudo cuanto mayor es su frecuencia. Eloído humano interpreta las frecuencias de manera casi logarítmica. La apreciación subjetiva deun oyente cuando se pasa de un tono de 400 Hz a otro de 800, será análoga a la de pasar de untono de 3000 Hz a otro de 6000 Hz. Es decir, el oído interpreta el mismo cambio de tono cadavez que se duplica la frecuencia. Sin embargo la ‘distancia’ en frecuencia en el primer caso es de400 Hz y en el segundo de 3000 Hz.

Ahora bien, el oído humano no tiene la misma sensibilidad para todo el margen de frecuencias.La figura 4.1 muestra las variaciones de los umbrales de audición y de dolor en función de la fre-cuencia. A partir de esta figura podemos concluir que:

• Para niveles bajos de presión sonora, el oído es muy insensible a bajas frecuencias, es decir, elnivel de presión sonora de un sonido grave tiene que ser mucho más elevado que el correspon-diente a un sonido de frecuencias medias para que ambos produzcan la misma sonoridad. Porejemplo un nivel NPS=70dB a 20Hz produce la misma sonoridad o sensación subjetiva de nivelsonoro que un nivel NPS=5dB a 5kHz.

• Para dichos niveles bajos, el oído presenta también cierta atenuación a altas frecuencias.• A medida que los niveles aumentan, el oído tiende a responder de forma más homogénea en toda

la banda de frecuencias audibles, hasta el punto de que cuando son muy elevados, la sonoridadasociada a tonos puros de diferente frecuencia es muy parecida.

El oído es menos sensible para frecuencias bajas y altas. Esta característica de menor agudezapara los tonos graves favorece el enmascaramiento de los sonidos que produce el cuerpohumano. Este comportamiento del oído con el nivel de presión sonora explica que se percibenmás los graves y agudos si el volumen de un equipo de música es alto. Este es el motivo por elque escuchar la música a niveles altos nos permite apreciarla con mayor brillantez. De hecho,para evitar volúmenes muy elevados, muchos equipos de música incorporan un conmutador(Loudness) para compensar este fenómeno. Cuando activamos el Loudness en estos equipos, seproduce un incremento de las bajas y altas frecuencias cuando el volumen es bajo. Este efecto sereduce progresivamente conforme aumentamos el volumen del equipo. Esto nos permite escu-char la música con el mismo nivel subjetivo entre frecuencias, independientemente del volumende reproducción del equipo. La figura 4.1 muestra claramente este comportamiento donde se veque la curva de audivilidad se va haciendo más plana cuando el NPS Aumenta.

El nivel sonoro depende en gran medida de la naturaleza del sonido. Los sonidos de banda anchatienden a parecer más fuertes que los de banda estrecha. Por otra parte los sonidos distorsionadosparecen, psicológicamente, ser más fuertes que los que no tienen distorsión, debido quizás a que

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.12 Tecnología de los Contenidos Multimedia

se asocia distorsión con sobrecarga del sistema. Si se reproducen dos sonidos musicales conniveles idénticos, uno de ellos con bastante distorsión y el otra sin ella, el oyente percibirá el pri-mero más fuerte. Otro factor importante es que, para una determinada frecuencia, el umbral deaudición se incrementa en presencia de otro sonido de frecuencia similar, o lo que es lo mismo,un sonido puede enmascarar a otro.

Para dar la sensación de que se dobla el nivel sonoro que se percibe de un sonido, se necesita unincremento de 9 a 10dB. Aunque 6dB equivalen a multiplicar por 2 la presión sonora real, elmecanismo de la audición parece necesitar un incremento superior en la señal para crear la sensa-ción de que se ha doblado el volumen.

4.4.1 ENMASCARAMIENTOUn sonido en el rango audible sólo puede ser percibido por una persona, cuando su nivel de pre-sión sobrepasa el límite inferior (umbral de audibilidad). En ausencia de todo ruido, este límite esel umbral absoluto de audibilidad. En presencia de ruido, el mismo sonido debe tener un nivelmás alto para que se pueda distinguir.

Figura 4.8 Curvas de enmascaramiento para un tono de 1200Hz y distintos Niveles de Presión Sonora.

Este fenómeno se conoce con el nombre de enmascaramiento. Se denomina enmascaramiento ala reducción total o parcial de la sensibilidad de un oyente para percibir un determinado sonido,provocado por la presencia simultánea de otro. Cuando un sonido hace que otro sea menos audi-ble, porque ambos se producen al mismo tiempo, se dice que se produjo un fenómeno de enmas-caramiento. El sonido cuyo umbral de audibilidad se ha modificado se denomina sonidoenmascarado y al otro, sonido enmascarante.

El efecto del enmascaramiento debido a un ruido depende del reparto espectral del mismo, yaque se origina no sólo por los sonidos que tienen la misma frecuencia que las componentes delruido, sino también por otras. Sin embargo, el efecto es máximo para la frecuencia del ruido.

NPS

(dB

)

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.13

La gráfica de la figura 4.8 muestra el enmascaramiento de un tono o de un ruido de banda estre-cha sobre otros adyacentes, donde la línea curva inferior delimita el umbral medio de audición.Algunas características de este enmascaramiento que se pueden observar en dicha figura son:

• Una banda estrecha de ruido, produce más enmascaramiento que un tono puro de igual frecuen-cia central y misma intensidad.

• Cuando el ruido es de bajo nivel, el enmascaramiento se produce en una banda de frecuenciaestrecha alrededor de la frecuencia central del ruido. Para niveles superiores del ruido, se incre-menta el margen de frecuencias afectadas

• El efecto de enmascaramiento no es simétrico en torno a la frecuencia central del ruido enmasca-rante. Las frecuencias superiores sufren más los efectos de enmascaramiento.

La gráfica muestra las zonas que estarían bajo los efectos del enmascaramiento, con un ruido debanda estrecha centrado en 1200 Hz, y para distintos niveles de presión sonora del ruido. Para elcaso más extremo, el ruido de 110 dB (la curva más alta), obtenemos la mayor zona enmasca-rada. Por ejemplo, en este caso, el oyente no detectaría un tono de 8 kHz y 50 dB de nivel de pre-sión; tampoco detectaría un sonido de 4 kHz y 70 dB de nivel de presión.

También se produce enmascaramiento parcial entre tonos puros cuando están muy próximos enfrecuencia, influenciándose más cuanto más cerca estén sus frecuencias. Si tonos puros muyseparados en frecuencia tienen sonoridades similares y suenan simultáneamente, la sonoridadpercibida será la suma de las sonoridades asociadas a dichos tonos. En cambio, si los tonos deigual sonoridad están muy próximos en frecuencia, al sonar simultáneamente darán una sonori-dad ligeramente superior a la sonoridad de cualquiera de ellos. El enmascaramiento parcial puedellegar a ser total cuando hay además de una gran proximidad en frecuencia, una notable diferen-cia en cuanto a sonoridad, es decir, un sonido fuerte oculta totalmente a un sonido débil, que nopuede percibirse y por tanto, no contribuye a la sonoridad.

La rama de la acústica que estudia la percepción humana del sonido se denomina psicoacústica yúltimamente ha cobrado importancia al ser la base para algunos de los algoritmos de compresiónmás eficientes. Este efecto de enmascaramiento es fundamental para la compresión de audiodigital ya que los tonos enmascarados se pueden ignorar puesto que no serán percibidos. Esto nospermite conseguir una secuencia digital de audio que ocupe menos espacio de almacenamiento oque requiera menos capacidad de un canal de comunicaciones. Los algoritmos de compresiónque utilizan este fenómeno y otros similares, se conocen como codificadores basados en la per-cepción o métodos psicoacústicos (PAC: Perceptual Audio Coding) y se tratarán en un capítuloposterior.

El oído es incapaz de registrar energía en algunas bandas cuando existe más energía en otrabanda cercana. La vibración de la membrana en sintonía con una sola frecuencia no puede serlocalizada en una zona infinitamente pequeña, por lo que las zonas cercanas se ven obligadas avibrar a la misma frecuencia con una amplitud que decrece con la distancia. Otras frecuencias

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.14 Tecnología de los Contenidos Multimedia

son excluidas a menos que la amplitud sea lo bastante alta como para dominar la vibración localde la membrana.

En el campo auditivo el rango de frecuencias audibles va de los 20 Hz a los 16 kHz (en la prác-tica), pero el oído no es igualmente sensible a todas estas frecuencias. Las más audibles son lasubicadas en la zona central del espectro, aproximadamente entre 1 kHz y 5 kHz.

Para obtener el nivel de enmascaramiento se procede de la siguiente manera: Supóngase que setienen dos sonidos, A y B. Se mide el umbral auditivo de A sin B. Luego se pasa el sonido B defondo y se vuelve a medir el umbral de A. El enmascaramiento es la diferencia, en dB, entre elumbral de A en presencia de B y en ausencia de éste. Por ejemplo, si el umbral de A es de 30 dBy el umbral de A en presencia de B es de 50 dB entonces el enmascaramiento producido es de 20dB.

La interacción entre dos estímulos presentados al mismo tiempo depende en gran medida de lascaracterísticas de los sonidos. Seguidamente se describen las características básicas que rigen elenmascaramiento.

Un sonido posee mayor poder enmascarante cuando se intenta enmascarar a otro que tenga unafrecuencia parecida. En cambio, resulta muy difícil de enmascarar con otro de frecuencia dife-rente, alejada en el espectro. El enmascaramiento podrá realizarse, pero el nivel de presiónsonora necesario tendrá que ser mayor que en el primer caso.

Un sonido de determinada frecuencia tiene más poder enmascarante sobre otro de frecuencia másaguda que sobre otro de frecuencia más grave a la misma distancia frecuencial. Por lo tanto, si seestá buscando el efecto de enmascaramiento, es más fácil lograrlo con un sonido enmascarantede frecuencia más grave que el enmascarado.

La curva de sensibilidad que representa el umbral de audición de una señal en función de su fre-cuencia en ausencia de señal perturbadora se representa en la figura 4.9, donde la señal A es audi-ble, puesto que sobrepasa el umbral de percepción.

Figura 4.9 Umbral de audibilidad en función de la frecuencia

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.15

Más recientemente, se ha observado que esta curva se ve afectada en presencia de múltiples seña-les. Por ejemplo, en el caso de dos señales de frecuencias relativamente cercanas, la señal másfuerte hace subir el umbral de audición en sus proximidades, cuyo efecto es disminuir la sensibi-lidad del oído alrededor de estas frecuencias. La figura 4.10 representa este caso, donde la señalA, antes audible, es ahora enmascarada por la cercana señal B, más potente que A. Este efectorecibe el nombre de enmascaramiento frecuencial, y se detalla más adelante.

En presencia de una entrada de espectro complejo, como la música, el umbral aumenta en casitodas las frecuencias. Una consecuencia de este comportamiento es que el siseo de una cinta decaset de audio analógico es sólo audible durante los pasajes silenciosos de la música.

Figura 4.10 Enmascaramiento frecuencial (A enmascarado por B)

También existe un efecto de enmascaramiento temporal que básicamente consiste en que unsonido de elevada amplitud enmascara igualmente los sonidos más débiles inmediatamente ante-riores o posteriores, tal y como ilustra la figura 4.11. Este fenómeno se detallará más adelante.

Figura 4.11 Enmascaramiento temporal

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.16 Tecnología de los Contenidos Multimedia

4.5 LOCALIZACIÓN ESPACIAL DE LAS FUENTES

En el caso más general, en campo abierto, es decir, en ausencia de reflexiones, el cerebro localizala fuente de sonido, basándose en la diferencia de nivel entre un oído y otro, y en la diferencia detiempo (retardo) entre ambos oídos. Como se había dicho, el sonido viaja a una velocidad de 343m/s y la separación entre oídos es de unos 20 cm, los posibles retardos llegan hasta 600 µs (1microsegundo = 0.000001 segundo). La diferencia de nivel entre los oídos, es debido principal-mente a la ‘sombra’ acústica que crea la cabeza. Este efecto se acusa más en altas frecuencias yaque estas son más directivas. Las altas frecuencias se localizan principalmente por diferencia denivel, y las bajas por diferencia de fase (retardo). Para acabar de localizar la fuente del sonido,está el movimiento de la cabeza, que es algo instintivo y colabora de forma determinante a la ubi-cación de la fuente.

En este apartado, nos centraremos en un caso concreto de los posibles: dos fuentes sonoras emi-tiendo señales coherentes. Se elige este caso porque es el más general. Los dos altavoces de unsistema estéreo emiten, en su mayor parte señal coherente, es decir señal altamente correlacio-nada y en algunos casos incluso la misma señal.

Figura 4.12 Esquema de ubicación de una pareja de altavoces de un sistema estéreo.

La posición estéreo por definición, es cuando los altavoces y el oyente forman un triángulo equi-látero de tres metros de lado. Además se suelen elevar los altavoces unos pocos grados sobre elplano de audición.

Para simular los distintos efectos se suelen añadir retardos entre los dos altavoces, mediante laelectrónica. Se puede añadir retardo a toda la señal, o solo a unas frecuencias para crear distintosambientes. Si el oyente se sitúa a la misma distancia de los dos altavoces, los escucharía almismo nivel, suponiendo que la señal que entra ambos altavoces es la misma, solo con posiblesretardos. Variando solo el retardo entre altavoces, tendríamos los siguientes casos:

1.- Retardos entre 0 y 630 µs: el oyente identifica que hay una única fuente de sonido cuyaposición depende del retardo entre las dos señales. El cerebro ‘suma’ las señales de los dosoídos para determinar la posición de la fuente. Este efecto se denomina ‘localización suma’y es la base de los efectos estereofónicos con dos altavoces.

2.- Retardos entre 1 ms y 40-50 ms: el oyente identifica una única fuente sonora que sitúa en laposición del altavoz cuya señal está llegando primero a sus oídos (el que no está retardado).

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.17

Las componentes de señal que llegan a los oídos en primer lugar son tomadas en considera-ción y las últimas son suprimidas en el proceso de cálculo. Este es el llamado efecto del Pri-mer Frente de Onda, muy importante a la hora de diseñar sistemas de refuerzo sonoromediante varios altavoces como sucede, por ejemplo, en salas de cine o en conciertos dePop/Rock en grandes espacios.

3.- Retardos superiores a 50 ms: el oyente identifica dos fuentes de sonido, cada una en la posi-ción de un altavoz. La segunda fuente de sonido se percibirá como eco de la primera.

Los límites de los márgenes de los retardos no son fijos, ya que dependen también de las condi-ciones ambientales del experimento y también de la percepción subjetiva de cada individuo. Porejemplo, para retardos entre 630 µs y 1 ms, se tendrá Localización Suma o Ley del Primer Frentede Onda en función del sujeto y de las condiciones del experimento.

4.6 ACÚSTICA MUSICAL

Al principio del capítulo se ha definido el sonido en su sentido más general y desde el punto devista puramente físico, sin embargo, no podemos olvidar que hay un tipo de sonido de especialinterés y es el sonido musical. La música emplea el sonido para producir y generar en el oyentedistintas emociones y tiene sus propias reglas para conseguir un sonido agradable, aunque estoúltimo depende fuertemente de la obra musical y del oyente, puesto que la componente subjetivaen el campo musical es muy elevada.

Sin embargo, gustos musicales aparte, hay un cierto consenso en lo que es agradable de lo que nolo es tanto y esto está recogido en las reglas rítmicas, melódicas y armónicas.

En una obra musical tenemos un conjunto de instrumentos que generan distintos sonidos deforma coordinada y perfectamente sincronizada. Además cada instrumento genera habitualmentedistintos sonidos o notas musicales. Cada uno de estos sonidos es relativamente simple pues pre-sentan una frecuencia fundamental y un conjunto de armónicos relacionados de forma sencillacon esta frecuencia fundamental tal y como ya se ha explicado. Pero al final lo que percibimos enconjunto, como combinación de todos estos sonidos, es un sonido realmente complejo. Para queeste sonido sea agradable deben guardarse unas ciertas reglas rítmicas y armónicas.

Estas reglas son fundamentales para que la sensación percibida sea agradable y la composiciónpueda generar y transmitir ciertas emociones. Toda obra musical está compuesta, tal y como seha dicho, por un conjunto de sonidos que se reproducen de forma simultánea (varias notassonando a la vez) y secuencial (orden de reproducción de las notas). Si nosotros alteramos elorden, pasaremos de percibir sensaciones agradables a algo que puede resultar difícilmente‘digerible’. En este curso no entraremos en este tipo de aspectos pues entran de lleno en el campode la composición e interpretación musical. Pero no podemos olvidar que la música es el grancampo de aplicación del procesamiento de audio sea de forma digital o no debido al gran mer-cado y elevado interés de conlleva. No en vano, muchos de los elementos procesadores de audio

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.18 Tecnología de los Contenidos Multimedia

se emplean casi exclusivamente en los entornos de producción musical por lo que resultan conve-nientes algunas nociones básicas.

Al emitir dos o más sonidos simultáneamente se dice que se produce un acorde, que puede serconsonante o disonante según que la sensación experimentada sea agradable o desagradable. Lasensación producida en el oído no depende de los valores absolutos de las frecuencias de lossonidos sino de la relación entre ellas.

La música se construye a partir de una sucesión de notas que se caracteriza por la relación entresus frecuencias. La relación fundamental en música es la octava. Una octava se define como unintervalo de frecuencias en el que la frecuencia superior es el doble de la frecuencia inferior y secorrespondería con un salto de ocho teclas blancas en el piano. Por ejemplo, un sonido de 200Hzdista una octava de un sonido de 100Hz. Entre un sonido de 1kHz y otro de 250Hz hay una sepa-ración de dos octavas (250 - 500 Hz y 500 - 1000 Hz).

Fue Pitágoras quien descubrió que existía una relación numérica entre tonos que sonaban ‘armó-nicos’ y fue el primero en darse cuenta de que la música, siendo uno de los medios esenciales decomunicación y placer, podía ser medida por medio de razones de enteros. Sabemos que elsonido producido al tocar una cuerda depende de la longitud, grosor y tensión de la misma.Entendemos que cualquiera de estas variables afecta la frecuencia de vibración de la cuerda. Loque Pitágoras descubrió es que al dividir la cuerda en ciertas proporciones era capaz de producirsonidos placenteros al oído. Eso era una maravillosa confirmación de su teoría. Números ybelleza eran uno. El mundo físico y el emocional podían ser descritos con números sencillos yexistía una relación armónica entre todos los fenómenos perceptibles.

Pitágoras encontró que al dividir una cuerda a la mitad producía un sonido que era una octavamás agudo que el original (Do al Do superior); que cuando la razón era 2:3 se producía unaquinta (la distancia de Do a Sol) y que otras razones sencillas producían sonidos agradables.

La razón por la cual encontramos a estos intervalos más agradables que otros tiene que ver con lafísica de la cuerda tocada. Cuando una cuerda de 36 cm se rasga, no sólo se produce una onda de36 cm, sino que además se forman dos ondas de 18 cm, tres de 12, cuatro de 9, y así sucesiva-mente. La cuerda vibra en mitades, tercios, cuartos, etcétera. Y cada vibración subsidiaria pro-duce ‘armónicos’, estas longitudes de onda producen una secuencia de armónicos, 1/2, 1/3, 1/4...de la longitud de la cuerda. Los sonidos son más agudos y mucho más suaves que el sonido de lacuerda completa (llamada fundamental) y no se perciben de forma clara precisa y consciente peroson los que hacen que los instrumentos musicales suenen diferentes entre sí (timbre). Ya que Doy Sol, a una distancia de quinta, comparten muchos de los mismos armónicos, estos sonidos semezclan produciendo un resultado agradable.

Sin embargo, Pitágoras no sabía nada de armónicos. Él sólo sabía que la longitud de la cuerdacon las razones 1:2 y 2:3 producía unas combinaciones de sonidos agradables y construyó unaescala a partir de estas proporciones. En sus experimentos, Pitágoras descubrió tres intervalosque consideraba consonantes: el diapasón, el diapente y el diatesaron. Actualmente los llamamos

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.19

la octava, la quinta y la cuarta porque corresponden al octavo, cuarto y quinto sonidos de la queconocemos como escala pitagórica diatónica. La llamamos quinta porque corresponde a la quintanota de la escala.

Los pitagóricos no sabían de ondas sonoras ni de frecuencias ni de cómo la anatomía del oídoafecta la altura de un sonido. De hecho, la regla que establece que la frecuencia está relacionadacon la longitud de la cuerda no fue formulada sino hasta el siglo XVII, cuando el franciscano frayMarin Mersenne definió algunas reglas sobre la frecuencia de una cuerda vibrando.

Una escala es una serie de notas ordenadas de forma ascendente o descendente, a la primera delas notas se le llama tónica. A continuación se describen las escalas musicales que han ido sur-giendo a lo largo de la historia.

La escala diatónica: Como mínimo desde la Edad Media las escalas que se han utilizado son las escalas diatónicas,que se pueden simbolizar con las teclas blancas del piano. Estas escalas tienen dos intervalosmusicales diferentes: el semitono (entre las teclas blancas, Mi-Fa y Si-Do) y tonos completos(entre las otras parejas de notas adyacentes). Tienen siete notas por octava (la octava nota de estaserie es simplemente la repetición de la primera, pero situada una octava más arriba). Un inter-valo es la diferencia de tono entre dos notas. Mientras el nombre de la nota expresa su tono o fre-cuencia de vibración, el intervalo indica la relación entre una nota y otra.

La escala cromática:A finales del siglo XIX, y dado el hecho del uso cada vez más frecuente de los sostenidos y losbemoles, la música occidental comenzó a basarse no en la escala diatónica, sino en la cromática:12 notas en una octava, separadas por un semitono: Do, Do#, Re, Re#, Mi, Fa, Fa#, Sol, Sol#, La,La#, Si (y nuevamente Do).

La escala temperada:Los problemas de afinación en instrumentos con intervalos fijos (piano, guitarra), hizo construiruna escala en la que el intervalo entre dos notas consecutivas fuese siempre el mismo. Esta es laescala temperada que es la que se emplea en la práctica. Consta también de doce notas, como la

cromática, pero la relación de la frecuencia de una nota y la anterior es siempre igual a .

En 1939 una conferencia internacional fijó la frecuencia de una nota de referencia, a partir de lacual poder deducir todas las demás. La nota y frecuencia escogidas fueron el La4 (La de la 4ªoctava del piano) a 440 Hz. Posteriormente en 1995 fue adoptada por la Organización Internacio-nal de Estandarización (ISO). A esta nota se le llama tono de referencia o tono de cámara y cons-tituye un valor importante dentro del mundo de la música como lo demuestran el nombre dealgunos grupos musicales como el que acompaña a Juan Luis Guerra o el grupo de Noko y loshermanos Trevor y Howard Gray (Apollo 440). Esta nota se emplea también para afinar los ins-

12 2

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.20 Tecnología de los Contenidos Multimedia

trumentos de una orquesta sinfónica. Tras afinar el primer violín o el oboe solista, éste da la notade 440 Hz y los demás instrumentos se afinan en consonancia. Cuando el piano forma parte de laorquesta, es éste el que da la nota de referencia. A partir de esta se pueden deducir todas lasdemás.

Figura 4.13 Teclado estándar de piano con 88 teclas; 52 blancas y 36 negras.

En la nomenclatura anglo-sajona las notas se designan mediante letra mayúsculas, de acuerdocon la siguiente equivalencia:

4.7 DIGITALIZACIÓN DE AUDIO

El sonido es un fenómeno analógico; es una onda continua en el tiempo surgida de las diferenciasde presión del aire que nos rodea y que viaja a través de éste. Con un micrófono se puede generaruna onda eléctrica análoga (o proporcional) a estas diferencias de presión. Esta señal eléctricaanalógica no puede ser almacenada de esta forma en un sistema digital; para ello debemos digita-lizarla, es decir, convertirla en una secuencia de números.

La digitalización de una señal analógica requiere dos procesos. En primer lugar se toman mues-tras de la amplitud de dicha señal a intervalos regulares de tiempo (muestreo) y seguidamente seasigna a las muestras un valor numérico proporcional (cuantificación). Por ello hay dos aspectosa considerar, con qué frecuencia se debe muestrear la señal y con qué precisión se cuantificará suamplitud.

El Teorema de Nyquist establece que “para poder reconstruir completamente una señal a partirde sus muestras digitalizadas, la frecuencia de muestreo debe ser, al menos, el doble de su com-ponente de frecuencia más elevada”.

Por otro lado la precisión depende de varios factores, entre ellos del nivel de ruido que se estédispuesto a tolerar en la señal reconstruida, ya que la propia cuantificación de la señal es fuentede ruido, conocido como ruido de cuantificación.

Los Discos Compactos (CD) de audio contienen información digital de sonidos muestreados a44,1 kHz (el oído humano no puede captar sonidos por encima de los 20 KHz aproximadamente)

y cuantificados utilizando un número binario de 16 dígitos binarios (16 bits, 216=65535 valoresposibles por cada muestra). Como los canales son dos (izquierdo y derecho), el volumen de infor-

La Si Do Re Mi Fa Sol

La Si Do Re Mi Fa Sol

La Si Do Re Mi Fa Sol

La Si Do Re Mi Fa Sol

La Si Do Re Mi Fa Sol

La Si Do Re Mi Fa Sol

La Si Do Re Mi Fa Sol

La Si Do

La#

Do#

Re#

Fa#

Sol#

La#

Do#

Re#

Fa#

Sol#

La#

Do#

Re#

Fa#

Sol#

La#

Do#

Re#

Fa#

Sol#

La#

Do#

Re#

Fa#

Sol#

La#

Do#

Re#

Fa#

Sol#

La#

Do#

Re#

Fa#

Sol#

La#

Do Re Mi Fa Sol La SiC D E F G A B

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.21

mación que es necesario procesar es de 1,4 Mbits/segundo (44100 muestras por segundo x 16bits x 2 canales). Esta inmensa cantidad de información es difícil y costosa de manipular, aúnpara los modernos sistemas digitales actuales. Es necesario, por lo tanto, algún método de reduc-ción o compresión para reducir este volumen de datos.

Suponiendo que no se desea reducir la frecuencia de muestreo ni la precisión de la cuantifica-ción, existen dos tipos de métodos para comprimir audio digital: compresión sin pérdida de infor-mación (lossless) y compresión con pérdida de información (lossy). Ejemplos de codificadoressin pérdida de información son el ZIP de propósito general y específicos para audio el MonkeyAudio y el FLAC (Free Lossless Audio Codec), A finales de la década de los 80 y principios delos 90, un comité internacional denominado MPEG (Moving Pictures Expert Group), trabajandobajo los auspicios de la ISO (International Organization for Standarization) y el IEC (Internatio-nal Engineering Consortium) publicó, bajo la forma de un estándar internacional, un algoritmopara comprimir señales de audio sin pérdidas apreciables en la calidad, pero sí con pérdidas deinformación. Dicho estándar, el ISO/IEC-11172-3 es la tercera parte de un conjunto más ampliode normas que incluyen la compresión de señales de video (ISO/IEC-11172-2) y los sistemasasociados para su sincronización, procesamiento y transmisión (ISO/IEC-11172-1) sobre canalesde comunicación o medios de almacenamiento con una capacidad máxima de 1,4 Mbits/segundo.El documento propone tres niveles (layers) de compresión, de creciente eficiencia y complejidad,con los que se pueden alcanzar relaciones de compresión de hasta 12:1 en el más elaborado detodos (Layer 3).

La norma ha cobrado gran relevancia en el ámbito de Internet; los motivos son dos: la notablecalidad de sonido del audio comprimido y su altísima relación de compresión; lo que permitearchivos de sonido de poco tamaño, de alta calidad y muy fáciles de trasmitir a lo largo de la Red.Este esquema es el empleado por el célebre formato MP3. De hecho sus siglas provienen de lacontración de MPEG-Layer 3.

Puede definirse el sonido como una onda continua que viaja a través del aire; dicha onda estáconstituida por diferencias de presión y tiene las mismas propiedades que una onda normal:reflexión, refracción, difracción, etc..

Los sistemas desarrollados desde la época de Edison hasta finales de la década del '70, aproxima-damente, tienen una característica en común: todos son sistemas analógicos. Es decir, el sistemaprocesa y/o almacena un registro análogo a la onda sonora que se pretende captar. Este registropuede ser mecánico, eléctrico o magnético. Por ejemplo: el surco que recorre una aguja sobre lasuperficie de un disco de vinilo es análogo a la onda de sonido original. Lo mismo sucede con lascintas magnéticas, la mayor o menor magnetización de la cinta es proporcional y análoga a laonda de sonido que excitó al sistema en primera instancia. Hoy en día prevalece otra forma deregistrar y almacenar sonidos: el audio digital.

Como ya se ha indicado la digitalización es un proceso mediante el cual una señal analógica (deaudio por ejemplo) es representada por una secuencia finita de números. Mediante esta secuencia

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.22 Tecnología de los Contenidos Multimedia

de números es posible volver a reconstruir la señal analógica original. La digitalización es espe-cialmente interesante porque los números son más fáciles de tratar por los sistemas electrónicosactuales y, fundamentalmente, porque la pérdida de calidad al transmitir, reproducir, copiar oalmacenar la información digitalizada es nula.

Para digitalizar una señal de audio es necesario conocer algunas de sus características, principal-mente su componente de mayor frecuencia, es decir el ancho de banda de la señal, ya quemediante el teorema de muestreo de Nyquist obtenemos la frecuencia de muestreo mínima nece-saria. Se utiliza la mínima porque dicho teorema establece una condición suficiente que por tantogarantiza la reconstrucción. Utilizar una frecuencia mayor tendría como consecuencia un númeromayor de datos y con ello de coste de almacenamiento, sin aportar nada útil.

El proceso consiste en tomar muestras de la amplitud de la señal a intervalos regulares de tiempo(muestreo) y asignarles un valor numérico proporcional (cuantificación).

Supóngase que se pretende muestrear una onda sinusoidal como la de la figura 4.14.a. Si se tomauna muestra por ciclo de la señal, la información puede indicar que la señal es constante (figura4.14.b). Si se toman muestras a baja velocidad, por ejemplo 1,5 veces

por ciclo de la señal, podría pensarse que es una señal sinusoidal de menor frecuencia (figura4.14.c). Este fenómeno, que se produce cuando la frecuencia de muestreo no es al menos el doblede la mayor frecuencia contenida en la señal a digitalizar recibe el nombre de aliasing.

(a)

(b)

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.23

(c)

Figura 4.14 Muestreo

Como ya se ha dicho el Teorema de Nyquist o teorema del muestreo, demuestra que una señal deancho de banda limitado puede ser totalmente reconstruida a partir de sus muestras si la frecuen-cia de muestreo es, al menos, el doble de la componente de mayor frecuencia de la señal.

Supóngase el ejemplo del oído humano. Es capaz de percibir sonidos de hasta 22 KHz de fre-cuencia, ése es su ancho de banda. Entonces, según el Teorema de Nyquist, para poder digitalizarcorrectamente todo este ancho de banda se deberían tomar muestras al doble de frecuencia. Lafrecuencia de muestreo utilizada en los discos compactos de audio es de 44,1kHz, suficiente parapoder cubrir todo el espectro audible del ser humano y lograr una alta calidad de sonido.

Una vez decidida la velocidad con la que se tomarán las muestras, es necesario medir la amplitudde cada una de ellas y asignarles un número, este proceso se denomina cuantificación.

La cuantificación entonces, consiste en asignarle un valor numérico a la amplitud de cada mues-tra de la señal. Por lo general dicho número se expresa en notación binaria; generalmente se utili-zan 8 o 16 dígitos binarios (8 o 16 bits) para representarlo.

A mayor cantidad de bits, mayor será la precisión con la que se medirá cada muestra; la elecciónde esta precisión depende de varios factores, entre ellos del nivel de ruido que se esté dispuesto atolerar en la señal reconstruida.

En sistemas analógicos parte de la señal es información útil y parte de ella son fluctuacionesaleatorias (ruido). La relación entre las potencias de las dos se denomina Relación Señal/Ruido(SNR):

Esta relación es una medida de la calidad de la señal y generalmente es expresada en Decibelios(dB). Para el caso de señales digitalizadas, la precisión de una muestra está determinada por elnúmero de bits usados para medir su amplitud (por ejemplo 8 o 16 bits). La calidad de la cuanti-zación puede medirse a través de la Relación Señal/Ruido de Cuantización (SQNR). Si se utili-

2

210 log 20logseñal señal

ruido ruido

V VSNRV V

= =

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.24 Tecnología de los Contenidos Multimedia

zan N bits de resolución por cada muestra, la medición de la amplitud de dicha muestra solopodrá tomar 2N valores distintos, en un rango que va de -2N-1 a 2N-1.

El error de cuantización es la diferencia entre el valor real de la señal analógica en un punto y elvalor asignado a la muestra. El mayor (peor) error de cuantización es medio intervalo de cuanti-zación (medio LSB Least Significant Bit).

En otras palabras, cada bit suma 6 dB de resolución. De esta manera, con 16 bits se logra unamáxima Relación Señal/Ruido de Cuantización de 96 dB.

En resumen, la elección de la frecuencia de muestreo depende del ancho de banda de la señal;mientras que la elección de la cantidad de bits de resolución de cada muestra depende del nivelde ruido que estemos dispuestos a tolerar en la señal reconstruida.

Este tipo de proceso de digitalización es más conocido por sus siglas en inglés: PCM, Pulse CodeModulation, o Modulación por Codificación de Pulsos.

A modo de ejemplo, a continuación se muestra en la tabla 4.4 con las diferentes calidades deaudio que pueden conseguirse con diferentes combinaciones de frecuencias de muestreo y reso-luciones de cuantificación:

Tabla 4.4 Distintas calidades de audio y su Data Rate asociado.

Los valores de la columna Data Rate se calculan multiplicando la frecuencia de muestreo por lacantidad de bits por muestra y por la cantidad de canales (mono=1, stereo=2). El resultado es lacantidad de bits que debe procesar el sistema en un segundo y da una idea general del volumende información que debe ser capaz de manejar.

Si bien los sistemas digitales actuales son muy poderosos; capaces de almacenar, procesar ytransmitir grandes cantidades de información en muy poco tiempo y espacio, existen determina-das señales cuyo volumen de información es extremadamente grande y por lo tanto dificultan yencarecen todos estos procesos. Tal es el caso, por ejemplo, del audio almacenado en un DiscoCompacto. Como se observa en la tabla 4.4, el Data Rate de un CD es de aproximadamente 1,5Mbits/segundo, un volumen más que importante de información si pensamos que esto se traduce

1220log 20log 20 log 2 6.02 ( )12

Nseñal

ruido cuantizacion

VSNR N N dbV

= = = =

Calidad

Ancho de Banda

Frecuencia de Muestreo

[KHz]

Bits por muestra Mono/Stereo Data Rate

Teléfono 200–3400 Hz 8 8 mono 64 kbps Radio AM 5,6 KHz 11,025 8 mono 88,2 kbps Radio FM 11 KHz 22,05 16 stereo 705,6 kbps Compact Disc 22,05 KHz 44,1 16 stereo 1,4 Mbps

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

Tecnología de los Contenidos Multimedia 4.25

en unos 650Mbytes para tan sólo 74 minutos de audio (Capacidad de un CD-Audio convencio-nal). Debido a esto, se han desarrollado a lo largo de los años diferentes métodos para reducir ocomprimir la cantidad de datos a procesar por los sistemas digitales.

TEMA 4. LA SEÑAL DE AUDIO UNED - CURSO 2009-2010

4.26 Tecnología de los Contenidos Multimedia