Post on 17-Jan-2016
description
Lab #2 DSP: Short-time Fourier Transform Andrés Nicolás Ballesteros Villamizar
20101005053 – Ing. Electrónica
Brayan Andrés Tapiero Vanegas
20101005023 – Ing. Electrónica
Universidad Distrital Francisco José de Caldas
I. INTRODUCCIÓN
Una herramienta implementada a la hora de observar de manera detallada el comportamiento de
una serie de tiempo, o una señal, es la Transformada de Fourier, cuyo valor absoluto describe en
forma de amplitud las componentes frecuenciales de dicha función y la fase, si se entra a mirar el
argumento de la operación.
La transformada de Fourier resulta una herramienta no tan adecuada a la hora de realizar
procesamiento de señales, ya que concentra toda la información en frecuencia de la función, pero
descarta todo lo relacionado con el tiempo, lo que no permite observar, como se espera, las
características de la serie en este dominio. Para realizar un análisis adecuado, que permita observar
las componentes de frecuencia y tiempo al tiempo se puede recurrir al Short-time Fourier
Transform, que es una operación similar, implementada para determinar componentes frecuenciales
y de fase de secciones pequeñas de una señal.
La transformada de Fourier se define como:
𝐹𝑇(𝑡) = ∫ 𝑥(𝑡) ∗ 𝑒−𝑗2𝜋𝑓𝑡 ∗ 𝑑𝑡∞
−∞
Mientras que en el ST Analysis (Short-time Analysis) se declara una ventana de tiempo a
analizar, que puede ser de tipo Hamming (como se implementó en el laboratorio #1) dada como
𝑔(𝑛) = 0,54 − 0,46 ∗ 𝐶𝑜𝑠 (2𝜋𝑛
𝑁−1), y queda entonces su transformada de Fourier definida como:
𝑆𝑇𝐹𝑇(𝑡, 𝜏) = ∫ 𝑥(𝑡) ∗ 𝑔(𝑡 − 𝜏) ∗ 𝑒−𝑗2𝜋𝑓𝑡 ∗ 𝑑𝑡∞
−∞
Donde se puede observar que únicamente se contemplan los componentes de frencuencia en un
instante de tiempo, determinado por la ventana, que debería envolver la señal en dicho espacio. Las
ventanas (como en el laboratorio #1) poseen 3 características principales, el tamaño (𝑉), la
separación de ellas (𝐷) y la distancia del espacio a trabajar (𝐿). De acuerdo con lo cual se puede
obtener el número de ventanas 𝑁 = 𝑐𝑒𝑖𝑙((𝐿 − 𝑉)/𝐷).
Una de las maneras de representar este tipo de análisis es mediante un espectrograma, cuyos ejes
son las ventanas de tiempo, la frecuencia y la magnitud (que puede ser representada en dBs). Ya ha
sido visto cómo se puede obtener este último valor, ahora, para el tiempo y la frecuencia se realizan
las siguientes operaciones:
𝑡𝑗 =(𝑗 − 1)𝐷 + 𝑉
2⁄
𝑓𝑠
𝑠𝑒𝑔 𝑦 𝑓𝑘 =𝐾
𝑉𝑓𝑠 𝐻𝑧
; 𝑑𝑜𝑛𝑑𝑒 𝑓𝑠 𝑒𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜 𝑑𝑒 𝑙𝑎 𝑠𝑒ñ𝑎𝑙
II. ESPECTROGRAMA SEÑAL DE VOZ FEMENINA
En este reporte se presenta el espectrograma (ST analysis) de la señal de voz femenina, junto con
observaciones realizadas al variar el tamaño y separación de las ventanas implementadas.
Debido a que la señal de voz se considera una señal de naturaleza no estacionaria y que por ende
posee información, se hace necesario realizar el respectivo análisis de esta misma a través de
ventanas, para lo cual se implementa una de tipo Hamming (ver sección anterior).
La señal consta de 39120 muestras, la frecuencia de muestreo corresponde a 8000 muestras por
segundo y el número de bits por muestra es 16. La clasificación se desea realizar en ventanas de
50ms de duración, es decir, ventanas de 400 muestras, y cada ventana a su vez se ha separado entre
si 200 muestras. Luego, el número de ventanas es de 194. Una vez determinado el número de
ventanas, se procede a realizar el espectrograma de la señal. La Figura 2, muestra los resultados
respectivamente.
Fig. 2 Espectrograma de la señal con ventanas de 400 muestras separadas por 200 muestras.
Al experimentar un poco variando el tamaño de la ventana y la separación de estas se puede
observar lo siguiente:
Fig. 3 Espectrograma de la señal con diferentes ventanas y diferentes separaciones.
Donde se pueden notar diferencias, pequeñas en algunos y en otras significativas, con respecto al de
referencia (el de la mitad), lo que podría indicar mayor o menor cantidad de información
recolectada en frecuencia para ese instante de tiempo que abarca la ventana.
III. CONCLUSIONES
La STFT (short-time Fourier transform) propone una solución al problema de una única gráfica
para mostrar todos los componentes de frecuencia para una señal completa, ésta son transformadas
de Fourier en instantes de tiempo más cortos, determinado por una ventana de cierta forma
(Hamming). Al variar el tamaño de dichas ventanas y su distancia, se puede ver que las
concentraciones de amplitud sobre ciertas frecuencias en espacios determinados se incrementan o
disminuyen, permitiendo notar diferencias, un poco menos difíciles de entender, entre una letra y
otra, para algunas de las combinaciones. Por ejemplo, para las ventanas más grandes con
separaciones más grandes, componentes de magnitud en momentos de silencio se filtran, haciendo
más difícil su diferenciación (mostrando un color más oscuro). Otro es el caso de las ventanas más
pequeñas con separaciones también de esta medida, en las que en los instantes de tiempo se
observan componentes de todas las frecuencias, lo que hace difícil su diferenciación del resto.
Por lo observado se puede inferir que se presenta un problema de resolución entre frecuencia y
tiempo, para lo cual se debe buscar un valor intermedio entre ambas variables que permita la mejor
observación posible de las concentraciones de amplitud dada por la pronunciación de cada letra.
BIBLIOGRAFÍA
ALZATE, Marco Aurelio. Apuntes de clase. 2015
FLORES, Andrés. Reconocimiento de palabras aisladas en castellano. Inictel, Dirección de
investigación y desarrollo; 1993.