Procesamiento de señales de voz

67
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz

description

Procesamiento de señales de voz. La comunicación oral. ¿Qué es la voz?. Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes). Cuestiones varias:. ¿Qué relación hay entre los fonemas y la señal de voz? - PowerPoint PPT Presentation

Transcript of Procesamiento de señales de voz

Page 1: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR1

Procesamiento de señales de voz

Page 2: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR2

La comunicación oral

Page 3: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR3

¿Qué es la voz?

• Onda de sonido (onda de presión)

• Producida por el aparato fonador

• Utilizada para comunicación (para transmisión de mensajes)

Page 4: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR4

Cuestiones varias:

• ¿Qué relación hay entre los fonemas y la señal de voz?• ¿Y entre otras características y la señal de voz?• ¿Cómo podemos analizar las características de la voz?• ¿Cómo se manifiesta una patología de la voz en la

señal?• ¿Cómo podemos ajustar un sistema de ayuda a la

audición para optimizar la comprensión de la voz?• ¿Cómo podemos interpretar un error en la producción

de un fonema?• ¿Cómo podemos interpretar un error en detección o

identificación de fonemas?

Page 5: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR5

Procesamiento de voz

• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de

locutores• Detección de patologías• Diseño de ayudas para la audición

Page 6: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR6

¿Qué es la voz?

• Producción de la voz

• Percepción de la voz

• Procesamiento de señales

Dificultades al intentar relacionar la señal con las características

Page 7: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR7

Problemas del procesamiento de voz

• Variabilidad– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición

• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz muy

redundante• Multi-interactividad entre niveles:

– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental

• Ruido: perturbación + efecto Lombard

Page 8: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR8

• Variabilidad de las señales de voz

• 40 ms correspondientes al fonema /a/

Page 9: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR9

Modelos de producción de voz

• Órganos de producción de voz– Cavidades infraglóticas– Cavidad laríngea (cuerdas vocales)– Cavidades supraglóticas

Provisión de aireGeneración de la “onda glotal”Filtrado de la onda glotal (diversificación

fonética)

Page 10: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR10

Modelo acústico de producción de voz

• Onda acústica: onda de presión en el aire con c = 350 m/s

• Longitud de onda = c / f– Para 100 Hz, = 3.5 m– Para 4 kHz, = 8.75 cm

• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura

Page 11: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR11

• Paredes no rígidas:– Pérdidas onda acústica

• Forma y sección del tracto vocal varía en el tiempo:– Se producen entre 5 y 20 fonemas por segundo

• Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar

Modelo acústico de producción de voz (II)

Page 12: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR12

Simplificaciones

• Tracto vocal tubo rígido descrito por la “función de área” A(x,t)

• Como > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede

reducir a un problema unidimensional)

• Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

Page 13: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR13

Función de área

Page 14: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR14

Ecuaciones de onda

Page 15: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR15

Condiciones de contorno• Glotis: vibración cuerdas vocales• Labios: p(L)=0• Onda proporcional a u(L)

Solución de las ecuaciones de onda• A se puede suponer constante en el tiempo

(condición de quasi-estacionariedad)• Para A(x) sencilla, soluciones analíticas• Para A(x) compleja, métodos numéricos• Medidas de A(x): Rx, TAC, RMN, articulógraf.

Page 16: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR16

Pérdidas por elasticidad

• mw masa/unid.long;• bw cte. amortiguación• kw cte. recuperación elástica

• Solución para:• L = 17.5 cm• A = cte = 5.0 cm2

Page 17: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR17

u(L,f) / uG(f)

Page 18: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR18

Formantes

• Formantes: resonancias del tracto vocal

• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz

• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

Page 19: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR19

Pérdidas por radiación de onda

• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular

de radio a en plano infinito

• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década

Page 20: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR20

u(L,f) / uG(f)

Page 21: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR21

Solución numérica para función de área correspondiente a fonema /a/

Page 22: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR22

Acoplamiento del tracto nasal

Page 23: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR23

Modelo acústico de producción de voz

• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos

• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década

Page 24: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR24

Modelo digital de producción de voz

Page 25: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR25

Características de la voz

• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

Page 26: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR26

Características de la voz

• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

Page 27: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR27

Clasificación de los fonemas(desde el punto de vista de la producción)

• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas

• Modo de articulación– Vocales– Consonantes

• Lugar de articulación– Vocales– Consonantes

Page 28: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR28

Clasificación de vocales

• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)

• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)

Page 29: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR29

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

fre

q. 2

o fo

rma

nte

(H

z)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Page 30: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR30

Modo de articulación (cons.)

• Oclusivas (b,d,g,p,t,k)

• Fricativas (s,f,z,x,y)

• Africadas (ch)

• Nasales (m,n,ñ)

• Líquidas:– Laterales (l, ll)– Vibrantes (r, R)

Page 31: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR31

Lugar de articulación (cons.)

• Bilabiales (b,p,m)

• Labiodentales (f)

• Linguodentales (t,d)

• Linguointerdentales (z)

• Linguoalveolares (s,n,l,r,R)

• Linguopalatales (y,ch,ñ,ll)

• Linguovelares (k,g,x)

Page 32: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR32

Fonemas del español

Page 33: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR33

Análisis de señales de voz

• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas

Page 34: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR34

Transformada de Fourier

• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal

compleja:

Re(z)

Im(z)

x

yr

Page 35: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR35

Espectro de potencia (1)

Page 36: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR36

Espectro de potencia (2)

Page 37: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR37

Descomposición en componentes freq.

Page 38: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR38

Linealidad de la Transformada de Fourier

Page 39: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR39

Linealidad de la Transformada de Fourier

Page 40: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR40

Filtrado

• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o

respuesta en frecuencia)

filtroexcitación señal filtrada

Page 41: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR41

Filtrado en el tiempo: convolución

Page 42: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR42

Filtrado en frecuencia: multiplicación

Page 43: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR43

Ventanas (multiplicación en tiempo)

Page 44: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR44

Ventanas (multiplicación en tiempo)

Page 45: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR45

Transformada de un tren de pulsos

Page 46: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR46

Transformada de señal periódica

Page 47: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR47

Muestreo de señales: T. de muestreo

Page 48: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR48

Transformada Fourier: Resumen

Page 49: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR49

DFT y FFT

• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)

• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento

digital de señales

Page 50: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR50

La señal de voz

/sal/

Page 51: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR51

La señal de voz

/s/ /a/ /l/

Page 52: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR52

Estacionariedad de la voz

• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-

estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales

– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:

ventanas

Page 53: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR53

Análisis con ventanas

Page 54: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR54

Análisis con ventanas

Page 55: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR55

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 56: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR56

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 57: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR57

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

fre

q. 2

o fo

rma

nte

(H

z)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Page 58: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR58

Espectro de consonantes sonoras

/l/

/R/

/y/

/m/

/n/

/ñ/

Page 59: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR59

Espectro de consonantes fricativas

/s/

/ss/

/sh/

/z/

/f/

/j/

Page 60: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR60

Fonemas no estacionarios

• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/

Page 61: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR61

Espectrograma (representación tiempo - frecuencia)

Page 62: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR62

Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n

Page 63: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR63

Ventana en el espectrograma: 64ms / 8 ms

Page 64: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR64

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto

• Información complementaria:– Tono fundamental– Estructura fina del espectro

Page 65: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR65

Cómo funciona el oído

• Extrae información de la señal de audio.

• Envía la información al cerebro en forma de estímulos nerviosos.

• El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.

Page 66: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR66

Características del oído humano

• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interacción entre

canales

• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB

Page 67: Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR67

Capacidad del oído humano

• Resolución en frecuencia: 1/9 tono:– fo - 1.013*fo 450 Hz - 456 Hz– rango de frecuencia: 20 Hz - 20.000 Hz

• Resolución en el tiempo:– limitado por tiempo relajación de células ciliadas y

terminaciones nerviosas (~400 disparos por seg.)

• Resolución en intensidad:– Mejor de 1 dB

• Mecanismos de adaptación.