Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

30
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/D OC/ Tema4b.ppt Dpto. Señales, Sistemas Dpto. Señales, Sistemas y Radiocomunicaciones y Radiocomunicaciones

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Page 1: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4b.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Page 2: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Page 3: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sintetizadores de VozParamétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios

No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Page 4: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):

Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.

Text-to-phoneconversiontext

Phonestring Synthesis-

by-rule

Synthesisercontrol

parametersSynthesiser

“letter-to-sound”

rules

Exceptionsdictionary

Speakertable

Rules

Linguisticanalysis

Prosodyparameters

Page 5: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

Unvoiced Excitation

VoicedExcitation

A

A

A

A

F1

F2

F3

F4

ExcitationMixers

FormantAmplitude

Control

FormantResonators

VoicingControl

Speech Out+

Page 6: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-

talk

Page 7: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.

Síntesis por concatenación de unidades:

• Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos.

• Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

Page 8: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades

Generación de la base de datos

Lista de Unidades

Voz

Fonemas yProsodia

Informac.unidades

Sintetizador de VozModificación Prosódica

BD Unidadesde síntesis

Concatenación

Síntesis

DecodificaciónDe voz

Segmentaciónde unidades

Corpusde voz

BDUnidades

de VozAnálisis

BD Unidades

Parametriz. Ecualización

Codificaciónde voz

Page 9: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos

...# L L AA T T A A #

Modificación de paramètrosprosódicos

0 200 400 600 800 1000 1200 1400 1600 1800 2000-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

0 500 1000 1500 2000 2500-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

Page 10: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

PSOLA: Pitch Synchronous Overlap and Add

• PSOLA (Charpentier, 1986)

• Most successful current approach to concatenative synthesis

• In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added

• BT’s Laureate is an example

Page 11: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

PSOLA

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Page 12: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Speech modification using PSOLA

• In addition to speech synthesis from segments, there are two other common applications of PSOLA:– Pitch modification– Duration modification

Page 13: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Increasing pitch using PSOLA

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Page 14: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Decreasing pitch using PSOLA

From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Page 15: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Altering Pitch

X

Hanningwindow

=

Original diphone Extractedpitch period

Hannedpitch period‘C_A’

Page 16: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

PSOLA – Pitch Synchronous Overlap and Add

=

Altering Pitch

50% Overlap + Add

Pitch Up > 50%Pitch Down < 50%

Page 17: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

PSOLA strengths and weaknesses

• Strengths– Produces good quality speech

• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by

recording and labelling significant speech corpora from new speakers

• Automatic annotation of corpora using techniques from speech recognition

Page 18: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Hay otros modelos de síntesis: Modelos Armónicos

Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

Page 19: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Modelos Articulatorios:

Page 20: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +

prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

Gran BD deUnidades

de Voz ui

10 – 150 min.

Page 21: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Se define:

Coste de ajuste al objetivo:

Coste de concatenación::

j: diferencia de f0, duración, contexto, ...

wjt: peso de cada factor

iit utC ,

iic uuC ,1

P

jii

tj

tjii

t utcwutC1

),(,

Page 22: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Se define:

Coste de concatenación::

j: distancias en el punto de unión: cepstral, log-energía, f0, ...

wjc: peso de cada factor

iic uuC ,1

Q

jii

cj

iic

uucuuC

11

cj

1 ,w

la BD en existesecuencia la si 0

,

Page 23: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos +

prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

{ui} óptima => mínimo

Gran BD deUnidades

de Voz ui

10 – 150 min. nn utC 11 ,

n

in

cii

cn

iii

tcnn SuCuuCutCuSCutC2

11

111 ),(),(),(,,

Page 24: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Problemas:

Qué factores y entrenamiento de los pesos: wjc, wj

t

Algoritmo de búsqueda de unidades

Page 25: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de VozTratamiento Digital de Voz

Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Page 26: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sistemas y Dificultades

Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos

Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones

Personalización/Generación rápida de nuevas voces

Síntesis Audio-Visual

Page 27: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesSistemas Comerciales (castellano):

Telefónica Investigación y Desarrollohttp://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...

ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm

ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique (http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)

Page 28: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sistemas y Dificultades

Sistemas Investigación y Distribución Libre: Festivalhttp://www.cstr.ed.ac.uk/projects/festival/MBROLAhttp://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php

Otros Contextos: MPEG-4 & MPEG-7Microsoft Speech API

Page 29: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual

Identificación de Sonidos(Reconocedor de Habla)

sonidos --> visemas

Audio(voz pre-grabada)

Conversor Texto-VozTexto

Animación

Audio

visemas

• Animación 2D o 3D

• Composición de Vídeo

Page 30: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesOtros Contextos: Síntesis Audio-Visual

Haptekhttp://www.haptek.comFaceWorkshttp://interface.digital.com/ Lipsync(aplicaciones http://www.annosoft.com/index.htm)

Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/

Web bots: Alicebot(aplicaciones http://www.alicebot.org/)