Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7...

40
Tecnologías Tecnologías del del habla habla Curso de doctorado 2001/2002 Inmaculada Hernáez [email protected]

Transcript of Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7...

Page 1: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 1

TecnologíasTecnologías del del hablahabla

Curso de doctorado 2001/2002Inmaculada Herná[email protected]

Page 2: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 2

Testu ahots bihurketa

Testu-ahots bihurketaLehenbiziko sistemakErabilerakTAB Sistemen osagaiakProzesadore linguistikoaAhotsaren sintesia

Page 3: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 3

Lehenbiziko sistemak

Ahotsarensintesiakbetidanik

interes handiaizan du...

Page 4: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 4

Lehenbiziko sintesi sistemak

1895. Urtean agertu zen lehenengo ahots-sintesi sistema, guztiz mekanikoa (von Kempelen):

Page 5: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 5

1939.ean, Dudley-ren voder (elektrikoa).Lehenbiziko sintesi sistemak

Page 6: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 6

1952.ean: Pattern Playback machineLehenbiziko sintesi sistemak

Page 7: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 7

Lehenbiziko sintesi sistemak

1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Sintesi artikulatorioa: giza aparatu fonadorearenfisiologia modelatuTerminal analogue synthesizer: ahots-seinalearen bukaerako ezaugarriak ekoiztu (azken finean, abioiek ez dituzte hegalak mugitzen).

Testu-ahots bihurketa egiteko interesa sortu zen. 1970. hamarkadan: ordenadoreetan garatzen eta inplementatzen dira sintesi sistemak.

Page 8: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 8

Sintesi artikulatorioa

Lehenbiziko sintesi sistemak

Page 9: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 9

Hizketaren tratamendua

Testu-ahots bihurketaErabilerakLehenbiziko sistemakTAB Sistemen osagaiakProzesadore linguistikoaAhotsaren sintesia

Page 10: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 10

Testu ahots Bihurketa

Erabilerak:Minusbaliotasunak dituzten pertsonei laguntza-ematea. (Adibidez, Microsoft Reader)Telekomunikazio-zerbitzuak.Ahozko monitorizazioa.Hezkuntza linguistikoa.Ikerketa oinarrizkoa eta aplikatua.

Page 11: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 11

TAB sistemen osagaiak

Irakurtze prozesua:

Page 12: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 12

TAB sistemen osagaiak

Tratamendulinguistikoa

AhotsaTestua

Formalismo linguistikoak

Eredumatematikoak

Sintesiarenrobota

Page 13: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 13

Tratamendu linguistikoa

Zeinuenhedapena:-Digitusekuentziak-Laburdurak, siglak etabar.-zeinu bereziak(%).

Puntuaziozeinueninterpretazioa: “.””,” “;””:””?”!” “-”, “(·)”, etabar.

Part Of Speech

Etiketatze morfologikoa.

Etiketatze sintaktikoa: hitzak batu sintagmak eratzeko.

Grapheme-to-phoneme

-Hiztegianoinarrituta-Arauetanoinarrituta-Basque_SAMPA

Prosodia Erritmo etaintonazioajartzea:-Intonazio egokia-Soinueidagokieniraupena eman.

Transkipziofonetikoa

ModuluprosodikoaNormalizazioa POS

Hiztegia Arauak/Hiztegia Ereduak

Page 14: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 14

Ahotsaren ekoizpena

Oinarrizko maiztasuna (pitch) neur daiteke:

Page 15: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 15

Intonazioaren garrantzia

Ama etorri da

Bihar eguraldi ona izango dugu

Ama etorri da?

Bihar eguraldi ona izango dugu?

Intonazioak informazio garrantzitsua ematen digu: adibidez esaldideklaratzaileak eta galderak bereizteko. Hitzak berberak dira, baino intonazioari esker lehenengoa esaldi deklaratzailea eta bigarrena galdera dela dakigu. Ikus dezakezuenez, esaldi deklaratzaileetan f0 kurbak beherantz amaitzen du eta galderetan berriz gorantz.Zati ahoskabeetan ez dago pitch kurbarik, ahots-kordak ez direlako mugitzen soinu hauek ahoskatzerakoan. Adibidez hemen z esaten ari da eta ez dago kurbarik.Intonazioa ez da derrigorrezkoa mezu ulergarri bat sortzeko, baina bai mezu naturala (edo ahalik eta naturalena) lortzeko.

Page 16: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 16

Prosodia ereduak lortzeko ibilbidea

Ahots datubasea grabatu

Etiketa linguistikoakjarri

Datu basearenintonazioa etiketatu

Parametroak etiketalinguistikoekin lotu

(estatistika)

Intonaziozko eredua

Corpus egokiadisenaitu

Ahots datubasea grabatu

Etiketa linguistikoakjarri

Datu basearensoinuak etiketatu

Soinuen iraupena etiketalinguistikoekin lotu

(estatistika)

Soinuen iraupenaren eredua

Corpus egokiadisenaitu

Page 17: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 17

Tratamendu linguistikoa

Tratamendulinguistikoa

AhotsaTestua

Formalismo linguistikoak

Eredumatematikoak

Sintesiarenrobota

Fonemak etaprosodia

(fitxategia ikusi)

Page 18: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 18

Ondorioak

Tratamendu linguistiko modulua garatzeko:Idazteko arauak ondo definituta (laburdurak, atzizkiak, eta abar)Morfologia eta sintaxia aztertzeko sistema automatikoakTranskripzio fonetikoaren eredu bat (arauak)Intonazio ereduakIraupen ereduak

Page 19: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 19

Ahotsaren sintesia

Tratamendulinguistikoa

AhotsaTestua

Formalismo linguistikoak

Eredumatematikoak

Sintesiarenrobota

Fonemaketa

prosodia

Page 20: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 20

Ahotsaren sintesia

Formakin sintetizagailuakKateatze teknikak:

Ahots-bidezko erantzun-sistemakPSOLA teknikaMBROLACorpus bidezko sintesia

Page 21: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 21

Ahotsaren sintesia: formakinak

Formakin sintetizagailuak

Page 22: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 22

Ahotsaren sintesia: formakinak

Page 23: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 23

Ahotsaren sintesia: formakinak

Page 24: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 24

Ahotsaren sintesia: formakinakExcitación:

Forma del pulso glotal de Rosenberg

Page 25: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 25

Ahotsaren sintesia: formakinak

Formakin sintesia:Oso malgua daFonetikan ikertzeko oso egokiaNaturaltasun gabezia

Page 26: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 26

Ahots-bidezko erantzun-sistemakLokuzio gutxi daudenean: “Su tabaco, gracias”Esaldien zati bat bakarrik aldakorra denean: “9 4 3 4 5 4 5 4 4 telefonora deitu duzu. Momentu honetan...”Zati aldakorrak, eta kontestu prosodiko desberdinak gutxi izan behar diraAplikazio ezagunenak:

Telefono informaziozko sistemak Butano kontratatzeko sistemaAireportuetan dauden audiotext sistemakGasolindegietan......(zuek asmatu)

Ahotsaren sintesia: kateatze teknikak

Page 27: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 27

Ahotsaren sintesia: kateatze teknikakPSOLA teknika: Prosodia aldatzeko teknika(Pitch-Synchronous-OverLap-and-Add)

Page 28: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 28

Ahotsaren sintesia: kateatze teknikakPSOLA teknika erabiltzen, nahi dugun prosodia jar dezakegu.Ideia: ahozko hiztegi bat eraiki (grabatu eta gorde), eta prosodia aldatu, nahi duguna lortzeko:

AAbaborAbade

AbadesaAbadia...

...Ba

BabaBabarrunBabazuza

BabesBabesgabe

....Cabo Verde

Camping....

Prosodia Ereduak

Prosodia aldatuPSOLA-ren

bidez

Aukeratuhitzak etadagozkienereduak.

Abadea etorri zen etxera

/Abadea/-/etorri/-/zen/-/etxera/

Page 29: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 29

Arazoa: hiztegiaren tamaina (luzea grabatzeko, handia bilatzeko,leku (Mb) asko hartuko du...)5000 hitza * 500ms/hitza=2500s=42min. (40Mbytes) ( 8.000lagin/s eta 2bytes/lagin)

Ahotsaren sintesia: kateatze teknikak

AAbaborAbade

AbadesaAbadia...

...Ba

BabaBabarrunBabazuza

BabesBabesgabe

....Cabo Verde

Camping....

Prosodia Ereduak

Prosodia aldatuPSOLA-ren

bidez

Aukeratuhitzak etadagozkienereduak.

Abadea etorri zen etxera

/Abadea/-/etorri/-/zen/-/etxera/

Page 30: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 30

Irtenbide bat: hitzak kateatzearen ordez, unitate txikiagoak erabiltzea, adibidez, silabak.Gutxi gora behera, 3000 silaba behar dira hitz guztiak osatzeko.

Ahotsaren sintesia: kateatze teknikak

aakalanarasat...BaBeBiBoBu...

Prosodia Ereduak

Prosodia aldatuPSOLA-ren

bidez

Aukeratusilabak etadagozkienereduak.

Abadea etorri zen etxera

/a//ba//de//a//e//to//rri//zen//e//txe//ra/

Eta, zergatik ez fonemak? (alofonoak, soinuak)

Page 31: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 31

Ahotsaren sintesia: kateatze teknikak

Fonema gutxi behar dira (ingelesez, 52)Arazoa: koartikulazioa

abBcdDefgGixKLM

Prosodia Ereduak

Prosodia aldatuPSOLA-ren

bidez

Aukeratusoinuak etadagozkienereduak.

Abadea etorri zen etxera

/a//B//a//D//e//a//e//t//o//rr//i/...

Page 32: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 32

Koartikulazioa: soinu batek alboan dauzkan soinuetan daukan eragina.

Ahotsaren sintesia: kateatze teknikak

F1=727 (daba)

F1=814 (daba)

Page 33: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 33

Kontsonante askoren formakin baloreak alboan dauzkaten soinuen araberakoak dira. Gehien bat, transizioetan:

Ahotsaren sintesia: kateatze teknikak

Page 34: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 34

Ahotsaren sintesia: kateatze teknikakHau da, kontsonante eta bokaleak elkartzen diren lekuetan, oso zaila izango da ondo konkatenatzea (etenik gabeko konkatenazioa).Unitate berriak: difonemak

Page 35: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 35

Ahotsaren sintesia: kateatze teknikak

Difonemak: Abadeak-> /_-a//a-b//b-a//a-d//d-e//e-a//a-k//k-..../: loturak egiten dira egonkorrak diren soinuen zatietan. Lotzeko leku onenak:

herskarien eteneanfrikarien erdian bokaleen erdian

Kasu berezi batzuetan trifonemak erabiltzen dira: ‘rr’ soinua oso ‘delikatua’ da: /erre/,/arra/,...‘ñ’ eta ‘ll’ ...

Batzutan ere, tetrafonemak: ‘abla’, ‘abra’...1000 unitate * 100ms/hitza=100s=1.66min. (1,6Mbytes) ( 8.000lagin/s eta 2bytes/lagin)

Page 36: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 36

Ahotsaren sintesia: kateatze teknikak

PSOLA teknika polita da, baina arazo larri batzuk dauzka:Unitate guztiak, markatu behar dira ‘periodoz periodo’ pitch-synchronous delako. Oso nekosoa da.Sinkronia hori ez da beti posible lortzea, eta fase etenak gertatzen dira (zarata entzungo dugu).

Konkatenazioari lotuta dauden arazoei aurre egiteko teknika bat erabiltzen da: MBROLA teknika (Multi-Band-Resynthesis-OverLap-and Add)

Unitateak prozesatzen dira, diskontinuitateak leuntzeko.Pitch-markak automatikoki jartzen dira (unitateak sintetikoak direlako).http://tcts.fpms.ac.be/synthesis/mbrola.html

Page 37: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 37

Ahotsaren sintesia: kateatze teknikak

Kalitatea irizpide bakarra balitz, zein izango litzateke sistema onena?

Konkatenazio gutxi egiten duenaEgiten diren konkatenazioak, beti leku egokienetan egiten dituena.Aldaketa prosodiko gutxi egin behar duena.

Corpusetan oinarritutako teknikak

Page 38: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 38

Corpusetan oinarritutako teknikak:Edozein luzerako unitatea erabil daiteke. Hau da, unitatea ez dago definituta.Corpusa, grabazio naturala izango da. Soinu guztiak etiketatuta izango ditu. Unitateak (soinuak, difonemak, silabak, hitzak...) testuinguru desberdinetan agertuko dira Corpusean. Horrela, testuinguru desberdinetan sintetizatzeko, ez da beharrezkoa izango aldaketarik egitea (behintzat ez asko).Corpusa gero eta handiagoa izan, gero eta kalitate hobea lortuko da.

Ahotsaren sintesia: kateatze teknikak

Page 39: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 39

Ahotsaren sintesia: kateatze teknikak

Corpusa: grabazioak, soinuz soinu etiketatuta

Prosodia ereduak

Unitateak aukeratzeko algoritmoakIrizpideak:

•Lotzeko lekua•Prosodia originala == ereduarena

/abadea et-//-torri da//abadea etorri//da//aba-//-adeaet-//-torri da/....

Fonemak etaprosodia

Page 40: Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7 Lehenbiziko sintesi sistemak 1960. hamarkadan: bi motako sistemak garatzen hasi ziren:

Tecnologías del habla

Tratamiento digital de la señal de voz 40

Amaitzeko

Ahotsaren sintesi sistemak garatzeko:Seinale tratamendu digitalezko algoritmoakAhots datu baseak

Eredu prosodikoak (iraupena, intonazioa, erritmoa) lortzekoSintesi unitateak lortzeko

Tratamendu linguistikoaSintasi eta morfologiaren azterketa automatikoaArauak: transkripzio fonetikoa, azentua