Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7...
Transcript of Tecnologías del habla - aholabTecnologías del habla Tratamiento digital de la señal de voz 7...
Tecnologías del habla
Tratamiento digital de la señal de voz 1
TecnologíasTecnologías del del hablahabla
Curso de doctorado 2001/2002Inmaculada Herná[email protected]
Tecnologías del habla
Tratamiento digital de la señal de voz 2
Testu ahots bihurketa
Testu-ahots bihurketaLehenbiziko sistemakErabilerakTAB Sistemen osagaiakProzesadore linguistikoaAhotsaren sintesia
Tecnologías del habla
Tratamiento digital de la señal de voz 3
Lehenbiziko sistemak
Ahotsarensintesiakbetidanik
interes handiaizan du...
Tecnologías del habla
Tratamiento digital de la señal de voz 4
Lehenbiziko sintesi sistemak
1895. Urtean agertu zen lehenengo ahots-sintesi sistema, guztiz mekanikoa (von Kempelen):
Tecnologías del habla
Tratamiento digital de la señal de voz 5
1939.ean, Dudley-ren voder (elektrikoa).Lehenbiziko sintesi sistemak
Tecnologías del habla
Tratamiento digital de la señal de voz 6
1952.ean: Pattern Playback machineLehenbiziko sintesi sistemak
Tecnologías del habla
Tratamiento digital de la señal de voz 7
Lehenbiziko sintesi sistemak
1960. hamarkadan: bi motako sistemak garatzen hasi ziren:
Sintesi artikulatorioa: giza aparatu fonadorearenfisiologia modelatuTerminal analogue synthesizer: ahots-seinalearen bukaerako ezaugarriak ekoiztu (azken finean, abioiek ez dituzte hegalak mugitzen).
Testu-ahots bihurketa egiteko interesa sortu zen. 1970. hamarkadan: ordenadoreetan garatzen eta inplementatzen dira sintesi sistemak.
Tecnologías del habla
Tratamiento digital de la señal de voz 8
Sintesi artikulatorioa
Lehenbiziko sintesi sistemak
Tecnologías del habla
Tratamiento digital de la señal de voz 9
Hizketaren tratamendua
Testu-ahots bihurketaErabilerakLehenbiziko sistemakTAB Sistemen osagaiakProzesadore linguistikoaAhotsaren sintesia
Tecnologías del habla
Tratamiento digital de la señal de voz 10
Testu ahots Bihurketa
Erabilerak:Minusbaliotasunak dituzten pertsonei laguntza-ematea. (Adibidez, Microsoft Reader)Telekomunikazio-zerbitzuak.Ahozko monitorizazioa.Hezkuntza linguistikoa.Ikerketa oinarrizkoa eta aplikatua.
Tecnologías del habla
Tratamiento digital de la señal de voz 11
TAB sistemen osagaiak
Irakurtze prozesua:
Tecnologías del habla
Tratamiento digital de la señal de voz 12
TAB sistemen osagaiak
Tratamendulinguistikoa
AhotsaTestua
Formalismo linguistikoak
Eredumatematikoak
Sintesiarenrobota
Tecnologías del habla
Tratamiento digital de la señal de voz 13
Tratamendu linguistikoa
Zeinuenhedapena:-Digitusekuentziak-Laburdurak, siglak etabar.-zeinu bereziak(%).
Puntuaziozeinueninterpretazioa: “.””,” “;””:””?”!” “-”, “(·)”, etabar.
Part Of Speech
Etiketatze morfologikoa.
Etiketatze sintaktikoa: hitzak batu sintagmak eratzeko.
Grapheme-to-phoneme
-Hiztegianoinarrituta-Arauetanoinarrituta-Basque_SAMPA
Prosodia Erritmo etaintonazioajartzea:-Intonazio egokia-Soinueidagokieniraupena eman.
Transkipziofonetikoa
ModuluprosodikoaNormalizazioa POS
Hiztegia Arauak/Hiztegia Ereduak
Tecnologías del habla
Tratamiento digital de la señal de voz 14
Ahotsaren ekoizpena
Oinarrizko maiztasuna (pitch) neur daiteke:
Tecnologías del habla
Tratamiento digital de la señal de voz 15
Intonazioaren garrantzia
Ama etorri da
Bihar eguraldi ona izango dugu
Ama etorri da?
Bihar eguraldi ona izango dugu?
Intonazioak informazio garrantzitsua ematen digu: adibidez esaldideklaratzaileak eta galderak bereizteko. Hitzak berberak dira, baino intonazioari esker lehenengoa esaldi deklaratzailea eta bigarrena galdera dela dakigu. Ikus dezakezuenez, esaldi deklaratzaileetan f0 kurbak beherantz amaitzen du eta galderetan berriz gorantz.Zati ahoskabeetan ez dago pitch kurbarik, ahots-kordak ez direlako mugitzen soinu hauek ahoskatzerakoan. Adibidez hemen z esaten ari da eta ez dago kurbarik.Intonazioa ez da derrigorrezkoa mezu ulergarri bat sortzeko, baina bai mezu naturala (edo ahalik eta naturalena) lortzeko.
Tecnologías del habla
Tratamiento digital de la señal de voz 16
Prosodia ereduak lortzeko ibilbidea
Ahots datubasea grabatu
Etiketa linguistikoakjarri
Datu basearenintonazioa etiketatu
Parametroak etiketalinguistikoekin lotu
(estatistika)
Intonaziozko eredua
Corpus egokiadisenaitu
Ahots datubasea grabatu
Etiketa linguistikoakjarri
Datu basearensoinuak etiketatu
Soinuen iraupena etiketalinguistikoekin lotu
(estatistika)
Soinuen iraupenaren eredua
Corpus egokiadisenaitu
Tecnologías del habla
Tratamiento digital de la señal de voz 17
Tratamendu linguistikoa
Tratamendulinguistikoa
AhotsaTestua
Formalismo linguistikoak
Eredumatematikoak
Sintesiarenrobota
Fonemak etaprosodia
(fitxategia ikusi)
Tecnologías del habla
Tratamiento digital de la señal de voz 18
Ondorioak
Tratamendu linguistiko modulua garatzeko:Idazteko arauak ondo definituta (laburdurak, atzizkiak, eta abar)Morfologia eta sintaxia aztertzeko sistema automatikoakTranskripzio fonetikoaren eredu bat (arauak)Intonazio ereduakIraupen ereduak
Tecnologías del habla
Tratamiento digital de la señal de voz 19
Ahotsaren sintesia
Tratamendulinguistikoa
AhotsaTestua
Formalismo linguistikoak
Eredumatematikoak
Sintesiarenrobota
Fonemaketa
prosodia
Tecnologías del habla
Tratamiento digital de la señal de voz 20
Ahotsaren sintesia
Formakin sintetizagailuakKateatze teknikak:
Ahots-bidezko erantzun-sistemakPSOLA teknikaMBROLACorpus bidezko sintesia
Tecnologías del habla
Tratamiento digital de la señal de voz 21
Ahotsaren sintesia: formakinak
Formakin sintetizagailuak
Tecnologías del habla
Tratamiento digital de la señal de voz 22
Ahotsaren sintesia: formakinak
Tecnologías del habla
Tratamiento digital de la señal de voz 23
Ahotsaren sintesia: formakinak
Tecnologías del habla
Tratamiento digital de la señal de voz 24
Ahotsaren sintesia: formakinakExcitación:
Forma del pulso glotal de Rosenberg
Tecnologías del habla
Tratamiento digital de la señal de voz 25
Ahotsaren sintesia: formakinak
Formakin sintesia:Oso malgua daFonetikan ikertzeko oso egokiaNaturaltasun gabezia
Tecnologías del habla
Tratamiento digital de la señal de voz 26
Ahots-bidezko erantzun-sistemakLokuzio gutxi daudenean: “Su tabaco, gracias”Esaldien zati bat bakarrik aldakorra denean: “9 4 3 4 5 4 5 4 4 telefonora deitu duzu. Momentu honetan...”Zati aldakorrak, eta kontestu prosodiko desberdinak gutxi izan behar diraAplikazio ezagunenak:
Telefono informaziozko sistemak Butano kontratatzeko sistemaAireportuetan dauden audiotext sistemakGasolindegietan......(zuek asmatu)
Ahotsaren sintesia: kateatze teknikak
Tecnologías del habla
Tratamiento digital de la señal de voz 27
Ahotsaren sintesia: kateatze teknikakPSOLA teknika: Prosodia aldatzeko teknika(Pitch-Synchronous-OverLap-and-Add)
Tecnologías del habla
Tratamiento digital de la señal de voz 28
Ahotsaren sintesia: kateatze teknikakPSOLA teknika erabiltzen, nahi dugun prosodia jar dezakegu.Ideia: ahozko hiztegi bat eraiki (grabatu eta gorde), eta prosodia aldatu, nahi duguna lortzeko:
AAbaborAbade
AbadesaAbadia...
...Ba
BabaBabarrunBabazuza
BabesBabesgabe
....Cabo Verde
Camping....
Prosodia Ereduak
Prosodia aldatuPSOLA-ren
bidez
Aukeratuhitzak etadagozkienereduak.
Abadea etorri zen etxera
/Abadea/-/etorri/-/zen/-/etxera/
Tecnologías del habla
Tratamiento digital de la señal de voz 29
Arazoa: hiztegiaren tamaina (luzea grabatzeko, handia bilatzeko,leku (Mb) asko hartuko du...)5000 hitza * 500ms/hitza=2500s=42min. (40Mbytes) ( 8.000lagin/s eta 2bytes/lagin)
Ahotsaren sintesia: kateatze teknikak
AAbaborAbade
AbadesaAbadia...
...Ba
BabaBabarrunBabazuza
BabesBabesgabe
....Cabo Verde
Camping....
Prosodia Ereduak
Prosodia aldatuPSOLA-ren
bidez
Aukeratuhitzak etadagozkienereduak.
Abadea etorri zen etxera
/Abadea/-/etorri/-/zen/-/etxera/
Tecnologías del habla
Tratamiento digital de la señal de voz 30
Irtenbide bat: hitzak kateatzearen ordez, unitate txikiagoak erabiltzea, adibidez, silabak.Gutxi gora behera, 3000 silaba behar dira hitz guztiak osatzeko.
Ahotsaren sintesia: kateatze teknikak
aakalanarasat...BaBeBiBoBu...
Prosodia Ereduak
Prosodia aldatuPSOLA-ren
bidez
Aukeratusilabak etadagozkienereduak.
Abadea etorri zen etxera
/a//ba//de//a//e//to//rri//zen//e//txe//ra/
Eta, zergatik ez fonemak? (alofonoak, soinuak)
Tecnologías del habla
Tratamiento digital de la señal de voz 31
Ahotsaren sintesia: kateatze teknikak
Fonema gutxi behar dira (ingelesez, 52)Arazoa: koartikulazioa
abBcdDefgGixKLM
Prosodia Ereduak
Prosodia aldatuPSOLA-ren
bidez
Aukeratusoinuak etadagozkienereduak.
Abadea etorri zen etxera
/a//B//a//D//e//a//e//t//o//rr//i/...
Tecnologías del habla
Tratamiento digital de la señal de voz 32
Koartikulazioa: soinu batek alboan dauzkan soinuetan daukan eragina.
Ahotsaren sintesia: kateatze teknikak
F1=727 (daba)
F1=814 (daba)
Tecnologías del habla
Tratamiento digital de la señal de voz 33
Kontsonante askoren formakin baloreak alboan dauzkaten soinuen araberakoak dira. Gehien bat, transizioetan:
Ahotsaren sintesia: kateatze teknikak
Tecnologías del habla
Tratamiento digital de la señal de voz 34
Ahotsaren sintesia: kateatze teknikakHau da, kontsonante eta bokaleak elkartzen diren lekuetan, oso zaila izango da ondo konkatenatzea (etenik gabeko konkatenazioa).Unitate berriak: difonemak
Tecnologías del habla
Tratamiento digital de la señal de voz 35
Ahotsaren sintesia: kateatze teknikak
Difonemak: Abadeak-> /_-a//a-b//b-a//a-d//d-e//e-a//a-k//k-..../: loturak egiten dira egonkorrak diren soinuen zatietan. Lotzeko leku onenak:
herskarien eteneanfrikarien erdian bokaleen erdian
Kasu berezi batzuetan trifonemak erabiltzen dira: ‘rr’ soinua oso ‘delikatua’ da: /erre/,/arra/,...‘ñ’ eta ‘ll’ ...
Batzutan ere, tetrafonemak: ‘abla’, ‘abra’...1000 unitate * 100ms/hitza=100s=1.66min. (1,6Mbytes) ( 8.000lagin/s eta 2bytes/lagin)
Tecnologías del habla
Tratamiento digital de la señal de voz 36
Ahotsaren sintesia: kateatze teknikak
PSOLA teknika polita da, baina arazo larri batzuk dauzka:Unitate guztiak, markatu behar dira ‘periodoz periodo’ pitch-synchronous delako. Oso nekosoa da.Sinkronia hori ez da beti posible lortzea, eta fase etenak gertatzen dira (zarata entzungo dugu).
Konkatenazioari lotuta dauden arazoei aurre egiteko teknika bat erabiltzen da: MBROLA teknika (Multi-Band-Resynthesis-OverLap-and Add)
Unitateak prozesatzen dira, diskontinuitateak leuntzeko.Pitch-markak automatikoki jartzen dira (unitateak sintetikoak direlako).http://tcts.fpms.ac.be/synthesis/mbrola.html
Tecnologías del habla
Tratamiento digital de la señal de voz 37
Ahotsaren sintesia: kateatze teknikak
Kalitatea irizpide bakarra balitz, zein izango litzateke sistema onena?
Konkatenazio gutxi egiten duenaEgiten diren konkatenazioak, beti leku egokienetan egiten dituena.Aldaketa prosodiko gutxi egin behar duena.
Corpusetan oinarritutako teknikak
Tecnologías del habla
Tratamiento digital de la señal de voz 38
Corpusetan oinarritutako teknikak:Edozein luzerako unitatea erabil daiteke. Hau da, unitatea ez dago definituta.Corpusa, grabazio naturala izango da. Soinu guztiak etiketatuta izango ditu. Unitateak (soinuak, difonemak, silabak, hitzak...) testuinguru desberdinetan agertuko dira Corpusean. Horrela, testuinguru desberdinetan sintetizatzeko, ez da beharrezkoa izango aldaketarik egitea (behintzat ez asko).Corpusa gero eta handiagoa izan, gero eta kalitate hobea lortuko da.
Ahotsaren sintesia: kateatze teknikak
Tecnologías del habla
Tratamiento digital de la señal de voz 39
Ahotsaren sintesia: kateatze teknikak
Corpusa: grabazioak, soinuz soinu etiketatuta
Prosodia ereduak
Unitateak aukeratzeko algoritmoakIrizpideak:
•Lotzeko lekua•Prosodia originala == ereduarena
/abadea et-//-torri da//abadea etorri//da//aba-//-adeaet-//-torri da/....
Fonemak etaprosodia
Tecnologías del habla
Tratamiento digital de la señal de voz 40
Amaitzeko
Ahotsaren sintesi sistemak garatzeko:Seinale tratamendu digitalezko algoritmoakAhots datu baseak
Eredu prosodikoak (iraupena, intonazioa, erritmoa) lortzekoSintesi unitateak lortzeko
Tratamendu linguistikoaSintasi eta morfologiaren azterketa automatikoaArauak: transkripzio fonetikoa, azentua