Idiomatikotasunaren karakterizazio automatikoa: izena+aditza automatikoa: izena+aditza konbinazioak

download Idiomatikotasunaren karakterizazio automatikoa: izena+aditza automatikoa: izena+aditza konbinazioak

of 338

 • date post

  13-Feb-2020
 • Category

  Documents

 • view

  4
 • download

  0

Embed Size (px)

Transcript of Idiomatikotasunaren karakterizazio automatikoa: izena+aditza automatikoa: izena+aditza konbinazioak

 • Lengoaia eta Sistema Informatikoak Saila

  Informatika Fakultatea

  Idiomatikotasunaren karakterizazio

  automatikoa: izena+aditza konbinazioak

  Antton Gurrutxaga Hernaizek

  Informatikan Doktore titulua eskuratzeko aurkeztutako

  tesi-txostena

  Donostia, 2014ko ekaina

 • Lengoaia eta Sistema Informatikoak Saila

  Informatika Fakultatea

  Idiomatikotasunaren karakterizazio

  automatikoa: izena+aditza konbinazioak

  Antton Gurrutxaga Hernaizek Iñaki Ale- griaren eta Xabier Artolaren zuzendari- tzapean egindako tesiaren txostena, Eus- kal Herriko Unibertsitatean Informatikan Doktore titulua eskuratzeko aurkeztua

  Donostia, 2014ko ekaina

 • Tesi-lan hau Elhuyar Fundazioaren KONBITZ – Hitz anitzeko unitateen eskuratze automatikoa: hiztegi konbinatorioak eratzeko teknikak eta KON- BITZ2 – Hitz anitzeko unitateen eskuratze automatikoa: idiomatikotasuna- ren karakterizazioa ikerketa-proiektuen testuinguruan egin da. Proiektu ho- riek Eusko Jaurlaritzaren Ekonomia Garapena eta Lehiakortasuna Sailaren SAIOTEK 2011 eta SAIOTEK 2012 ikerkuntzarako programen laguntza ja- so dute.

 • Karmeleri

 • Eskerrak

  Pertsona askok lagundu didate tesi-lan hau egiten, eta guztiak ditut gogoan eskerrak emateko orduan.

  • Iñaki Alegria eta Xabier Artola zuzendariak, nigan konfiantza jarri duzuelako, eta honainoko bidean maisu onenen moduan gidatu nau- zuelako. Ikerketan barrena sortu zaizkidan bidegurutzeetan, aukera onena identifikatzen lagundu didazue, eta helburura begira jarri beti.

  • Ixa taldeko Ainara Estarrona eta Larraitz Uria, eta Elhuyar Fundazio- ko Nerea Areta eta Ainara Ondarra, ebaluaziorako erreferentzia sail- katua osatzeko egindako lanagatik. Zuen parte-hartzea giltzarria izan da ikerkuntza honetan.

  • Elhuyarreko I+Gko Iñaki San Vicente, Perl lengoaiaren inguruko nire zalantzak argitzen eta arazoak askatzen laguntzeagatik, esperimentuen diseinuaz egindako ohar zorrotzengatik, eta malgutasun lexikalerako glosario distribuzionala eratzen erakusteagatik.

  • Elhuyarreko I+Gko Maddalen Lopez de la Calle, Lemur Toolkitez da- kidan guztia erakusteagatik, eta ikergai honetan aplikatzeko moduaz iradokitako ideiengatik.

  • Ixa taldeko Ruben Urizar, ezin konta ahala gai eta alderditan bide- -erakusle izateagatik ez ezik, hiztegi-erreferentzia osatzeko EDBLko baliabideak eskura jartzeagatik ere.

  • Ixa taldeko Oier Lopez de la Calle, antzekotasun distribuzionaleko esperimentuetan LSA aplikatzen laguntzeagatik, eta Infomap softwa- rearen erabileraz emandako argibideengatik.

  • Ixa taldeko Eneko Agirre eta Elhuyarreko I+Gko Eli Pociello, Euskal WordNet erabiltzeko aukera emateagatik eta aplikatzen orientatzea- gatik.

 • ii Eskerrak

  • Ixa taldeko Olatz Arregi, Ikasketa Automatikoan irakasle paregabea izan zaitudalako, eta, zehazki, Weka paketea esperimentuetan aplika- tzen gidatu nauzulako.

  • Ixa taldeko Aitor Soroa, Latexeko ataka gaiztoetan irtenbidea eskain- tzeagatik ez ezik, autonomia handiagoa lortzen ere trebatzeagatik.

  • Yosu Yurramendi, estatistikako hainbat erabaki hartzerakoan emanda- ko aholkuengatik. Idiomatikotasuna neurtzeko neurri estatistikoetan eta ebaluazio-metriketan ez nintzen zu gabe inora iritsiko.

  • Elhuyarreko I+Gko Igor Leturia, Iker Manterola eta Xabier Saralegi. Ezin hemen aipatu zuengandik ikasitako guztia, batez ere termino- erauzketaz eta corpusgintzaz, eta lagungarri gertatu zaizkidan aholku eta iradokizun guztiak. Bikainak, denak ere. Igor, gainera, I+Gko ar- duraduna izan da lan hau egin dudan urteetan. Hitz bakarra: chapeau!

  • Elhuyarreko Hiztegiak+Corpusak ataleko lankideak: Ainara, Amaia, Edurne, Eli, Garbiñe, Klara, Mari eta Sahats. Erraztasun guztiak eman dituzue tesi honek gure jardunean tokia izan dezan.

  • Ixa taldeko hainbat kide: Itziar, Nerea, Kike, Gorka, Arantxa eta Mon- tse. Era askotako laguntza jaso dut zuengandik, eta beti prest egon zarete arazoak konpontzeko edo aholku on bat emateko.

  • Ixa taldeko Arantza Diaz de Ilarraza, Kepa Sarasola eta Xabier Arregi, ikergai hau Ixa taldearen egitekoen artean kontuan hartzeagatik, eta ikerkuntzan jardutera bultzatzeagatik.

  • Elhuyar Fundazioko arduradunak, ikerkuntzaren aldeko apustua egi- teagatik. Horri esker egin ahal izan dut lan hau. Batez ere, Josu Az- tiria, Hizkuntza & Teknologia unitateko zuzendaria, lan hau etorkizu- neko hiztegigintzan erabilgarria izango delako iritzia partekatzeagatik.

  • Bereziki dut gogoan Elhuyar Fundazioan urte askoan lankide izan du- dan Mariaje Jauregi zena: ikergai hau Elhuyarren jardueraren barruan kokatzeko ikuspegia izan zenuen, eta lan honi ekiteko kondizio ezin ho- beak eskaini zenizkidan. Ez daukat ahazteko.

  • Lan hau egin dudan bitartean beti ondoan izan zaitudan hori. Kar- mele, dena erraztu didazu ni honetan aritu ahal izateko, eta egia da: “orrek danak pagatakun ez gazta asko sobrako!”

  Eskerrik asko denoi!

 • Laburtzapenak

  AdjS adjektibo-sintagma AM elkartze-neurria (association measure) AP batez besteko doitasuna (average precision) CCI zuzen sailkatutako instantziak (correctly classified

  instances) CPMI elkarrekiko informazio puntual baldintzazkoa (conditional

  pointwise mutual information) DS determinatzaile-sintagma DSim antzekotasun distribuzionala (distributional similarity) EDBL Euskararen Datu Base Lexikala EH Euskal Hiztegia ELH Elhuyar Hiztegia ElhDB Elhuyarren Datu Base lexikografikoa HAD hitzen adiera-desanbiguazioa HAU hitz anitzeko unitatea HAUL hitz anitzeko unitate lexikala HB Hiztegi Batua HP hizkuntzaren prozesamendua IE informazio-erauzketa (information extraction) IR informazio-berreskuratzea (information retrieval) IS izen-sintagma ITA etiketatzaileen arteko adostasuna (inter-tagger agreement) LF funtzio lexikala (lexical function) LFlex malgutasun lexikala (lexical flexibility) LLR egiantz-arrazoiaren logaritmoa (log-likelihood ratio) LR egiantz-arrazoia (likelihood ratio) LSA ezkutuko semantikaren analisia (latent semantic analysis) MI elkarrekiko informazioa (mutual information)

 • iv Laburtzapenak

  MSFlex malgutasun morfosintaktikoa (morfosyntactic flexibility) OEH Orotariko Euskal Hiztegia PMI elkarrekiko informazio puntuala (pointwise mutual

  information) PS postposizio-sintagma RFR maiztasun erlatiboen arrazoia (relative frequency ratio) SVD balio singularretan deskonposatzea (singular value

  decomposition) SVM sostengu-bektoreen makina (support vector machine) UF unitate fraseologikoa VSM bektore-espazioaren eredua (vector space model) WN WordNet WSM hitz-espazioaren eredua (word space model) XS X sintagma

 • Gaien aurkibidea

  Eskerrak i

  Laburtzapenak iii

  Gaien aurkibidea v

  Irudien zerrenda ix

  Taulen zerrenda xi

  I Tesi-lanaren aurkezpen orokorra 1

  I.1 Sarrera . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

  I.2 Lanaren kokapena . . . . . . . . . . . . . . . . . . . . . . 4

  I.3 Helburuak . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

  I.4 Tesi-txostenaren egitura . . . . . . . . . . . . . . . . . . . 8

  I.5 Argitalpenak . . . . . . . . . . . . . . . . . . . . . . . . . 10

  II UFen idiomatikotasunaren eta haren karakterizazioaren marko teorikoa 13

  II.1 Idiomatikotasuna teoria fraseologikoan . . . . . . . . . . . 13

  II.1.1 Unitate fraseologikoen ezaugarriak . . . . . . . . . 14

  II.1.1.1 Fraseologiaren zenbait muga-arazo . . . . . . . 21

  II.1.1.2 Unitate fraseologiko (UF) eta hitz anitzeko uni- tate (HAU) terminoak . . . . . . . . . . . . . . 22

  II.1.2 Idiomatikotasunaren definizio operatiboa eta osa- gaiak . . . . . . . . . . . . . . . . . . . . . . . . . . 23

  II.1.2.1 Instituzionalizazioa . . . . . . . . . . . . . . . . 25

  II.1.2.2 Ez-konposizionaltasun semantikoa . . . . . . . 26

  II.1.2.3 Finkapena . . . . . . . . . . . . . . . . . . . . . 29

  II.2 Idiomatikotasunaren continuuma eta UFen sailkapena . . 31

  II.2.1 Esapide idiomatikoak . . . . . . . . . . . . . . . . . 36

 • vi GAIEN AURKIBIDEA

  II.2.2 Kolokazioak . . . . . . . . . . . . . . . . . . . . . . 39

  II.2.2.1 Instituzionalizazioa . . . . . . . . . . . . . . . . 43

  II.2.2.2 Polilexikalitatea: egitura eta osaera . . . . . . . 43

  II.2.2.3 Murrizketa lexikala eta konposizionaltasuna . . 46

  II.2.2.4 Malgutasun morfosintaktikoa . . . . . . . . . . 51

  II.2.3 Sailkapen-proposamena . . . . . . . . . . . . . . . . 52

  II.3 Euskarazko fraseologiaren ikuspegi laburra . . . . . . . . . 53

  II.4 Euskarazko izena+aditza osaerako UFak . . . . . . . . . 57

  II.5 Laburpena . . . . . . . . . . . . . . . . . . . . . . . . . . 66

  III UFen erauzketa eta karakterizazio automatikoa 67

  III.1 UFen erauzketa, fraseologia konputazionalaren egitekoe- tako bat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

  III.2 UFen erauzketaren helburuak eta urratsak . . . . . . . . . 68

  III.3 UF hautagaien erauzketa . . . . . . . . . . . . . . . . . . 70

  III.4 Karakterizazio-atazak eta ebaluazioa . . . . . . . . . . . . 73

  III.4.1 Ranking bidezko karakterizazioa . . . . . . . . . . 74

  III.4.2 Sailkapen automatikoaren bidezko karakterizazioa . 75

  III.4.3 Karakterizazio automatikoaren ebaluazioa . . . . . 75

  III.4.3.1 Ebaluazio-lagina . . . . . . . . . . . . . . . . . 76

  III.4.3.2 Erreferentzia edo gold standarda . . . . . . . . 77

  III.4.3.3 Metrika . . . . . . . . . . . . . . . .