Idiomatikotasunaren karakterizazio automatikoa: izena+aditza automatikoa: izena+aditza konbinazioak

download Idiomatikotasunaren karakterizazio automatikoa: izena+aditza automatikoa: izena+aditza konbinazioak

of 338

  • date post

    13-Feb-2020
  • Category

    Documents

  • view

    4
  • download

    0

Embed Size (px)

Transcript of Idiomatikotasunaren karakterizazio automatikoa: izena+aditza automatikoa: izena+aditza konbinazioak

  • Lengoaia eta Sistema Informatikoak Saila

    Informatika Fakultatea

    Idiomatikotasunaren karakterizazio

    automatikoa: izena+aditza konbinazioak

    Antton Gurrutxaga Hernaizek

    Informatikan Doktore titulua eskuratzeko aurkeztutako

    tesi-txostena

    Donostia, 2014ko ekaina

  • Lengoaia eta Sistema Informatikoak Saila

    Informatika Fakultatea

    Idiomatikotasunaren karakterizazio

    automatikoa: izena+aditza konbinazioak

    Antton Gurrutxaga Hernaizek Iñaki Ale- griaren eta Xabier Artolaren zuzendari- tzapean egindako tesiaren txostena, Eus- kal Herriko Unibertsitatean Informatikan Doktore titulua eskuratzeko aurkeztua

    Donostia, 2014ko ekaina

  • Tesi-lan hau Elhuyar Fundazioaren KONBITZ – Hitz anitzeko unitateen eskuratze automatikoa: hiztegi konbinatorioak eratzeko teknikak eta KON- BITZ2 – Hitz anitzeko unitateen eskuratze automatikoa: idiomatikotasuna- ren karakterizazioa ikerketa-proiektuen testuinguruan egin da. Proiektu ho- riek Eusko Jaurlaritzaren Ekonomia Garapena eta Lehiakortasuna Sailaren SAIOTEK 2011 eta SAIOTEK 2012 ikerkuntzarako programen laguntza ja- so dute.

  • Karmeleri

  • Eskerrak

    Pertsona askok lagundu didate tesi-lan hau egiten, eta guztiak ditut gogoan eskerrak emateko orduan.

    • Iñaki Alegria eta Xabier Artola zuzendariak, nigan konfiantza jarri duzuelako, eta honainoko bidean maisu onenen moduan gidatu nau- zuelako. Ikerketan barrena sortu zaizkidan bidegurutzeetan, aukera onena identifikatzen lagundu didazue, eta helburura begira jarri beti.

    • Ixa taldeko Ainara Estarrona eta Larraitz Uria, eta Elhuyar Fundazio- ko Nerea Areta eta Ainara Ondarra, ebaluaziorako erreferentzia sail- katua osatzeko egindako lanagatik. Zuen parte-hartzea giltzarria izan da ikerkuntza honetan.

    • Elhuyarreko I+Gko Iñaki San Vicente, Perl lengoaiaren inguruko nire zalantzak argitzen eta arazoak askatzen laguntzeagatik, esperimentuen diseinuaz egindako ohar zorrotzengatik, eta malgutasun lexikalerako glosario distribuzionala eratzen erakusteagatik.

    • Elhuyarreko I+Gko Maddalen Lopez de la Calle, Lemur Toolkitez da- kidan guztia erakusteagatik, eta ikergai honetan aplikatzeko moduaz iradokitako ideiengatik.

    • Ixa taldeko Ruben Urizar, ezin konta ahala gai eta alderditan bide- -erakusle izateagatik ez ezik, hiztegi-erreferentzia osatzeko EDBLko baliabideak eskura jartzeagatik ere.

    • Ixa taldeko Oier Lopez de la Calle, antzekotasun distribuzionaleko esperimentuetan LSA aplikatzen laguntzeagatik, eta Infomap softwa- rearen erabileraz emandako argibideengatik.

    • Ixa taldeko Eneko Agirre eta Elhuyarreko I+Gko Eli Pociello, Euskal WordNet erabiltzeko aukera emateagatik eta aplikatzen orientatzea- gatik.

  • ii Eskerrak

    • Ixa taldeko Olatz Arregi, Ikasketa Automatikoan irakasle paregabea izan zaitudalako, eta, zehazki, Weka paketea esperimentuetan aplika- tzen gidatu nauzulako.

    • Ixa taldeko Aitor Soroa, Latexeko ataka gaiztoetan irtenbidea eskain- tzeagatik ez ezik, autonomia handiagoa lortzen ere trebatzeagatik.

    • Yosu Yurramendi, estatistikako hainbat erabaki hartzerakoan emanda- ko aholkuengatik. Idiomatikotasuna neurtzeko neurri estatistikoetan eta ebaluazio-metriketan ez nintzen zu gabe inora iritsiko.

    • Elhuyarreko I+Gko Igor Leturia, Iker Manterola eta Xabier Saralegi. Ezin hemen aipatu zuengandik ikasitako guztia, batez ere termino- erauzketaz eta corpusgintzaz, eta lagungarri gertatu zaizkidan aholku eta iradokizun guztiak. Bikainak, denak ere. Igor, gainera, I+Gko ar- duraduna izan da lan hau egin dudan urteetan. Hitz bakarra: chapeau!

    • Elhuyarreko Hiztegiak+Corpusak ataleko lankideak: Ainara, Amaia, Edurne, Eli, Garbiñe, Klara, Mari eta Sahats. Erraztasun guztiak eman dituzue tesi honek gure jardunean tokia izan dezan.

    • Ixa taldeko hainbat kide: Itziar, Nerea, Kike, Gorka, Arantxa eta Mon- tse. Era askotako laguntza jaso dut zuengandik, eta beti prest egon zarete arazoak konpontzeko edo aholku on bat emateko.

    • Ixa taldeko Arantza Diaz de Ilarraza, Kepa Sarasola eta Xabier Arregi, ikergai hau Ixa taldearen egitekoen artean kontuan hartzeagatik, eta ikerkuntzan jardutera bultzatzeagatik.

    • Elhuyar Fundazioko arduradunak, ikerkuntzaren aldeko apustua egi- teagatik. Horri esker egin ahal izan dut lan hau. Batez ere, Josu Az- tiria, Hizkuntza & Teknologia unitateko zuzendaria, lan hau etorkizu- neko hiztegigintzan erabilgarria izango delako iritzia partekatzeagatik.

    • Bereziki dut gogoan Elhuyar Fundazioan urte askoan lankide izan du- dan Mariaje Jauregi zena: ikergai hau Elhuyarren jardueraren barruan kokatzeko ikuspegia izan zenuen, eta lan honi ekiteko kondizio ezin ho- beak eskaini zenizkidan. Ez daukat ahazteko.

    • Lan hau egin dudan bitartean beti ondoan izan zaitudan hori. Kar- mele, dena erraztu didazu ni honetan aritu ahal izateko, eta egia da: “orrek danak pagatakun ez gazta asko sobrako!”

    Eskerrik asko denoi!

  • Laburtzapenak

    AdjS adjektibo-sintagma AM elkartze-neurria (association measure) AP batez besteko doitasuna (average precision) CCI zuzen sailkatutako instantziak (correctly classified

    instances) CPMI elkarrekiko informazio puntual baldintzazkoa (conditional

    pointwise mutual information) DS determinatzaile-sintagma DSim antzekotasun distribuzionala (distributional similarity) EDBL Euskararen Datu Base Lexikala EH Euskal Hiztegia ELH Elhuyar Hiztegia ElhDB Elhuyarren Datu Base lexikografikoa HAD hitzen adiera-desanbiguazioa HAU hitz anitzeko unitatea HAUL hitz anitzeko unitate lexikala HB Hiztegi Batua HP hizkuntzaren prozesamendua IE informazio-erauzketa (information extraction) IR informazio-berreskuratzea (information retrieval) IS izen-sintagma ITA etiketatzaileen arteko adostasuna (inter-tagger agreement) LF funtzio lexikala (lexical function) LFlex malgutasun lexikala (lexical flexibility) LLR egiantz-arrazoiaren logaritmoa (log-likelihood ratio) LR egiantz-arrazoia (likelihood ratio) LSA ezkutuko semantikaren analisia (latent semantic analysis) MI elkarrekiko informazioa (mutual information)

  • iv Laburtzapenak

    MSFlex malgutasun morfosintaktikoa (morfosyntactic flexibility) OEH Orotariko Euskal Hiztegia PMI elkarrekiko informazio puntuala (pointwise mutual

    information) PS postposizio-sintagma RFR maiztasun erlatiboen arrazoia (relative frequency ratio) SVD balio singularretan deskonposatzea (singular value

    decomposition) SVM sostengu-bektoreen makina (support vector machine) UF unitate fraseologikoa VSM bektore-espazioaren eredua (vector space model) WN WordNet WSM hitz-espazioaren eredua (word space model) XS X sintagma

  • Gaien aurkibidea

    Eskerrak i

    Laburtzapenak iii

    Gaien aurkibidea v

    Irudien zerrenda ix

    Taulen zerrenda xi

    I Tesi-lanaren aurkezpen orokorra 1

    I.1 Sarrera . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    I.2 Lanaren kokapena . . . . . . . . . . . . . . . . . . . . . . 4

    I.3 Helburuak . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    I.4 Tesi-txostenaren egitura . . . . . . . . . . . . . . . . . . . 8

    I.5 Argitalpenak . . . . . . . . . . . . . . . . . . . . . . . . . 10

    II UFen idiomatikotasunaren eta haren karakterizazioaren marko teorikoa 13

    II.1 Idiomatikotasuna teoria fraseologikoan . . . . . . . . . . . 13

    II.1.1 Unitate fraseologikoen ezaugarriak . . . . . . . . . 14

    II.1.1.1 Fraseologiaren zenbait muga-arazo . . . . . . . 21

    II.1.1.2 Unitate fraseologiko (UF) eta hitz anitzeko uni- tate (HAU) terminoak . . . . . . . . . . . . . . 22

    II.1.2 Idiomatikotasunaren definizio operatiboa eta osa- gaiak . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    II.1.2.1 Instituzionalizazioa . . . . . . . . . . . . . . . . 25

    II.1.2.2 Ez-konposizionaltasun semantikoa . . . . . . . 26

    II.1.2.3 Finkapena . . . . . . . . . . . . . . . . . . . . . 29

    II.2 Idiomatikotasunaren continuuma eta UFen sailkapena . . 31

    II.2.1 Esapide idiomatikoak . . . . . . . . . . . . . . . . . 36

  • vi GAIEN AURKIBIDEA

    II.2.2 Kolokazioak . . . . . . . . . . . . . . . . . . . . . . 39

    II.2.2.1 Instituzionalizazioa . . . . . . . . . . . . . . . . 43

    II.2.2.2 Polilexikalitatea: egitura eta osaera . . . . . . . 43

    II.2.2.3 Murrizketa lexikala eta konposizionaltasuna . . 46

    II.2.2.4 Malgutasun morfosintaktikoa . . . . . . . . . . 51

    II.2.3 Sailkapen-proposamena . . . . . . . . . . . . . . . . 52

    II.3 Euskarazko fraseologiaren ikuspegi laburra . . . . . . . . . 53

    II.4 Euskarazko izena+aditza osaerako UFak . . . . . . . . . 57

    II.5 Laburpena . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    III UFen erauzketa eta karakterizazio automatikoa 67

    III.1 UFen erauzketa, fraseologia konputazionalaren egitekoe- tako bat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    III.2 UFen erauzketaren helburuak eta urratsak . . . . . . . . . 68

    III.3 UF hautagaien erauzketa . . . . . . . . . . . . . . . . . . 70

    III.4 Karakterizazio-atazak eta ebaluazioa . . . . . . . . . . . . 73

    III.4.1 Ranking bidezko karakterizazioa . . . . . . . . . . 74

    III.4.2 Sailkapen automatikoaren bidezko karakterizazioa . 75

    III.4.3 Karakterizazio automatikoaren ebaluazioa . . . . . 75

    III.4.3.1 Ebaluazio-lagina . . . . . . . . . . . . . . . . . 76

    III.4.3.2 Erreferentzia edo gold standarda . . . . . . . . 77

    III.4.3.3 Metrika . . . . . . . . . . . . . . . .