Idiomatikotasunaren karakterizazio ... attentionekin pay aditza erabiltzen da, baina frantsesez...

download Idiomatikotasunaren karakterizazio ... attentionekin pay aditza erabiltzen da, baina frantsesez faire

of 338

  • date post

    13-Feb-2020
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Idiomatikotasunaren karakterizazio ... attentionekin pay aditza erabiltzen da, baina frantsesez...

  • Idiomatikotasunaren

    karakterizazio

    automatikoa: izena+aditza

    konbinazioak

    Jakintza-arloa: Informatika

    Egilea: ANTTON GURRUTXAGA HERNAIZ

    Urtea: 2014

    Zuzendariak: JOSE JAVIER ARTOLA ZUBILLAGA, IÑAKI ALEGRIA LOINAZ

    Unibertsitatea: UPV/EHU

    ISBN: 978-84-8438-544-8

  • Hitzaurrea

    Hizkuntza bat ikasten ahalegindu naizen guztietan, arreta berezia jarri behar izan dut hitzak nola konbinatzen diren, maiz gramatikaren arauak ez baitira aski hiztunek nola erabiltzen dituzten aurresateko eta esplikatzeko. Ingelesez attentionekin pay aditza erabiltzen da, baina frantsesez faire (attention), gaztelaniaz prestar (atención). Euskaraz, esaterako, aurreko esaldian erabili dudan arreta jarri dugu, baina arreta ipini ere bai, eta, testuinguruaren arabera, kasu/jaramon egin, adi egon… Ardoaz mintzatuz, euskaraz beltz dena gorri da beste zenbait hizkuntzatan (vin rouge, red wine, vino rosso, Rotwein…). Horrelakoak baino ezagunagoak dira, beharbada, adarra jo edo hautsak harrotu modukoak; horien adiera aurrez jakin ezean, nekez asmatuko dugu zer esan nahi duten osagaien esanahietatik abiatuta. Lehenei kolokazio esan ohi zaie, eta bigarrenei lokuzio edo esapide idiomatiko, baina, diren motakoak direla, horrelakoak ikasteak lanak ematen dizkigute. Hala ere, horrelakoak ezagutzea eta erabiltzen jakitea garrantzitsua da oso, hizkuntza batean komunikatzen jakitearen parte baita.

    Horrelakoei hitz anitzeko unitate edo unitate fraseologiko (UF) esaten zaie. Garrantzi handia hartu dute hainbat arlotan, hizkuntzaren irakaskuntzan eta hiztegigintzan ez ezik, Hizkuntzaren Prozesamenduaren (HP) hainbat atazatan ere, hala nola itzulpen automatikoan. IE-IR sistemetan, entitate-erauzketan, terminologia-erauzketan eta testu-sorkuntza automatikoan. Euskararen kasuan, hitz anitzeko unitateen prozesamenduan egindako aurrerapausoak terminologia-erauzketara bideratu dira eta corpusean automatikoki etiketatzera datu-base lexikaletan adierazita dauden UFak. Gainera, interes handiena lokuzioen bilketak sortu du, eta kolokazioen mundua ikertzen hasi berria da euskaraz. Horrez gain, kontuan hartu behar dugu UFak ez direla multzo itxi bat, eta hizkuntza garatu eta erabili ahala, fraseologia aldatu egiten dela, esapide eta unitate berriak agertzen direla testuetan, eta, horiek eskuratu eta prozesatu gabe, hizkuntza modernoaren prozesamenduak hutsuneak dituela.

    Egoera hori aldatu nahiak bultzatu ninduen tesi-txosten honetan jaso dudan ikerkuntza egitera. Elhuyarren, 2000ko hamarkadaren hasieran ekin genion HPan ikertzeari, Ixa taldearekin elkarlanean. Hain zuzen ere, terminologia- erauzketa automatikoa eta corpusgintza izan ziren gure lehen ikertze-arloak. Jarduera horretan ikastikoa eta hartutako esperientzia abiaburutzat harturik, lortu dut hasierako asmoa hein handian gauzatzea, eta, ustez behintzat, euskarazko fraseologia konputazionalari ekarpentxoa egitea. Esan gabe doa, hainbat ikertzaileren laguntzari esker egin ahal izan dut hori; horien guztien zerrenda tesiaren hasieran bertan dago, baina hemen nire bi zuzendari bikainak nahi ditut argi aipatu: Ixa taldeko Iñaki Alegria eta Xabier Artola. Mila-mila esker. Tesi honen bidez egin dugun aurrerapenak argi ikusarazi zenbaterainoko ikertze-eremu zabala dugun gure aurrean. Interes eta aplikazio handienekoen artean, nabarmenduko nituzke beste egitura sintaktiko batzuetako UFak prozesatzea, eta, testu edo corpus paraleloak prozesatuz, bi hizkuntzatako UF baliokideak automatikoki erauztea. Izango ahal dugu berandu gabe egitasmo horiei ere heltzea!

    Antton Gurrutxaga 2015

  • Lengoaia eta Sistema Informatikoak Saila

    Informatika Fakultatea

    Idiomatikotasunaren karakterizazio

    automatikoa: izena+aditza konbinazioak

    Antton Gurrutxaga Hernaizek Iñaki Ale- griaren eta Xabier Artolaren zuzendari- tzapean egindako tesiaren txostena, Eus- kal Herriko Unibertsitatean Informatikan Doktore titulua eskuratzeko aurkeztua

    Donostia, 2014ko ekaina

  • Tesi-lan hau Elhuyar Fundazioaren KONBITZ – Hitz anitzeko unitateen eskuratze automatikoa: hiztegi konbinatorioak eratzeko teknikak eta KON- BITZ2 – Hitz anitzeko unitateen eskuratze automatikoa: idiomatikotasuna- ren karakterizazioa ikerketa-proiektuen testuinguruan egin da. Proiektu ho- riek Eusko Jaurlaritzaren Ekonomia Garapena eta Lehiakortasuna Sailaren SAIOTEK 2011 eta SAIOTEK 2012 ikerkuntzarako programen laguntza ja- so dute.

  • Karmeleri

  • Eskerrak

    Pertsona askok lagundu didate tesi-lan hau egiten, eta guztiak ditut gogoan eskerrak emateko orduan.

    • Iñaki Alegria eta Xabier Artola zuzendariak, nigan konfiantza jarri duzuelako, eta honainoko bidean maisu onenen moduan gidatu nau- zuelako. Ikerketan barrena sortu zaizkidan bidegurutzeetan, aukera onena identifikatzen lagundu didazue, eta helburura begira jarri beti.

    • Ixa taldeko Ainara Estarrona eta Larraitz Uria, eta Elhuyar Fundazio- ko Nerea Areta eta Ainara Ondarra, ebaluaziorako erreferentzia sail- katua osatzeko egindako lanagatik. Zuen parte-hartzea giltzarria izan da ikerkuntza honetan.

    • Elhuyarreko I+Gko Iñaki San Vicente, Perl lengoaiaren inguruko nire zalantzak argitzen eta arazoak askatzen laguntzeagatik, esperimentuen diseinuaz egindako ohar zorrotzengatik, eta malgutasun lexikalerako glosario distribuzionala eratzen erakusteagatik.

    • Elhuyarreko I+Gko Maddalen Lopez de la Calle, Lemur Toolkitez da- kidan guztia erakusteagatik, eta ikergai honetan aplikatzeko moduaz iradokitako ideiengatik.

    • Ixa taldeko Ruben Urizar, ezin konta ahala gai eta alderditan bide- -erakusle izateagatik ez ezik, hiztegi-erreferentzia osatzeko EDBLko baliabideak eskura jartzeagatik ere.

    • Ixa taldeko Oier Lopez de la Calle, antzekotasun distribuzionaleko esperimentuetan LSA aplikatzen laguntzeagatik, eta Infomap softwa- rearen erabileraz emandako argibideengatik.

    • Ixa taldeko Eneko Agirre eta Elhuyarreko I+Gko Eli Pociello, Euskal WordNet erabiltzeko aukera emateagatik eta aplikatzen orientatzea- gatik.

  • ii Eskerrak

    • Ixa taldeko Olatz Arregi, Ikasketa Automatikoan irakasle paregabea izan zaitudalako, eta, zehazki, Weka paketea esperimentuetan aplika- tzen gidatu nauzulako.

    • Ixa taldeko Aitor Soroa, Latexeko ataka gaiztoetan irtenbidea eskain- tzeagatik ez ezik, autonomia handiagoa lortzen ere trebatzeagatik.

    • Yosu Yurramendi, estatistikako hainbat erabaki hartzerakoan emanda- ko aholkuengatik. Idiomatikotasuna neurtzeko neurri estatistikoetan eta ebaluazio-metriketan ez nintzen zu gabe inora iritsiko.

    • Elhuyarreko I+Gko Igor Leturia, Iker Manterola eta Xabier Saralegi. Ezin hemen aipatu zuengandik ikasitako guztia, batez ere termino- erauzketaz eta corpusgintzaz, eta lagungarri gertatu zaizkidan aholku eta iradokizun guztiak. Bikainak, denak ere. Igor, gainera, I+Gko ar- duraduna izan da lan hau egin dudan urteetan. Hitz bakarra: chapeau!

    • Elhuyarreko Hiztegiak+Corpusak ataleko lankideak: Ainara, Amaia, Edurne, Eli, Garbiñe, Klara, Mari eta Sahats. Erraztasun guztiak eman dituzue tesi honek gure jardunean tokia izan dezan.

    • Ixa taldeko hainbat kide: Itziar, Nerea, Kike, Gorka, Arantxa eta Mon- tse. Era askotako laguntza jaso dut zuengandik, eta beti prest egon zarete arazoak konpontzeko edo aholku on bat emateko.

    • Ixa taldeko Arantza Diaz de Ilarraza, Kepa Sarasola eta Xabier Arregi, ikergai hau Ixa taldearen egitekoen artean kontuan hartzeagatik, eta ikerkuntzan jardutera bultzatzeagatik.

    • Elhuyar Fundazioko arduradunak, ikerkuntzaren aldeko apustua egi- teagatik. Horri esker egin ahal izan dut lan hau. Batez ere, Josu Az- tiria, Hizkuntza & Teknologia unitateko zuzendaria, lan hau etorkizu- neko hiztegigintzan erabilgarria izango delako iritzia partekatzeagatik.

    • Bereziki dut gogoan Elhuyar Fundazioan urte askoan lankide izan du- dan Mariaje Jauregi zena: ikergai hau Elhuyarren jardueraren barruan kokatzeko ikuspegia izan zenuen, eta lan honi ekiteko kondizio ezin ho- beak eskaini zenizkidan. Ez daukat ahazteko.

    • Lan hau egin dudan bitartean beti ondoan izan zaitudan hori. Kar- mele, dena erraztu didazu ni honetan aritu ahal izateko, eta egia da: “orrek danak pagatakun ez gazta asko sobrako!”

    Eskerrik asko denoi!

  • Laburtzapenak

    AdjS adjektibo-sintagma AM elkartze-neurria (association measure) AP batez besteko doitasuna (average precision) CCI zuzen sailkatutako instantziak (correctly classified

    instances) CPMI elkarrekiko informazio puntual baldintzazkoa (conditional

    pointwise mutual information) DS determinatzaile-sintagma DSim antzekotasun distribuzionala (distributional similarity) EDBL Euskararen Datu Base Lexikala EH Euskal Hiztegia ELH Elhuyar Hiztegia ElhDB Elhuyarren Datu Base lexikografikoa HAD hitzen adiera-desanbiguazioa HAU hitz anitzeko unitatea HAUL hitz anitzeko unitate lexikala HB Hiztegi Batua HP hizkuntzaren prozesamendua IE informazio-erauzketa (information extraction) IR informazio-berreskuratzea (information retrieval) IS izen-sintagma ITA etiketatzaileen arteko adostasuna (inter-tagger agreement) LF funtzio lexikala (lexical function) LFlex malgutasun lexikala (lexical flexibility) LLR egiantz-arrazoiaren logaritmoa (log-likelihood ratio) LR egiantz-arrazoia (likelihood ratio) LSA ezkutuko semantikaren analisia (latent semantic analysis) MI elkarrekiko informazioa (mutual information)

  • iv Laburtzapenak

    MSFlex malgutasun morfosi