Testuak informazio gehigarriarekin aberasten, entitate-izenen … · 2017. 8. 7. · 2013ko iraila...

Testuak informazio gehigarriarekinaberasten, entitate-izenen ezagutze eta

desanbiguazioa.Egilea: Ander Barrena Madinabeitia

Zuzendariak: Eneko Agirre eta Aitor Soroa

HAP

Hizkuntzaren Azterketa eta Prozesamendua Masterreko titulua lortzeko bukaerakoproiektua

2013ko iraila

Saila: Lengoaia eta Sistema Informatikoak.

Entitate-izenen ezagutze eta desanbiguazioa. 2/44

LaburpenaGaur egun, testu batean azaldu diren entitate-izenak identifikatu eta desanbiguatzea,

lengoaia naturalaren prozesamenduko ezinbesteko ataza bihurtu da. Motibazio nagusiakizen hauek dagozkion entitatearekin lotzeak testuari ematen dion aberastasun eta

ulergarritasuna dira. Lan honetan entitate-izenen desanbiguaziorako garatu diren hirusistema ezberdin azalduko dira. Lehen sistema eredu probabilistiko batean oinarritua

dago eta beste biak ikasketa automatikoko teknikak aplikatzen dituzte. Sistema guztiakdesanbiguazio arloan erabilienak diren datu-multzoetan ebaluatu dira. Gainera artearenegoeran dauden sistemekin alderatuz garatu diren sistemen eraginkortasuna aztertu da

emaitza onak lortuz.

AbstractNowadays, named entity recognition and disambiguation is one of the growing tasks ofnatural language processing. The main motivation is text enrichment, by linking entity

mentions to referent entities in a knowledge-base. In this project we have developed threesystems for automatic recognition and linking. One of them is based on probabilistic

ranking and the other two are based on machine learning classification. These algorithmswere tested and evaluated in datasets of the state of the art obtainig good results.

HAP masterra


Gaien aurkibidea

1 Sarrera 5

1.1 Motibazioa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Helburuak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Aurrekariak 9

2.1 Wikipedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Desanbiguazio orriak . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2 Birbideratzeak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.3 Aingurak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Wikipediaren 2011-ko Maiatzak 25-eko iraulketa . . . . . . . . . . . . . . . 11

2.3 Wikipedia Miner sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.1 Wikipedia Miner-en azpiegitura . . . . . . . . . . . . . . . . . . . . 12

2.4 TAC-KBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4.1 Ebaluazio irizpideak . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5 Artearen egoera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5.1 TAC 2009-ko datu-multzoan ebaluatu diren sistemen azterketa . . . 15

3 Sistemaren garapena 17

3.1 Hiztegia eraikitzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.1.1 Entitate kanonikoa . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Hiztegiaren ahalmena hobetzen . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2.1 Testua hiztegiarekin parekatzen . . . . . . . . . . . . . . . . . . . . 18

3.2.2 TAC-KBP-ko ezagutza basea eta Wikipedia iraulketak . . . . . . . 19

3.2.3 Hiztegia ebaluatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3 Wikipediatik gainontzeko baliabideak erauzten . . . . . . . . . . . . . . . . 21

3.4 Sailkatzaile probabilistikoa . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.5 Ereduen zenbatespena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.1 Entitatearen ospearen probabilitatea . . . . . . . . . . . . . . . . . 24

3.5.2 Entitatearen izenaren probabilitatea . . . . . . . . . . . . . . . . . 24

3.5.3 Entitatearen testuinguruaren probabilitatea . . . . . . . . . . . . . 24

3.5.4 NIL entitatea sailkatzen . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Ikasketa automatikoaz sailkatzen . . . . . . . . . . . . . . . . . . . . . . . 26

3.6.1 Ezaugarriak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.6.2 Hautagai egokia aukeratzen bi pausutan . . . . . . . . . . . . . . . 29

3.6.3 Hautagai egokia aukeratzen hiru pausutan . . . . . . . . . . . . . . 29

3.6.4 Sailkatzailea aukeratzen: Ausazko-basoa . . . . . . . . . . . . . . . 30

3.6.5 Sailkatzailearen irteera errepresentatzen . . . . . . . . . . . . . . . 31

3.7 Entitateak multzokatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

HAP masterra


4 Esperimentuak 334.1 Garapen, entrenamendu eta test faseak . . . . . . . . . . . . . . . . . . . . 334.2 Garapenean lortutako emaitzak . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Emaitzak 375.1 Errore analisia eta emaitzen balorazioa . . . . . . . . . . . . . . . . . . . . 38

6 Ondorioak eta etorkizuneko ildoak 41

HAP masterra


1 Sarrera

Testuetako izen-aipamenak ezagutza-baseetako entitateekin lotuta aurkitzea gero eta arrun-tagoa da. Web orrietan agertzen diren izen asko, zuzenean Wikipediako artikuluetara lo-tuta aurkitzen dira hyper-esteken bitartez. Modu honetan eta erabiltzailearen mesedetan,testuak ezagutza-baseetako informazioaz aberasten dira. Horren adibide bat 1 irudian ikusdaiteke. Testuan azaltzen den ”Lucy Walsh” esteka Wikipediako ”Lucy Walsh”1 artikulu-ra zuzenduta dago. Modu honetan, irakurleak zuzenean eskura dezake entitateari buruzkoinformazio gehigarria.

Irudia 1: Web orrietan ohikoak diren Wikipedia orrietara egiten diren loturak ikus daitezke.Lotura hauek esteken bitartez egiten dira.

Baina lotura hau burutzeko, lehenik, testuko izen-aipamenak identifikatu behar dira.Ondoren, izen-aipamen horrek erreferentzia egiten dien entitate posible guztiak aztertukodira eta entitate hauek desanbiguaziorako hautagaiak izatera pasako dira. Azkenik, izen-aipamena hautagai guztien artean entitate egokiarekin lotu beharko da. Hiru ataza hauekentitate-izenen ezagutzea, hautagaien sorkuntza eta desanbiguazioa dira hurrenez hurren.

Izen-aipamen baten entitate-hautagaien arteko desanbiguazioan, izen berdinak entitateugari erreferentzia ditzake. Horren adibidea 2 irudian ikusi daiteke, ”Joe Walsh” izenakWikipediako entitate ezberdinei erreferentzia egiten die eta kasuan-kasu entitate egokiaaukeratu behar da. Adibidean, entitate egokia ”Joe Walsh”2 musikaria litzateke. Esanbeharra dago entitateen desanbiguazioan izen-aipamena ezagutzeak garrantzi handia dau-kala. Ez baita berdina ”Joe Walsh” desanbiguatzea edo ”Joe” bakarrik. Lehenengoa ereanbiguoa den arren ”Joe” izenarentzat hautagaien zerrenda askoz handiagoa da. Bestalde,

1http://en.wikipedia.org/wiki/Lucy_Walsh2http://en.wikipedia.org/wiki/Joe_Walsh

HAP masterra


entitate bera izen ezberdinekin izendatua izan daiteke, adibidez ”Joe Walsh” musikaria,”Joseph f. Walsh”, ”Joseph Fidler Walsh” edo ”Walsh” bezala azaldu daiteke.

Irudia 2: Desanbiguazio adibide honetan hiru hautagai ditugu ”Joe Walsh” izenarentzat.Adibidean, entitate egokia musikaria da eta testuinguruan aurki daiteke desanbiguaziora-ko gakoa, izan ere musikaria dela aipatzen da. Hala ere, desanbiguazioan testuinguruakgarrantzi handia duen arren, aurrerago ikusiko da elementu desberdin askok parte hartzendutela.

1.1 Motibazioa

Interneten gaur egun ohikoak diren berrien orrialdeetan edo foro askotako elkar-ekintzetan,erabiltzailearentzat ezezagunak diren izen asko agertzen dira. Erabiltzailearen joera arrun-tena, pertsona, erakunde edo munduko toki horren informazioaren bila Wikipediara jotzeada. Ekintza honek, irakurgai den testuaren haria galtzea ekartzen du. Beraz, automatikokiizena Wikipediara lotuz, klik bakarrean informazioa eskura jar daiteke. Askotan, nahikoaizaten da izenari dagokion argazki bat ikustea zuzenean nor den jakiteko. Bestalde, tes-tuan agertzen diren izen-aipamen guztiak entitateekin lotuz testua informazio askorekinaberasten da. Beraz proiektuaren motibazio nagusia, erabiltzaileari testua ulergarriagoaegiteko eta bere jakin-mina asetzeko beharrezkoak diren artikuluak automatikoki eskurajartzea da. Motibazio hau borobiltzen duen adibide bat 3 irudian ikus daiteke. Adibideanizen-aipamen asko agertzen dira eta hauek identifikatu eta desanbiguatuz testua askoz ereulergarriagoa bihurtzen da.

HAP masterra


Irudia 3: Blog bateko testu arruntean izen-aipamenak entitateetara lotuz testua aberastenda. Argazkiekin soilik, ulergarritasuna areagotzen da eta irakurleak ez du testuaren hariagaltzen. Erabiltzaileak informazio gehiago behar badu, izen-aipamenak Wikipedia orrietaralotuak daude eta bertan nahi beste informazio aurkituko du.

1.2 Helburuak

Proiektu honen helburua, testuetan aurkitzen diren entitate izen-aipamenak identifikatu,hauentzat hautagaiak sortu eta desanbiguatuko dituen hiru sistema garatzea izango da.Sistema hauek dagozkien artearen egoerako datu-multzoetan ebaluatuko dira eta gainon-tzeko sistemekin emaitzak alderatuko dira. Horretarako, beharrezkoa izango da artearenegoerako sistemen azterketa bat egitea eta bertatik gure sistementzat oinarriak finkatzea.

HAP masterra


HAP masterra


2 Aurrekariak

Atal honetan entitate-izenen ezagutze eta desanbiguazioan beharrezkoak diren kontzeptuakazalduko dira. Lehenik, ataza hauetan Wikipediak duen garrantzia azalduko da. Ondo-ren, sistemak ebaluatu eta egunean mantentzeko baliabideak eskaintzen dituen TAC-KBPkonferentziaren nondik norakoak azalduko dira. Azkenik, artearen egoeraren azterketa bategingo da. Atal honen ondoren, garatu diren sistemak inplementatzeko beharrezkoak direnaurrekariak definituta egongo dira.

2.1 Wikipedia

Proiektu honetako entitateen ezagutza basea Wikipediako entitateek osatzen dute. Entita-te eta Wikipedia artikuluen arteko lotura zuzena da: Wikipedian ”http://en.wikipedia.org/wiki/Lucy_Walsh” artikulua bada, entitatea ”Lucy Walsh” izango da.

Wikipedia3, Wikimedia Fundation4-en entziklopedia eleanitza eta eduki askekoa da.Bertako artikuluak mundu osoko erabiltzaileek idazten dituzte eta bakoitzaren identifi-kadore unibokoa titulua da. Honen bitartez artikuluaren kontzeptua deskribatzen da etakontzeptuen aldaerak edo formak, 2.1.2 ataleko birbideratze eta 2.1.1 ataleko desanbiguazioorrien bitartez lotzen dira artikulu nagusira.

Artikuluen barnean beste artikuluetara doazen estekak, 2.1.3 ataleko aingura bitartezegiten dira eta artikuluan izen batez identifikatzen dira. Aingura izenak, sarrerak ez bezalaerrepikatuak egon daitezke artikulu ezberdinetan. Ezaugarri hauek, entitate-izenekin lanegiteko informazio-iturri gisa oso interesgarriak dira. Gainera entitate-izenen desanbigua-ziorako baliabide ezin hobea da Wikipedia.

2.1.1 Desanbiguazio orriak

Wikipediako desanbiguazio orriek, bi adiera ezberdin edo gehiago dituzten kontzeptuenkasuan, adiera ezberdinen artean bereizteko loturak eskaintzen dituzte. Beraz orri hauekizen berdinaz erlazionatuak dauden artikuluen zerrendak eskaintzen dituzte.

4 irudian ikus daiteke ”Joseph Waslh” izenarentzat Wikipediako desanbiguazio orriakeskaintzen dituen artikuluen zerrenda. Musikariaz gain, kirolari eta politikoaren artikulue-tara loturak agertzen dira beste batzuen artean.

2.1.2 Birbideratzeak

Wikipediaren orrialde asko birbideratze bidez atzitzen dira, adibidez, ”Joseph F. Walsh”5

artikulua birbideratze artikulu bat da, hain zuzen, ”Joe Walsh”6 artikulura. Kasu hauetan,”Joseph F. Walsh” birbideratze orriak ”Joe Walsh” orrialdea ebazten duela esaten da. Orri

3http://www.wikipedia.org4http://en.wikipedia.org/wiki/Wikimedia_Foundation5http://en.wikipedia.org/wiki/Joseph_F._Walsh6http://en.wikipedia.org/wiki/Joe_Walsh

HAP masterra


Irudia 4: Joseph Walsh-en Wikipediako desanbiguazio orria.

hauen bitartez, entitate berari izen ezberdinen bitartez deitzeko arazoari aurre egiten zaioeta pluralizatze edo erlazionatutako hitzen erabilerari irtenbidea ematen zaie.

2.1.3 Aingurak

Wikipediaren antolaketan, betebehar garrantzitsua daukate artikuluen arteko aingura tes-tuek. Aingurak, Wikipedia artikuluetan agertzen diren hyper-estekak dira. Aingura tes-tuan agertzen diren hitzek, gehienetan, erreferentziatu duten artikuluari buruzko informa-zio esanguratsua eskaintzen dute eta ez dute zertan artikuluaren izen berdina eduki behar.5 irudian ikus daiteke ”Lucy Walsh”7-en artikuluan, hyper-esteka moduan dauden ainguraezberdinak: Joe Walsh, Eagles, Ringo Starr...

7http://en.wikipedia.org/wiki/Lucy_Walsh

HAP masterra


Irudia 5: Lucy Walsh-en Wikipedia artikuluan agertzen diren aingura testuak, beste arti-kuluetara loturak dira. Hauen artean, Eagles’, Joe Walsh, eta Ringo Starr ikus daitezke.

Aingura testuetan agertzen diren hitzak aztertuz, ”Eagles”’-k adibidez ”Eagles (band)”8

artikulura erreferentzia egiten du. Propietate hau, oso garrantzitsua izango da desanbigua-zio orduan, izan ere, artikulu-izenak eta aingura-izenak ez dute zertan bat etorri behar.

2.2 Wikipediaren 2011-ko Maiatzak 25-eko iraulketa

Wikipediaren ezagutza web-orrialdetik kontsulta daiteke, baina gure ikerketarako erabileraerosoagoa izan dadin informazio guzti hau internetetik jaisteko aukera dago. Wikipediak,web orrian duen informazio guztia XML erraldoi batean eskuratzeko aukera ematen duiraulketa bitartez. Iraulketak, egin diren datarekin identifikatzen dira eta XML formatuankudeatzen du Wikipedia osoko informazioa. Proiektu honetan erabili den iraulketa 2011koMaiatzak 25-eko Ingelesezko bertsioa da. XML erraldoi honetako informazioa erabiltzekobeharrezkoa da erauzi eta kudeatuko duen tresna bat, 2.3 ataleko Wikipedia Miner sistemahain zuzen.

8http://en.wikipedia.org/wiki/Eagles_(band)

HAP masterra


2.3 Wikipedia Miner sistema

Wikipedia Miner9 sistema, Wikipediak eskaintzen dituen ezagutza aberatsak kudeatzekotresna bat da. Horretarako, aurreko atalean aipatu den iraulketa bat jasoz, informazio hauerauzi eta antolatzen du. Horretaz gain erauzketaren ondoren, informazio guzti hau era-bili daiteke kontsultak egiteko. Wikipedia Minerrek, edozein kontsultarekin erlazionatuakdauden Wikipedia artikuluak bueltatzen ditu. Tresna honek, kontsultak linean10 egitekoaukera mugatua dauka.

Wikipedia iraulketa eta Wikipedia Miner erauzleaz lokalean lan egitea ezinezkoa izandaiteke informazio eta lan karga altuak direla eta. Beraz, lan guztia zerbitzarietan eginda. Hurrengo azpi atalean, erauzleak iraulketa nola kudeatu duen azalduko da WikipediaMiner-en azpiegitura ulertzeko.

2.3.1 Wikipedia Miner-en azpiegitura

Lehen esan bezala erauzleak Wikipediako iraulketa jasotzen du. XML formatuan dagoenfitxategi erraldoi honetatik informazio guztia jaso eta elkarrekin erlazionatuak dauden fi-txategietan oinarritutako azpiegitura batean bihurtzen du. Funtsean, Wikipedia artikulueizenbaki bat esleitzen die identifikatzaile bezala erabiliko duena. Ondoren, identifikatzailehauen bitartez CSV (comma-separated values) fitxategiak sortzen ditu artikuluen artekoerlazioekin. Lehenik, artikuluak antolatzeko erabiltzen duen egitura aztertuko da.

Wikipediako artikulu bakoitza ”identifikatzailea, titulua, mota” hirukoteaz erreferen-tzia egiten dio. Mota aldagaiak 4 balio ditu non 1 artikulua den, 2 kategoria, 3 birbide-ratzea eta 4 desanbiguazio orria. Jarraian dagoen adibidean ikus daiteke ”identifikatzaile,titulua, mota” lagin bat desanbiguazio orri, birbideratze eta artikulu batera erreferentziaegiten duten hiru sarrerekin.

• id1,”Joseph Walsh”,4

• id2,”Joe Walsh”,1

• id3,”Joseph F. Walsh”,3

Aingura guztiak kudeatzeko, ”aingura, helburu identifikatzaile, frekuentzia” patroiazbaliatzen da. Honela aingura eta artikulu arteko lotura identifikadore bitartez burutzendu. Azpian ikus daiteke aingura ezberdinetatik desanbiguazio orrira edo artikulura loturaketa hauen frekuentziak. Adibidez ””Joe Walsh”,id2,475”-rekin ”Joe Walsh” aingurarekinid2 identifikatzailea duen ”Joe Walsh” artikulura 475 aldiz erreferentzia egin dela esannahi du. Hemen ikus daiteke, Wikipedia Miner sistemak, 2.1.3 atalean aipatu den propie-tate garrantzitsua nola kudeatzen duen. Gainera propietatea neurtzen duen frekuentziagehitzen dio erlazioari.

• ”Joe Walsh”,id2,475

9http://wikipedia-miner.cms.waikato.ac.nz/index.html10http://wikipedia-miner.cms.waikato.ac.nz/demos/search/

HAP masterra




Birbideratze eta Desanbiguazio orrien kasuetan, ”identifikatzaile, helburu identifikatzaile”bezala kudeatzen ditu. Adibidez, id1 identifikatzailea duen ”Joseph Walsh” desanbiguazioartikulua, id2 ”Joe Walsh” artikulura bideratua dagoela adierazteko ”id1,id2” errepresen-tazioa erabiltzen du. Birbideratzeak modu berdinean kudeatzen ditu.

Azpiegitura honekin, Wikipedia artikuluek elkarren artean dituzten loturak ebatziz in-formazio asko atera daiteke. Bide batez, helburuetan aipatu den izen-aipamenen ezagutzeeta hautagaien sorkuntzarako, azpiegitura hau erabili da. Horretarako, aingura eta en-titateen arteko erlaziotik hiztegi bat eraiki da. Hiztegi hau ere, desanbiguazio metodoagaratzeko oinarri bat izango da.

2.4 TAC-KBP

Ikerkuntzaren arloan beharrezkoa da garatuko diren sistemak ebaluatzea eta TAC-KBP11

edo Text Analisys Conference - Knowledge Base Population konferentziaren helburua, tes-tu hutsetik entitate-izendunen ezagutza-baseak sortzeko eta aberasteko sistemak garatzeada. Horretarako ezagutza-base bat sortua dute ingelesezko 2008ko Wikipediako entitateezosatua eta entitate bakoitzak identifikatzaile bat dauka.

Konferentziaren helburuetako bat, ”entity linking”12 ataza hain zuzen, Ingelesezko tes-tu ezberdinetako izen-aipamenak ezagutza-baseko entitateekin lotzean datza. Horretarako2009tik hasita, urtero datu-multzo bat prestatzen dute. Datu multzoa XML formatuankodetutako eskaeraz osatua dago eta 6 irudiko itxura dute. Eskaera hauetako bakoitzakidentifikadore bat dauka, desanbiguatu beharreko izena name etiketen artean dator etadocid etiketak izen-aipamena zein dokumentutan agertu den adierazten du. Eskaera ba-koitzak ezagutza-baseko entitate helburu bat izango du emaitza bezala.

Irudia 6: TAC-KBP konferentziako ”Entity Linking” ataleko datu-multzoen XML egi-turaren adibidea ikus daiteke. Adibide hau eskaera bati dagokio eta izen-aipamena etatestuaren identifikadorea ikus daitezke.

Aipamenak agertzen diren dokumentuak ”English Gigaword”13 kolekziotik hartutakoakdira. Hauen artean berriak, web orrietako laginak edo foroetako testuak daude. Testuak

11http://www.nist.gov/tac/2013/KBP/12http://www.nist.gov/tac/2013/KBP/EntityLinking/index.html13http://www.ldc.upenn.edu/About

HAP masterra


sasi-XML kodeketan datoz eta hauetatik informazioa eskuratzeko beharrezkoa da arretazerauztea. Testuen adibidea 7 irudian ikus daiteke.

Irudia 7: Izen aipamenak agertzen diren testuak sasi-XML formatuan daude. Adibidehonetan azaltzen ez diren arren, karaktere arraroak, kodeketa arazoak eta gaizki itxitakoetiketak azaltzea gerta daiteke.

Izen-aipamenak entitateekin lotzeaz gain, gerta daiteke, aipamen batzuentzat ezagutza-basean entitaterik ez egotea edo daudenetatik bat ere egokia ez izatea. Kasu hauetan NILentitateari lotuko dira aipamen mota hauek. Aukera honen bitartez ezagutza baseare-kin lotu ezin diren aipamenak ebaluatzen dira. Beraz, eskaerak ezNIL eta NIL bezalaezberdinduko dira entitate helburuaren arabera.

2009-an hasi zenetik, parte hartzaileen eskura, 5 datu multzo daude. 1 taulan bakoi-tzaren eskaera kopuruak ikus daitezke.

TAC-KBP Eskaera ezNIL NILdatu-multzoa guztiak eskaerak eskaerak

2009 test 3904 1675 22252010 test 2250 1020 12302010 train 1500 1074 4262011 test 2250 1024 11262012 test 2226 1177 1049

Taula 1: Datu-multzo bakoitzean eskaeren kopuruak ikus daitezke. 2010-ean bi datu-multzo daude bat entrenamendurako eta bestea testatzeko.

Datu-multzo bakoitzak bere urre-patroia dauka eta honen egitura, eskaera identifika-

HAP masterra


tzailea eta helburu entitatea dira. Helburu entitatea ezNIL bada ezagutza-baseko identi-fikatzailea agertuko da. NIL entitateentzat ”NILxxxx” egitura eskaintzen dute non xxxxzenbaki bat den. Zenbaki hauek multzo zenbakia adierazten dute, datu-multzo batzuenebaluazioan entitateen multzokatzea eskatzen baita.

2.4.1 Ebaluazio irizpideak

Konferentziako emaitzak ebaluatzeko bi metrika erabiltzen dira, mikro zehaztasuna etaBcubed+ izenekoak. Ebaluazioan, 2009 eta 2010 urteetan mikro zehaztasun balioak erabi-li ziren eta 2011-tik aurrera Bcubed+ balioak. Emaitzetan azalduko diren balioak, eskaeraguztienak, ezNIL eta NIL elementuenak izango dira. Jarraian metrika bakoitzaren azalpe-na:

• Mikro Zehaztasuna: ongi lotu diren eskaeren kopurua zati eskaera kopuru totala.

• Bcubed+: ongi lotu diren eta talde egokian multzokatuak dauden eskaeren F-neurria(Amigo et al., 2009).

2.5 Artearen egoera

2009an TAC-KBP-ko lehenengo konferentzia antolatu zenetik, sistema asko garatu dira”Entity Linking” atazarako. Gure helburuetako bat sistema bat garatzea denez, beharrez-koa izango da orain arte egin dena aztertzea. Artearen egoeraren azterketarako 2009-koTAC-KBP datu-multzoan ebaluatutako sistema batzuk aukeratu dira, gainontzeko urtee-tan parte hartzaileek sistemak hobetu baitituzte baina oinarria hasierako sistemetan aur-kitzen da. Sistema guztiek eskaeren aurre-prozesaketa eta hautagaien sorkuntza metodoparekoak erabiltzen dituzte. Diferentzia ezaugarri eta sailkapen metodoan aurkitzen da.Jarraian banan-banan sei sistemen azterketa egingo da.

2.5.1 TAC 2009-ko datu-multzoan ebaluatu diren sistemen azterketa

• (Zheng et al., 2010) artikuluan ikasketa automatikoan oinarritutako sistema bat aur-kezten dute. Lehenik, izen-aipamenetan agertu daitezkeen errore ortografikoak zu-zentzen dituzte. Ondoren, testuan bilaketak eginez, akronimoen eta izen-aipamenenhedapena egiten dute. Wikipediako desanbiguazio orrietan oinarrituz hautagaiaksortzen dituzte. ezNIL entitateen sailkapenerako pertzeptroi bat erabiltzen du-te eta ondoren, bektore-euskarridun makina batekin sailkapeneko entitate irabazleaezagutza-basera edo NIL entitatera lotzea erabakitzen dute. Ezaugarrien artean,testuinguruetatik, izen-aipamenetatik eta Wikipediatik erauzitako ezaugarriak era-biltzen dituzte.

• (Dredze et al., 2010) artikuluan 200 ezaugarriz osatutako sailkapen gainbegiratuaegiten dute. Hautagaiak sortzeko, izen-aipamenarekin ezaugarri batzuk elkarba-natzen dituzten Wikipedia entitateak bilatzen dituzte. Adibidez aipamen-izen eta

HAP masterra


entitate-izen testu berdinak dituztenak, aipameneko azpi-kate bat komunean dituz-tenak, azpi-kate bakoitzeko lehenengoko karaktereak berdinak dituztenak eta abar.NIL eta ezNIL elementuak batera sailkatzen dituzte eta erabiltzen duten sailka-tzailea bektore-euskarridun makina da.

• (Zhang et al., 2010) artikuluan, berriz ere, bektore-euskarridun makinan oinarritu-tako sailkatzaileaz, entitateak sailkatzen dituzte. Baina ez dute NIL entitatearen-tzat aparteko sailkapenik egiten, algoritmoak itzultzen duen entitatea TAC-KBP-koezagutza-basean ez badago, NIL-era lotzen dute. Aipatzekoa da, izen-aipamenari”Did you mean” eta ”Wikipedia Search engine” algoritmoak aplikatzen dizkietela.Lehenengoak izen-aipamenean agertzen diren erroreak zuzentzen ditu eta bigarre-nak izen horri lotuak dauden entitateak bueltatzen ditu. ”Did you mean”-i buruzaurrerago hitz egingo da.

• (Han eta Sun, 2011) artikuluan eredu probabilistiko bat aurkezten dute. NIL etaezNIL entitateak hiru biderkagaien probabilitateaz sailkatzen dituzte. Artikulu ho-nek datu-multzo honetan lortu diren emaitza onenak eskuratu ditu. Sistema haugure sistemak garatzeko oinarria izango da eta aurrerago aztertuko da.

• (Ploch, 2011) artikuluan bi bektore-euskarridun makina erabiliz, lehenik ezNIL ele-mentuak sailkatzen dituzte eta ondoren, NIL elementura lotzea erabakitzen dute. Bisailkatzaileek parametro eta kernel berdinak erabiltzen dituzte. Sailkatzeko ezauga-rrien artean testuinguru, entitate eta izen-aipamenetan oinarritutakoak erabiltzendituzte. NIL elementua aparte sailkatzen dutenez ezaugarri bereziak erabiltzendituzte, hauen artean, gainontzeko ezaugarrietatik ateratako maximo, minimo etabatez-bestekoak.

• (Varma et al., 2009) artikuluan, izen-aipamenaren hautagaiak klase bezala erabilizsailkatzen ditu entitateak. Orain arteko guztiek sailkapen bitarra erabiltzen zuten.Sailkatzeko Naive Bayes eta K-NN algoritmoak erabiltzen dituzte. Hautagaiak sor-tzeko wikipediaren entitate, birbideratze eta desanbiguazio orrietan oinarritzen dira.Akronimoen hedapena eta erroreen zuzentzaileak erabiltzen dituzte. 2009-an TAC-KBP-ra aurkeztu zirenen artean, emaitza onenak lortu zituen algoritmoa izan zen.

Entitateen desanbiguaziorako bektore-euskarridun makinak erabiltzen dituzte parte-hartzaile gehienek. Sailkatzeko orduan bi modu ezberdindu daitezke, ezNIL eta NILhautagai entitateak batera sailkatuz edo bakoitza bere aldetik. Izen-aipamenen aurrepro-zesaketa eta erroreen zuzenketa oso ohikoak dira. Hautagaien sorkuntzarako Wikipediarenbirbideratze eta desanbiguazio orrietan oinarritzen dira. 2009-ko datu-multzoan (Han etaSun, 2011) algoritmoak lortu zituen emaitza onenak, hortaz sistema hau aukeratu da siste-men oinarri bezala. Bestalde, ikasketa automatikoan oinarritzen diren bi sistema garatukodirenez, batean NIL eta ezNIL entitate guztiak batera sailkatuko dira. Bigarren sistemaklehenik ezNIL hautagaiak sailkatuko ditu eta ondoren, NIL entitateari lotu behar direneskaerak beste sailkapen batekin identifikatuko ditu.

HAP masterra


3 Sistemaren garapena

Artearen egoeratik egindako azterketan bildutako informazioaz sistemak garatzeko ezau-garri nagusiak aztertu dira. Jarraian helburuetan aipatu diren ezagutze eta desanbigua-ziorako sistemak nola garatu diren azalduko da. Horretarako izen-aipamenak identifikatu,hautagaiak sortu eta desanbiguazio sistemak eraiki behar dira.

3.1 Hiztegia eraikitzen

Izen-aipamenak identifikatzeko eta hautagaiak izango diren entitateak sortzeko, lehen pau-sua hiztegi bat sortzea da. Hiztegia eraikitzeko (Chang et al., 2010) artikuluan aipatzendiren oinarriak erabili dira. Ainguretan oinarrituz, artikulu batekiko duen erlazioaren pro-babilitateaz sorturiko hiztegia sortzen da. Aingura eta artikuluaren arteko erlazioa, aingurahori, artikulu batera erreferentzia moduan agertu den kopuruaren kontaketaz puntuatzenda. Informazio guzti hau, 2.3.1 atalean azaldu den Wikipedia Miner-ek erauzi duen azpiegi-turan aurkitzen da. Aingura eta entitate erlazioa birbideratze eta desanbiguazio orrietatikebazten da.

Hiztegiaren egitura, lerroko, aingura eta entitate zerrenda dira hutsuneaz banandua.Entitate zerrenda, aingura-testu berdinetik erreferentzia duten entitate ezberdinez osatzenda. Entitate zerrendako entitate bakoitza entitate kontaketa parea da ”:” bereizia. Enti-tate eta aingura-izenak azpimarraz bereiziak doaz hitz bat baino gehiago duten kasuetan.8 taulan hiztegiko egituraren lagina ikus daiteke.

Irudia 8: Hiztegiak aingura-testua e1 e2 e3 entitateekin erlazionatzen du eta erlazio hauzenbat aldiz gertatu den kontatzen da. Adibidez ”Joe Walsh” entitatea 475 aldiz errefe-rentziatu da ”joe walsh” aingurarekin.

8 irudian ikus daitekeen hiztegiaren laginean, izen-aipamen bat zuzenean desanbiguatudaiteke. Adibidez, testu batean agertu den ”Joe Walsh” izena hiztegian aingura moduanbilatuz ”joe walsh”, kontaketa altuena duen ”Joe Walsh” entitatea bueltatuz. Hiztegiaeraikitzean, gerta daiteke, aingura batek birbideratze edo desanbiguazio orrialde bateraerreferentzia egitea. Hau gertatzen den kasuan, birbideratze hauek ebatzi behar dira hiz-tegia entitate-kanonikoez osatua egon dadin.

3.1.1 Entitate kanonikoa

Hiztegiko entitate zerrendetan birbideratze eta desanbiguazio orriak ager ez daitezen, hauekebatzi behar dira entitate kanonikoa bilatuz. Ebazpen hau burutzeko Wikipedia Miner-ekerauzitako fitxategiak erabili dira birbideratze edo desanbiguazio orrietatik, artikulu ka-nonikoetara loturak dituztenak hain zuzen. Hasiera batean birbideratze orriaren helburu

HAP masterra


artikulua jartzea nahikoa zela pentsatu zen, baina baliteke birbideratze orri batek bestebatera erreferentzia egitea eta azken honek artikulu kanonikora. Edo are eta okerrago,birbideratze bat desanbiguazio orri batera. Artikuluen kanonikoen ebazpenerako, arti-kuluen arteko dependentzia zuhaitzak sortu dira birbideratze eta desanbiguazio orrietanoinarrituak.

3.2 Hiztegiaren ahalmena hobetzen

Izen-aipamenen ezagutza eta hautagaien sorkuntza egiteko, testuan agertu den izen-aipamenazuzenean hiztegiko ainguretan bilatzen da. Ondoren, aingurak lotuak dituen entitateakhautagaiak izatera pasako dira. Baina gerta daiteke izenak eta aingurak bat ez egitea erro-re ortografiko edo tipografiko bategatik. Adibidez testuan, ”Joe Walhs” agertzen bada,hiztegia ez da entitate-hautagairik sortzeko gai izango. Arazo hau eta ohikoak diren besteasko konpontzeko, ”Did you mean” edo ”Agian hau esan nahi zenuen” algoritmoa aplikatu-ko da. ”Did you mean” algoritmoak bilaketa sistemetan ohikoak diren akatsak zuzentzekobalio du. Izen-aipamenean erroreak aurkitzen baditu, hauek zuzendu eta proposamen batitzultzen du. 9 irudian ”Joe Walhs” erroredun izen-aipamena emanez, ”Joe Walsh” pro-posamena bueltatzen du. Sistemetan ezartzeko Wikipediak eskaintzen duen api-a erabilida.

Irudia 9: ”Did you mean” algoritmoa Wikipedian bilaketak egitean erroreak zuzentzekoerabiltzen da. Honekin, izen-aipamenetan agertu diren errore tipografikoak zuzendu etaizen-aipamen egokia testuan eta hiztegiko ainguretan aurkitu daiteke.

Garapen fasean ”Did you mean” algoritmoa aplikatzean emaitzak hobetzen dituelaikusi da. Izan ere, aipamen askorentzat hautagaiak sortzeko aukerarik ez izatea zuzeneanemaitzetan islatzen da. Bide batez, hiztegian aingura bezala aurkitu ezin den aipamen orozuzenean NIL entitatearekin lotuko da.

3.2.1 Testua hiztegiarekin parekatzen

Hala ere, 2.4 atalean azaldu diren TAC-KBP-ko datu-multzoak aztertzean, askotan desan-biguatzeko izen bezala izen-aipamen partziala eskaintzen dute. Adibidez, izena eta abizenabeharrean, izena bakarrik. Honek anbiguotasuna handitzea dakar eta hau saihesteko, tes-tuan, izen hau barnean duen izen-kate luzeagoa bilatzen da. Atal honetan entitate-izenen

HAP masterra


ezagutze egokiak duen garrantzia argi ikusten da. Horren adibide garbia, 2012-ko TAC-KBP datu-multzoan aurki daiteke. 10 irudian ikus daiteke desanbiguatzeko ematen dutenizena ”Lucy” dela eta entitate egokia ”Lucy Walsh” da. Zuzenean hiztegian aingura be-zala bilatzean, 198 entitate lotuak ditu. Hau gutxi balitz, ”Lucy Walsh” entitatea ez dago”Lucy” aingurara lotua, beraz gure hiztegia ez da hautagai egokia sortzeko gai. Honi ir-tenbidea bilatzeko testuan ”Lucy” barnean duen hitz-kate guztiak identifikatzen dira etahiztegian aingura bezala agertzen den luzeena hartuko da. Adibide honetan ”Lucy Walsh”aurkitu da eta hau zuzenean aingura bezala hiztegian bilatuz entitate bakarra du lotu-rik eta gainera ”Lucy Walsh” da. Jarraian, datorren atalean, hiztegia bere horretan etatestuarekin parekatu ondoren ebaluatuko da eta diferentzia nabarmena dela ikusiko da.

Irudia 10: TAC-KBP 2012-ko datu-multzoko adibidea. Desanbiguatzeko izena ”Lucy” dabaina ikus daiteke eskaintzen duten aipamen-izena baino luzeagoa den ”Lucy Walsh” aurkidaitekeela aipamen-testuan. Honek desanbiguazioa asko errazten du.

3.2.2 TAC-KBP-ko ezagutza basea eta Wikipedia iraulketak

TAC-KBP-ko ezagutza basean dauden Wikipediako entitateak 2008 iraulketa batekoak di-ra eta gure proiektuan 2011-ko iraulketa bat erabili da. Errazena 2008ko iraulketa baterabiltzea izango litzateke baina 2011-koak 1,5 aldiz entitate aipamen gehiago ditu, honekesan nahi du askoz ere informazio gehiago duela eta honek gure alde egiten du desanbigua-tzeko orduan. Gainera testuinguru aberatsagoak eta eguneratuak ditu. Garapen fasean2011-ko hiztegiaz, 2008-koaz baino emaitza hobeak lortu ziren. Hau guztiagatik, 2011-koiraulketa erabiltzea erabaki zen. Baina Wikipedia egunero aldatzen den heinean entitateenizenak ere aldatzen dira. 11 irudian ikus daiteke 2008an ”People’s Republic of China” be-zala ezagutzen zen entitatea eta TAC-KBP-ko ezagutza-baseko parte dena, 2011-n ”China”

HAP masterra


bezala ezagutzen dela. Beraz, beharrezkoa da bertsioen artean ager daitezkeen aldaketakkontrolpean izatea. Izen-aipamenentzat sortuko ditugun hautagaiak 2011-ko Wikipedia-koak izango dira baina TAC-KBP-ko ezagutza basean daudenekin lotu behar ditugunezgure entitateak 2008-an zuten izena berreskuratu beharko dugu. Hala ere, badakigu izenaaldatzen duten entitateetan izen zaharra birbideratze orrialde bezala gordeta geratzen dela.Beraz nahikoa izango da birbideratze hauek ebaztea arazo honi aurre egiteko. Birbideratzeorrietan ezagutza-baseko entitateekin parekatzea lortzen ez bada, entitatea baztertuko daeta ez da desanbiguazio hautagai izatera pasatuko.

Irudia 11: Irudian e entitate berdinak Wikipedia bertsioetan zehar izan dituen aldaketakikus daitezke. 2008-ko izena TAC-KBP-ko ezagutza-basean erabiltzen dena da eta 2011-koa gure Ingelesezko bertsiotik ateratakoa. Ezagutza basearekin lotura arrakastaz egiteko,beharrezkoa izango da, b birbideratzearen bila zuhaitzean gora egitea eta 2008an zuen izenabilatzea.

Wikipedia bertsio berriago bat erabil zitekeen baina iraulketa berriek sartzen dituztenaldaketa txikiek, askotan, programazio arazo handiak ekar ditzakete. 2013-ko bertsio egu-neratu bat prozesatzen hasiak gara baina erroreak direla eta azkenean 2011-ko bertsioazjarraitu dugu.

3.2.3 Hiztegia ebaluatzen

Hiztegiak hautagai egokia sortzeko duen ahalmena aztertzeko, 2.4 ataleko datu-multzoguztietan ebaluatuko da. Datu-multzo bakoitzean, izen-aipamen bakoitza zuzenean hizte-gian aingura bezala bilatuko da eta lotuak dituen entitateen artean urre-patroiko entitateabaldin badago ontzat emango da. Hautagaiak sortzeko gai garen eskaera guztien guztienbatura ezNil guztien baturarekin zatituz estaldura kalkulatuko da. 2 taulan, lehenengozutabean, gure hiztegiak hautagaien artean egokia sortzeko duen ahalmena ikus daitekeizen-aipamena zuzenean ainguren artean bilatuz. Hiztegiaren maximoak %89 eta %74 ar-tean aurkitzen dira datu-multzoaren arabera. Honek esan nahi du ezNIL eskaerentzatdesanbiguazio algoritmoak lortu dezakeen emaitza onena edo goi-bornea hau dela. Bi-garren zutabean, 3.2.1 ataleko irizpideak aplikatuz, izen-aipamen luzeena testuan bilatuz

HAP masterra


lortzen diren emaitzak ikus daitezke. Hemendik aurrera, izena edo izen-aipamena datu-multzoan ematen dena izango da eta izen luzeena edo izen-aipamen luzeena parekatzetikateratzen dena. Oso adierazgarria da 2011 eta 2012 datu-multzoetan, testua hiztegiarekinparekatuz, hiztegia eskaeren %8-9 gehiagorentzat hautagai egokia sortzeko gai dela.

TAC-KBP Hiztegiaren goi-bornea Hiztegiaren goi-borneadatu-multzoa izenarekin izen luzeenarekin

2009 0.89 0.892010 0.88 0.902011 0.83 0.922012 0.74 0.82

Taula 2: Hiztegiaren goi-borneak gure desanbiguaziorako algoritmoek lortu dezaketenezNIL emaitza onena erakusten du. Bigarren zutabean, datu-multzoetan ematen denizena zuzenean hiztegian bilatuz lortzen den goi-bornea ikus daiteke. Hirugarren zutabeantestua hiztegiarekin parekatuz, izen-aipamen luzeenekin lortzen dena.

Garapenean ”Dyd you mean” algoritmoak eta hiztegia testuarekin parekatzeak, guresistemen asmatze tasa maximoak igotzen dituela ikusi da. Gainera izen-aipamenaren eza-gutze egokiak, eskaeren anbiguotasun maila jaisten du. Testuan izen-aipamen luzeago batbilatzeak hautagai zerrenda txikitzen du, entitateen arteko lehiakortasuna jaitsiz.

3.3 Wikipediatik gainontzeko baliabideak erauzten

Ezagutza base erraldoi honetatik beste baliabide garrantzitsu bat eskuratu da, entitate-testuingurua hain zuzen. Entitate-testuinguruari buruz hitz egiten denean, entitatea aingu-ra bezala agertu den testuinguruari deritzogu, ez entitateari dagokion artikuluaren testua.Testuinguru hau eskuratzeko entitate bakoitza zein aingurarekin eta zein artikulutan ager-tu den jakin behar da. Informazio hau eskuratu ondoren, Wikipediako iraulketa artikulukaprozesatzen da. Artikulu bakoitzean, azaldu diren ainguren testuingurua eskuratzen da etaaingura horrek erreferentziatzen duen entitateari dagokion fitxategi batean gordetzen dira.Testuinguruen tamaina paragrafoen hasiera eta bukaerak mugatuko dute. Modu honetanentitate bakoitza azaldu den entitate-testuinguru guztiak entitatearen izena duen fitxa-tegi batean gordeta izango ditugu. 12 irudian testuinguruak entitateen desanbiguazioanduen garrantzia ikus daiteke. Aipamen-testuinguruak eta entitate-testuinguruak parekatuzantzerako terminoak azaltzen direla ikusten da.

3.4 Sailkatzaile probabilistikoa

Wikipediatik erauzitako hiztegi eta testuinguruekin, testu batean aurkituko diren izen-aipamenak identifikatu, hautagaiak sortu eta desanbiguatzeko baliabideak prest daude.Jarraian sailkatzaile probabilistiko baten bitartez desanbiguaziorako hautagaiak diren en-titateak sailkatuko dira. Sailkatzaile probabilistikoa eraikitzeko (Han eta Sun, 2011) arti-kuluak finkatzen dituen oinarriak erabilita, c testu batean agertzen den s izen-aipamenetik,

HAP masterra


Irudia 12: Ezkerrean, aipamen-testuinguruak eta eskuinean, entitate-testuinguruak ikusdaitezke. Desanbiguatu nahi den aipamena ”Lucy Walsh” da eta testuinguru biak pareka-tuz antzerako hitzak aurki daitezke. Izen-aipamenarekin zer ikusirik ez duen entitate baterraz baztertu daiteke propietate hau erabiliz.

hautagaiak izan daitezkeen e1, e2, e3... entitateak sortzen ditu. Hautagaiak sortzeko Wi-kipediatik erauzten den hiztegia erabiliko da. Demagun sarreran 2 irudian14 aipatu den”Joe Walsh” izena desanbiguatu behar dela eta hautagaiak 8 irudiko, musikaria, base-ball jokalaria eta politikoa direla. Hautagaiak izan daitezkeen entitate bakoitzeko, hiruprobabilitateren biderkaduraz sailkapen bat egiten da.

• Lehen biderkagaiak, e entitatea zein ospetsua den neurtzen du. Entitate batzuk bestebatzuk baino ospetsuagoak dira gehiagotan erreferentziatuak izan direlako. Adibi-dez Wikipedian ”Joe Walsh” musikaria, ”Joe Walsh” politikoa baino ospetsuagoada. Beraz adibide honetan musikariak probabilitate altuagoa lortuko du. Hau P (e)probabilitate banaketa bezala izendatuko da.

• Bigarren biderkagaiak, e entitatea s izenak izendatzeko duen probabilitatea neurtzendu. Hau da, entitate hori aipatzeko erabili den izena askotan erabilia izan baldinbada probabilitate handiagoa izango du atal honetan. Adibidez, izen-aipamena ”JoeWalsh” beharrean ”Walsh” balitz musikariak ere gainontzekoek baino probabilitate

146 orrian.

HAP masterra


handiagoa lortuko luke, izan ere ”Walsh” erabiliagoa da musikaria erreferentziatzeko.Hau P (s|e) probabilitate banaketa bezala izendatuko da.

• Hirugarren biderkagaiak e entitateak c testu batean azaltzeko duen probabilitateaneurtzen du. Musikariak, musikari buruz hitz egiten duen testuinguruan, beste edo-zein entitatek baino probabilitate handiagoa lortuko du. Hau P (c|e) probabilitatebanaketa bezala izendatuko da.

Lehen esan bezala hiru probabilitateen biderketa bidez P (s, c, e) = P (e)P (s|e)P (c|e) hau-tagaiak diren entitateak sailkatuko dira. Probabilitate altuena lortzen duena izango da sizenarekin c testuan agertu den aipamenari dagokion e entitatea. Beraz entitate irabazleaaurreko formularen maximoa lortzen duena izango da.

e = arg maxe

P (s, c, e) = arg maxe

P (e)P (s|e)P (c|e)

Gerta daiteke aipamen batentzat ezagutza basean entitaterik ez egotea edo daudenakegokiak ez izatea, hau errepresentatzeko NIL entitatea sailkapenean sartuko da. 13 irudianikus daiteke, eredu probabilistikoak, ”Joe Walsh” izen-aipamenarentzat entitateak nolasailkatzen dituen.

Irudia 13: Eredu probabilistikoak, izen-aipamenarentzat hautagaiak diren entitateak hirubiderkagaien arabera sailkatzen ditu. Probabilitate maximoa lortzen duena desanbigua-zioaren emaitza izango da.

HAP masterra


3.5 Ereduen zenbatespena

Atal honetan P (s, c, e) = P (e)P (s|e)P (c|e) kalkulatzeko, probabilitate bakoitza nola zen-batetsi den azalduko da.

3.5.1 Entitatearen ospearen probabilitatea

P (e) izendatu den banaketak, e entitatea ezagutza basean zein ospetsua den adieraziko du.Horretarako jarraian dagoen formula erabiliko da probabilitate hau kalkulatzeko.

P (e) =Count(e) + 1

|M |+N

M ezagutza baseko entitate agerpen guztien kontaketa da eta N entitate ezberdin ko-purua. Count(e)-k e entitate horri dagokion agerpen kopurua izango da. Count(e) balioari+1 leunketa aplikatzen zaio 0 probabilitatearen arazoa saihesteko. Arazo honekin biderka-gaietako bat 0 izanda probabilitate osoa 0 litzateke eta hau saihestu nahi da. Kontaketaguzti hauek 3.1 atalean azaldu den hiztegitik ateratzen dira.

3.5.2 Entitatearen izenaren probabilitatea

P (s|e) banaketak, e entitatea s izenaz agertzeko duen probabilitatea erakusten du. Horre-tarako egiantza handieneko zenbatezketaz baliatuz formula hau erabili da.

P (s|e) =Count(e, s) + 1

Count(e) + S

Count(e, s)-k e entitatea s izenarekin agertu den kontaketa balioa erakusten du. Count(e)-k aldiz, e entitatea s izen ezberdin guztiekin zenbat aldiz agertu den kalkulatzen du, edolehen esan bezala agerpen kopuru totala. Banaketa honetako kontaketak ere 3.1 ataleanazaldu den hiztegitik ateratzen dira. Aurreko biderkagaiari aplikatu zaion lehunketa ber-dina aplikatuz, S-k e entitatea zenbat aingura ezberdinekin azaldu den adierazten du.

3.5.3 Entitatearen testuinguruaren probabilitatea

P (c|e) banaketak e entitateak c aipamen-testuinguruan agertzeko duen probabilitatea zen-batetsiko du. Zenbatespen hau izen-aipamena agertu den c aipamen-testuinguruan 50-ekoleihoa aplikatuz kalkulatu da. 50-eko leiho hau baino urrunago dauden terminoak, izen-aipamenarekin loturarik ez dutela suposatuz. Garapen fasean hau horrela dela ziurtatuda. Horretarako e entitate-testuinguruan (Wikipedian aingura bezala azaldu den testuin-guruan), leiho berdina aplikatu eta unigramen bitartez termino bakoitzak duen probabili-tatea kalkulatu da. Honetarako 3.3 atalean erauzitako entitate-testuinguruak erabili dira.e-ren entitate-testuinguruan, aipamen-testuinguruko t termino baten probabilitatea edoP ′e(t), termino horren agerpen kopurua zati termino guztien kontaketa litzateke. Formula

jarraian datorrena da.

HAP masterra


P ′e(t) =

Counte(t)∑t

Counte(t)

P ′e(t) banaketari leunketa metodo bat aplikatu zaio 0 probabilitate arazoari aurre egite-

ko. Horretarako, probabilitateari Web 1T15 hizkuntza ereduko unigramekin termino horrekweb-ean agertzeko duen probabilitatea gehitu zaio. Jarraian Pe(t)-ren zenbatezpena kal-kulatuko duen azken formula Pg(t) hizkuntza ereduko probabilitatea barne duela.

Pe(t) = λP ′e(t) + (1− λ)Pg(t)

λ parametroari 0.2 balioa ezarri zaio Han eta Sun-en algoritmoan ikasketa prozesuanatera zituzten balio berdinak erabiliz. Beraz, s izen-aipamenaren n terminodun c aipamen-testuingurua izanda e entitate batentzat P (c|e)-ren zenbatezpena hau litzateke:

P (c|e) = Pe(t1)Pe(t2)...Pe(tn)

Terminoen artean dependentziak daudela badakigu, izan ere termino askok probabili-tate handia dute bata bestearen ondoren agertzeko. Baina banaketa honetan terminoenarteko independentzia asumitzen da, praktikan teknika hau oso erabilia baita. Gaineraaipamen-testuinguruko eta entitate-testuinguruko termino guztiak hartu beharrean, adi-tzak, adjektiboak eta izenak bakarrik kontuan hartu dira. Izan ere, 3 hauek entitate-izenekin erlazio gehien dutenak dira eta adiera desanbiguazioan hala aplikatzen da (de La-calle O., 2009). Bereizketa hau Stanford-eko part-of-speech tagger16-arekin egin da.

3.5.4 NIL entitatea sailkatzen

Lehen aipatu bezala gerta liteke desanbiguatu nahi den izen-aipamenarentzat ezagutza ba-sean entitaterik ez egotea edo daudenak egokiak ez izatea. Kasu horretan NIL entitatea es-leituko zaio izen-aipamenari. Algoritmo askok NIL entitatea identifikatzeko sailkatzaileakerabiltzen dituzte (Zheng et al., 2010). Han eta Sun-en algoritmoak aipamen bakoitzarensailkapenean NIL entitatea ere sailkatzen du. Entitate berri honentzat Web1T hizkuntzaereduetan oinarritutako probabilitateak erabiliko dira sailkapenean lehiatzeko. Hauek diraNIL entitatearentzat P (e), P (s|e) eta P (c|e) banaketaren formulak.

P (NIL) = 1|M |+N

P (s|NIL) =n∏t∈sPg(t)

P (c|NIL) =n∏t∈cPg(t)

15http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2006T1316http://nlp.stanford.edu/software/tagger.shtml

HAP masterra


Hau izan da sailkatzaile probabilistikoak erabiliko dituen baliabideen errepresentazioa.5 atalean algoritmo honek NIL entitatea antzemateko dituen gabeziak ikusiko dira. Haukonpontzeko saiakera batean, biderkagai bakoitzari pisu bat esleitu zitzaion. Horretarako,ikasketa automatikoan ezaugarriei pisuak esleitzen dizkieten algoritmoetan oinarritu ginen.Baina emaitzak ez ziren asko hobetu eta zuzenean ikasketa automatikoaz hiru biderkagaiakezaugarri bezala erabiliz sailkatzen hasi ginen. Horrela NIL antzematea hobetzea lortuzen. Ondoren datorren atalean sailkatzaile hauen irizpideak aztertuko dira.

3.6 Ikasketa automatikoaz sailkatzen

Atal honetan, eredu probabilistikoaren biderkagaietako bakoitza ezaugarri bezala hartuzeta beste batzuekin konbinatuz ikasketa automatikoan oinarritutako bi sailkatzaileen ga-rapena azalduko da. Bi sailkatzaileek ezaugarri berdinak erabiliko dituzte baina moduezberdinean sailkatuko dituzte entitateak. Eredu probabilistikoan jarraitu den metodolo-gia bera aplikatuko da, hau da, eskaera bakoitzarentzat, hautagaiak izango diren entitateakhiztegitik sortuko dira. Baina eredu probabilistikoan ez bezala, entitate egokia sailkatzai-leak aukeratuko du. Horretarako ereduak entrenatu behar dira urre-patroiaren araberaetiketatutako instantziekin. Ondoren, eredua etiketatu gabeko datu-multzoak etiketatzekoprest egongo da.

Irudia 14: Ikasketa automatikoan, eskaera bakoitzetik sortu den hautagai bakoitza instan-tzia bat izango da. Instantzia bakoitzak ezaugarri zerrenda bat izango du (ez1, ez2...) etaeredua entrenatzeko entitate adierazgarriak etiketatuko dira. Lehenengo eskaerak ”Lucy”izen-aipamenarentzat bi entitate ditu helburu bezala ”NIL” eta ”Lucy Walsh”. Urre pa-troitik badakigu ”Lucy Walsh” adierazgarritzat etiketatu behar dela. Eredua entrenatuadagoenean, etiketatu gabeko instantziak jasoko ditu eta adierazgarri edo ez adierazgarrietiketatatzeko gai izango da.

14 irudian ikus daiteke, datu-multzo bateko eskaera eta instantzien lagina, instantziakezNIL eta NIL kasuak izango dira. Helburua entitateak sailkatzeko ikastea da. Horreta-rako modu gainbegiratuan entrenatutako ereduak sortuko dira, etiketatutako instantziekin.

HAP masterra


Horrela, ereduak ezaugarri balio jakin bat betetzen duten instantziak adierazgarri etiketa-tzen ikasiko du.

3.6.1 Ezaugarriak

Jarraian entitate edo instantzia bakoitza adierazgarria den aukeratzeko ezaugarriak deskri-batuko dira. Eredu probabilistikoan erabilitako 3 biderkagaiak ezaugarriak izatera pasakodira eta hauen arteko konbinaketatik sorturiko beste 2 ere. Ezaugarri berriak P (e)∗P (s|e)eta P (e) ∗ P (s|e) ∗ P (c|e) izango dira, hauek ”prob” bezala erazagutuko ditugu hemen-dik aurrera. Eskaera berdinarentzat instantzien ezaugarri bakoitzak 100 batu dezaten,ehunekotan ere jarriko dira eta ”ehuneko” bezala izendatuko ditugu. Gainera beste bostgehituko dira eskaeran ”prob” ezaugarri maximoa lortu duen instantziaren balioa, gainon-tzeko instantzien ”prob” ezaugarriei kenduz, horrela ezaugarri horretan maximoa lortuduen instantziak 0 bat izango du. Hauek ”ken-MAX” motakoak izango dira. Azkenik”ken-MAX” bakoitzarentzat zerrenda baten betetzen duen postua islatuko da, hau da,0-tik hasita eskaerako instantziek osatzen duten goranzko zerrenda osatuko da. Hauek”rank” motakoak izango dira. 20 ezaugarri hauek eredu probabilistikotik ateratako ezau-garrien multzoa osatuko dute. Ezaugarri hauek, entitateek edo instantziek, eskaerarekikoduten informazio adierazgarria eskaintzen dute.

NIL-era lotuak dauden eskaerak antzemateko jarraian gehituko diren ezaugarriak des-kribatuko dira. Boolear batekin instantzia NIL den identifikatuko da. Eskaerako ”ken-MAX” ezaugarri bakoitzeko maximoa lortu duen instantzia NIL edo ezNIL den jakiteko 2ezaugarri batuko dira zerrendara (10 guztira), hauek ”rank” ezaugarriaren arabera osatukodiren ezaugarriak dira. ”ken-MAX” eta ”ehuneko” bakoitzeko NIL instantziak ezaugarrihauetan lortu dituen balioetara diferentziak erabiliko dira eta NIL instantziak eskaerakoinstantzia maximoarekiko duen diferentzia ere (20 guztira). 31 ezaugarriek NIL-en antze-matean parte hartzen duten ezaugarri multzoa osatzen dute eta ”nil” ezaugarriak deitukodira.

Orain, izen-aipamenetik eta aipamen-testuinguruetatik ateratzen diren ezaugarri boo-learrak deskribatuko dira. Hauek izen-aipamenarekin eta testua hiztegiaz parekatzeare-kin erlazio zuzena daukate (gogoratu 3.2 ataletik lortzen den izen-aipamen berria ”izen-aipamen luzeena” izango dela eta datu-multzoan eskaintzen dena ”izen-aipamena”). 9ezaugarri hauek ”izen” deituko dira. Beraz instantzia bakoitzeko:

• Entitatea eta izen-aipamenaren arteko parekatze osoa dago.

• Entitatea eta izen-aipamen luzeenaren arteko parekatze osoa dago.

• Entitatea eta izen-aipamenaren arteko parekatze partziala dago.

• Entitatea eta izen-aipamen luzeenaren arteko parekatze partziala dago.

• Entitatea izen-aipamenaren hedapena izan daiteke, hau da, akronimoa da.

• Entitatearen lehen azpi-katea eta izen luzeenaren artean parekatze partziala dago.

HAP masterra


• Entitatearen azken azpi-katea eta izen luzeenaren artean parekatze partziala dago.

• Izen-aipamen luzeagoa aurkitu da testuan.

• Izen-aipamenak hitz bat baino gehiago ditu.

Gainontzeko entitateek besteen berri izan dezaten ezaugarri berriak gehituko dira eta”izen” motakoen informazioa partekatzeko balio dute, 7 hauek ”existentzialak” bezalaizendatuko dira:

• Entitatea eta izen-aipamenaren arteko parekatze osoa lortu duen entitaterik ahaldago eskaera mailan.

• Entitatea eta izen-aipamen luzeenaren arteko parekatze osoa lortu duen entitaterikahal dago eskaera mailan.

• Entitatea eta izen-aipamenaren arteko parekatze partziala lortu duen entitaterik ahaldago eskaera mailan.

• Entitatea eta izen-aipamen luzeenaren arteko parekatze partziala lortu duen entita-terik ahal dago eskaera mailan.

• Entitatea izen-aipamenaren hedapena izatea lortu duen entitaterik ahal dago eskaeramailan.

• Entitatearen lehen azpi-katea eta izen luzeenaren artean parekatze partziala lortuduen entitaterik ahal dago eskaera mailan.

• Entitatearen azken azpi-katea eta izen luzeenaren artean parekatze partziala lortuduen entitaterik ahal dago eskaera mailan.

Azkenik, entitateekin lotura duten beste ezaugarri batzuk deskribatuko dira, 5 hauek”besteak” izenarekin ezagutuko dira aurrerantzean:

• Hiztegiko zenbat aingura identifikatu dira izen-aipamenaren testuinguruan.

• Zenbat aldiz aurkitu da izen-aipamen luzeena testuinguruan.

• Zenbat aldiz aurkitu da izen-aipamena testuinguruan.

• Izen-aipamen luzeenak entitate bakarra du hautagai bezala hiztegian.

• Izen-aipamen luzeenak zenbat entitate ditu hautagai bezala hiztegian.

Guztira 71 ezaugarri erabiliko dira izen-aipamen bakoitzaren entitateentzat. Jarraiandatozen ataletan sailkatzaileak nola erabili diren definituko da.

HAP masterra


3.6.2 Hautagai egokia aukeratzen bi pausutan

Lehenengo saiakera batean bi pausutan erabakiko da zeintzuk diren entitate egokiak. 15irudian ikusten den bezala, lehen pausuan, izen-aipamen bakoitzarentzat hautagaiak direnentitateak sortuko dira, NIL barne eta hauek instantzia multzoa sortuko dute. Ondoren,bigarren pausuan, sailkatzaileak adierazgarria edo ez adierazgarria esleituko dio instantziabakoitzari. Esan daiteke sailkatzaile bitar bat dela eta soilik entitate edo instantzia egokiakzeintzuk diren esango digula.

Irudia 15: Adibidean eskaera batentzat sortu diren entitateentzat, bi pausutako sailkatzai-leak eman dituen emaitzen errepresentazioa.

Bi pausutan aurreko atalean azaldutako 71 ezaugarriak erabiliko dira sailkapena egiteko.

3.6.3 Hautagai egokia aukeratzen hiru pausutan

Bigarren saiakera batean, NIL ezNIL instantziak banandurik sailkatuz, hiru pausutanentitate egokia aukeratuko da. Lehen pausuan eskaera bakoitzarentzat hautagaiak sortukodira beti bezala. Bigarren pausuan ezNIL instantziekin soilik sailkapen bat egingo daeta ezNIL onena aukeratzeko adierazgarria edo ez adierazgarria esleituko zaie entitateei.Hirugarren pausuan NIL instantziak soilik sailkatuko dira eta berriz ere adierazgarria edoez adierazgarria itzuliko du. Sailkatzaileen emaitzak bateratzeko azken sailkatzaileak NILbezala identifikatu dituen eskaerak NIL-era lotuko dira, besteak ezNIL hoberenera loturikutziz.

Bigarren pausurako, ezNIL hoberena aukeratzeko erabili diren ezaugarrietan, NIL-en antzematerako definitutako ”nil” ezaugarriak baztertu dira. Hirugarren pausuan NIL

HAP masterra


instantziak sailkatzeko ezaugarri guztiak erabili dira. 16 adibidean eskaera batentzat sail-katzaile ezberdinek eman dituzten emaitzen errepresentazioa ikusten da.

Irudia 16: Irudian eskaera batentzat sortu diren entitateentzat hiru pausutako sailkatzai-leak eman dituen emaitzen errepresentazioa. Hautagaiak sortu ondoren, ezNIL onenalehen sailkatzaileaz aukeratzen da, eta bigarren sailkatzaileak eskaera horretako NIL en-titatea ez adierazgarria bezala sailkatu duenez eskaera ezNIL onenera lotuko da.

3.6.4 Sailkatzailea aukeratzen: Ausazko-basoa

2.5 atalean egin den azterketan TAC-KBP-ko parte hartzaileen artean bektore-euskarridunmakinak ohikoenak direla ikusi da. Baina sailkatzaile hauek erabiltzeko ezaugarri askobeharrezkoak dira eta gure esperimentuentzat 71 ezaugarri besterik ez ditugu. Garapeneanbektore-euskarridun makinak, erregresioa, pertzeptroiak eta erabaki zuhaitzak erabili ziren,baina Ausazko-Basoak lortu zituen emaitza onenak.

Ausazko-basoa, erabaki-zuhaitzen konbinazioaz baliatzen den sailkapen edo erregresio-rako algoritmoa da. 17 irudian azaltzen den bezala, zuhaitzak ausaz aukeratzen direnezaugarriekin sortzen dira eta hauekin zuhaitz multzo bat sortzen da. Zuhaitz bakoitzaindependentea den arren, algoritmoaren emaitza zuhaitzen arteko batez-bestekoaz kalku-latzen da.

Erabaki zuhaitz bakoitza sortzeko ausaz aukeratu behar diren ezaugarrien kopurua√N

izatea gomendatzen da non N ezaugarri kopurua den. Bestalde, erabaki-zuhaitz kopuruak

HAP masterra


Irudia 17: Ausazko-basoaz test fasekoX instantzia baten sailkapena. Entrenamendu faseansortu den hiru erabaki-zuhaitzez osatutako ausazko-basoaz instantziak A(adierazgarria)edo Ez(ez adierazgarria) etiketaz sailkatzen dira. Entrenamenduan adabegi bakoitzean au-saz aukeratutako ezaugarriekin baldintzazko galderak sortzen dira eta zuhaitza eraikitzenda. X testeko instantzia baten lagina dela jakinda, adabegi bakoitzeko baldintzetan lor-tu duten emaitza, gorriz errepresentatu da. Hiru zuhaitzetik bik adierazgarria erantzundutenez, algoritmoaren emaitza adierazgarria izango da 2/3 konfidantza balioarekin.

ere eragina dauka algoritmoan, gero eta handiagoa izatean algoritmoaren iragarpenak ho-betzera egiten du.

3.6.5 Sailkatzailearen irteera errepresentatzen

Ausazko-basoak eskaera osatuko duten instantzia guztientzat adierazgarria edo ez adieraz-garria esleituko du. Esleipen hau konfidantza balio batekin egiten da. Konfidantza hauzuhaitzek erantzuten duten bataz-bestekoa da. Adibidez hiru zuhaitzetik bik adierazga-rria esleitu badute konfidantza 2/3 izango da. Eskaera bakoitzarentzat emaitza bakarrabehar dugu eta gerta daiteke sailkatzaileak instantzia bat baino gehiago ontzat ematea.Bi pausutako sailkatzailean adierazgarri bezala esleitua duen eta konfidantza altuena duenentitatea hartuko da. Gerta daiteke eskaera batentzat adierazgarria duen instantziarik ezaurkitzea. Orduan, ez adierazgarria etiketaz konfidantza baxuena duena eskaera horrenemaitza bezala hartuko da.

HAP masterra


Hiru pausutako sailkatzailean, ezNIL hoberena aukeratzean bi pausutako sailkatzaileanerabili diren irizpide berdinak erabiliko dira. NIL sailkatzailearentzat aldiz adierazgarri-tzat sailkatzen den instantzia aukeratuko da.

3.7 Entitateak multzokatzen

2.4 atalean aipatu da 2011 eta 2012 urteetako ebaluazioan Bcubed+ metrika erabili dela.Honek NIL eta ezNIL entitateak multzokatzea eskatzen du. ezNIL elementuak multzo-katzeko nahikoa da TAC-KBP-ko ezagutza-basera lotzea, bertan identifikadoreen bitartez,entitateak multzokatuak aurkitzen baitira. Baina NIL entitateekin ez da berdina ger-tatzen. Gure sistemek izen-aipamenaren arabera multzokatuko dituzte entitateak, hauda, izen berdinetik datozen eta NIL entitatera lotuak dauden eskaerak multzo berdineansartuko dira. Honen adibidea 18 irudian ikus daiteke.

Irudia 18: Datu-multzoan eskaera bati dagokion entitatea esleitu ondoren, entitateen mul-tzokatzea egin behar da. Ezagutza-baseko entitate berdinari lotuak dauden aipamenakmultzo berdinean sartuko dira. NIL-en kasuan izen-aipamen berdinetik datozenak multzoberean sartuko dira.

HAP masterra


4 Esperimentuak

Atal honetan eskura ditugun TAC-KBP-ko datu-multzoetan sistemak egikarituko dira etahorretarako beharrezkoak izan diren esperimentuak azalduko dira. Eredu probabilistikoa,datu-multzoan zuzenean aplikatuko da, izan ere beharrezkoak dituen baliabideak hiztegianeta erauzitako entitate-testuinguruetan aurkitzen baitira. Hala ere, ikasketa automatiko-rako, garapen, entrenamendu eta test faseak definitu behar dira.

4.1 Garapen, entrenamendu eta test faseak

Esperimentuak aurrera eramateko TAC-KBP-k lau urtetan prestatu dituen bost datu-multzo eskura daude (ikus 2.4 atala). Sistema guztien garapena 2009-ko datu-multzoanegin eta gainontzekoetan testatuko da. Eredu probabilistikoak ezik, beste biek, urte bakoi-tzean aurreko urteetako testeko eskaerak entrenamendu bezala erabiltzen dituzte. 2010-eaneta gainontzekoetan ez bezala entrenamendurako datu-multzo bat dago. Beraz 2010-ekotesterako 2009-ko eta 2010-eko entrenamendurako datu-multzoak erabiliko dira. 2011-akoatestatzeko 2009-ko test-a eta 2010-eko test eta entrenamenduko datu multzoak. Azkenik2012-an aurreko urteko berdinak gehi 2011-ko testa (1 taulan datu-multzoen kopuruak ikusdaitezke).

Bi pausu eta hiru pausutako algoritmoen garapen fasean, emaitzak balidazio gurutza-tuaren bitartez test-aren gainean ebaluatu dira 3.6.2 eta 3.6.3 ataletan azaldutako metodoajarraituz. Gerta daiteke, entitate batzuek testuingururik ez izatea edo daukatena erabilga-rria ez izatea, beraz, ezaugarri batzuk kalkulatu ezin direnez ? jarriko da ezaugarri hauenbalio bezala. Batzuetan ezin izango da entitate egokia hiztegitik sortu eta adierazgarriaedo ez adierazgarria etiketek ez dute hau islatzen, beraz ? etiketa jarriko da kasu hauetan.Irizpide hauek sailkatzailearen alde jokatzen dute, izan ere, etiketatu gabeko eskaerak direnarren sailkapenean laguntzen baitute.

Bestalde, ausazko-basoak ikasketarako erabiltzen dituen parametroak fase honetan op-timizatu dira. 3.6.4 atalean aipatu den bezala bi parametroen balioak ezarri behar dira.Batetik, erabaki-zuhaitzak sortzeko ausaz aukeratu behar diren ezaugarrien balioa finka-tu behar da, gomendatzen dena

√N denez eta N ezaugarri kopurua dela jakinda zortzi

ezaugarrirekin hasieratu da. Bestetik, erabaki zuhaitz kopurua aukeratu behar da eta 100aukeratuz balidazio gurutzatuan hobekuntza nabarmena dela ikusi da. Izan ere, zuhaitzgutxirekin sailkatuz lortzen diren konfidantza balioak ez dira oso adierazgarriak.

Demagun, bi pausutako sailkatzaileak lau zuhaitzekin sailkatzen dituela instantziaketa eskaera batentzat bi instantzia adierazgarri etiketatu dituela. 3.6.5 atalean esan dakonfidantza balioaren arabera aukeratuko dela eskaera batentzat instantzia egokia. Lauzuhaitzekin konfidantza balioak 0, 0.25, 0.75 edo 1 izan daitezke. Balio hauekin adierazga-rria lortu duten bi instantziek konfidantza balio berdina lortzea erraza da. 100 zuhaitzekinkonfidantza balioak zehatzagoak dira eta arazo hau konpontzen da.

HAP masterra


4.2 Garapenean lortutako emaitzak

Atal honetan garapenean lortutako emaitzak erakutsi eta azalduko dira. 3 taulan ereduprobabilistikoak eta ikasketa automatikoko bi metodoek 2009-ko test-aren gainean lortudituzten emaitzak ikus daitezke. Bi eta hiru pausutako sistemenak balidazio gurutzatuanlortutako emaitzak dira eta artearen egoeran emaitza onenak lortu zituzten (Han eta Sun,2011) artikuluko algoritmoarenak ere ikus daitezke. Aipatu beharra dago, Han eta Sun-ensistema ez zela 2009 urtean aurkeztu, ondoren garatutako sistema bat dela. Erabili denerrepresentazioan eskaera guztiak, ezNIL eta NIL kasuetako mikro-zehaztasun balioakerakusten dira hurrenez-hurren. Eredu probabilistikoak, ezNIL kasuentzat %79-a desan-biguatzea lortu du. Baina NIL kasuetan eskaeren %52-a ongi lotzea lortu du. Ereduhonek NIL entitateak ongi lotzeko arazoak dituela ikus daiteke. Hiru pausutako sistemakemaitza hobeak lortu ditu ezNIL eta NIL entitateak aparte sailkatuz, eskaeren %92-aongi lotu baititu. Kontuan hartuta hiztegiaren ezNIL-en goi bornea %89 dela (ikus 3.2.3atala), lortu den %82-ko mikro zehaztasuna oso emaitza ona da. Bestalde, aipatu beharradago, NIL-en antzematean lortu diren balio altuak %95 eta %99-a sistemaren arabera.NIL-en antzematea hobetzea ikasketa automatikoaren helburu nagusia zen eta 2 sistemekbetetzea lortu dute.

TAC-KBP 2009 Denak ezNIL NILEredu prob. 0.63 0.79 0.522 pausutan 0.88 0.78 0.953 pausutan 0.92 0.82 0.99

Sistema onena 0.86 0.79 0.90

Taula 3: Eredu probabilistikoak eta ikasketa automatikoko bi sistemek, garapen faseanlortu dituzten emaitzak ikus daitezke. Balidazio gurutzatuan lortutako emaitzak, artearenegoerako sistemarekin alderatuz emaitza onak direla esan daiteke, hala ere, garapen faseadenez ezin da esan emaitzak adierazgarriak direnik.

Jarraian, 4 taulan, 2009-ko datu-multzoan artearen egoerako sistemek lortu dituztenemaitzak ikus daitezke. Emaitza hauen artean urte horretan aurkeztu zirenak eta datu-multzo horretan ondoren ebaluatu diren sistemen emaitzak aurki daitezke. Honekin, siste-mak eskaera guztien %83-aren inguruan kokatzen direla ikus daiteke. ezNIL eskaerentzatemaitzak %75 inguruan dabiltza.

2009-ko datu-multzoan lortutako emaitzak ikusita, artearen egoeraren pareko sistemaklortu direla esan daiteke. Hala ere, sistemak gainontzeko datu-multzoetan ebaluatu arteezingo da inongo ondorio zehatzik atera.

HAP masterra


TAC-KBP 2009 Denak ezNIL(Zheng et al., 2010) 0.85 -(Dredze et al., 2010) 0.80 0.70(Zhang et al., 2010) 0.84 0.79(Han eta Sun, 2011) 0.86 0.79(Han eta Sun, 2012) 0.85 -(Hachey et al., 2013) 0.82 -

(Ploch, 2011) 0.80 0.72(Varma et al., 2009) 0.82 0.77

Taula 4: Artearen egoeran eta 2009-ko TAC-KBP-ko datu-multzoan, sistema ezberdineklortu dituzten emaitzak. Emaitzetan eskaera guztiak eta ezNIL balioenak aurkezten dira.

HAP masterra


HAP masterra


5 Emaitzak

Atal honetan, garatu diren hiru sistemak datu-multzo guztietan ebaluatuko dira eta dago-kion urtean aurkeztu zen sistema onenaren emaitzekin alderatuko dira. Orain arte bezala,eskaera guztiak, ezNIL eta NIL kasuak berezituko dira eta datu-multzo bakoitzean da-gokion metrikan azalduko dira emaitzak (mikro-zehaztasuna 2009 eta 2010ean, Bcubed+2011 eta 2012an).

TAC-KBP 2009 Denak ezNIL NILEredu prob. 0.63 0.79 0.522 pausutan 0.88 0.78 0.953 pausutan 0.92 0.82 0.99TAC onena 0.82 0.77 0.75

Taula 5: TAC-KBP 2009-ko datu-multzoak garatutako hiru sistemek lortu dituzten emai-tzak (mikro zehaztasuna). Bi eta hiru pausutako sistemek lortutakoak balidazio gurutza-tuan ebaluatuak izan dira eta eredu probabilistikoa ere datu-multzo honetan garatu da.Lehen aipatu bezala ez dira konparagarriak TAC 2009-an emaitza onenak lortu zituensistemarekin.

2009-ko datu-multzoan lortutako emaitzak 5 taulan ikus daitezke. Eredu probabilis-tikoak, ezNIL kasuentzat urte horretan aurkeztu zen sistemaren ezNIL onena baino al-tuagoa lortu du (Varma et al., 2009) . Ikasketa automatikoan oinarritzen diren 2 sistemenemaitzak oso onak dira, balidazio gurutzatuan lortutakoak dira eta emaitza hauek 4.2 ata-lean azaldu dira. Aipatzekoa da eredu probabilistikoan ez bezala, ikasketa automatikoazNIL-en antzematean lortu diren emaitzak.


Taula 6: 2010-eko datu multzoari dagozkion emaitzak (mikro zehaztasuna). Datu multzohonetan sistemen eraginkortasuna ebaluatu daiteke,izan ere, balidazio gurutzatuan ebalua-tutako emaitzak alde batera utzi dira. Ereduak entrenatu ondoren, test faseko emaitzakdira.

2010-ko datu-multzoan gure sistema guztiak ebaluatzean 6 taulan ikus daitezkeen emai-tzak lortu dira. Eredu probabilistikoak, berriz ere, ezNIL-en antzematean lortu duen%80-ko mikro zehaztasuna, sistema onenak (John Lehmann eta Shi, 2010) lortu zuenarenparekoa da. Bi eta hiru pausutako sistemek NIL-en antzematean lortzen duten hobekun-tzari esker %85-a lortu dute eskaera guztien balioetan. Balidazio gurutzatuan oinarrituakez dauden emaitzak direnez, datu-multzo honetan ikasketa automatikoan oinarritutakosistemek, artearen egoerako pareko sistemak izatera iritsi dira.

HAP masterra



Taula 7: 2011-ko datu-multzoan sistemek lortu dituzten emaitzak (Bcubed+).

7 taulan ikus daiteke 2011-ko datu-multzoan emaitza onenak lortu zituen (Sean Mo-nahan eta Jung, 2011) sistemarekin alderatuz, orokorrean sistemen emaitzek behera egindutela. Urte honetako datu-multzoak ebaluatzeko Bcubed+ metrika erabili dela gogoratuz,eredu probabilistikoaren ezNIL balioa, sistema onenaren 8 puntu azpitik gelditu da. Bieta hiru pausutako sistemek %75 eta %73-ko balioak lortu dituzte eskaera guztien emaitze-tan eta topea %86-a izanda beherakada nabarmena da. Entitateak multzokatzeak, NILelementuen emaitzetan eragin zuzena dauka eta 3.7 atalean azaldu den multzokatzea ez danahikoa izan espero ziren emaitzak lortzeko.


Taula 8: 2012-ko datu-multzoan sistemek lortu dituzten emaitzak (Bcubed+).

2012-ko datu-multzoan sistema guztiek behera egin dute 8 taulan ikus daitekeen mo-duan eta (Cucerzan, 2012) sistema onenak %73-ko Bcubed+ balioa lortu du eskaera guz-tietan. Eredu probabilistikoa eta sistema hoberenaren ezNIL balioen artean 7 puntukoezberdintasuna dagoen arren, NIL-en antzematean emaitzak ez dira bat ere onak. Ikasketaautomatikoan NIL elementuen antzematea hobetu den arren, eskaera guztiak begiratuzsistemak 17 eta 20 puntu azpitik gelditu dira. Sistema onenak beherakada nabarmenaegin du gainontzeko urteekin konparatuz, hau datu-multzoa aurrekoak baino anbiguoagoadelako gertatu da. Gainera 3.2.3 atalean ikusi den bezala, datu-multzo honetan hiztegitikhautagai egokia sortzea zailagoa da (hiztegiaren goi-bornea edo sistemek lortu dezaketena%82 da eta beste urteetan %90 inguruan dago) eta honek emaitzetan eragin zuzena dauka.

5.1 Errore analisia eta emaitzen balorazioa

Orokorrean, eredu probabilistikoa ezNIL-en atalean ongi moldatu da eta emaitzak onakdira. Datu-multzoaren arabera %80 inguruan ibili da 2009, 2010 eta 2011-n. 2012-an aldiz,%61-a lortu du baina urte horretako sistema onenak %68-a lortu duela jakinda emaitzaona da. Hala ere NIL entitateak antzemateko zailtasunak ditu eta (Han eta Sun, 2011)artikuluan azaldutakoa ezin izan da zehatz-mehatz inplementatu. Horren aurrean, ikasketa

HAP masterra


automatikoaren helburua, ereduak entrenatzean emaitza hauek hobetzea zen. Balidaziogurutzatuan 2009 datu-multzoan ebaluatzean emaitza onak lortu dira. Hala ere, garapenfasean egin den gain-elikatzea argi ikusi da gainontzeko datu-multzoetan testatzean.

Ikasketa automatikoko bi eta hiru pausutako algoritmoek, ezaugarri bereziei esker, NILentitateen antzematea hobetu dute. Adibidez 2010-eko datu-multzoan NIL-en %92-a on-gi lotu dute. Honi esker eskaera guztien emaitzetan igoerak ikusi dira, kasurik onenean2010-an %85-eko balioak lortuz. Balio hauek urte horretan emaitza onenak lortu zituensistematik oso gertu daude.

Hala ere, 2011 eta 2012 datu-multzoetan ikasketa automatikoko algoritmoek beherakadanabarmena jasan dute. 2011-n bi pausutako sistema, sistema onenetik 11 puntura geldituda eskaera guztietan. 2012-an aldiz, 17 puntuko diferentzia dago. Datu-multzo hauetanfaktore askok parte hartu dute emaitzen galeretan. Alde batetik, Bcubed+ metrikan eba-luatzeak eskatzen duen entitateen multzokatzeak emaitzak jaistea ekarri du. Bestalde,datu-multzoak aurrekoak baino anbiguoagoak dira eta ikasketa automatikoko sistemak da-tu multzo ez hain anbiguoetan entrenatu direnez, emaitzak behera egin dute. 2009 eta2010 datu multzoetan eskaera askok, izen-aipamen berdina dute eta entitate helburua ereberdina da. 2011 eta 2012-an izen-aipamen ezberdin gehiago daude eta denak ez doazentitate berdinera lotuak. Datu-multzoen diferentziak eta gain-elikatze fenomenoak, emai-tzetan islatu dira. Hala ere, 2010ean lortutako emaitzak oso onak dira eta gainontzekoetan,aipatutako atalak zuzenduz, hobetzea espero da.

HAP masterra


HAP masterra


6 Ondorioak eta etorkizuneko ildoak

Proiektu honetan testuetan azaldu diren izen-aipamenak identifikatu, hauentzat posibleakdiren entitateak sortu eta desanbiguatzeko gai diren hiru sistemak garatu dira. Horretarakoartearen egoerako sistemak aztertu eta gure sistemak TAC-KBP-ko datu multzo guztietanebaluatu eta beste sistemekin alderatu dira. Honekin proiektuaren hasieran finkatu zirenhelburuak bete dira. Aipatu beharra dago, sistema guztien garapenean eta ebaluazioanoso garrantzitsuak direla aipatu diren hiru pausuak. Izen-aipamenen identifikazioa, hau-tagaien sorkuntza eta desanbiguazioa. Atal bakoitzean egindako hobekuntza txikiek azkenemaitzan eragin zuzena dutela ohartu gara. Hasiera batean, desanbiguazioan jartzen ge-nuen arreta osoa eta beste bi atalak ez genituen sakontzen. Baina orokorrean atal bakoitzahobetuz emaitzak hobera aldatzen joan dira. Sistema guztien oinarria Wikipedia iraulketabat denez, edozein hizkuntzatara hedagarriak dira sistemak.

Etorkizunean, sistemak hobetzeko asmoz, hitzen adiera desanbiguazioan erabiltzen di-ren teknikak ataza honetara aplikatu nahi dira. Gainera eredu probabilistikoetan oina-rritzen diren grafo egiturako sistemetan sakondu nahi da. Ikasketa automatikoan indarrahartzen dauden ikasketa-sakoneko teknikak aplikatzea ez da baztertzen. Bestalde NIL en-titateen multzokatzean aurrera pausu bat emateko, sailkatzaileen laguntzaz eredu berriakentrenatuko dira.

Eredu probabilistikoak ezagutza-basera lotu behar diren entitateak arrakastaz lotzekoduen gaitasuna ikusita, desanbiguaziorako aplikazio bat sortzea pentsatu da. Horretarako,behar dituen baliabide guztiak datu-base batean gordetzen hasiak gara. Datu-basea webaplikazio baten integratu eta desanbiguazio aplikazio baten bihurtzeko lehen urratsak emandira. PATHS17 proiektuaren azpi atal baterako garatu da sistema eta (Agirre et al., 2013)artikuluan ikus daiteke orain arte egindakoa. Aplikazioak ondare kulturaleko elementuenmeta-datuetan azaltzen diren izen-aipamenak, Wikipedia artikuluetara lotzen ditu. 19irudian aplikazioaren interfazea ikus daiteke eta elementu horri lotuak dauden Wikipediaartikuluak ere. Modu honetan, erabiltzaileari elementu honi lotuta dauden artikuluakeskaintzen zaizkio. Demo bat atzigarri dago helbide18 honetan.

17http://www.paths-project.eu/18http://ixa2.si.ehu.es/paths_wp2/paths_wp2.pl

HAP masterra


Irudia 19: Eredu probabilistikoa aplikazio baten integratzeko lehenengo prototipoa. On-dare kulturaleko elementuen meta-datuetan izen-aipamenak bilatu eta hiztegian zuzeneandesanbiguatuz lortzen dira entitateak. Ondoren, ”Background Links” atalean erabiltzai-learentzat informazio gehigarri bezala dagozkien Wikipedia orriak txertatzen dira. Meta-datuak Juan Miro-ren arte lan bati dagozkio eta artikuluen artean ”Surrealism” eta ”JoanMiro” artikuluak agertzen dira.

HAP masterra


Erreferentziak

Eneko Agirre, Ander Barrena, Kike Fernandez, Esther Miranda, Arantxa Otegi, eta Ai-tor Soroa. Pathsenrich: A web service prototype for automatic cultural heritage itemenrichment. In Trond Aalberg, Christos Papatheodorou, Milena Dobreva, Giannis Tsa-konas, eta CharlesJ. Farrugia, editors, Research and Advanced Technology for DigitalLibraries, volume 8092 of Lecture Notes in Computer Science, pages 462–465. SpringerBerlin Heidelberg, 2013.

Enrique Amigo, Julio Gonzalo, Javier Artiles, eta Felisa Verdejo. A comparison of extrinsicclustering evaluation metrics based on formal constraints. Inf. Retr., 12(4):461–486, 2009.

Angel X. Chang, Valentin I. Spitkovsky, Eric Yeh, Eneko Agirre, eta Christopher D. Man-ning. Stanford-UBC entity linking at TAC-KBP. In Proceedings of the Third TextAnalysis Conference (TAC 2010), Gaithersburg, Maryland, USA, November 2010.

Silviu Cucerzan. The msr system for entity linking at tac 2012, 2012.

Lopez de Lacalle O. Domain-specific word sense disambiguation. In Lengoiaia eta SistemaInformatikoak Saila (UPV-EHU). Donostia 2009ko Abenduaren 14ean., 2009.

Mark Dredze, Paul McNamee, Delip Rao, Adam Gerber, eta Tim Finin. Entity disambigua-tion for knowledge base population. In Proceedings of the 23rd International Conferenceon Computational Linguistics, COLING ’10, pages 277–285, Stroudsburg, PA, USA,2010. Association for Computational Linguistics.

Ben Hachey, Will Radford, Joel Nothman, Matthew Honnibal, eta James R. Curran. Eva-luating entity linking with wikipedia. Artif. Intell., 194:130–150, January 2013. ISSN0004-3702. doi: 10.1016/j.artint.2012.04.005.

Xianpei Han eta Le Sun. An entity-topic model for entity linking. In Proceedings of the 2012Joint Conference on Empirical Methods in Natural Language Processing and Computa-tional Natural Language Learning, EMNLP-CoNLL ’12, pages 105–115, Stroudsburg,PA, USA, 2012. Association for Computational Linguistics.

Xianpei Han eta Le Sun. A generative entity-mention model for linking entities with know-ledge base. In Proceedings of the 49th Annual Meeting of the Association for Computa-tional Linguistics: Human Language Technologies - Volume 1, HLT ’11, pages 945–954,Stroudsburg, PA, USA, 2011. Association for Computational Linguistics. ISBN 978-1-932432-87-9.

Luke Nezda Arnold Jung John Lehmann, Sean Monahan eta Ying Shi. Lcc approaches toknowledge base population at tac 2010, 2010.

Danuta Ploch. Exploring entity relations for named entity disambiguation. In Procee-dings of the ACL 2011 Student Session, pages 18–23, Portland, OR, USA, June 2011.Association for Computational Linguistics.

HAP masterra


Timothy Nyberg Jesse Plymale Sean Monahan, John Lehmann eta Arnold Jung. Cross-lingual cross-document coreference with entity linking, 2011.

Vasudeva Varma, Praveen Bysani, Kranthi Reddy, Vijay Bharath, Sudheer Kovelamudi,Kiran Kumar N, Santhosh Gsk, Nitin Maganti, eta Karuna Kumar. Iiit hyderabad attac 2009, 2009.

Wei Zhang, Jian Su, Chew Lim Tan, eta Wen Ting Wang. Entity linking leveraging:automatically generated annotation. In Proceedings of the 23rd International Conferenceon Computational Linguistics, COLING ’10, pages 1290–1298, Stroudsburg, PA, USA,2010. Association for Computational Linguistics.

Zhicheng Zheng, Fangtao Li, Minlie Huang, eta Xiaoyan Zhu. Learning to link entitieswith knowledge base. In Human Language Technologies: The 2010 Annual Conference ofthe North American Chapter of the Association for Computational Linguistics, HLT ’10,pages 483–491, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.ISBN 1-932432-65-5.

HAP masterra

Testuak informazio gehigarriarekin aberasten, entitate-izenen … · 2017. 8. 7. · 2013ko iraila...

Documents

Transcript of Testuak informazio gehigarriarekin aberasten, entitate-izenen … · 2017. 8. 7. · 2013ko iraila...