recuperacion de informazion en la web

Informazio-Konpetentziak ikasgaiaIkus-Entzunezko Komunikazioa Gradua

Irakurketa-galderakMateos Sánchez, M.; García_figuerola, C. (2009). Recuperación de información en la web. Gijón: Trea

Lehenengo artikulu osoa irakurri eta gero erantzun galdera hauek. Erantzun batzuetarako komeni da Interneten bilaketa batzuk egitea. Bukatzean Interneten Issun igo. Gero zuen blogean ekarpena egin

eta esteka txertatu.

1. Zein dira aipatzen diren bi arazo nagusienak informazioa bilatzerakoan?

Batetik, erabiltzaileek beren kontsulta egiterako garaian hitz gako

egokiak eta zehatzak erabiltzeko duten zailtasuna aipatzen da, izan ere, beren

informazio beharrak asetzeko ahalegina egin eta beren partetik gogoa jarri

behar dute.

Bestetik, sistemak eskaintzen dituen emaitzak gehiegi direla ere aipatzen

da, sarean dauden milaka webgune azaltzen baitizkigu bilatzaileak.

2. Bilatzaileen Crawler-rak Robot ere deitzen dira. Azaldu zure hitzetan zer

egiten duten. Bilatu Interneten nola izena duen Googlen Robotak.

- Crawlerrak sare osoan zehar webguneak bilatu eta

aztertzen ditu, bertatik “index” delako sailkapen bat sortu ahal izateko.

Sailkapen horrek datu base moduan jokatuko du bilaketak burutzerako

garaian eta oso erabilgarria da bilatzailearentzat.

- Googleren robot programak “Googlebot” du izena. Baina

robot, bot, spider.. bezalako izenez ere ezagutzen da google

bilatzailearen tresna berezi hau.

1

IZENA: Maialen Torres


3. Zer esan nahi du “búsqueda sintáctica”?

Búsqueda sintáctica delakoa da bilatzaileek duten bilaketa sistema,

hau da, metodo horren bidez bilatzen dituzte webguneak. Metodo honen bidez,

ez da kontuan hartzen hitz horien esanahia, izan dezaketen erlazioa… hitz

jakin horiek dauzkaten webguneak aurkitzen ditu bilatzaileak. Hala ere, guk

nahi duguna (askotan) ez da hitz jakin horiek agertzen diren webguneak

aurkitzea, baizik eta hitz horiekin erlazioa dutenak ikusi ahal izatea, baina

bilatzaileek ez digute aukera hori eskaintzen.

4. Googlen algoritmoa Page Rank da. Zein da bere eginkizun nagusia ?

Bere eginkizun nagusia sailkapenean dauden orrialdeen garrantzia

zenbaterainokoa den erabakitzea da. Horretarako, kontuan hartzen dena da

orrialde horietako bakoitzak zenbat link edo lotura dituen (hau da, beste

webguneetatik aztergai dagoen orrialdera). Gainera, lotura horietako bat

webgune garrantzitsuren batekoa baldin bada, oraindik garrantzia handiagoa

izango du orrialde horrek sailkapenean. Hortaz, esan daiteke, orrialde batek

gero eta lotura gehiago izan eta lotura horien jatorrizko orrialdeak zenbat eta

garrantzitsuagoak izan, webgune horrek orduan eta garrantzia handiagoa

izango duela.

5. Googlen bilaketa bat egiten duzunean zer gertatzen da? Azaldu zer

gertatzen den “Googlen” barruan

Googlek, bilaketei erantzun ahal izateko, lehenik datu base baliagarri

bat izan beharra dauka. Horretarako, lehenengo, crawler deiturikoek sarea

arakatzen dute orrialdeak aztertu eta sailkatuz, URLserverrek gidaturik.

Crawlerrek orrialdeak bilatu ostean, konprimitu eta gordetzeaz arduratuko da

store server. Informazio hori repsitory delakoan gordeko du eta bakoitzari doc

ID bat egokituko zaio. Hori erabilita, indexer eta sorterrak sailkapena egingo

dute.

Lehenengoak, repositorytik banan-banan orrialde guztiak hartu eta

2


aztertuko ditu, bertako gako hitzak (hit) eta ezaugarriak argituz. Ondoren, hit

horiek guztiak barrelsetan gordetzen ditu ordenaturik eta azkenik, anchors file

delakoan webgune bakoitzaren loturak gordetzen ditu (kanpotik orrialdera, eta

orrialdetik kanporakoak).

Bigarrenak, indexerrak egindako lanean oinarriturik, doc IDak world ID

bihurtuko ditum offsetsak ere sortuz.

Gainera, URL resolverrak anchors fitxategitik loturak hartuz, bakoitzari

dagokion doc IDa emango dio eta bere jatorria eta helmuga aztertu ostean,

Page Rankari lagunduko dio orrialdeen garrantzia erabakitzen bildutako

informazioaz baiatuz.

Azkenik, Dump Lexikon delakoak sorterrak eta indexerrak prozesaturiko

datuei esker lexicon delakoa sortuko du, kontsulta motoreak bilaketak egiteko

erabiliko duena. Hortaz, bilaketa egiterakoan, motore horrek lexikon zerrendan

bilatuko du, betiere Page Rank edo orrialdeen garrantzia kontuan hartuz

emaitzak erabiltzaileari erakusteko.

3

recuperacion de informazion en la web

Documents

Transcript of recuperacion de informazion en la web