Post on 28-Mar-2016
description
Informazio-Konpetentziak ikasgaiaIkus-Entzunezko Komunikazioa Gradua
Irakurketa-galderakMateos Sánchez, M.; García_figuerola, C. (2009). Recuperación de información en la web. Gijón: Trea
Lehenengo artikulu osoa irakurri eta gero erantzun galdera hauek. Erantzun batzuetarako komeni da Interneten bilaketa batzuk egitea. Bukatzean Interneten Issun igo. Gero zuen blogean ekarpena egin
eta esteka txertatu.
1. Zein dira aipatzen diren bi arazo nagusienak informazioa bilatzerakoan?
Testuan aipatzen diren bi arazo nagusienak honako hauek dira:
-Lehenengo arazoa informazioa bilatzeko orduan erabiltzaileak duten zailtasuna
da. Zaila baita bilatu nahi dena modu zehatz eta apropos batean jartzea
bereziki bilatzen ari garen informazioa soilik agertzeko. Beraz askotan
erabiltzaileen bilaketen emaitzetan ez da agertzen haiek espero zutena.
-Bigarren arazoa bilaketa egiterakoan sareak eskaintzen dizkigun emaitzak
osatzen dute. Gehienetan emaitza horiek mila web orrialde osatzen dutelako.
Hau erabiltzailearentzako arazo handia da, zaila delako hainbat orrialdeen
artean dokumentu egokiak aukeratzea.
2. Bilatzaileen Crawler-rak Robot ere deitzen dira. Azaldu zure hitzetan zer
egiten duten. Bilatu Interneten nola izena duen Googlen Robotak.
Crawler-rak edo Robotak sarea zeharkatu egiten du, bilatzailean jarritako
hitzekin zer ikusia duten web guneak aurkitzeko. Robotak hitzak sarera
bidaltzen ditu eta erlazioa duten web-en selekzioa egiten da, aukeratutako
web-ak izango dira bilaketaren emaitza.
Ondoren irakurritako edo berreskuratutako orrialdeak, indizadorean gorde
egiten dira, honen zeregina Crawler-ak jasotako informazioaren indizea
mantentzea da.
Googlebot da Google-ek erabiltzen duen robota sarean miatzeko.
1
IZENA: Itxaso Frau
Informazio-Konpetentziak ikasgaiaIkus-Entzunezko Komunikazioa Gradua
3. Zer esan nahi du “búsqueda sintáctica”?
“Búsqueda sintactica” –ren esanahia hurrengoa da, erabiltzaileak bilaketa
egiterako orduan erabilitako hitzak edo terminoak duten web orrialdeak
bilatzea.
Hala ere hitzak dokumentuaren semantika ez islatzea gerta daiteke, honek
esan nahi duena da, agian erabiltzaileak erabili dituen hitzak dokumentu
batean agertzen dira baina honek ez dauka zer ikusirik erabiltzailea bilatzen ari
denarekin.
4. Googlen algoritmoa Page Rank da. Zein da bere eginkizun nagusia ?
Page Rank-a web orrien garrantzia erabaki egiten du, horretarako web
orrialdeak dituen link-ak edo loturak hartzen ditu kontuan edo beste webgune
batzuetatik sartzeko aukera.
Hau gertatzekotan, beste web gune batetik sartzeko aukera duela eta web
gune hori garrantzizkoa baldin bada hasierako web orrialdearen garrantzia
handiagoa izango da.
5. Googlen bilaketa bat egiten duzunean zer gertatzen da? Azaldu zer
gertatzen den “Googlen” barruan
Behin Google-en bilatu nahi dugun informazioa idatzita daukagula honako hau
gertatzen da bere barruan. Lehenik eta behin, web orrien miaketa eta
berreskurapena crawler desberdinak burutzen dute. Behin orrialdea
berreskuratuta dagoela store server-era bidaltzen da honek orrialdea
konprimitu eta bilduko du repository-n.
Orrialdea bilduta dagoela indizazioa burutzen da, indexer edo sorter-aren
bitartez. Hauen zer egina repository-n dagoen dokumentua deskonprimitzea
eta hit batean bihurtzea da. Hit-a dokumentu hori ordezkatzen duten hitz edo
2
Informazio-Konpetentziak ikasgaiaIkus-Entzunezko Komunikazioa Gradua
terminoak dira, hit bakoitzak dokumentuari buruzko informazio bat gordetzen
du, indexer-ak, hit-ak barrels-an pilatu egiten ditu.
Orrialdearekiko dauden link guztiak anchors file deituriko fitxategian gorde
egiten dira, URL resolver-a aipatutako fitxategiko dokumentu bakoitzari docID
bat asignatu egiten dio. Lehen azaldu dugun bezala Page Rank-a orrialdeen
balorazioa egiten du eta momentu honetan hartzen du parte, Page Rank.a
dokID bakoitzaren garrantzia aztertzen du.
dokID bakoitza sorter-aren bitartez wordID bihurtzen dira. Azkenik
DumpLexicon deituriko programaren bitartez, wordID lista hartu egiten da eta
Page Rank-aren arabera web-ak ordenatu eta bilaketaren emaitzak
bezeroaren eskura jartzen dira.
3