La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum...

55
La próxima generación de La próxima generación de motores de búsqueda motores de búsqueda Julio Gonzalo Julio Gonzalo Grupo UNED en Recuperación de Grupo UNED en Recuperación de Información y Procesamiento de Información y Procesamiento de Lenguaje Natural Lenguaje Natural http:// http:// nlp nlp . . uned uned .es .es

Transcript of La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum...

Page 1: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

La próxima generación de La próxima generación de motores de búsquedamotores de búsqueda

Julio GonzaloJulio GonzaloGrupo UNED en Recuperación de Grupo UNED en Recuperación de Información y Procesamiento de Información y Procesamiento de

Lenguaje NaturalLenguaje Naturalhttp://http://nlpnlp..uneduned.es.es

Page 2: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

El modelo clásico de IR...El modelo clásico de IR...

consulta

Docs relevantes

Necesidadinformación

(precisa)

coleccióndocumentos

(estática)

Expansión de la consulta

Modelos formales(solapamiento consulta/documento)

Representación de documentos (índices)

Técnicas de agrupación

Comparación consulta/documento

Heurísticas de pesado (tf.idf)

Estructuras de datos

Visualización

Realimentación

Filtrado

Page 3: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

...frente a la búsqueda WWW

Page 4: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Buscadores web: GoogleBuscadores web: Googleweb web retrievalretrieval: búsqueda simple y eficiente + : búsqueda simple y eficiente + pagerank pagerank + ...+ ...Funciona muy bien para necesidades de información que Funciona muy bien para necesidades de información que se resuelven con uno o dos enlaces:se resuelven con uno o dos enlaces:–– Páginas personales (e.g. “Julio Gonzalo”)Páginas personales (e.g. “Julio Gonzalo”)–– Portal de calidad sobre un tema (e.g. “Cámaras digitales”)Portal de calidad sobre un tema (e.g. “Cámaras digitales”)–– Portal de una empresa/institución/servicio web (e.g. “Instituto Portal de una empresa/institución/servicio web (e.g. “Instituto

Cervantes”)Cervantes”)–– Página oficial de un evento (“Forum 2004”)Página oficial de un evento (“Forum 2004”)

Pero cuando es necesario examinar varias páginas, Pero cuando es necesario examinar varias páginas, reuniendo y relacionando información de varias fuentes, reuniendo y relacionando información de varias fuentes, las listas ordenadas de Google no son suficiente:las listas ordenadas de Google no son suficiente:–– Las listas ordenadas de enlaces no organizan conceptualmente losLas listas ordenadas de enlaces no organizan conceptualmente los

resultados de búsqueda.resultados de búsqueda.–– Google no extrae ni relaciona Google no extrae ni relaciona informacióninformación de los documentos.de los documentos.–– Google nos “abandona” una vez que entramos en un portal, y los Google nos “abandona” una vez que entramos en un portal, y los

buscadores de portales son muy elementales.buscadores de portales son muy elementales.

posicionamiento

Page 5: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Líneas de futuro inmediatoLíneas de futuro inmediato

Las listas de enlaces no organizan Las listas de enlaces no organizan conceptualmente los resultados de conceptualmente los resultados de búsqueda. búsqueda.

Google no extrae ni relaciona Google no extrae ni relaciona informacióninformaciónde los documentos.de los documentos.

Google nos “abandona” una vez que Google nos “abandona” una vez que entramos en un portalentramos en un portal

1. Organización y visualización de resultados

2. Buscadores “verticales”

3. Buscadores sobre portales

Page 6: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

1. Organización y visualización 1. Organización y visualización de los resultados de búsquedade los resultados de búsqueda

Sugerencia de filtros: Sugerencia de filtros: AltavistaAltavista, , TeomaTeomaAgrupación jerárquica: Agrupación jerárquica: VivísimoVivísimo,, iBoogieiBoogieAgrupación jerárquica + Visualización: Agrupación jerárquica + Visualización: GrokkerGrokkerResúmen multidocumentoResúmen multidocumento

Administrador
Cuadro de texto
Siguiente >>
Page 7: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Estupendo...

pero sólo funciona para información clasificada manualmente.

“every topic deserves its own first page”

Page 8: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando
Administrador
Cuadro de texto
<< Anterior
Administrador
Cuadro de texto
Siguiente >>
Page 9: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Búsqueda: “Julio Gonzalo”:

- informático: 69 enlaces

- físico: 7 enlaces

- coronel: 1 enlace

- alcalde: 1enlace

Page 10: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Agrupación jerárquica: Vivísimo

Recuperación de información

Redes semánticas

Física

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
Administrador
Cuadro de texto
<< Anterior
Page 11: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Agrupación jerárquica + visualización: Grokker

Page 12: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando
Page 13: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Análisis Formal de ConceptosAnálisis Formal de ConceptosMatriz objetos/atributos

Retículo conceptual

UNED JBraindead

Page 14: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

UNED JBraindead: UNED JBraindead: exploración mediante retículosexploración mediante retículos

(consulta: virus informáticos)

UNED JBraindead

Administrador
Cuadro de texto
<< Anterior
Administrador
Cuadro de texto
Siguiente >>
Page 15: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando
Page 16: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

2. Buscadores verticales2. Buscadores verticales

datos

NecesidadDe información

Colección dedocumentos

extracción

consulta

Page 17: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

2. Buscadores verticales2. Buscadores verticales

Agrupación: Google Agrupación: Google NewsNewsExtracción:Extracción: CiteseerCiteseer (publicaciones (publicaciones científicas)científicas)TrypAdvisor TrypAdvisor (viajes)(viajes)Froogle Froogle (compras)(compras)

Page 18: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Filtrado y agrupación de resultados en dominio específico

Administrador
Cuadro de texto
<< Anterior
Administrador
Cuadro de texto
Siguiente >>
Page 19: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Extracción de información: compras

Page 20: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Extracción + minería: Citeseer

Page 21: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

El complementario de los El complementario de los buscadores verticales: buscadores verticales:

la la Web SemánticaWeb Semántica

pregunta

datos, gestiones

NecesidadDe información Web semántica

QL

Agente de búsqueda

RDF

ontologías

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 22: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

3. Buscadores sobre portales3. Buscadores sobre portales

Ejemplo de búsqueda/navegación en portalEjemplo de búsqueda/navegación en portalAsistentes virtuales de búsquedaAsistentes virtuales de búsquedaVisualizadores: Visualizadores: HyperbrowsingHyperbrowsingUso de Uso de metadatos metadatos ChaCha--Cha (Cha (visualizacion visualizacion de caminos)de caminos)

Page 23: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Ejemplo: busco impreso solicitud Ejemplo: busco impreso solicitud reintegro ADSL en reintegro ADSL en uneduned.es.es

Primero veremos cómo se llega navegando.Primero veremos cómo se llega navegando.Después cómo se puede llegar buscando.Después cómo se puede llegar buscando.Ambas opciones son catastróficas, a pesar Ambas opciones son catastróficas, a pesar de que se trata de una web premiada y un de que se trata de una web premiada y un buscador por encima de la media.buscador por encima de la media.

Page 24: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

¡No

apar

ece

el v

icer

rect

orad

o de

nue

vas t

ecno

logí

as!

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 25: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Hab

ía q

ue b

usca

r en

el B

ICI..

.

Page 26: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Cur

so 2

003/

2004

...

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 27: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

BIC

Is 2

1 a

30...

Page 28: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Al f

in!

Administrador
Cuadro de texto
<< Anterior
Administrador
Cuadro de texto
Siguiente >>
Page 29: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Hay

una

opc

ión

de b

úsqu

eda

Page 30: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Bus

co “

AD

SL”

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 31: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Bus

co “

impr

eso

solic

itud

AD

SL”

Page 32: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Bus

co “

solic

itud

rein

tegr

o fa

ctur

as A

DSL

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 33: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Cam

bio

“tod

as”

por “

cual

quie

ra”

Page 34: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Uso

las p

alab

ras c

lave

del

doc

umen

to (l

o co

nozc

o)

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 35: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando
Page 36: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Asistentes virtuales: CajaMadridB

uena

impr

esió

n si

la re

spue

sta

está

en

el F

AQ

...

Page 37: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Pero

¿có

mo

hace

rse

ente

nder

cua

ndo

se e

quiv

oca?

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 38: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Los

asi

sten

tes

virt

uale

s le

dan

a la

beb

ida

virt

ual..

.

Page 39: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Visualización del sitio web: árbol hiperbólico

Page 40: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

árbol hiperbólico + búsquedaárbol hiperbólico + búsqueda

Page 41: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Páginas en contexto: Cha-Cha

¡La estructuradel portal

es un buen criteriode agrupamiento!

(en la WWW no es posible)

Page 42: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Volvamos al problema del Volvamos al problema del vocabulariovocabulario

Consulta: “reintegro ADSL”Consulta: “reintegro ADSL”

Documento: “ayuda nuevas Documento: “ayuda nuevas tecnologiastecnologias..Impreso número 1. Convocatoria Abril Impreso número 1. Convocatoria Abril 2004”2004”

Ni Google ni el buscador UNED lo Ni Google ni el buscador UNED lo encuentran!encuentran!

Administrador
Cuadro de texto
<< Anterior
Administrador
Cuadro de texto
Siguiente >>
Page 43: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Expansión y traducción de la consultaProhibiciónembargoentredichointerdiccióninterdictoproscripción

baninterdictionprohibitionproscription

Pruebascata, cataduradegustaciónensayoescandalloexperimentogustaciónmuestreo, tanteo

demonstrateestablish, exhibitexperimentexperimentationfall, fittingindicate, pointpresent, proofprove, runsample, samplingshew,show, tastetest, trial, try

de Nucleares

nuclear

nuclear

de

Nuclear fitting interdiction manage? Nuclear taste proscription process?

Expa

nsió

nTr

aduc

ción

Tratadosacuerdocapitulaciónconcertaciónconveniocuidar, pactomanejarprocesar

accorddiscoursehandlemanagepactprocesstreattreatisetreaty

UNED Website Term Browser

Page 44: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

consulta

Refinar consulta

Explorar sintagmaExplorar documento

UNED Website Term Browser

Administrador
Cuadro de texto
<< Anterior
Administrador
Cuadro de texto
Siguiente >>
Page 45: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

UNED Website Term Browser

Page 46: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

UNED Website Term Browser

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 47: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

¿Y a medio plazo?¿Y a medio plazo?

Eliminación de barreras idiomáticas y Eliminación de barreras idiomáticas y terminológicasterminológicasTécnicas genéricas de localización y síntesis Técnicas genéricas de localización y síntesis de de informacióninformación

Page 48: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Un detalle que se nos escapó sobre la WWW...

Page 49: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

49

Algoritmo de alineación

abortion issue

abortion

issue

aborto

tema

número

asunto

edición

emisión

•tema del aborto•asunto del aborto•asuntos como el aborto•asuntos del aborto•temas como el aborto•asunto aborto

abortion issue tema del aborto

UNED NOODLE

Page 50: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

HERMES (UNED/UPC/UB/UPV): búsqueda y exploración multilingüe por entidades nombradas

UNED Hermes

Administrador
Cuadro de texto
Siguiente >>
Administrador
Cuadro de texto
<< Anterior
Page 51: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Síntesis de información con la ayuda de Google.. y alguien más

Page 52: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

UNED Prisma

PRISMA: asistente para síntesis de informaciónUNED PRiSMA

Page 53: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

¿Por qué agentes?¿Por qué agentes?UNED PRiSMA

Page 54: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Implicaciones para Implicaciones para posicionamientoposicionamiento

El modelo de Google seguirá siendo válido para El modelo de Google seguirá siendo válido para consultas de “dame un enlace”... Pero ¿son esas las consultas de “dame un enlace”... Pero ¿son esas las más interesantes en temas culturales? más interesantes en temas culturales? En otro tipo de En otro tipo de consultas, la agrupación y los buscadores consultas, la agrupación y los buscadores verticales harán menos crucial el posicionamiento.verticales harán menos crucial el posicionamiento.Prepararse para (o crear!) Prepararse para (o crear!) buscadores verticalesbuscadores verticalessobre temas culturales/educativos/científicos...sobre temas culturales/educativos/científicos...¿web ¿web semántica?semántica?La pregunta más básica: ¿Dispone su sitio web de un La pregunta más básica: ¿Dispone su sitio web de un buscador apropiado para portalesbuscador apropiado para portales??

Page 55: La próxima generación de motores de búsqueda · – Página oficial de un evento (“Forum 2004”) Pero cuando es necesario examinar varias páginas, reuniendo y relacionando

Más informaciónMás información

www.searchenginewatch.comwww.searchenginewatch.comwww.sigir.www.sigir.orgorghttp://nlp.uned.eshttp://nlp.uned.es

Administrador
Cuadro de texto
<< Anterior