Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5...

74
1 Modelos de Recuperación de la Información Almacenamiento y Recuperación de la Información Manuel Serrano E.S. Informática CR – UCLM [email protected] http://alarcos.inf-cr.uclm.es/per/mserrano/

Transcript of Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5...

Page 1: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

1

Modelos de Recuperación de la Información

Almacenamiento y Recuperación de la Información

Manuel SerranoE.S. Informática CR – UCLM

[email protected]://alarcos.inf-cr.uclm.es/per/mserrano/

Page 2: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

2

Introducción3 Modelos clásicos

BooleanoVectorial Probabilístico

Normalmente nos basamos en términos para indexar y también para recuperar

Page 3: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

3

IntroducciónLos términos son palabras claves que representan al documento

Manualmente (mejores, pero alguien tiene que elegirlos)Automáticamente

Los términos no tienen porque aparecer en el documento

Page 4: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

4

IntroducciónProblema:

El enfoque es una simplificaciónSólo tenemos aspecto léxicoNo tenemos

SintaxisSemánticaPragmática

Los 3 modelos clásicos usan esta simplificaciónLos documentos se representan por un conjunto de términos de indexación.

Page 5: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

5

IntroducciónModelo booleano

Los documentos son un conjunto de términos Las preguntas son expresiones booleanas

Modelo vectorialModelo probabilístico

Page 6: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

6

IntroducciónEl modelo de representación de los documentos (D)Método de representación de las preguntas (P)Una función S: D × P → ℜ

Para cada par (documento,pregunta) asigna un valor real de similitud

Page 7: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

7

IntroducciónEstas 3 características determinan el núcleo de un SARI, ignorando el modo de usoD y P son conjuntos de términos que analizaremos en los temas 3 y 4En este tema nos centraremos en la función

Page 8: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

8

ArchivosTenemos un archivo con todos los documentosUna solución es recorrer el archivo buscando palabras Ineficiente.Otra forma es tener un registro para cada documento con un 0 ó 1 por cada término

Page 9: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

9

Archivos

Para saber si un documento tiene un término miramos en la tabla

10110D401101D301010D201000D1T5T4T3T2T1

Archivo Directo

Page 10: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

10

Archivos

Es más eficiente pues al buscar un término sólo miramos un registro

10110T401101T301010T201000T1

D5D4D3D2D1

Archivo Invertido

Page 11: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

11

Archivos: Archivo InvertidoEl tamaño de los registros aumenta con el número de documentosLa matriz está llena de 0’sSolución: Partir el archivo en 2:

DiccionarioArchivo de almacenamiento de listas (Postings file)

Page 12: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

12

Archivos: Archivo Invertido

T1 ·T2 ·

...

·T3

·T4

·T5

·T6

·

47

28

47

1

...

...

...

...

...

...

51

...

53

...

...

...

...

...

...

...

42

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...Diccionario

Postings file

Registros de tamaño variable

Page 13: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

13

Archivos: DiccionarioImplementación:

Orden de apariciónA medida que vamos añadiendo documentos vamos metiendo nuevos nuevos términosIneficiente

Tabla ordenadaEl problema es que tiene que ser dinámica

Árboles BEficientes para implementación en disco

Page 14: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

14

Archivos: DiccionarioÁrbol B

37 58

12 24 72 92Claves

Registos

Page 15: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

15

Archivos: DiccionarioÁrboles digitales: TRIE

1er. bit

2º bit

3er. bit

0 1

0 1

0

0

0Clave reg 00

Clave 010

Page 16: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

16

Archivos: DiccionarioÁrboles digitales:

Las claves se construyen con 0’s y 1’sLas claves están repartidas por árbolEs más eficiente que los árboles BHay muchos tipos el de la figura anterior se llama TRIE

Traducción CUPE (reTRIEval reCUPEración)Son muy útiles cuando se hacen búsquedas por prefijos

Page 17: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

17

Archivos: DiccionarioÁrboles digitales:

Árbol Patricia

Optimización del TRIELos nodos que sólo tienen un descendiente se eliminan y se indica el nivel que se salta

Page 18: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

18

Archivos: DiccionarioTablas de dispersión (Tablas Hash)

Es la más eficiente mejor tiempo de acceso

Problemas:Si es muy dinámica y está muy llena:

ColisionesMétodo de resolución de colisiones

Es la forma más utilizada

Page 19: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

19

Archivos: DiccionarioTablas de dispersión (Tablas Hash)

La clave se utiliza como argumento de la función que nos dice donde estáLa función la mayoría de las veces aciertaEl índice de aciertos decrece a medida que la tabla se va llenando

Page 20: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

20

Archivos: DiccionarioTablas de dispersión (Tablas Hash)

Cuando hay colisionesUtilizar la clave donde debería estar como clave para la nueva localizaciónTener un área de desbordamiento

Las búsquedas son muy eficientesEs lo que más hacemos

Page 21: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

21

Archivos: DiccionarioTablas de dispersión (Tablas Hash)

Las inserciones dependen de lo llena que esté.Un orden de llenado del 60% - 70% está bienProblemas:

No hay orden lexicográficoClaves desordenadasNos sabemos cual es el siguiente a un término

Page 22: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

22

Modelo BooleanoEl método de representación de los documentos es un conjunto de términos de indexación o palabras claves

perro

canela corre

poco

perro

canela caza

gato

blanco

persia

Doc1Doc2

Doc3

Page 23: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

23

Modelo BooleanoDiccionario: Conjunto de todos los términosT = {t1, t2, t3, ...}

Documento: Conjunto de términos del diccionario donde tiene valorDi = {t1, t2, t3, ...}ti = Verdad si es una palabra clave del doc

Page 24: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

24

Modelo BooleanoLas preguntas son expresiones booleanas cuyos componentes son términos de nuestro diccionarioOperadores

O (∪)Y (∩)No (-)

(No suele implementarse, se suele implementar y_no)

Ejemplo: (Perro o gato) y blanco

Page 25: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

25

Modelo BooleanoFunción de similitud o semejanza

Sem(di,p) es verdad si p(di) = verdadSem(di,p) es falso si p(di) = falsoEj:

sem(d1,p) = (perro o gato) y blanco = falsoSem(d3,p) = (perro o gato) y blanco = verdad

Page 26: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

26

Modelo BooleanoVentajas:

Más sencillo imposible

Desventajas:La función semejanza sólo tiene 2 valoresEl lenguaje de consulta no es sencillo

Page 27: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

27

Modelo BooleanoAlgoritmo

Nos permite calcular el valor de la función de semejanza1ª aproximación: aplicar la función a todos los docs, pero esto no es eficienteNecesitamos una función que nos devuelva los id de los docs que tienen un término

fácil mirando el archivo invertidoLuego mezclamos las listas

Page 28: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

28

Modelo BooleanoAlgoritmo:

Entrada: 2 listas ordenadas ascendentemente

Salida: 1 lista ordenada con la mezcla de las 2 listas de entrada

El orden puede ser el número de identificación de documento

Page 29: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

29

Modelo BooleanoAlgoritmoMIENTRAS verdad

SI ambas listas están vacias ENTONCES FINSI_NO SI una lista de entrada está vacia

ENTONCES transferir resto de elementos de la lista no vacia a salida

FINSI_NO tomar elemento de cabeza de L1(R1) y L2(R2)

SI R1 < R2ENTONCES transferir R1 a salida y eliminarlo de L1

SI_NO transferir R2 a salida y eliminarlo de L2FIN_MIENTRAS

Page 30: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

30

Modelo BooleanoTi y Tj

Mezclamos las 2 listas y es verdad para los términos que estén duplicado en la mezclaEjemplo

d1=(t1,t3,t4) d2=(t1,t2,t4)t1={d1,d2} t2={d2} t3={d1} t4={d1,d2}t1 y t4: Mezcla={d1,d1,d2,d2} {d1,d2}t1 y t3: Mezcla={d1,d1,d2} {d1}

Page 31: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

31

Modelo BooleanoTi o Tj

Mezclamos las 2 listas y es verdad para los términos que estén 1 ó 2 veces

No TiLos que no estén en la lista Ineficiente

Ti y no TjHacemos Ti y Tj, Mezclamos(Ti, Ti y Tj) y quitamos los que aparecen más de una vez

Page 32: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

32

Modelo BooleanoEjemplo

T1={d1,d3} T2={d1,d2} T3={d2,d3,d4}P = (T1 o T2) y_no T3

Mezcla(T1,T2) = {d1,d1,d2,d3}T1 o T2 = {d1,d2,d3} (Aparecen 1 o 2 veces)Mezcla([T1 o T2],T3) = {d1,d2,d2,d3,d3,d4}(T1 o T2) y T3 = {d2,d3} (Aparecen 2 veces)Mezcla([T1 o T2],[(T1 o T2) y T3]) = {d1,d2,d2,d3,d3}(T1 o T2) y_no T3 = {d1} (Quitando los duplicados)

Page 33: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

33

Modelo VectorialEs el más usadoPermite dar graduación a la pertenencia de un documento a una preguntaLos docs están representados por un pto en el espacio vectorial que construimosLa pregunta es otro punto en el mismo espacio vectorialDiferencia con el booleano El método de representación es el mismo para las preguntas y los documentos

Page 34: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

34

Modelo VectorialEl espacio vectorial tiene tantas dimensiones como términos de indexación tiene el diccionarioCada elemento del vector indica el grado de importancia de los términos en el documento (ℜ+)

di = (wi1,wi2,wi3,...,win)n: nº de términos distintos de la colecciónwij ∈ℜ+

Page 35: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

35

Modelo VectorialEjemplo

Diccionario (t1=perro, t2=gato, t3=azult4=verde, t5=pequeño)

d1 = (perro, azul, pequeño) = (1,0,1,0,1)d2 = (gato, verde) = (0,1,0,1,0)

Asumiendo peso = 1

Page 36: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

36

Modelo VectorialPreguntas

Igual que los documentosP = (wp1, wp2, wp3, ..., wpn)

n: nº de términos distintos de la colecciónwpj ∈ℜ+

Page 37: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

37

Modelo VectorialFunción de semejanza

Tiene que ordenar los docs dependiendo de la proximidad con la preguntaUna 1ª aproximación es el vector diferencia

No se usaLos docs extensos tienen más términos y están más alejadosLas preguntas tienen pocos términosSe penalizarían los docs largos

Page 38: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

38

Modelo VectorialFunción de semejanza

Producto interno (Producto escalar)Favorece los documentos largos pues al tener más términos suman más

∑=

×=n

jwijwpjdipsem

1),(

Page 39: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

39

Modelo VectorialFunción de semejanza

Función CosenoNormaliza los vectores respecto a su longitudSi p y di son ortogonales la relevancia es 0Si son paralelos es muy relevante

)cos(),(

1

2

1

2

1 α=×

=

∑∑

==

=

n

j

n

j

n

j

wijwpj

wijwpjdipsem

Page 40: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

40

Modelo VectorialCalculo automático de pesos

wij: peso del término j en el doc iftij: frecuencia del término j en el doc in: nº de términosfdj: nº de docs que tienen el término jd: nº de docsfidj = log(d/fdj) (Frecuencia inversa)

Mínimo=0 fdj=d (tj aparece en todos los docs)Máximo=log(d) fdj=1 (tj sólo aparece en 1 doc)

Page 41: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

41

Modelo VectorialCalculo automático de pesos

wij = ftij · fidjFrecuencia del término en el doc X frecuencia inversaLo importante que es el término en el doc X lo importante que es el término en la colecciónPara las preguntas calculamos wpj igual que wij

Page 42: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

42

Modelo VectorialCalculo automático de pesos

ImplementaciónEn los docs se almacena la frec de aparición de cada término La frec inversa se deja como característica de los términos (depende de la colección)Necesitamos d (nº de docs) pero es un entero que depende de la colecciónLo más eficaz es almacenar todo en el archivo invertido

Page 43: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

43

Modelo VectorialCalculo automático de pesos

T1 ·T2 ·

...

·T3

·T4

·T5

·T6

·

47

28

47

1

...

...

...

...

...

...

ftij

...

ftij

...

...

...

...

...

...

...

42

...

...

...

...

...

...

...

...

...

ftij

...

...

...

...

...

...

...

...

...Diccionario

Postings file

d1

d2

...

d3

d4

d5

d6

Archivo de Docs

fd1

fd2

fd3

fd4

fd5

fd6

..

Page 44: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

44

Modelo VectorialCálculo de la semejanza

El método típico para el cálculo de la semejanza es extraer los documentos que tienen alguno de los términos de la preguntaAsí solo calculamos la semejanza para unos pocos documentos

Page 45: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

45

Modelo ProbabilísticoLa base de cálculo es la probabilidad de un documento de ser relevante a una pregunta dada

La función de semejanza es la probabilidad de que un doc sea relevante

Sem(p,di) = P(R|di)

Page 46: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

46

Modelo ProbabilísticoUtilizaremos el modelo probabilístico de independencia de términos binarios

La probabilidad de los términos es independiente (un término es independiente de los otros)Los pesos asignados a los términos son binarios

Page 47: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

47

Modelo ProbabilísticoRepresentación igual al modelo booleano

di={wi1, wi2, ...., win}wij= {1 si tj es término de di, 0 si no}

Las preguntas son un subconjunto de términos

Page 48: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

48

Modelo ProbabilísticoPara la función de semejanza es mejor coger como relevante aquellos docs en los que su probabilidad de ser relevante es mayor que la de no serlo

<>

→=

>

relevantenorelevante

diRPdiRPdipsem

diRPdiRP

11

)|()|(),(

)|()|(

Page 49: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

49

Modelo ProbabilísticoAplicando el Teorema de Bayes

P(di|R) es la probabilidad de que dado el conjunto de relevantes di esté dentro

)|()|(),(RdiPRdiPdipsem ≈

Page 50: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

50

Modelo ProbabilísticoSimplificando...

pj es la probabilidad de que tj esté en el conjunto de docs relevantesqj es la probabilidad de que tj esté en el conjunto de docs no relevantes

∑= −

−=

m

j jj

jjijpj pq

qpwwdipsem

1 )1()1(

log),(

Page 51: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

51

Modelo ProbabilísticoSi conociéramos R:

SI NOSI r n-r nNO R-r N-R-n+r N-n

R N-R N

Relevancia

Término j

Page 52: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

52

Modelo ProbabilísticoSi conociéramos R:

pj: probabilidad de que cogiendo un doc relevante tenga tj

pj = (r/R)qj: probabilidad de que en los docs no relevantes no esté tj

qj = (n-r)/(N-R)

Page 53: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

53

Modelo ProbabilísticoSi conociéramos R:

Substituimos pj y qj

∑+−−

−−≈

rnRNrnrRr

dipsem log),(

Page 54: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

54

Modelo ProbabilísticoComo no conocemos R

La prob de que un término esté en el conj de docs relevantes es la misma para todos los términos. A priori no hay un término más relevante que otro

pj=0’5Para qj se usa la frec inversa del término en la colección

qj=fdj/Nfdj: Nº de docs con el término tjN: Nº de docs de la colección

Page 55: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

55

Modelo ProbabilísticoComo no conocemos R:

Usamos pj=0’5 y qj=fdj/NRecuperamos los N primeros y consideramos que son relevantesPreguntamos al usuario y recalculamos pj y qj

Page 56: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

56

Modelos de navegaciónLa necesidad de información no se expresa por una preguntaEn un sistema real tenemos una mezcla:

Hago una preguntaExploro los resultadosReformulo la pregunta...

El interfaz de usuario es más importante

Page 57: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

57

Modelos de navegaciónNavegación directa

Los docs están normalmente almacenados en una lista sin un criterio de ordenación útil o agrupados por su proximidad semánticaLa carga de exploración corre por parte del usuarioPara agruparlos se suele utilizar una función de semejanza entre los docsEl criterio de semajanza es muy difuso que estén próximos

Page 58: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

58

Modelos de navegaciónNavegación guiada por una estructura

Los docs están organizados por UN criterio Este criterio genera una estructura jerárquicaLos temas de la raíz son genéricos y las hojas específicosSe usa en bibliotecas y centros de documentación

Page 59: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

59

Modelos de navegaciónNavegación guiada por hipertexto

Los docs están organizados por un sistema multicriterioObtenemos un grafoLos docs son nodos cualesquiera del grafoEs el sistema de moda

Page 60: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

60

Modelos AvanzadosSon extensiones del modelo booleanoEl modelo booleano no permite dar orden al conjunto de docs relevantesEl modelo booleano sólo permite decir si son relevantes o noEn las extensiones se permite dar un orden

Page 61: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

61

Conjuntos DifusosSe basa en que la representación de un doc por un conjunto de término no sea categóricaSe difumina la pertenencia para que no sea binariaF(D,t)=0 ó 1 ⇒ f(D,t) ∈ [0,1] (Función de pertenencia)

Page 62: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

62

Conjuntos Difusos

F(di,tj) * (1 – F(di,tk))f(di,tj y_no tk)

F(di,tj) + F(di,tk) – (F(di,tj) * F(di,tk)) ≡ max(F(di,tj),F(di,tk)f(di,tj o tk)

F(di,tj) * F(di,tk) ≡ min(F(di,tj),F(di,tk)f(di,tj y tk)

Fórmula de evaluaciónFórmula lógica

Page 63: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

63

Conjuntos DifusosCálculo de pesos

Generalmente se hacer como en el modelo vectorial

wij = fdij * fidj

Cuando las funciones sólo toman 0 ó 1 degenera en el modelo booleano

Page 64: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

64

Conjuntos DifusosDesventajas:

Es menos flexible de lo que pareceNo podemos dar pesos a las preguntasLa ordenación puede estar desfigurada pues sólo algunos términos influyen en la semejanza

Ej: d1={(t3,0’8)} d2={(t1,0’7),(t2,0’7),(t3’08)}P=t1 o t2 o t3A los dos les da 0’8 (Máximo) aun cuando el d2 sería más relevante

Page 65: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

65

Booleano ExtendidoIntroduce el concepto de distanciaP=(t1 o t2)Cuanto más cerca del 0 menos representa al doc

(0,0)

(1,1)

t1

t2

2),(

22

21

21ttttdsem +=o

Page 66: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

66

Booleano Extendido

P=(t1 y t2)Cuanto más cerca del 0 más representa al doc

(0,0)

(1,1)

t1

t2

2)1()1(1),(2

22

121

ttyttdsem −+−−=

Page 67: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

67

Booleano ExtendidoAquí todos los términos contribuyenIntroducimos los pesos

P=(wpj,wpk) di=(wij,wik)

22

2222

),(pkpj

ikpkijpjkj ww

wwwwttdsem

++

=o

22

2222 )1()1(1),(

pkpj

ikpkijpjkj ww

wwwwyttdsem

+−+−

−=

Page 68: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

68

Booleano ExtendidoPodemos dar peso a los operandos (p)

pp

pkp

pj

pik

ppk

pij

ppj

kp

j wwwwww

ttdsem++

=),( o

pp

pkp

pj

pik

ppk

pij

ppj

kp

j wwwwww

tytdsem+

−+−−=

)1()1(1),(

)1·(··)_,( ikpkijpjkp

j wwwwtnoytdisem −=

Page 69: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

69

Booleano ExtendidoSi p=∞

( )( )pkpj

ikpkijpjkj

pp

pkp

pj

pik

ppk

pij

ppj

pkj

wwwwww

ttdsem

wwwwww

ttdsem

,max,max

),(

lim),(

=

++

=

∞→

o

o

( )( )pkpj

ikpkijpjkj ww

wwwwtytdsem

+−+−

−=∞

max)1()1(max

1),(

Page 70: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

70

Booleano ExtendidoSi p=∞ y wpj=wpk=1

Sem(di, tj o tk) = max(wij,wik)Sem(di, tj y tk) = 1 – min(wij,wik)

Es lo mismo que el modelo de conjuntos difusosEl modelo booleano extendido engloba al modelo de conjuntos difusos

Page 71: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

71

Booleano ExtendidoSi p=1

pkpj

ikpkijpjkj ww

wwwwttdsem

++

=),( 1o

pkpj

ikpkijpjkj

pkpj

ikpkijpjkj

wwwwww

tytdsem

wwwwww

tytdsem

++

=

+−+−

−=

),(

)1()1(1),(

1

1

Page 72: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

72

Booleano ExtendidoSi p=1

No hay diferencia entre “y” y “o”La ordenación es igual a la del modelo vectorialEl modelo booleano extendido engloba también al modelo vectorial

Si 1<p<∞Situaciones intermediasCon p→∞ nos acercamos al booleano estándarCon p→1 nos acercamos al modelo vectorial

Page 73: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

73

Booleano Extendido

Pregunta: Quiero que el “y” se asemeje al modelo vectorial y el “o” al modelo booleano

( ) ( )( ) ( )cCobByaAP ,,, 2 ∞=

Page 74: Tema 2 - Modelos de Recuperación de la Informa ción · conjunto de términos de indexación. 5 Introducción Modelo booleano Los documentos son un conjunto de términos Las preguntas

74

Booleano ExtendidoVentajas

Modelo generalistaEngloba a muchos otros

DesventajasLas leyes booleanas (asociativa, distributiva,...) no se cumplen

Ej: sem((A y B) y C) ≠ sem(A y (B y C))Coste computacional es muy alto (Normalmente solo se permite p=1, 2 e ∞)Los usuarios no se sienten a gusto con la formulación (Por defecto p=2)