Modelos Teóricos de Recuperación de la Información
Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo
Universidad de Salamanca
Grupo REINA
http://reina.usal.es
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 1 / 62
Modelos más importantes
Es preciso representar documentos y necesidades informativas de forma
procesable y homogénea, que permita estimar la semejanza entre unos y
otras
modelo booleano
modelo vectorial
modelo probabilístico
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 2 / 62
El Modelo Vectorial. Generalidades
Propuesto por G. Salton a �nales de los años 60
Representación consistente de documentos y consultas
Formulación de consultas en lenguaje natural
Es la base de muchos sistemas de recuperación
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 3 / 62
El Modelo Vectorial. Generalidades
En el Modelo Vectorial:
cada documento es representado por un vector de términos
las consultas, formuladas en lenguaje natural, son representadas
también como un vector de términos
es fácil aplicar alguna función de similitud que estime la semejanza
entre el vector de la consulta y el de cada uno de los documentos
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 4 / 62
El Modelo Vectorial. Vectores binarios
Un ejemplo:
Una colección de documentos en la que el total de términos distintos fuese
n = 4
Term1 Term2 Term3 Term4
Doc1 0 1 1 0
Doc2 1 0 1 0
Doc3 1 1 0 1
Consulta 0 1 0 1
Cada vector tiene n = 4 elementos, uno por cada término posible.
El valor de cada elemento es 0 o 1, dependiendo de si el término aparece o
no en el documento
Cualquier consulta puede ser tratada en la misma forma.
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 5 / 62
El Modelo Vectorial. Vectores binarios
Si aplicamos una función de similitud simple, como el producto entre los
vectores de la Consulta y de cada Documento:
Term1 Term2 Term3 Term4
Doc1 0 1 1 0 simil.=1
Doc2 1 0 1 0 simil.=0
Doc3 1 1 0 1 simil.=2
Consulta 0 1 0 1
Obtenemos una lista de los documentos similares a la consulta, ordenados
por similitud.
El que más se ajusta a la consulta es Doc3, seguido de Doc1
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 6 / 62
El Modelo Vectorial. Vectores con pesos
podemos registrar más información, no solamente la aparición de
términos en documentos
un término puede ser más signi�cativo en un documento que otro
podemos asignar a cada término un peso en cada uno de los
documentos, en función de su importancia en cada documento
ese peso se puede estimar de diversas formas (por su frecuencia de
aparición, por el lugar o campo del documento en que aparece, etc..)
podemos representarlo mediante un valor numérico
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 7 / 62
El Modelo Vectorial. Vectores con pesos
Term1 Term2 Term3 Term4
Doc1 0 0.7 0.2 0 Simil.=0.35
Doc2 0.5 0 0.6 0 Simil.=0
Doc3 0.6 0.4 0 0.2 Simil.=0.26
Consulta 0 0.5 0 0.3
El documento que más se ajusta a la Consulta es Doc1
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 8 / 62
El Modelo Vectorial. Vectores con pesos
hay muchos elementos que pueden ayudar a estimar automáticamente
la importancia o peso de un término en un documento
las más fáciles se basan en las frecuencias y otras estadísticas de uso
de los términos
se aplican bien cuando el formato es texto plano
no dependen de estructuras internas del documento
pueden combinarse con otros criterios
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 9 / 62
El Modelo Vectorial. Vectores con pesos
Un elemento a considerar es la frecuencia de un término en la colección de
documentos.
Ejemplo:
9968 efe 3516 fue 2379 sido 1875 nacional9697 que 3493 han 2376 despues 1857 madrid9391 del 3487 presidente 2318 son 1829 todo9265 los 3267 gobierno 2287 ante 1826 dias8937 por 3267 desde 2279 aunque 1792 partido8567 las 3235 pero 2219 solo 1767 todos8179 con 3234 dijo 2130 donde 1766 antes7931 una 3184 pasado 2115 otros 1760 millones7902 para 3067 pais 2099 tiene 1759 fuentes7508 hoy 2887 tras 2042 general 1752 porque5482 como 2792 parte 1995 quien 1751 estados5457 esta 2669 hasta 1991 hace 1694 ademas4723 mas 2668 sin 1988 ministro 1685 grupo4549 sus 2621 contra 1969 uno 1638 ese4442 este 2591 durante 1950 mientras 1619 acuerdo4340 segun 2551 españa 1937 proximo 1604 muy4282 entre 2504 ser 1921 primer 1601 personas4010 sobre 2454 tres 1915 primera 1586 sera3788 dos 2454 cuando 1904 unos 1576 ahora3663 tambien 2452 estado 1883 paises 1571 prensa
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 10 / 62
El Modelo Vectorial. Vectores con pesos
Palabras vacías
dependen del idioma
preposiciones, conjunciones, artículos, pronombres
verbos auxiliares
también letras y dígitos sueltos
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 11 / 62
El Modelo Vectorial. Vectores con pesos
Si quitamos una lista estándar de palabras vacías:
9968 efe 1685 grupo 1340 lunes 1126 miercoles3487 presidente 1619 acuerdo 1337 eeuu 1121 poder3267 gobierno 1601 personas 1329 jose 1119 hacer3234 dijo 1571 prensa 1303 medio 1113 miembros3184 pasado 1553 puede 1302 nuevo 1113 martes3067 pais 1553 gran 1281 mar 1112 viernes2551 espa 1550 dia 1275 mundo 1097 zona2042 general 1531 informo 1252 paz 1094 jefe1991 hace 1517 internacional 1213 dolares 1094 fuerzas1988 ministro 1516 politica 1192 debe 1090 jueves1937 proximo 1476 a�rmo 1185 forma 1087 equipo1921 primer 1456 seguridad 1185 �n 1087 domingo1915 primera 1451 capital 1170 horas 1086 varios1883 paises 1441 unidos 1164 tiempo 1084 mes1875 nacional 1436 semana 1162 meses 1077 indico1857 madrid 1402 situacion 1152 autoridades 1075 ultimos1826 dias 1393 ciudad 1143 consejo 1063 hecho1792 partido 1378 mayor 1141 reunion 1056 guerra1759 fuentes 1349 nueva 1129 organizacion 1041 secretario1751 estados 1345 caso 1128 lugar 1029 militar
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 12 / 62
El Modelo Vectorial. Vectores con pesos
IDF
intenta expresar el poder de recuperación de un término, en una
colección de dicumentos
es inversamente proporcional al número de documentos en que
aparece ese término
los términos con IDF alto son, en general, poco útiles para las
búsquedas
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 13 / 62
El Modelo Vectorial. Vectores con pesos
La frecuencia en el documento
Un elemento básico es la frecuencia de un término en un documento
determinado
Si aparece muchas veces en ese documento, podemos pensar que será
importante dentro de ese documento
Podemos intentar combinar ambas cosas (IDF y frecuencia en el
documento) para calcular el peso de los términos en cada documento
pesotd = frecuenciatd × IDFt
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 14 / 62
El Modelo Vectorial. Vectores con pesos
<DOC><DOCID>1</DOCID><TITLE>
HALLAN CONDUCTOR TAN EBRIO QUE NO PUDO NI SOPLAR ALCOHOLIMETRO</TITLE><TEXT>
Madrid, 1 ene (EFE).-La Policía Municipal de Alcorcón interceptóla pasada Nochevieja a un conductor que de lo ebrio que iba no tuvofuerzas ni para soplar el alcoholímetro, aparato que detecta losgrados de alcohol ingeridos por quienes van al volante de un coche.
Las fuentes policiales informaron de que esta persona, cuyaidentidad no fue facilitada, fue trasladada a dependenciasmunicipales, junto a su vehículo, para instruir las diligenciasoportunas.
Los controles de alcoholemia en las carreteras españolas fueronintensificados por la Guardia Civil y las policías locales en lanoche de fin de año en numerosos vías, principalmente en aquellasrutas próximas a locales de diversión, con el fin de evitar que losconductores se hicieran cargo del volante con una copa de más.
Estos controles, informaron a EFE fuentes de Tráfico, han sidoselectivos, móviles y no se han instalado en centros fijos.
Según Trafico, el principio del Año Nuevo se había caracterizado,hasta las seis de la madrugada, por la tranquilidad y únicamente sealertó sobre medidas de precaución contra los bancos de niebla que seobservaban en Madrid y zonas altas de la mitad peninsular.
Por su parte el cuerpo de bomberos de Madrid que estaba de guardiaesta noche pudo tomar las uvas sin sustos. Hasta las seis de lamadrugada no habían sido requeridos para salida alguna. EFE.
sv01/01/05-15/94
</TEXT></DOC>
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 15 / 62
El Modelo Vectorial. Vectores con pesos
Las palabras más frecuentes en ese documento:
3 madrid 1 uvas 1 olas 1 fuerzas3 efe 1 unicamente 1 observaban 1 �jos2 volante 1 trasladada 1 numerosos 1 facilitada2 tra�co 1 tranquilidad 1 nuevo 1 evitar2 soplar 1 tomar 1 nochevieja 1 ene2 pudo 1 sustos 1 niebla 1 diversion2 noche 1 selectivos 1 municipales 1 diligencias2 madrugada 1 salida 1 municipal 1 detecta2 locales 1 rutas 1 moviles 1 dependencias2 informaron 1 requeridos 1 mitad 1 cuerpo2 guardia 1 proximas 1 medidas 1 copa2 fuentes 1 principalmente 1 intercepto 1 conductores2 �n 1 precaucion 1 intensi�cados 1 coche2 ebrio 1 policias 1 instruir 1 civil2 controles 1 policiales 1 instalado 1 centros2 conductor 1 policia 1 ingeridos 1 carreteras2 alcoholimetro 1 persona 1 identidad 1 cargo1 zonas 1 peninsular 1 hicieran 1 caracterizado1 vias 1 pasada 1 hallan 1 bomberos1 vehiculo 1 oportunas 1 grados 1 bancos
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 16 / 62
Vectores con pesos
Si multiplicamos la frecuencia en el documento por el IDF:
18.4183 alcoholimetro 7.2632 alcoholemia 5.4956 hallan 4.3493 aparato17.0320 soplar 6.2134 trasladada 5.1838 diligencias 4.6874 altas15.6457 ebrio 6.8754 tra�co 5.4250 dependencias 4.9187 alcohol13.0022 volante 6.6628 pudo 5.0348 aquellas 3.1881 zonas10.4403 conductor 6.0736 precaucion 5.5716 alerto 3.1809 van9.2091 intensi�cados 6.5011 oportunas 4.3493 vias 3.4439 tomar9.2091 ingeridos 6.8112 niebla 4.1277 vehiculo 3.0736 salida9.8929 controles 6.1646 moviles 4.2675 unicamente 3.5188 proximas8.1105 sustos 6.7196 locales 4.5552 tranquilidad 3.1809 principio8.1105 observaban 6.0311 hicieran 4.6907 seis 3.7930 principalmente7.8228 uvas 6.9974 guardia 4.3339 municipales 3.8020 policias7.8228 selectivos 6.1646 �jos 4.0675 municipal 3.7453 policiales7.4174 requeridos 6.2647 facilitada 4.9750 instalado 3.3685 persona7.1297 peninsular 6.9066 detecta 4.1657 identidad 3.5602 olas7.4174 nochevieja 6.0736 conductores 4.3571 grados 3.8065 numerosos7.5162 madrugada 6.0311 caracterizado 4.2633 �n 3.4726 mitad7.4174 intercepto 5.8079 rutas 4.4555 coche 3.9108 iba7.5997 instruir 5.7948 noche 4.4470 carreteras 3.4733 fuentes7.2632 diversion 5.0473 madrid 4.9750 bomberos 3.6107 cuerpo7.4174 alcorcon 5.2432 informaron 4.3188 bancos 3.2202 copa
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 17 / 62
El Modelo Vectorial. Vectores con pesos
Normalizador
no todos los documentos tienen el mismo tamaño
conviene normalizar los pesos obtenidos con la frecuencia y el IDF
el peso de un término t en un documentod se obtiene con estos tres
elementos:
frecuenciatd×IDFtnormalizador
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 18 / 62
El Modelo Vectorial. Esquemas de pesado
se ha propuesto diferentes formas de calcular cada uno de los tres
componentes
cada una de esas formas se denomina o representa mediante una letra
las combinaciones posibles se denominan esquemas de peso
Ejemplo: BNN, NTC, ATU
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 19 / 62
Esquemas de pesado
Formas de calcular la frecuencia
none ntDbinary 1
max-norm ntDmax nD
aug-norm 0.5 + 0.5( tfmax nD
)
square n2tD
log ln(ntD) + 1.0
dondentD número de veces que el término t aparece en el documento D
max nD número de veces del término que más aparece en el doc. D
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 20 / 62
Esquemas de pesado
Formas de calcular IDF
none 1
t�df log( Nndt
)
prob log(N−ndtndt)
freq 1N
squared log( Nndt
)2
dondeN número de documentos en la colección
ndt número de documentos en que aparece el término t
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 21 / 62
Esquemas de pesado
Formas de calcular el normalizador
none 1
sum∑n
i=1 pesotiD
cosine√∑n
i=1 peso2tiD
fourth∑n
i=1 peso4tiD
max max pesotD
dondepesotiD peso del término i en el documento D
n número de términos en el documento D
max pesotD peso del término que más peso tenga en el documento D
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 22 / 62
Esquemas de pesado
Algunos esquemas frecuentes
BNN: esquema simple binario
NNN: el peso es simplemente la frecuencia en el documento
NTC
ATC
ATU
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 23 / 62
Expansión de Consultas
la idea básica es añadir términos a la consulta, que puedan mejorar los
resultados de la recuperación
hay que resolver dos cuestiones:
cómo obtener los términos a añadir
cómo calcular sus pesos
diversos modos:
realimentación a partir de una consulta efectuada
uso de tesuros, diccionarios, etc.
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 24 / 62
Expansión de Consultas. Realimentación
la idea es obtener los términos a añadir de los documentos
recuperados en una primera consulta
puede realizarse con la intervención del usuario
tras hacer una consulta, el usuario selecciona los documentos que le
parecen relevantes
de éstos seleccionados se toman los términos a añadir a la consulta
original
en algunas modalidaes, es posible señalar también los documentos no
relevantes, para actuar en sentido contrario
también puede hacerse de manera totalmente automática, tomando
directamente los n documentos recuperados por la consulta original
(pseudorealimentación)
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 25 / 62
Expansión de Consultas. Realimentación
al añadir términos a la consulta original es preciso recalcular los pesos
de los términos de la consulta
hay diversas formas de hacerlo; una de las más usadas es el algoritmo
de Rocchio:
Coexpandida = αCoriginal + βTermsRelev − γTermsNoRelev
la idea es sumar los pesos de los términos de los ejemplos positivos y
restar los de los ejemplos negativos
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 26 / 62
Expansión de Consultas. Realimentación
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 27 / 62
Expansión de Consultas. Tesaurus, diccionarios
la idea es disponer de listas de términos sinónimos, relacionados con
los de la consulta
estas listas pueden construirse de forma manual o de forma automática
se han efectuado algunos experimentos con listas manuales como
WordNet o EuroWordNet
los sistemas automáticos parecen ser más e�cientes
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 28 / 62
Expansión de Consultas. Tesaurus de similitud
la idea es básica es que un término puede caracterizarse por los
doumentos en que aparece
se trata de darle la vuelta a la matriz utilizada habitualmente en el
modelo vectorial
en lugar de calcular similitud entre �las (documentos) podemos
hacerlo entre columnas (terminos)
Term1 Term2 Term3 Term4
Doc1 0 0.7 0.2 0
Doc2 0.5 0 0.6 0
Doc3 0.6 0.4 0 0.2
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 29 / 62
Expansión de Consultas. Tesaurus de similitud
Ejemplo: terremoto
terremoto 1,0000 sismico 0,2798
richter 0,6192 seismos 0,2603
seismo 0,5491 sismica 0,2538
epicentro 0,4833 intensidad 0,2405
escala 0,3993 northridge 0,2400
grados 0,3716 daños 0,2379
temblor 0,3696 tsunami 0,2221
sacudio 0,3525 sismicos 0,2121
magnitud 0,3380 maremoto 0,2099
terremotos 0,3173 sacude 0,2061
temblores 0,2860
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 30 / 62
Expansion de Consultas. Tesaurus de similitud
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 31 / 62
stemming
Muchas palabras comparten la misma raíz y aluden a conceptos
cercanos
Muchas palabras se forman a partir de otras, conservando una relación
semántica
Pueden formarse por dos vías:
por �exión morfológica
Ejemplo: libro, libros
por derivación
Ejemplo: libro, librero, librería
Podríamos pensar en agrupar todas esas palabras parecidas bajo una
forma común
Esto debería afectar al recuento de frecuencias y, en consecuencia, a
los pesos
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 32 / 62
stemming
Diversas formas de abordar el stemming:
n-gramas
stripping crudo
s-stemming
algoritmos basados en reglas
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 33 / 62
stemming. n-gramas
Un n-grama es una ventana de n caracteres que se van extrayendo del
texto, empezando en la primera posición y avanzado una posición
cada vez
Ejemplo:
la palabra _libro_ produce, cuando n = 3
(_ signi�ca espacio en blanco)
_li lib ibr bro ro_
la palabra _librero_ produce:
_li lib ibr bre ere ero ro_
se espera que palabras parecidas produzcan n-gramas parecidos
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 34 / 62
stemming. n-gramas
los n-gramas pueden ser útiles también para sortear erratas, errores
tipográ�cos, etc.
tienen otros usos, como comprimir texto
son independientes del idioma
en IR, suponen la formación de una colección paralela de documentos,
cuyos términos son los n-gramas producidos por los documentos
originales
las consultas son también descompuestas en n-gramas
el vector de n-gramas de una consulta es comparado con cada vector
de n-gramas de cada documento
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 35 / 62
stemming. stripping y s-stemming
la idea básica es quitar en crudo los n últimos caracteres de cada
palabra
esta operación puede ser matizada en función de un número mínimo
de caracteres restantes
una variante menos drástica es el s-stemming
consiste en eliminar las s �nales de todas las palabras
esto incluye las formas en plural de sustantivos y adjetivos, pero
también de todas las demás palabras
puede ser re�nado incluyendo la eliminación de plurales terminados en
-es
también ciertas vocales �nales que suelen denotar, en los adjetivos,
variaciones de género
el s-stemmer produce buenos resultados
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 36 / 62
stemming. Algoritmos basados en reglas
diversos algoritmos propuestos
dependientes del idioma
mayor o menor di�cultad de implementación
Ejemplo: algoritmo de Porter
Las palabras se originan a partir de otras por:
�exión morfológica
derivación
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 37 / 62
stemming. Stemming �exivo
Pretende reducir las variantes morfológicas de una palabra a una forma
única.
reducir a mismo género y número sustantivos y adjetivos
Por ejemplo: libro-s, automátic-os
reducir a una única forma (por ej. in�nitivo) los modos, tiempos,
personas y número de verbos.
Por ejemplo: catalogaban, automatizando
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 38 / 62
stemming. Stemming �exivo
Para hacer stemming �exivo hay que resolver:
determinar elemento gramatical y accidentes morfológicos
cuando haya varias posibilidades, desambiguar morfológicamente
algunas palabras pueden ser muy complejas
Ejemplo: verbos irregulares en español
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 39 / 62
stemming. Stemming derivativo
Pretende reducir a una forma básica las palabras derivadas de una dada.
Ejemplo:
catálogo, catalogador
biblioteca, bibliotecario
para hecer stemming derivativo, antes hay que hacerlo �exivo
Ejemplo: bibliotecari-as
es preciso un estudio de los posibles su�jos, y de cómo se pegan a la
raíz
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 40 / 62
stemming. Stemming derivativo
no siempre es fácil determinar cuál es la palabra o forma base
la distancia semántica entre base y derivada es desigual
Ejemplo:
toro, torero
sombra, sombrero
chica, chiquilla
cama, camilla
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 41 / 62
stemming. Ejemplos y aplicación
Documento Original<top><num>41</num><ES-title> Pesticidas en alimentos para bebes </ES-title><ES-desc> Encontrar noticias sobre pesticidas en alimentos parabebes. </ES-desc><ES-narr> Los documentos relevantes proporcionan información sobreel descubrimiento de pesticidas en alimentos para bebes. Se informasobre diferentes marcas, supermercados y compañías que ofrecieronalimentos para bebes que contenian pesticidas. Se discuten tambiénmedidas contra la contaminación de alimentos para bebes conpesticidas. </ES-narr></top>
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 42 / 62
stemming. Ejemplos y aplicación
Sin stemminginformaconteniancompañiasdiscuteninformacionnoticiasproporcionancontaminaciondiferentesrelevantesofrecierondocumentosdescubrimientopesticidasencontrarbebesmedidasmarcasalimentossupermercados
s-stemminginformaconteniancompañiadiscuteninformacionnoticiaproporcionancontaminaciondiferentrelevantofrecierondocumentodescubrimientopesticidaencontrarbebmedidamarcaalimentosupermercado
st. �exivoinformarcontenercompañiadiscutirinformacionnoticiaproporcionarcontaminaciondiferenterelevanteofrecerdocumentodescubrimientopesticidaencontrarbebemedidamarcaalimentosupermercado
st. derivativoinformacioncontenercompañíadiscusioninformacionnoticiaproporcioncontaminardiferenciarelevanciaofrecerdocumentodescubrirpesteencontrarbebemedirmarcoalimentosupermercado
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 43 / 62
stemming. Ejemplos y aplicación
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 44 / 62
stemming. Ejemplos y aplicación
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 45 / 62
stemming. Ejemplos y aplicación
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 46 / 62
El uso de campos
En algunos documentos, podemos obtener información adicional para
calcular pesos del campo o lugar en que aparece cada término
Esto sucede, por ejemplo, en documentos HTML. Podemos considerar
varios campos:
el campo body
el campo title
las etiquetas META
las anclas de los backlinks
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 47 / 62
El uso de campos HTML
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 48 / 62
Cabecera de un documento HTML
<html><head><title>SEDIC. Asociación Española de Documentación e Información</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<META NAME="AUTHOR" CONTENT="SEDIC">
<META NAME="DESCRIPTION" CONTENT="SEDIC. Informacion sobre la SociedadEspañola de Informacion y Documentacion Científica (SEDIC - AsociaciónEspañola de Documentación e Información): actividades, formación, grupos detrabajo, publicaciones, certificación de profesionales de documentación">
<META NAME="KEYWORDS" CONTENT="SEDIC, Asociación profesional, Asociaciones,Documentación, Bibliotecas, Gestion de Información, Profesionales de la Informacion,Documentalistas, Bibliotecarios, Formación, Gestión del Conocimiento,Knowledge Management, Intranet, Internet, Recuperación de Información,Sistemas de Gestion Documental"></head>
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 49 / 62
El uso de campos HTML
habitualmente se utilizan los términos que aparecen en el body
también los del title
podemos incluir términos de otros campos y pesarlos de diferentes
formas
las etiquetas META con palabras clave podrían ser interesantes, pero
también otras
los anclas de los backlinks no siempre están disponibles, al estar en
documentos que pueden ser ajenos a nuestra colección
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 50 / 62
El uso de campos HTML
Un experimento con campos efectuado en CLEF:
se pesaron de forma distinta los terminos que aparecen en cada campo
en un esquema de peso basado en tf × IDF esto puede conseguirse
multiplicando las veces que aparece cada termino por un coe�ciente,
que varía en función del campo en que aparece
se utilizó una colección de varios miles de páginas web, procedentes de
EuroGov
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 51 / 62
El uso de campos HTML
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 52 / 62
Modelo Vectorial. Conclusión
permite representar de forma consistente documentos y necesidades
informativas
efectúa comparaciones parciales, best match
produce una lista de respuestas ordenada por su similitud con la
consulta
es simple y rápido
tiene un alto rendimiento
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 53 / 62
Modelo vectorial. Bibliografía Básica
1 Salton, G. Automatic Information Organization and Retrieval.
McGraw−Hill, N.Y. (1968)2 Salton, G. (editor). The SMART Retrieval System � Experiments in
Automatic Document Processing. Prentice Hall In. Englewood Cli�s,
NJ. 1971.
3 Salton, G.; McGill, M.J. Introduction to Modern Information Retrie−val. McGraw−Hill, New York. (1983)
4 Salton, G.; Buckley, C. Term−Witghting Approaches in Automatic
Text Retrieval. En: Information Processing and Management, 24(5),
513−523. (1988)5 Salton, G.; Buckley, C. Improving retrieval performance by relevance
feedback. Journal of the American Society for Information Science, 41
(4), 288−297. (1990).
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 54 / 62
El Modelo Probabilístico
propuesto en 1976 por Robertson y Spacrk-Jones
es conocido también como Binary Independence Retrieval
intenta capturar el problema de la Recuperación desde una optica
probabilistica
se basa en estimar la probabilidad de que un documento sea relevante
para una consulta dada
el modelo probabilístico tiene una base matemática más sólida que el
vectorial
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 55 / 62
El Modelo Probabilístico
La idea base es:
dada una consulta, hay un conjunto de documentos que contiene
exactamente los documentos relevantes y no otros
Si tuvieramos una descripción asdecuada de este conjunto, no
tendríamos problemas en encontrar los documentos.
el proceso de búsqueda o recuperación es el proceso de especi�car las
características del conjunto o respuesta ideal.
la función de semejanza es la probabilidad de que un documento sea
relevante:
sim(C ,D) = P(R|D)
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 56 / 62
El Modelo Probabilístico
el modelo presupone que existe un conjunto de documentos relevantes:
R
los documentos que no pernecen a este conjunto se consideran no
relevantes:
R ′
P(R|d) es la probabilidad del que el documento d sea relevante
P(R ′|d) es la probabilidad del que el documento d NO sea relevante
la similitud entre un documento y una consulta es:
sim(d , c) = P(R|d)P(R′|d)
Un documento será relevante si:P(R|d) > (R ′|d)
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 57 / 62
El Modelo Probabilístico
La probabilidad de que un documento sea relevante para una consulta
dada depende de las representaciones que hagamos de ambas cosas
Una vez computada esa probabilidad para cada documento, la
recuperación se reduce a ordenar los documentos en función de dicha
probabilidad
El problema es que no sabemos cómo hemos de computar esa
probabilidad
todo lo que considera el modelo son los términos que componen
documentos y consultas
podemos intentar una selección preliminar de documentos, a partir de
la cual elaborar una caracterización de los documentos
esa caracterización inicial puede ir re�nándose en un proceso iterativo,
que podría ayudarse con interacción con el usuario
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 58 / 62
El Modelo Probabilístico
partiendo de que caracterizamos un documento a través de sus
términos, podemos considerar P(k |R), la probabilidad de que el
término k esté en los documentos del conjunto Relevante.
La probabilidad de que un documento pertenezca a R podría estimarse
como la agragación de las probabilidades de los términos que lo
componen.
Sin embargo, no conocemos R , hay que adivinarlo.
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 59 / 62
El Modelo Probabilístico
una posibilidad es hacer algunas suposiciones previas y re�nar luego
los resultados
por ejemplo, podemos suponer inicial una P(k |R) igual para todos los
términos, p. ej. 0.5
podemos aproximar una P(k |R ′) a partir de la distribución de k en la
colección de documentos
P(k |R ′) = nkN
donde nk es el número de documentos en que aparece k y N el
número de documentos total de la colección.
Con estas bases, podemos recuperar los documentos que contienen
que contienen los términos de la consulta y ordenarlos por la
probabilidad estimada así.
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 60 / 62
El Modelo Probabilístico
los documentos de esa recuperación inicial nos sirven para aproximar R
hay dos formas de hacerlo:
tomando los n primeros
interactuando con el usuario
si V es el conjunto de documentos seleccionado y Vi el de
documentos seleccionados que contienen el término k ,
P(k |R) = |V ||Vi |
P(k |R ′) = nk−|Vi |N−|V |
La probabilidad de que el término pertenezca a un documento
Relevante, y la de que ese término aparezca en un documento no
Relevante pueden aproximarse usando la distribución de ese término
en documentos relevantes y no relevantes
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 61 / 62
Modelo Probabilístico. Bibliografía Fundamental
1 Robertson, S. E. The probability ranking principle in IR, Journal of
Documentation, 1977, 33(4):294-304
2 Sparck Jones, K. Search term relevance weighting given little relevante
information, Journal of Documentation, 1979, 35(1): 30-48
3 Croft, W. B.; Harper, D. J.Using probabilistic models of document
retrieval without relevance information, Journal of Documentation,
1979, 35(4):285-295
Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 62 / 62
Top Related