Evaluacion RI

79
Recuperación de información en Internet: Evaluación Evaluación Prof. Prof. Belarmina Benítez de Vendrell Belarmina Benítez de Vendrell Departamento de Bibliotecología Facultad de Humanidades y Ciencias Sociales Universidad Nacional de Misiones Universidad Nacional de Misiones 2001 2001

description

Curso de posgrado. Evaluación de SRI. 2001

Transcript of Evaluacion RI

Page 1: Evaluacion RI

Recuperación de información en

Internet:

Evaluación Evaluación

Prof. Prof. Belarmina Benítez de VendrellBelarmina Benítez de VendrellDepartamento de Bibliotecología

Facultad de Humanidades y Ciencias Sociales

Universidad Nacional de MisionesUniversidad Nacional de Misiones

20012001

Page 2: Evaluacion RI

Programa del curso

Características, prestaciones y procedimientos de Características, prestaciones y procedimientos de búsqueda utilizados en las más destacadas búsqueda utilizados en las más destacadas herramientas de búsqueda de Internet.herramientas de búsqueda de Internet.

Metodología de evaluación aplicada en el ámbito Metodología de evaluación aplicada en el ámbito de la Recuperación de Información. de la Recuperación de Información.

Page 3: Evaluacion RI

Word Wide Web

Page 4: Evaluacion RI

Características de la información en la Web

*Inmensa cantidad de información

*Información hipermedia

*Dispersión de la información

*Dificultad de encontrar lo que se busca

*"Información potencial" versus "información"

*Desigual calidad de la información

*Etica y censura en la red

*Propiedad intelectual

*Privacidad

Page 5: Evaluacion RI

Evaluación de la información en internet

¿Por qué evaluar las páginas de la Web?• La calidad de la información no está garantizada

Cualquier persona puede publicar una página de la web sobre cualquier cosa.

Pocas páginas tienen crítica editorial

Los autores no están identificados

Las fechas de publicación o no existen o no son exactas

La información puede ser vieja

Los sitios aparecen y desaparecen

A veces se consigue información maliciosa o equivocada

Page 6: Evaluacion RI

Evaluación de la información en internet

Evaluación (Brandt 1996):

Objetivamente: validez, fiabilidad y autenticidad de la información

Subjetivamente: determinando si esa información es pertinente para nuestras necesidades

Criterios tradicionales (Alexander, 1996):Precisión de la información ofrecidaAutoridad de quien la presentaObjetividad y actualidad de los contenidosCobertura informativa

Page 7: Evaluacion RI

Evaluación de la información en internet: criterios

*Cobertura

Extensión

Profundidad

Periodo de tiempo cubierto

Documentos fuente

Lenguas

Page 8: Evaluacion RI

Evaluación de la información en internet: criterios

*Contenido Fiabilidad de la informaciónActualidad del contenido AutoridadFormato y apariencia DestinatariosFinalidadOriginalidad

*FacilidadesFacilidad de uso BúsquedaAccesibilidadCostes

Page 9: Evaluacion RI

Servicios en la World Wide Web

Buscadores web 1993-1994Buscadores web 1993-1994

WWWWorm, WebCrawlerWWWWorm, WebCrawler Altavista, Excite, Infoseek, Lycos, OpentextAltavista, Excite, Infoseek, Lycos, Opentext

Despegue definitivo: 1996Despegue definitivo: 1996

Reflejo en la prensa y publicaciones variasReflejo en la prensa y publicaciones varias Continuas mejorasContinuas mejoras Amplia gama de herramientas de consultaAmplia gama de herramientas de consulta

Page 10: Evaluacion RI

Servicios de Búsqueda: Tipología

Los directoriosLos directorios

Motores de búsquedaMotores de búsqueda o buscadores web o buscadores web

Los metabuscadores Los metabuscadores y colecciones de y colecciones de buscadorebuscadoress

Agentes “inteligentes” multibuscadoresAgentes “inteligentes” multibuscadores

Page 11: Evaluacion RI

Servicios de búsqueda en la World Wide Web: Directorios

Dividen el espacio de información en Dividen el espacio de información en diferentes categorías temáticas significativas diferentes categorías temáticas significativas para los usuarios (Chen 98) para los usuarios (Chen 98)

Consulta: motor interno y navegación por Consulta: motor interno y navegación por categoríascategorías

Directorios generalistas y especializadosDirectorios generalistas y especializados

Page 12: Evaluacion RI

Servicios de Búsqueda: Tipología Motores de búsqueda o buscadores web

Robot de búsqueda: automáticoRobot de búsqueda: automático

Programa de indización: texto completoBase Programa de indización: texto completoBase de datos: dinámica y enormede datos: dinámica y enorme

Interfaz: versátil y personalizableInterfaz: versátil y personalizable

Page 13: Evaluacion RI

Servicios de búsqueda en la World Wide Web:

Los metabuscadores y colecciones de buscadores

Dogpile, Dogpile,

Metacrawler, Metacrawler,

ProfusionProfusion

Page 14: Evaluacion RI

Servicios de búsqueda en la World Wide Web:

Metabuscadores

Ventajas:Ventajas:

Procesamiento paralelo de la búsqueda en Procesamiento paralelo de la búsqueda en varios buscadoresvarios buscadores

Bases de datos complementarias: búsquedas Bases de datos complementarias: búsquedas exhaustivasexhaustivas

Opciones de ordenación, eliminación de Opciones de ordenación, eliminación de duplicados, etc.duplicados, etc.

Page 15: Evaluacion RI

Servicios de búsqueda en la World Wide Web: Los metabuscadores

Inconvenientes:Inconvenientes:

No se aprovechan todas las prestaciones de cada No se aprovechan todas las prestaciones de cada buscadorbuscador

Los buscadores individuales actúan como portalesLos buscadores individuales actúan como portales Pocas prestaciones de búsqueda avanzadaPocas prestaciones de búsqueda avanzada Ausencia de importantes buscadores webAusencia de importantes buscadores web Contribuyen a:Contribuyen a:

Sobrecargar el servidor del metabuscadorSobrecargar el servidor del metabuscador Sobrecargar la redSobrecargar la red Sobregargar los servidores de los buscadoresSobregargar los servidores de los buscadores

Page 16: Evaluacion RI

Servicios de búsqueda en la World Wide Web: Colecciones de buscadores

Interfaces que ofrecen, desde una única página Interfaces que ofrecen, desde una única página web, acceso a diferentes servicios de web, acceso a diferentes servicios de

búsqueda. Permiten plantear directamente las búsqueda. Permiten plantear directamente las consultas y actúan como guía, exhaustiva o consultas y actúan como guía, exhaustiva o

selectiva, de buscadores y directorios.selectiva, de buscadores y directorios.

Configurable Unified Search EngineConfigurable Unified Search Engine (CUSI) (CUSI) de Martijn Kosterde Martijn Koster

All in oneAll in one de Willian Cross de Willian Cross Buscopio Buscopio (GOBIB) de Ricardo Fornas(GOBIB) de Ricardo Fornas

Page 17: Evaluacion RI

Servicios de búsqueda en la World Wide Web: Agentes “inteligentes” multibuscadores

Herramientas de “segunda generación”Herramientas de “segunda generación”

Aplicaciones clienteAplicaciones cliente

Copernic, EZSearch, MataHari, iMine, Copernic, EZSearch, MataHari, iMine, WebSeeker, WebFerret, WebStormWebSeeker, WebFerret, WebStorm

Page 18: Evaluacion RI

Evaluación de la RI: problemas

La RI se basa en “La RI se basa en “Conceptos inefablesConceptos inefables” (Belkin 81)” (Belkin 81)

Casi todos los problemas detectados en la evaluación de Casi todos los problemas detectados en la evaluación de sistemas de recuperación se derivan de la falta de acuerdo sistemas de recuperación se derivan de la falta de acuerdo sobre las características del proceso mismo de sobre las características del proceso mismo de recuperaciónrecuperación (Tague 92, 96b) (Tague 92, 96b)

...... su valor ( su valor (de un SRIde un SRI) depende de su capacidad para ) depende de su capacidad para identificar rápida y correctamente la información útil, de identificar rápida y correctamente la información útil, de su facilidad para rechazar ítemes extraños o irrelevantes y su facilidad para rechazar ítemes extraños o irrelevantes y de la versatilidad de los métodos que empleade la versatilidad de los métodos que emplea (Salton 83) (Salton 83)

La evaluación de un SRI debe reflejar la capacidad del La evaluación de un SRI debe reflejar la capacidad del sistema para satisfacer al usuario sistema para satisfacer al usuario (Rijsbergen 79)(Rijsbergen 79)

Page 19: Evaluacion RI

Evaluación de la RI: tendencias

Tradicional o algorítmicaTradicional o algorítmica

““De usuario” o cognitivaDe usuario” o cognitiva

Sincrética

Page 20: Evaluacion RI

Evaluación de la RI: tendenciasTradicional o algorítmica

Precedentes:Precedentes:

1953: Test ASTIA-Uniterm en los Estados 1953: Test ASTIA-Uniterm en los Estados Unidos y test Uniterm de Cranfield en Reino Unidos y test Uniterm de Cranfield en Reino UnidoUnido

1957: Proyecto Cranfield, NSF-ASLIB Cyril 1957: Proyecto Cranfield, NSF-ASLIB Cyril CleverdonCleverdon

Page 21: Evaluacion RI

Evaluación de la RI: tendencias Tradicional o algorítmica

Cranfield I (1957-1962). Perfilar las herramientas Cranfield I (1957-1962). Perfilar las herramientas que se utilizarían en años posteriores para la que se utilizarían en años posteriores para la evaluación:evaluación:

Una colección de documentos de los que se Una colección de documentos de los que se obtuvieron las preguntasobtuvieron las preguntas——documentos fuentedocumentos fuente——..

Una serie de juicios de relevancia de los documentos Una serie de juicios de relevancia de los documentos recuperados expresada en tres nivelesrecuperados expresada en tres niveles: muy útil, útil, : muy útil, útil, nada útil .nada útil .

el uso de las medidas de exhaustividad y precisión el uso de las medidas de exhaustividad y precisión para analizar los resultados.para analizar los resultados.

Cranfield II (1963-1966) consolidación de los Cranfield II (1963-1966) consolidación de los «instrumentos de Cranfield»«instrumentos de Cranfield»

Page 22: Evaluacion RI

Evaluación de la RI: tendencias

Modelo tradicional de RI:Modelo tradicional de RI:

a)a) el usuario reconoce una necesidad de información. el usuario reconoce una necesidad de información.

b)b) dirige a un SRI una consulta basada en esa necesidad.dirige a un SRI una consulta basada en esa necesidad.

c)c) el SRI compara las consultas con las representaciones de el SRI compara las consultas con las representaciones de los documentos de su base de datos.los documentos de su base de datos.

d)d) el SRI presenta al usuario el texto o textos que pueden el SRI presenta al usuario el texto o textos que pueden satisfacer sus necesidades de información. satisfacer sus necesidades de información.

e)e) el usuario examina las representaciones de los textos el usuario examina las representaciones de los textos presentadas y juzga su relevancia. presentadas y juzga su relevancia.

Tradicional o algorítmica

Page 23: Evaluacion RI

Evaluación de la RI: tendencias Tradicional o algorítmica

Críticas al modelo Cranfield:Críticas al modelo Cranfield: Ausencia de los usuariosAusencia de los usuarios No se consideran las estructuras cognitivas del No se consideran las estructuras cognitivas del

individuoindividuo ReduccionismoReduccionismo «Antimentalismo»«Antimentalismo» No se controlan muchos aspectos que son No se controlan muchos aspectos que son

importantes en el proceso de recuperación importantes en el proceso de recuperación No se tiene en cuenta el gran número de No se tiene en cuenta el gran número de

estudios basados en el comportamiento de los estudios basados en el comportamiento de los usuarios en las búsquedas usuarios en las búsquedas

Page 24: Evaluacion RI

Evaluación de la RI: tendencias Tradicional o algorítmica

Diversos problemas:Diversos problemas:

de validez y fiabilidadde validez y fiabilidad ——provocados provocados por la omisión del usuariopor la omisión del usuario,,

de generalizaciónde generalización ——falta de ejemplos falta de ejemplos tomados al azar, uso de pequeñas tomados al azar, uso de pequeñas colecciones de evaluación, conclusiones colecciones de evaluación, conclusiones contradictorias,contradictorias,

de utilidadde utilidad ——resultados de los resultados de los experimentos no aplicables a sistemas experimentos no aplicables a sistemas reales,reales,

conceptuales conceptuales ——problemas de «solidez» problemas de «solidez» que plantean los conceptos básicos en los que plantean los conceptos básicos en los que se apoya la evaluación de SRIque se apoya la evaluación de SRI..

Page 25: Evaluacion RI

Evaluación de la RIEvaluación de la RI: tendencias: tendencias

““De usuario” o cognitivaDe usuario” o cognitiva

Page 26: Evaluacion RI
Page 27: Evaluacion RI

Evaluación de la RI: tendencias “De usuario” o cognitiva

Críticas a la aproximación cognitiva:Críticas a la aproximación cognitiva:

No todas las aproximaciones cognitivas son No todas las aproximaciones cognitivas son válidas en RI y las más populares han obviado válidas en RI y las más populares han obviado algunos hechos fundamentales del pensamiento algunos hechos fundamentales del pensamiento humano, como su dependencia de la humano, como su dependencia de la interacción con otros sujetos del entorno de la interacción con otros sujetos del entorno de la persona estudiada, o el carácter interno del persona estudiada, o el carácter interno del contexto.  contexto.  

Page 28: Evaluacion RI

Evaluación de la RI: tendencias “De usuario” o cognitiva

Críticas a la aproximación cognitiva:Críticas a la aproximación cognitiva:

Falta de rigor en sus planteamientos Falta de rigor en sus planteamientos metodológicos y de un modelo de metodológicos y de un modelo de experimentaciónexperimentación

Asumen que el estudio del pensamiento o del Asumen que el estudio del pensamiento o del comportamiento de los usuarios puede comportamiento de los usuarios puede ayudar a descubrir leyes, principios o ayudar a descubrir leyes, principios o regularidades ocultas aplicables al diseño de regularidades ocultas aplicables al diseño de SRI.SRI.construir principios.construir principios.

Page 29: Evaluacion RI

Evaluación de la RI: tendencias Sincrética. Revisión de estrategias

Principios del procedimiento de evaluaciónPrincipios del procedimiento de evaluación::

1) validez: 1) validez: el estudio debe determinar realmente lo el estudio debe determinar realmente lo que desea el investigadorque desea el investigador

2) rigor: 2) rigor: los resultados del estudio deben ser los resultados del estudio deben ser replicables) replicables)

3) eficacia: 3) eficacia: el estudio debe ser válido y razonable el estudio debe ser válido y razonable en relación con los recursos consumidosen relación con los recursos consumidos

Page 30: Evaluacion RI

Evaluación de la RI: Revisión de estrategias

El tipo de experimento:El tipo de experimento:

Pruebas en sistemas activos frente a Pruebas en sistemas activos frente a condiciones de laboratoriocondiciones de laboratorio

Page 31: Evaluacion RI

Evaluación de la RI: Revisión de estrategias

La colección de evaluación frente a sistemas La colección de evaluación frente a sistemas realesreales

Permite comparar los resultados de los estudios Permite comparar los resultados de los estudios realizadosrealizados

ProblemasProblemas::construcción, extrapolación y tamañoconstrucción, extrapolación y tamaño

«Subbase de datos de prueba» «Subbase de datos de prueba» análisis de los análisis de los contenidos y tipología de los servidores webcontenidos y tipología de los servidores web

Estadísticamente representativa Estadísticamente representativa La serie TREC (Text Retrieval Conference)La serie TREC (Text Retrieval Conference)conjunto conjunto

((poolingpooling) )

Page 32: Evaluacion RI
Page 33: Evaluacion RI
Page 34: Evaluacion RI

Evaluación de la RI: Revisión de estrategias

Los usuarios Los usuarios

Usuarios realesUsuarios reales

El usuario como parte fundamental del El usuario como parte fundamental del proceso de evaluación proceso de evaluación

Page 35: Evaluacion RI

Evaluación de la RI: Revisión de estrategias

Las preguntas (Las preguntas (queryquery))

Enunciado de búsqueda del usuario o del Enunciado de búsqueda del usuario o del intermediario ante un SRIintermediario ante un SRI

Las necesidades como las preferencias Las necesidades como las preferencias expresadas o expresadas o loanloan requestrequest

Page 36: Evaluacion RI

Evaluación de la RI: Revisión de estrategias

Las preguntas (Las preguntas (queryquery))

Medida de las necesidades reales de los usuarios:Medida de las necesidades reales de los usuarios: el tiempo o la frecuencia de uso de uno o mas tipos de el tiempo o la frecuencia de uso de uno o mas tipos de

sistemas de informaciónsistemas de información el grado de dificultad o satisfacción del usuarioel grado de dificultad o satisfacción del usuario las características de los sistemas que contribuyen al las características de los sistemas que contribuyen al

éxito de la transacción de información.éxito de la transacción de información.

Necesidad de información:Necesidad de información:inquietud del usuario por aclarar, verificar u obtener inquietud del usuario por aclarar, verificar u obtener

datos sobre un área temática concreta expresada en datos sobre un área temática concreta expresada en su pregunta.su pregunta.

Page 37: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

El “problema de la relevancia”:El “problema de la relevancia”:

• ¿Es la medida de la relevancia lo realmente ¿Es la medida de la relevancia lo realmente importante en una búsqueda?importante en una búsqueda?

• Los juicios de relevancia realizados, ¿son Los juicios de relevancia realizados, ¿son rigurosos?rigurosos?

  

Page 38: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

Puntos de vista:Puntos de vista: Correspondencia entre una pregunta y Correspondencia entre una pregunta y

un documento (un documento (topicaltopical relevancerelevance)) Utilidad de cada ítem para el usuarioUtilidad de cada ítem para el usuario

(pertinencia)(pertinencia)Medir la relevancia:Medir la relevancia:

Escala a varios nivelesEscala a varios niveles Cálculo probabilísticoCálculo probabilístico

Page 39: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

    La relevancia en La relevancia en Journal of the American Society Journal of the American Society for Information Sciencefor Information Science (JASIS) Froehlich (94): (JASIS) Froehlich (94):

la incapacidad de definir la relevanciala incapacidad de definir la relevancia

la variedad de criterios de usuario que afectan a la la variedad de criterios de usuario que afectan a la relevanciarelevancia

la naturaleza dinámica del comportamiento en la la naturaleza dinámica del comportamiento en la búsqueda de informaciónbúsqueda de información

la necesidad de metodologías apropiadas para estudiar la necesidad de metodologías apropiadas para estudiar el comportamiento en la búsqueda de informaciónel comportamiento en la búsqueda de información

la necesidad de modelos cognitivos más completos para la necesidad de modelos cognitivos más completos para el diseño y evaluación de los SRIel diseño y evaluación de los SRI

Page 40: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

  La relevancia en La relevancia en Annual Review of Information Annual Review of Information Science and TechnologyScience and Technology (ARIST) Schamber (94) (ARIST) Schamber (94)

Comportamiento: ¿qué factores contribuyen a los Comportamiento: ¿qué factores contribuyen a los juicios de relevancia? ¿qué procesos se vinculan a juicios de relevancia? ¿qué procesos se vinculan a la evaluación de la relevancia?la evaluación de la relevancia?

Medida: ¿cuál es el papel de la relevancia en la Medida: ¿cuál es el papel de la relevancia en la evaluación de los SRI?, ¿cómo pueden medirse los evaluación de los SRI?, ¿cómo pueden medirse los juicios de relevancia?juicios de relevancia?

Terminología: ¿debe hablarse de relevancia o de Terminología: ¿debe hablarse de relevancia o de «diferentes tipos de relevancia»?«diferentes tipos de relevancia»?

Page 41: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

  La relevancia en Mizzaro (97), 1958-1997La relevancia en Mizzaro (97), 1958-1997

FundamentosFundamentos Tipos de relevanciaTipos de relevancia Representación de los documentosRepresentación de los documentos Criterios implicados en los juicios de relevanciaCriterios implicados en los juicios de relevancia La relevancia como fenómeno dinámicoLa relevancia como fenómeno dinámico La expresión del juicio de relevanciaLa expresión del juicio de relevancia La subjetividad en la valoración de la mismaLa subjetividad en la valoración de la misma

Periodo final Periodo final perspectiva cognitiva perspectiva cognitiva user-user-based relevancebased relevance

Page 42: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia Medidas de carácter afectivo:Medidas de carácter afectivo:

Los beneficios y frustracionesLos beneficios y frustraciones la utilidad (Cooper 76)la utilidad (Cooper 76) el valor (Taylor)el valor (Taylor) la relación entre las dos últimas (Beghtol 89)la relación entre las dos últimas (Beghtol 89) el impacto (Kantor y Saracevic)el impacto (Kantor y Saracevic) SatisfacciónSatisfacción  (Gatian 94) (Gatian 94)

Criterios objetivos y cuantitativos: Exhaustividad-Criterios objetivos y cuantitativos: Exhaustividad-precisiónprecisión Gran popularidadGran popularidad Facilita la comparación entre sistemasFacilita la comparación entre sistemas CríticasCríticas

Page 43: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

ExhaustividadExhaustividad Conocer el nº total de documentos relevantes. Bases de Conocer el nº total de documentos relevantes. Bases de

datos grandesdatos grandes Estimaciones:Estimaciones: Mediante técnicas de muestreo (Salton 83)Mediante técnicas de muestreo (Salton 83) Utilizar dos bases de datos con temas similares Utilizar dos bases de datos con temas similares

(Lancaster 97)(Lancaster 97) Cálculos (Salton 83):Cálculos (Salton 83):

E = E = RELRECRELREC

RELREC + RELNRECRELREC + RELNREC

P= P=  RELRECRELREC

RELREC +RELREC +RECNRELRECNREL  

Page 44: Evaluacion RI

Evaluación de la RI: Revisión de estrategias. Medidas para la evaluación de la eficacia

1 RELREC

Exhaustividad media = NUM

RELREC + RELNREC

1 RELREC Precisión media =

NUM RELREC + RECNREL

Ranking Relev. Exh. Prec.1 x 0,2 12 x 0,4 13 0,4 0,674 x 0,6 0,755 0,6 0,66 x 0,8 0,677 0,8 0,578 0,8 0,59 0,8 0,4410 0,8 0,411 0,8 0,3612 0,8 0,3313 x 1 0,3814 1 0,36

0

0,2

0,4

0,6

0,8

1

1,2

0 0,2 0,4 0,6 0,8 1 1,2

Exhaustividad

Pre

cis

ión

Page 45: Evaluacion RI

Evaluación de la RI en InternetBibliografía

Estudios (no realizados por investigadores o Estudios (no realizados por investigadores o profesionales de las CI)profesionales de las CI)

Escala: muy pequeñaEscala: muy pequeña Carácter:Carácter:

Mayoritariamente descriptivoMayoritariamente descriptivoCuantitativoCuantitativo

Método deductivamente poco coherenteMétodo deductivamente poco coherente Método inductivamente poco rigurosoMétodo inductivamente poco riguroso

Page 46: Evaluacion RI

Evaluación de la RI en Internet: Estudios relacionados

Evaluaciones cualitativasEvaluaciones cualitativas Evaluaciones cuantitativasEvaluaciones cuantitativas Publicaciones:Publicaciones:

Tecnologías de la información: Tecnologías de la información: Internet World, Internet World, Online, Database Online, Database

Revistas de informática: Revistas de informática: PC World, PC PC World, PC Magazine, PC Computer, PC WeekMagazine, PC Computer, PC Week

Revistas especializadas en Documentación: Revistas especializadas en Documentación: JASIS, Information Processing and JASIS, Information Processing and Management, Aslib Proceedings, ARIST, Management, Aslib Proceedings, ARIST, Electronic Library, Computers in Library...Electronic Library, Computers in Library...

Page 47: Evaluacion RI

Evaluación de la RI en Internet

Obtención de las preguntas:Obtención de las preguntas:• InvestigadoresInvestigadores• Servicio de referencia de bibliotecasServicio de referencia de bibliotecas• EstudiantesEstudiantes• ““Espiar” consultas de otros usuariosEspiar” consultas de otros usuarios

Los usuarios y sus necesidades de información

Page 48: Evaluacion RI

Evaluación de la RI en InternetLos usuarios y sus necesidades de información

Características:Características: Que haya recursos en la W3Que haya recursos en la W3 Que constituyan una combinación de preguntas Que constituyan una combinación de preguntas

«fáciles» —con un alto nivel de respuesta— y «fáciles» —con un alto nivel de respuesta— y «difíciles» —con resultados más restringidos—«difíciles» —con resultados más restringidos—

Que unas preguntas sean de temas académicos Que unas preguntas sean de temas académicos y/o especializados y otras de temas más comunesy/o especializados y otras de temas más comunes

Que se trate de preguntas heterogéneas, Que se trate de preguntas heterogéneas, relacionadas con temas diversosrelacionadas con temas diversos

Número de preguntasNúmero de preguntas

Page 49: Evaluacion RI

Evaluación de la RI en Internet

Evaluación de los resultadosEvaluación de los resultados

Evaluación de los buscadoresEvaluación de los buscadores

Metodología experimental

(Dra. María Dolores Olvera Lobos)

Page 50: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

a) a) Ecuación de búsqueda: sintaxisEcuación de búsqueda: sintaxis b) Realización de las consultasb) Realización de las consultas c) Valoración de la relevancia: asesores c) Valoración de la relevancia: asesores

externosexternos d) Resultados: exhaustividad y precisiónd) Resultados: exhaustividad y precisión

Page 51: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Aspecto fundamentalAspecto fundamental Reto principal al realizar una consulta:Reto principal al realizar una consulta:

Conseguir que la pregunta recupere los documentos Conseguir que la pregunta recupere los documentos que se consideran realmente relevantesque se consideran realmente relevantes

Elementos:Elementos:

términos, operadores lógicos, uso de paréntesis, términos, operadores lógicos, uso de paréntesis, truncamiento, formulación de la búsqueda en truncamiento, formulación de la búsqueda en lenguaje natural.lenguaje natural.

Línea de investigación:Línea de investigación:

Selección y eficacia de los términos de búsqueda Selección y eficacia de los términos de búsqueda utilizados en la interacción con el sistema de utilizados en la interacción con el sistema de recuperaciónrecuperación

a) La sintaxis de búsqueda

Page 52: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Formular simultáneamente la misma pregunta Formular simultáneamente la misma pregunta en todos los servicios evaluados: 20-30 minutosen todos los servicios evaluados: 20-30 minutos

Rápido análisis de los resultados Rápido análisis de los resultados

b) Ejecución de las búsquedas

Page 53: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Asesores externosAsesores externos Precisión de los diez, veinte o veinticinco primerosPrecisión de los diez, veinte o veinticinco primeros Juzgar la relevancia del texto completoJuzgar la relevancia del texto completo Escala de relevancia:Escala de relevancia:

a) enlaces duplicados, inactivos e irrelevantes: 0 a) enlaces duplicados, inactivos e irrelevantes: 0 puntospuntos

b) enlaces técnicamente relevantes: 1 puntob) enlaces técnicamente relevantes: 1 punto c) enlaces potencialmente útiles: 2 puntosc) enlaces potencialmente útiles: 2 puntos d) los enlaces probablemente más útiles: 3 puntos d) los enlaces probablemente más útiles: 3 puntos

c) Los juicios de relevancia

Page 54: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Duplicados:Duplicados:

• Mismo URL (Uniform Resource Locator) básico que Mismo URL (Uniform Resource Locator) básico que una referencia anterior de la lista de resultados o si un una referencia anterior de la lista de resultados o si un nombre del directorio en el URL está en mayúsculas nombre del directorio en el URL está en mayúsculas en un caso pero no en otro.en un caso pero no en otro.

• Se le considera en la categoría de duplicados, Se le considera en la categoría de duplicados, independiente-mente de sus otras cualidades (inactivo, independiente-mente de sus otras cualidades (inactivo, irrelevante o válido)irrelevante o válido)

c) Los juicios de relevancia

Page 55: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

c) Los juicios de relevancia

Duplicados:Duplicados:

• Los espejos (Los espejos (mirror sitesmirror sites o alias), servidores o alias), servidores idénticos con direcciones IP (Internet Protocol) idénticos con direcciones IP (Internet Protocol) o directorios diferentes, incluso cuando dos o directorios diferentes, incluso cuando dos archivos son el mismo o versiones ligeramente archivos son el mismo o versiones ligeramente diferentes, no se consideran como duplicados.diferentes, no se consideran como duplicados.

Page 56: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Inactivos:Inactivos: Error 404: el servidor ha sido contactado pero no se Error 404: el servidor ha sido contactado pero no se

consigue localizar ese fichero.consigue localizar ese fichero.

Error 603: el servidor no respondeError 603: el servidor no responde

Mensajes que indican que el acceso a la página está Mensajes que indican que el acceso a la página está prohibido o que se necesita clave de acceso.prohibido o que se necesita clave de acceso.

Mensajes que anuncian que la página deseada ha Mensajes que anuncian que la página deseada ha sido eliminada o trasladada a otro servidor.sido eliminada o trasladada a otro servidor.

  

c) Los juicios de relevancia

Page 57: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Relevantes:Relevantes:0. Una página web que no satisface la pregunta ni 0. Una página web que no satisface la pregunta ni

recoge los recoge los términos de la ecuación de búsqueda.términos de la ecuación de búsqueda.

1. Una página técnicamente adecuada pero no 1. Una página técnicamente adecuada pero no útil:útil:

El documento recoge, en el código HTML (HyperText El documento recoge, en el código HTML (HyperText Markup Language), las diferentes partes de la Markup Language), las diferentes partes de la pregunta pero no en el contexto adecuadopregunta pero no en el contexto adecuado

Mencionan el tema en el contexto adecuado pero sólo Mencionan el tema en el contexto adecuado pero sólo contienen un mínimo de información realmente útil.contienen un mínimo de información realmente útil.

c) Los juicios de relevancia

Page 58: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

c) Los juicios de relevanciaRelevantes:Relevantes:

2. 2. Páginas que pueden tener alguna utilidad, aunque no necesariamente, Páginas que pueden tener alguna utilidad, aunque no necesariamente, para quien plantee la búsqueda:para quien plantee la búsqueda: No abordan el tema con profundidad o se centran en algún aspecto No abordan el tema con profundidad o se centran en algún aspecto

específico del mismo.específico del mismo. Páginas con al menos un enlace a otra página a la que se asignan 3 Páginas con al menos un enlace a otra página a la que se asignan 3

puntos, aunque la primera no contenga otras informaciones puntos, aunque la primera no contenga otras informaciones relevantes.relevantes.

3.Páginas web que, probablemente, serían útiles para quien plantee la 3.Páginas web que, probablemente, serían útiles para quien plantee la consulta:consulta: Tratan el tema extensamenteTratan el tema extensamente Contener enlaces a otros documentos que tratan ese temaContener enlaces a otros documentos que tratan ese tema Ofrecen una bibliografía de páginas web o «webibliografía».Ofrecen una bibliografía de páginas web o «webibliografía».

Page 59: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los resultados

Imposible calcular la exhaustividad real en la Web por su Imposible calcular la exhaustividad real en la Web por su tamaño y naturaleza dinámicatamaño y naturaleza dinámica

Técnicas de muestreo: subconjunto de documentosTécnicas de muestreo: subconjunto de documentos

PoolingPooling procesando una pregunta concreta mediante: procesando una pregunta concreta mediante:

varias búsquedas y métodos de recuperación diferentesvarias búsquedas y métodos de recuperación diferentes

un metabuscadorun metabuscador

Relevancia de los documentos recuperados: evaluación Relevancia de los documentos recuperados: evaluación por cortes según el “umbral de futilidad” (Blair 80)por cortes según el “umbral de futilidad” (Blair 80)

d) Análisis de los resultados

Page 60: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

a) Motor de búsquedaa) Motor de búsqueda b) Base de datosb) Base de datos c) Interfaz de usuarioc) Interfaz de usuario d) Otros serviciosd) Otros servicios

Page 61: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

En relación con el En relación con el motor de búsquedamotor de búsqueda

Sin palabras vacíasSin palabras vacías Búsqueda de expresiones complejas (HBúsqueda de expresiones complejas (H22O, C++)O, C++) Discrimina mayúsculas-minúsculas y signos Discrimina mayúsculas-minúsculas y signos

diacríticosdiacríticos TruncamientoTruncamiento Búsqueda aproximada o por conceptosBúsqueda aproximada o por conceptos Uso de paréntesis para ecuaciones complejasUso de paréntesis para ecuaciones complejas

Características deseables

Page 62: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

En relación con el En relación con el motor de búsquedamotor de búsqueda Operadores de proximidad y otros (Operadores de proximidad y otros (can, must, can, must,

must not, should, should notmust not, should, should not)) Operador por defecto Operador por defecto andand Restringir la búsqueda a partir de los resultadosRestringir la búsqueda a partir de los resultados

Características imprescindibles Operadores: (and, or y not) y delimitadores + - . Operadores: (and, or y not) y delimitadores + - . Frases de búsquedasFrases de búsquedas

Page 63: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadoresCaracterísticas imprescindibles

En relación con el En relación con el motor de búsquedamotor de búsqueda

Búsqueda por etiquetas HTML de los documentos web Búsqueda por etiquetas HTML de los documentos web (título, imagen) o de otras cualidades formales (tipo de (título, imagen) o de otras cualidades formales (tipo de fichero) o de ubicación (dominio, servidor, etc.)fichero) o de ubicación (dominio, servidor, etc.)

Búsqueda en lenguaje natural.Búsqueda en lenguaje natural. Existencia de un directorio temático Existencia de un directorio temático Ayuda para reformular las búsquedasAyuda para reformular las búsquedas Resultados ordenados por relevanciaResultados ordenados por relevancia Mostrar el valor relevancia.Mostrar el valor relevancia. Búsqueda por cadenas de caracteres: numéricas (007) y Búsqueda por cadenas de caracteres: numéricas (007) y

alfanuméricas (4B)alfanuméricas (4B)   

Page 64: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

En relación con el En relación con el motor de búsquedamotor de búsqueda

Búsqueda mediante ejemploBúsqueda mediante ejemplo Uso de un “tesauro”Uso de un “tesauro” Otras características: delimitar por lengua, fecha, etc.Otras características: delimitar por lengua, fecha, etc. Otras búsquedas: ficheros de sonido, imágenes, vídeoOtras búsquedas: ficheros de sonido, imágenes, vídeo Indicación nº total referencias recuperadasIndicación nº total referencias recuperadas Frecuencia de cada término de búsquedaFrecuencia de cada término de búsqueda Limitar el nº total de referencias recuperadasLimitar el nº total de referencias recuperadas Establecer nº referencias por pantallaEstablecer nº referencias por pantalla Referencias recuperadas numeradasReferencias recuperadas numeradas Diferentes formatos de presentaciónDiferentes formatos de presentación

Características deseables

Page 65: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

En relación con la En relación con la base de datosbase de datos

Indización de textoIndización de texto Rapidez en la incorporación de URLs enviadasRapidez en la incorporación de URLs enviadas

En relación con la En relación con la interfazinterfaz Pantallas de ayuda ejemplos de búsqueda, busqueda Pantallas de ayuda ejemplos de búsqueda, busqueda

avanzadaavanzada

En relación con En relación con otros serviciosotros servicios Usenet, correo electrónico, noticias, otrosUsenet, correo electrónico, noticias, otros

Características imprescindibles

Page 66: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

En relación con la En relación con la base de datosbase de datos

Tamaño superior a 150 millones de páginas webTamaño superior a 150 millones de páginas web Frecuencia de actualizaciónFrecuencia de actualización Construcción automática y manualConstrucción automática y manual Indización mediante metaetiquetasIndización mediante metaetiquetas Respetar protocolo de Exclusión de Robots: Respetar protocolo de Exclusión de Robots: /robots.txt/robots.txt o o

noindexnoindex Recursos seleccionados y evaluadosRecursos seleccionados y evaluados

Características deseables

Page 67: Evaluacion RI

Evaluación de la RI en InternetEvaluación de los buscadores

En relación con la En relación con la interfazinterfaz

Calidad de los gráficosCalidad de los gráficos Documentación sobre el servicioDocumentación sobre el servicio Menús desplegablesMenús desplegables Guardar configuración de búsquedaGuardar configuración de búsqueda Interfaz personalizableInterfaz personalizable Servidores duplicados (mirrors)Servidores duplicados (mirrors) Versiones nacionalesVersiones nacionales

Características deseables

Page 68: Evaluacion RI

Evaluación de la RI en Internet: Un caso prácticoEvaluación de los resultados

Usuarios reales Usuarios reales elegidos al azar relacionados con elegidos al azar relacionados con el ámbito académicoel ámbito académico

Necesidades de información sobre temas muy Necesidades de información sobre temas muy diversosdiversos

Los usuarios y sus necesidades de información

Page 69: Evaluacion RI

Evaluación de la RI en Internet: Un caso prácticoEvaluación de los resultados

Tratamientos de residuos hospitalarios en el mundo, menos en Argentina

Lengua Aymará

Generadores de energía eléctrica

Reciclado de desechos de madera

Asado criollo

Musicoterapia para autistas

Musicoterapia en Brasil

Genoma humano

Nicholas Cage

Reality show

Las preguntas

Page 70: Evaluacion RI

Evaluación de la RI en Internet. Un caso prácticoEvaluación de los resultados

PREGUNTA 1: Tratamiento de residuos hospitalarios menos en argentina

TIPO

Búsqueda booleana(con frases de búsqueda y operadores)

SINTAXIS

“residuos hospitalarios +tratamiento –Argentina+tratamiento de residuos +hospital –Argentina

BUSCADORES Hotbot

Go

Sintaxis de búsqueda

Page 71: Evaluacion RI

Evaluación de la RI en Internet: Un caso prácticoEvaluación de los resultados

Intervalo mínimo en la realización de las Intervalo mínimo en la realización de las búsquedas y análisis de resultadosbúsquedas y análisis de resultados

3 a 5 minutos: u3 a 5 minutos: una misma pregunta en na misma pregunta en distintos buscadoresdistintos buscadores

1 a 7 días: acceso al documento completo y 1 a 7 días: acceso al documento completo y valoración de relevanciavaloración de relevancia

10 preguntas x 2 buscadores = 20 consultas10 preguntas x 2 buscadores = 20 consultas 20 consultas x 10 resultados = 200 referencias 20 consultas x 10 resultados = 200 referencias

analizadasanalizadas

Realización de las consultas

Page 72: Evaluacion RI

0 : Enlaces duplicados, inactivos e irrelevantes(que no satisface la pregunta ni recoge

los términos de la ecuación de búsqueda).

1 : Enlaces técnicamente adecuados pero no útiles(que recogen en el HTML las diferentes partes de lapregunta pero no en el contexto adecuado, omencionan el tema en el contexto adecuado pero solocontienen un mínimo de información relevante.

2 : Enlaces potencialmente útiles (que no abordan eltema en profundidad o se centran en algún aspectoespecífico del mismo, o páginas con al menos unenlace a otra página a la que se le asigna 3.

RELEVANCIA 3 : Enlaces probablemente más útiles (que tratan el

tema extensamente, contienen enlaces a otrosdocumentos que tratan el tema, ofrecen unabibliografía de página web o “webbibliografía”

Page 73: Evaluacion RI

Evaluación de la RI en Internet: Un caso prácticoEvaluación de los resultados

Análisis de resultados: exhaustividad-precisiónTema 1: Tratamientos de residuos hospitalarios en el mundo, menos en Argentina

BUSCADOR: GO BUSCADOR: HOTBOT

Ranking Relevancia E P Ranking Relevancia E P

1 3 0,2 1 1 1 0 0

2 3 0,4 1 2 2 0,17 0,50

3 0 0,4 0,67 3 3 0,34 0,67

4 0 0,4 0,50 4 3 0,50 0,75

5 3 0,6 0,60 5 2 0,67 0,80

6 2 0,8 0,67 6 3 0,84 0,84

7 0 0,8 0,58 7 2 1 0,86

8 3 1 0,62 8 0 1 0,75

0 0 1 0,55 9 1 1 0,67

10 0 1 0,50 10 1 1 0,60

Page 74: Evaluacion RI

Evaluación de la RI en Internet: Un caso prácticoEvaluación de los resultados

Exhaustividad y Precisión

0,1

1

Exhaustividad

Pre

cis

ión

GO Exhaustividad GO PrecisiónHOTBOT Exhaustividad HOTBOT Precisión

Page 75: Evaluacion RI

-30

-20

-10

0

10

20

30

40

Altavista Hotbot Lycos Opentext Worm

MotorBase datosInterfazServiciosTotal

Evaluación de la RI en Internet. Un caso prácticoEvaluación de los buscadores

Características y Prestaciones

Page 76: Evaluacion RI

Evaluación de la RI en Internet: Evaluación de los buscadores

0

20

40

60

80

100

120

Altavista Excite Hotbot Infoseek Lycos Magellan Opentext WebCrawl Worm Yahoo

Inactivo

Duplicado

Relev. 0

Inactivos, duplicados y de relevancia 0 (de entre los 20 primeros resultados) para las 20 preguntas

Page 77: Evaluacion RI

Evaluación de la RI en Internet: Un caso práctico

Evaluación de los resultados

0

1

2

3

4

5

6

7

8

9

10

Altavista Excite Hotbot Infoseek Lycos Magellan Opentext WebCrawl Worm Yahoo

Rel. 3

Rel. 2 ó 3

Rel. 1, 2 ó 3

Promedio de resultados relevantes (de entre los 10 primeros) por pruebas

Page 78: Evaluacion RI

Promedio Exhaustividad-Precisiónpara relevancia 2 ó 3

(prueba 2)

AlLTAVISTA

EXCITE

INFOSEEK

HOTBOT

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0,0 0,2 0,4 0,6 0,8 1,0 1,2

Exhaustividad

Pre

cis

ión

Excite

Hotbot

Altavista

Infoseek

Page 79: Evaluacion RI

Evaluación de la RI en Internet

El método permite analizar la calidad de los buscadores de la W3 y establecer comparaciones.

Se demuestra la viabilidad de adaptar técnicas ya existentes de evaluación de la RI a los servicios de búsqueda en Internet.

El estudio permite establecer: Prestaciones y propiedades de un buscador

«estándar» Tendencias Características de presencia creciente

Conclusiones generales