El Factor Humano en la Recuperación de Información

33
El Factor Humano en la Recuperación de Información Yusef Hassan Montero - Grupo SCImago (CSIC) - NoSoloUsabilidad.com

Transcript of El Factor Humano en la Recuperación de Información

Page 1: El Factor Humano en la Recuperación de Información

El Factor Humano en la Recuperación de Información

Yusef Hassan Montero - Grupo SCImago (CSIC) - NoSoloUsabilidad.com

Page 2: El Factor Humano en la Recuperación de Información

Resumen

• Introducir la Recuperación de Información como área de estudio

• Reflexionar sobre los problemas de los modelos tradicionales de Recuperación de Información

• Discutir los modelos alternativos centrados en el factor humano

• Analizar posibles futuras vías de trabajo en Recuperación de Información

Page 3: El Factor Humano en la Recuperación de Información

Definición

“Information Retrieval is concerned with the processes involved in the representation, storage, searching and finding of information which is relevant to a requirement for information desired by a human user.”

Peter Ingwersen, 1992

Page 4: El Factor Humano en la Recuperación de Información

Un modelo simplista

Page 5: El Factor Humano en la Recuperación de Información

Un poco más en detalle

Page 6: El Factor Humano en la Recuperación de Información

Web Crawling

“Crawling the Web is perhaps the main bottleneck for Web search engines” Ricardo Baeza-Yates, 2003

• Constante aumento de su volumen

• ¿Más es mejor? Dificultad para determinar calidad en el nuevo contenido.

• No todo es HTML

• Contenido duplicado : ¿posicionar o multiplicar?

• Contenido volátil

• Internet invisible

• Documentos desestructurados

Page 7: El Factor Humano en la Recuperación de Información

Indización

Asignar términos (o expresiones) a documentos, con el objetivo de que sirvan de puntos de acceso a dichos documentos.

Page 8: El Factor Humano en la Recuperación de Información

Indización de profesional

Profesionales, que dominan el área de conocimiento del documento, se encargan de describirlo mediante metadatos.

Page 9: El Factor Humano en la Recuperación de Información

Indización de autor

El autor o creador del documento asigna los metadatos que lo describen.

Page 10: El Factor Humano en la Recuperación de Información

Indización automática de contenido

La presencia y frecuencia de las palabras del propio texto, describen su contenido.

¿o no?

Page 11: El Factor Humano en la Recuperación de Información

Indización de contenido

Page 12: El Factor Humano en la Recuperación de Información

Indización de contenido

Page 13: El Factor Humano en la Recuperación de Información

Pre-procesamiento

•Stemming

•Eliminación de stop-words

¿Realmente se hace?

Page 14: El Factor Humano en la Recuperación de Información

Ponderación tf·idf

WTF!

Page 15: El Factor Humano en la Recuperación de Información

Ponderación mediante heurísticas…

<h1>En documentos semi-estructurados</h1>

Page 16: El Factor Humano en la Recuperación de Información

¿Por dónde íbamos?

Page 17: El Factor Humano en la Recuperación de Información

¿Por dónde íbamos?

Page 18: El Factor Humano en la Recuperación de Información

¿Por dónde íbamos?

Page 19: El Factor Humano en la Recuperación de Información

Evaluación de los SRI: Relevancia

Documentosrecuperados

Documentosrelevantes

Precisión: De todos los documentos recuperados, ¿qué porcentaje son relevantes?

Exhaustividad: De todos los documentos relevantes, ¿qué porcentaje son recuperados?

Page 20: El Factor Humano en la Recuperación de Información

Evaluación de los SRI: Relevancia

Precisión

Exhaustividad

Page 21: El Factor Humano en la Recuperación de Información

¿Hay algo más?

• Modelo espacio-vectorial

• Modelo probabilístico

• Lógica Difusa

• Técnicas de Clustering

• Indización de Semántica Latente

• Redes Neuronales

• Algoritmos Genéticos

• Procesamiento del Lenguaje Natural

Page 22: El Factor Humano en la Recuperación de Información

Algunos problemas del enfoque algorítmico tradicional

• Visión de la recuperación de información desde su vertiente casi exclusivamente tecnológica.

• ¿Las palabras del texto representan su contenido?

• ¿Consulta=Necesidad Informativa?

• El usuario es un elemento prácticamente ignorado en los modelos.

• Visión de la recuperación de información como un proceso secuencial prueba-error, en vez de cómo un proceso realmente interactivo.

• Estancamiento evolutivo en términos de resultados.

Page 23: El Factor Humano en la Recuperación de Información

¿Existen enfoques alternativos?

Page 24: El Factor Humano en la Recuperación de Información

Primeras Alternativas

• User-Centered Information Retrieval

• Information Retrieval Interaction

• Human-Computer Information Retrieval

• …

Page 25: El Factor Humano en la Recuperación de Información

Qué proponen

• Centrar la concepción del SRI en el usuario (necesidades, conocimiento, contexto,…), y en la interacción.

• Analizar la recuperación de información como un diálogo entre entidades cognitivas “análogas”.

• Ir más allá de la búsqueda: Hacia la Exploración.

• Potenciar la orientación del usuario.

• Potenciar el control y responsabilidad del usuario.

• La relevancia es subjetiva. Dar significado a los resultados.

• Propuestas alternativas de evaluación de SRI: Usabilidad.

Page 26: El Factor Humano en la Recuperación de Información

Resultados

interfaz

Page 27: El Factor Humano en la Recuperación de Información

Y en esto llegó la…

Web 2.0Se estima que las “herramientas 2.0” son responsables de un tercio del nuevo

contenido que se genera en la Web.

Page 28: El Factor Humano en la Recuperación de Información

Teoría de la Actividad

Aleksei N. Leontiev(1903-1979)

Page 29: El Factor Humano en la Recuperación de Información

Recuperación de Información 2.0 (IMHO)

• Indización de autor, de profesional, de contenido…indización social.

• Redefinir el concepto de “Personalización” de Resultados.

• Ir más allá de la búsqueda y la exploración de información. Hacia el descubrimiento de información: Forzar la serendipia.

• Inteligencia colectiva: Nuevos modelos algorítmicos que permitan explotar la semántica socialmente construida, y el comportamiento socialmente motivado de los usuarios.

• Redefinir el concepto de “Personalización” de la Interfaz.

• Visualización de Información

Page 30: El Factor Humano en la Recuperación de Información

Sobre el futuro de las búsquedas

“We’re all familiar with 80-20 problems, where the last 20% of the solution is 80% of the work. Search is a 90-10 problem. Today, we have a 90% solution […] However, that remaining 10% of the problem really represents 90% (in fact, more than 90%) of the work. Coming up with elegant, fitting and relevant solutions to meet the challenges”

The Official Google Blog.

Page 31: El Factor Humano en la Recuperación de Información

¿Alguien dijo…

…Web Semántica?(yo no)

Page 32: El Factor Humano en la Recuperación de Información

Por último…

Page 33: El Factor Humano en la Recuperación de Información

Gracias!