Evaluacion de Sistemas Inteligentes de Acceso a la Información
-
Upload
jose-carlos-cortizo-perez -
Category
Education
-
view
2.433 -
download
0
Transcript of Evaluacion de Sistemas Inteligentes de Acceso a la Información
Evaluación de los SINAI
José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo [email protected]
Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid
José Carlos Cortizo Pérez
Índice
Introducción
Colecciones de Datos
Espacio de Documentos
Recall, Precisón, F-measure
Accuracy, ROC/AUC
Sistemas Inteligentes de Acceso a la Información
Introducción
José Carlos Cortizo Pérez
Introducción
Existen muchos modelos y algoritmos para cada tarea, ¿cuál es el mejor?
Cada sistema se suele componer de varios elementos
ranker, normalización, selección de términos, etc.
¿Qué componente es mejor para cada problema?
¿Cuánto va a tardar un usuario en encontrar la información que le interesa?
¿Por qué evaluar?
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Introducción
La relevancia de los documentos es algo difícil de medir
Muchas veces responde a criterios humanos
Subjetividad
Situación (depende de las necesidades actuales)
Cognitivo (depende de la percepción)
Dinámico (cambia con el tiempo)
Dificultades
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Introducción
La relevancia de los documentos es algo difícil de medir
Muchas veces responde a criterios humanos
Otras muchas, no responde a una mera respuesta SI/NO, si no que es un valor continuo
Dificultades
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Introducción
Efectividad
Capacidad de satisfacer las necesidades del usuario
Eficiencia
Complejidad teórica
Tiempos de respuesta
Nos centramos en efectividad
Términos de la Evaluación
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Introducción
Existen múltiples métricas, dependiendo tanto de la tarea concreta como de otros factores
Casi todas ellas se basan en disponer de una colección de datos de referencia
Métricas
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
¿Alguna pregunta?
Sistemas Inteligentes de Acceso a la Información
Colecciones de Datos
José Carlos Cortizo Pérez
Colecciones de Datos
Una colección de datos es un conjunto de elementos (webs, correos, artículos, etc.) que han sido revisadas y “etiquetadas” por humanos
Sirven como referencia a la hora de evaluar SINAIs
Las colecciones dependen, o son específicas, de las tareas a evaluar
¿Qué son?
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Colecciones de Datos
Existe una gran variedad de colecciones ya “prefabricadas” y, en muchos casos, ejercen como estándares
¿De dónde sacarlas?
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Colecciones de Datos
Reuters-21578
Reuters-22173
RCV1(Reuters Corpus Volume 1)
TREC-AP
Construcción propia: A partir de DMOZ, categorías de Yahoo!, catálogos de bibliotecas, etc.
Categorización de Texto
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Colecciones de Datos
OHSUMED (Medicina)
LISA (Abstracts de ciencia)
TREC
CERC (búsqueda empresarial)
Recuperación de Información
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Colecciones de Datos
TREC Blogs06
ENRON
Spam Corpus
Spam Assassin Public Corpus
Filtrado de Información
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Colecciones de Datos
Netflix
Auto-creadas a partir de Flickr, Amazon, etc.
Recomendación
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
¿Alguna pregunta?
Sistemas Inteligentes de Acceso a la Información
Espacio de Documentos
José Carlos Cortizo Pérez
Espacio de Documentos
José Carlos Cortizo Pérez
Colección de documentos
Relevantes Recuperados
José Carlos Cortizo Pérez
Espacio de Documentos
José Carlos Cortizo Pérez
A B
C D
Relevantes
No Recuperados
José Carlos Cortizo Pérez
Espacio de DocumentosMatriz de Confusión
José Carlos Cortizo Pérez
Recuperados No Recuperados
Relevantes
No Relevantes
A B
C D
José Carlos Cortizo Pérez
Espacio de Documentos
La matriz de confusión anterior es para un problema de 2 clases
P.e: Recuperados vs. No-Recuperados
Se puede extender el concepto a espacios con N clases
Matriz de Confusión
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Espacio de DocumentosMatriz de Confusión
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
¿Alguna pregunta?
Sistemas Inteligentes de Acceso a la Información
Recall, Precisión, F-Measure
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Es la proporción entre documentos relevantes recuperados y documentos relevantes
A mayor recall, el sistema nos devolverá una mayor proporción de documentos relevantes
recall = A / (A+B)
Recall
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Es la proporción entre documentos relevantes recuperados y documentos recuperados
Nos da una idea de lo “buenos” que son los documentos que nos devuelve el sistema
precision = A / (A + C)
Precisión
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Generalmente recall y precisión son inversamente proporcionales
Recall vs. Precisión
José Carlos Cortizo Pérez
Precisión
Recall
punto ideal
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Se suele buscar un equilibrio entre métricas
O primar las necesidades del usuario/sistema
P.e. Un médico preferirá mayor recall
Un usuario en Google suele preferir precisión
Recall vs. Precisión
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Varias consultas
Necesidad de promediar
Ranking de documentos
Necesidad de normalizar
Factores adicionales
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
2 enfoques
Macroaveraging
Calcular para cada consulta y promediar
Todas las consultas tienen igual importancia
Microaveraging
Sumar tablas para todas las consultas y calcular 1 valor
Consultas con más docs. tienen mayor peso
Promedio
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Si no hay ranking de documentos, obtenemos sólo 1 valor de recall y de precisión
Con ranking de documentos, podemos calcular la precisión para 11 niveles de recall (0.0, 0.1...1.0)
Esto devuelve una gráfica que permite analizar el rendimiento de forma visual
Ranking de documentos
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Ranking de documentos
José Carlos Cortizo Pérez
N # doc relevante1 588 X2 589 X3 5764 590 X5 9866 592 X7 9848 9889 57810 98511 10312 59113 772 X14 990
R=1/6=0.167; P=1/1=1R=2/6=0.333; P=2/2=1R=3/6=0.5; P=3/4=0.75R=4/6=0.667; P=4/6=0.667
R=5/6=0.833; P=5/13=0.38
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Curva recall/precisión
José Carlos Cortizo Pérez
0
0,25
0,50
0,75
1,00
0.1670.333
0.50.667
0.8333
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Con el método anterior, logramos valores de recall y precisión en puntos que no tienen por qué estar justo en valores de recall pertenecientes a {0.0, 0.1, ..., 1.0}
Para lograr los valores de precisión asociados a estos puntos de recall, debemos interpolar
Interpolación de la curva recall/precisión
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Interpolación de la curva recall/precisión
José Carlos Cortizo Pérez
0
0,25
0,50
0,75
1,00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Interpolación de la curva recall/precisión
José Carlos Cortizo Pérez
0
0,25
0,50
0,75
1,00
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00
0,25
0,50
0,75
1,00
0.1670.333
0.50.667
0.8333
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
La precisión interpolada en el punto de recall estándar j, es el valor máximo de la precisión para cualquier nivel de recall entre el j y el (j+1)
¿Cómo interpolamos?
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.¿Cómo interpolamos?
José Carlos Cortizo Pérez
N # doc relevante
recall precisión1 588 X 0,167 1,02 589 X 0,333 1,03 576 0,333 1,04 590 X 0,5 0,755 986 0,5 0,756 592 X 0,667 0,6677 984 0,667 0,6678 988 0,667 0,6679 578 0,667 0,66710 985 0,667 0,66711 103 0,667 0,66712 591 0,667 0,66713 772 X 0,833 0,3814 990 0,833 0,38
Recall Precisión0,0 1,00,1 1,00,2 1,00,3 1,00,4 0,750,5 0,750,6 0,6670,7 0,380,8 0,380,9 0,01,0 0,0
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Comparación de técnicas/sistemas
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Es la precisión en la posicion R del ranking de resultados para una consulta que tiene R documentos relevantes
R-precision
José Carlos Cortizo Pérez
N #Doc Rel.1 588 X2 589 X3 5764 590 X5 9866 592 X7 9848 9889 772 X
R = # doc. relevantes = 6
R-precision = 4/6 = 0.67
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Es una métrica que tiene en cuenta tanto el Recall como la precisión
Es la media harmónica del recall y la precisión
F =
F-Measure
José Carlos Cortizo Pérez
2 · P · RP + R
=2
(1/R) + (1/P)
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Es una variante de la F-measure que permite establecer pesos (énfasis) para la precisión y el recall
E =
Los valores de β controlan el “trade-off” entre recall y precisión
β = 1 : Igual peso para recall y precisión
β > 1 : Mayor peso para el recall
β < 1 : Mayor peso para la precisión
E-Measure
(1+ β2)PRβ2P+R
=(1+ β2)
(β2/R) + (1/P)
José Carlos Cortizo Pérez
¿Alguna pregunta?
Sistemas Inteligentes de Acceso a la Información
Accuracy, ROC, AUC
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
El recall, precisión, F y E, son métricas aptas para la recuperación de información
También para el filtrado, ya que se puede ver como una especie de recuperación
Sin embargo, otras tareas necesitan de otras métricas más adecuadas
Otras métricas
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Notación
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
TP es el número de instancias que pertenecen a la clase (+), que el clasificador ha clasificado como (+)
TN es el número de instancias que pertenencen a la clase (-), que el clasificador ha clasificado como (-)
FP es el número de instancias que pertenecen a la clase (-) pero que el clasificador ha clasificado como (+)
FN es el número de instancias que pertenecen a la clase (+) pero que el clasificador ha clasificado como (-)
Notación
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
π0 es la probabilidad a priori de la clase (+)
π0 es la probabilidad a priori de la clase (-)
p0 es la proporción de veces que el clasificador predice (+)
p1 es la proporción de veces que el clasificador predice (-)
p1 = 1 - p0
Notación
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
tprate = TP / π0 hit rate, recall, sensivity
fprate = FP / π1 false alarm rate, especifity
precision = TP / TP + FP
accuracy = ( TP + TN ) / (π0 + π1)
accuracy es precisión clasificadora, no confundir con precisión normal
Ratios básicos
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Accuracy vs Precisión
José Carlos Cortizo Pérez
↑accuracy, ↓precisión ↑precisión, ↓accuracy
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Las curvas ROC han sido ampliamente utilizadas en el diagnóstico médico para visualizar y analizar el comportamiento de los sistemas de diagnóstico
Permiten comparar el rendimiento de un clasificador para un gran rango de costes de error y distribución de clases
Curva ROC
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Curva ROC
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Curva ROC
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Si solo tengo un valor de TPR y FPR, solo tengo un punto en el espacio ROC
Con clasificadores probabilísticos, además de la clasificación de cada instancia, tenemos la probabilidad, si ordenamos los resultados en función de la probabilidad...
Curva ROC
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.Curva ROC
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
Métricas de Recuperación de I.
Comparar gráficas resulta complicado, sobre todo cuándo una no está siempre por encima de otra
AUC es el área bajo la curva, que nos permite tener un valor único que refleje lo “buena” o “mala” que pueda ser una clasificación
AUC
José Carlos Cortizo Pérez
José Carlos Cortizo Pérez
¿Alguna pregunta?
José Carlos Cortizo Pérez
Bibliografía
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C).
Raymond Mooney. Performance Evaluation of Information Retrieval Systems. Tema 4 de su curso en IR.
http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt
Adicional
José Carlos Cortizo Pérez
¿Alguna pregunta?