Árboles de Estimación Estocástica de Probabilidades...

39
Árboles de Estimación Estocástica de Probabilidades: NEWTON TREES Autor: Fernando Martínez Plumed Directores: Cèsar Ferri Ramirez María José Ramírez Quintana Tesis de Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información 1

Transcript of Árboles de Estimación Estocástica de Probabilidades...

Page 1: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Árboles de Estimación

Estocástica de

Probabilidades:

NEWTON

TREES Autor:

Fernando Martínez Plumed

Directores:

Cèsar Ferri Ramirez

María José Ramírez Quintana

Tesis de Máster en Ingeniería del Software,

Métodos Formales y Sistemas de Información

1

Page 2: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

ÍNDICE

1. Introducción

2. Newton Trees

3. Valores Faltantes

4. Experimentación

5. Conclusiones y Trabajo Futuro

2

Page 3: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Introducción

1.1 Minería de Datos

1.2 Tareas y Técnicas

1.3 Árboles de Decisión

1.4 PET´s

1.5 DBDT

1.6 Motivación

1

3

Page 4: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.1 Minería de Datos

Definiciones:

“Proceso de extracción de información y patrones de comportamiento que permanecen ocultos entre grandes cantidades de información.”

“Proceso que a través del descubrimiento y cuantificación de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil.”

Introducción 4

Page 5: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.1 Minería de Datos

Introducción 5

Relaciones Información

CONOCOMIENTO ÚTIL

Y

PATRONES OCULTOS

Page 6: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.2 Tareas y Técnicas

Introducción 6

Tareas: Predictivas: se trata de problemas y tareas en

los que hay que predecir uno o más valores para uno o mas ejemplos.

Los ejemplos en la evidencia van acompañados de una salida (clase, categoría o valor numérico) o un orden entre ellos.

Dependiendo de como sea la correspondencia entre los ejemplos y los valores de salida y la presentación de los ejemplos podemos definir varias de tareas predictivas:

Clasificación y Regresión

Page 7: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.2 Tareas y Técnicas

Introducción 7

Tareas: Descriptivas: los ejemplos se presentan

como un conjunto δ = {e : eϵE}, sin etiquetar ni ordenar de ninguna manera. El objetivo, por tanto, no es predecir nuevos datos sino describir los existente:

Asociaciones, Dependencias, Correlaciones y Agrupamiento.

Page 8: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.2 Tareas y Técnicas:Taxonomía

Introducción 8

T

A

R

E

A

S

DESCRIPTIVOS

Relación entre Variables

(Atributos)

Asociaciones y Dependencias (si las variables son categoricas)

Correlaciones (si las variables son numericas)

Relación entre Individuos (Ejemplos)

Agrupamiento

PREDICTIVOS

Clasificación (si la variable de salida es

categórica)

Regresión (Si la variable de salida es numérica)

Page 9: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.2 Tareas y Técnicas:Taxonomía

Introducción 9

Con Modelo Sin Modelo o No inteligible

EAGER • Reg. Lineal • K-means • Arboles de Decisión • Reglas • ILP, IFLP

• Perceptron Learning • Radial Basis Functions. • Bayes Classifiers • Métodos Kernel y SVM

LAZY • Reg. Lineal Pond. Local • CBR • K-NN (Nearest Neighbour)

Útiles para extracción de conocimiento

Representables en forma de reglas Técnicas:

Page 10: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.2 Tareas y Técnicas:Taxonomía

Introducción 10

TÉCNICA

PREDICTIVO / SUPERVISADO DESCRIPTIVO / NO SUPERVISADO

Clasificación Regresión Clustering Reglas Asociación Otros (Fact.,

Correl.)

Redes Neuronales

Arboles de Decisión

Kohonen

Regresion Lineal,

Regresión Logística

Kmeans

A priori

Analisis Multivariante

CN2

K-NN

RBF

Bayes Classifiers

Page 11: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.3 Árboles de Decisión Los árboles de decisión son una de las técnicas

más populares y potentes en Aprendizaje Automático y Minería de Datos.

Clasificadores para clasificar instancias (datos) representadas como vectores de características (features).

Se basan en la idea de particionar recursivamente el conjunto de entrenamiento en conjuntos cada vez más pequeños hasta que el conjunto es puro.

Nodos Condiciones (atributo seleccionado).

Introducción 11

Page 12: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.3 Árboles de Decisión Ventajas:

Buenos resultados en Accuracy.

Desventajas:

Tratamiento heterogeneo de un limitado número de tipos de datos (nominales y numericos).

ID3 , C4.5 o C5.0 [Quinlan], CART [Breiman].

Introducción 12

Page 13: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.3 Árboles de Decisión

Introducción 13

Page 14: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.4 PETs Variación de los árboles de decisión clásicos

donde la salida proporcionada es una probabilidad.

No modifican la manera de construir los árboles: usan criterios, particiones y métodos de poda diseñados para otras tareas o medidas.

Buenos resultados en términos del AUC (Area Under the Curve) y MSE (Mean Squared Error).

Aunque los PETs retornan probabilidades, no son probabilísticos en términos de cómo se usa el árbol para clasificar nuevas instancias.

Introducción 14

Page 15: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.5 DBDT “Distance-Based Decision Trees”

Uso de distancias y funciones de similitud para diseñar árboles de decisión más flexibles.

Permite tratar cualquier tipo de datos en el que se puedan definir distancias.

Devuelve un árbol de prototipos de clase (nodos en el árbol).

Un ejemplo caerá en un nodo dado dependiendo de su proximidad al prototipo de clase.

Introducción 15

Page 16: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.5 DBDT

Introducción

dnum(x,y) diferencia absoluta dnom(x,y) función identidad

16

Page 17: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

1.6 Motivación

Presentación de un nuevo método de inducción de árboles de decisión, los Newton Trees.

Trabajan con cualquier tipo de datos.

Manejan de forma uniforme las distintas características.

Probabilísticos en su uso haciendo que cada instancia recorra todo el árbol y no sólo una rama.

Introducción 17

Page 18: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees

2.1 Newton Trees

2.2 Particiones Gravitacionales

2.3 Generación del Árbol

2.4 Cálculo Estocástico de la Probabilidad

2.5 Comprensibilidad

2

18

Page 19: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees Particiones

Gravitacionales Árboles de Estimación Estocástica de

Probabilidades.

Construcción, uso y representación del árbol basados en el principio de atracción. Las probabilidades se derivan también a partir de dicho principio.

Árbol de prototipos.

Representación gráfica del árbol sencilla de interpretar.

Los árboles son univariantes, pero sus particiones no son necesariamente paralelas a los ejes.

2.1 Newton Trees

Newton Trees 19

Page 20: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees Particiones

Gravitacionales Particiones nodo/cluster por clase.

Cada nodo/cluster es caracterizado por un prototipo (medioide).

A partir de los medioides calculados, los datos se distribuyen de acuerdo a la siguiente función de atracción:

2.2 Particiones Gravitacionales

Newton Trees 20

Page 21: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees Particiones

Gravitacionales 1. Para cada atributo Xr y cada clase i, se

calcula un prototipo πr, i.

2. Seleccionar el atributo que maximice algún criterio de partición (Gain Ratio).

3. Se asocia cada instancia de entrenamiento a su prototipo más próximo.

4. Si la partición es impura ir a 1, si no Fin.

2.3 Generación del árbol

Newton Trees 21

Page 22: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees Particiones

Gravitacionales 1. Computar, desde la raíz a las hojas, la

probabilidad de caer en cada nodo.

2. Calcular el vector de probabilidad en cada hoja.

2.4 Cálculo estocástico de la probabilidad

Newton Trees 22

Page 23: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees Particiones

Gravitacionales 3. Propagar hacia arriba este vector para

obtener en la raíz el vector total de

probabilidad p(root,e)

2.4 Cálculo estocástico de la probabilidad

Newton Trees 23

Page 24: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Instancia a clasificar:

(FEMALE,NO)

Newton Trees

2.4 11

0+

2

1𝑝 =

11

0 → 𝑝 = 1

11

0+

2

1𝑝 =

2

1 → 𝑝 = 0

24

Page 25: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Valores Faltantes

3.1 Valores Faltantes

3.2 Valores Faltantes en C4.5

3.3 Valores Faltantes en Newton Trees

3.4 Ejemplo

3

25

Page 26: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

¿Qué pasa cuando parte de los datos están incompletos, como ocurre generalmente con cualquier conjunto de datos de la vida real?

Descartar una proporción importante de los datos por incompletos y declarar algunos casos como inclasificables.

Adaptar los algoritmos para poder trabajar con atributos con valores faltantes.

Valores Faltantes

3.1 Valores Faltantes

26

Page 27: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Quinlan mostró que la combinación de todos los posibles resultados con un valor faltante en el ejemplo de test en la fase de clasificación proporciona una mejor precisión general que otros enfoques.

Para clasificar un ejemplo e, éste se propaga por todas las ramas para calcular su probabilidad de forma proporcional al número de instancias de entrenamiento (con valores conocidos para el atributo de partición).

El algoritmo C4.5 adopta esta aproximación.

Valores Faltantes

3.2 Valores Faltantes en C4.5

27

Page 28: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Aproximación en Newton Trees: para atributos con valores faltantes se asume que la distancia a cualquier prototipo es igual, tal que:

Se ignoran los valores faltantes en la fase de aprendizaje .

Se establece constante (igual a 1) el valor de la distancia a cualquier prototipo.

Valores Faltantes

3.3 Valores Faltantes en Newton Trees

28

Page 29: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Instancia de Test:

(FEMALE,?)

Valores Faltantes

3.4 Ejemplo

29

Page 30: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Experimentación

4.1 Configuración

4.2 Resultados

4

30

Page 31: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Newton Trees vs J48 (sin poda y con suavizado de Laplace en las hojas) implementado en WEKA.

Gain Ratio.

30 Datasets extraídos del repositorio UCI.

20 repeticiones x 5 folds Cross Validation.

Métricas de evaluación: Accuracy, AUC y MSE.

Tests estadisticos (Wilcoxon signed-ranks)

4.1 Configuración

Experimentación 31

Page 32: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Tabla 1. Comparativa Global

(30 Datasets)

Newton Trees Unpruned

Laplace J48

Acc. AUC MSE Acc. AUC MSE

Media 82,091 0,866 0,100 80,728 0,842 0,110

Media (Binarios)

83,650 0,867 0,115 81,339 0,831 0,133

Media (> 2 Clases)

80,308 0,866 0,084 80,031 0,854 0,083

Nominales 90,159 0,931 0,069 87,310 0,894 0,080

Numéricos 79,703 0,860 0,118 79,422 0,848 0,127

Mixtos 77,205 0,810 0,109 75,888 0,781 0,118

4.2 Resultados

32

Page 33: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Tabla 2. Comparativa Valores Faltantes

(7 Datasets)

Newton Trees Unpruned Laplace

J48

Acc. AUC MSE Acc. AUC MSE

Media 83,934 0,874 0,095 83,641 0,860 0,100

Media (Binarios)

84,531 0,853 0,111 83,454 0,838 0,119

Media (Clases >2)

82,440 0,926 0,056 84,108 0,914 0,053

4.2 Resultados

33

Page 34: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Conclusiones y Trabajo Futuro

5.1 Conclusiones

5.2 Trabajo futuro

5.3 Artículos

Relacionados

5

34

Page 35: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Novedoso método de aprendizaje de árboles de estimación estocástica de probabilidad, los Newton Trees.

El uso de medioides permite el tratamiento homogéneo de cualquier tipo de datos.

Representación grafica inteligible.

Adaptación para el tratamiento de valores faltantes.

Conclusiones

5.1 Conclusiones

35

Page 36: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

Los resultados obtenidos en las distintas pruebas llevadas a cabo cumplen nuestras expectativas en cuanto a homogeneidad (en el tratamiento de los tipos de datos), transparencia (tratamiento de los datos inteligible), eficiencia (con un coste bajo) y eficacia (con resultados significativamente mejores a que los obtenidos con el j48).

Conclusiones

5.1 Conclusiones

36

Page 37: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

AUC como criterio de partición.

Extensión de los Newton Trees a otros métodos de aprendizaje como la regresión o el clustering.

Tratamiento de datos estructurados (cadenas, listas,…).

Clasificación de instancias multi-etiqueta.

Conclusiones

5.2 Trabajo Futuro

37

Page 38: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

5.3 Artículos Relacionados

F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Newton trees , 23rd Australasian Joint Conference on Artificial Intelligence, AI 2010,(LNCS), Adelaide, Australia.

F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Tratamiento de Valores Faltantes en Newton trees , V Simposio de Teoría y Aplicaciones en Minería de Datos, TAMIDA 2010, Valencia, España.

F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Newton trees . Extended Technical Report, DSIC UPV 2010, http://www.dsic.upv.es/~flip/NewtonTR.pdf

Introducción 39

Page 39: Árboles de Estimación Estocástica de Probabilidades ...users.dsic.upv.es/~fmartinez/papers/MasterThesis_NandoPress.pdf · entre los ejemplos y los valores de salida y la ... conocidos

¡Gracias!

40