Árboles de Estimación Estocástica de Probabilidades...

Árboles de Estimación

Estocástica de

Probabilidades:

NEWTON

TREES Autor:

Fernando Martínez Plumed

Directores:

Cèsar Ferri Ramirez

María José Ramírez Quintana

Tesis de Máster en Ingeniería del Software,

Métodos Formales y Sistemas de Información

1

ÍNDICE

1. Introducción

2. Newton Trees

3. Valores Faltantes

4. Experimentación

5. Conclusiones y Trabajo Futuro

2

Introducción

1.1 Minería de Datos

1.2 Tareas y Técnicas

1.3 Árboles de Decisión

1.4 PET´s

1.5 DBDT

1.6 Motivación

1

3


Definiciones:

“Proceso de extracción de información y patrones de comportamiento que permanecen ocultos entre grandes cantidades de información.”

“Proceso que a través del descubrimiento y cuantificación de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil.”

Introducción 4


Introducción 5

Relaciones Información

CONOCOMIENTO ÚTIL

Y

PATRONES OCULTOS


Introducción 6

Tareas: Predictivas: se trata de problemas y tareas en

los que hay que predecir uno o más valores para uno o mas ejemplos.

Los ejemplos en la evidencia van acompañados de una salida (clase, categoría o valor numérico) o un orden entre ellos.

Dependiendo de como sea la correspondencia entre los ejemplos y los valores de salida y la presentación de los ejemplos podemos definir varias de tareas predictivas:

Clasificación y Regresión


Introducción 7

Tareas: Descriptivas: los ejemplos se presentan

como un conjunto δ = {e : eϵE}, sin etiquetar ni ordenar de ninguna manera. El objetivo, por tanto, no es predecir nuevos datos sino describir los existente:

Asociaciones, Dependencias, Correlaciones y Agrupamiento.

1.2 Tareas y Técnicas:Taxonomía

Introducción 8

T

A

R

E

A

S

DESCRIPTIVOS

Relación entre Variables

(Atributos)

Asociaciones y Dependencias (si las variables son categoricas)

Correlaciones (si las variables son numericas)

Relación entre Individuos (Ejemplos)

Agrupamiento

PREDICTIVOS

Clasificación (si la variable de salida es

categórica)

Regresión (Si la variable de salida es numérica)


Introducción 9

Con Modelo Sin Modelo o No inteligible

EAGER • Reg. Lineal • K-means • Arboles de Decisión • Reglas • ILP, IFLP

• Perceptron Learning • Radial Basis Functions. • Bayes Classifiers • Métodos Kernel y SVM

LAZY • Reg. Lineal Pond. Local • CBR • K-NN (Nearest Neighbour)

Útiles para extracción de conocimiento

Representables en forma de reglas Técnicas:


Introducción 10

TÉCNICA

PREDICTIVO / SUPERVISADO DESCRIPTIVO / NO SUPERVISADO

Clasificación Regresión Clustering Reglas Asociación Otros (Fact.,

Correl.)

Redes Neuronales

Arboles de Decisión

Kohonen

Regresion Lineal,

Regresión Logística

Kmeans

A priori

Analisis Multivariante

CN2

K-NN

RBF

Bayes Classifiers

1.3 Árboles de Decisión Los árboles de decisión son una de las técnicas

más populares y potentes en Aprendizaje Automático y Minería de Datos.

Clasificadores para clasificar instancias (datos) representadas como vectores de características (features).

Se basan en la idea de particionar recursivamente el conjunto de entrenamiento en conjuntos cada vez más pequeños hasta que el conjunto es puro.

Nodos Condiciones (atributo seleccionado).

Introducción 11

1.3 Árboles de Decisión Ventajas:

Buenos resultados en Accuracy.

Desventajas:

Tratamiento heterogeneo de un limitado número de tipos de datos (nominales y numericos).

ID3 , C4.5 o C5.0 [Quinlan], CART [Breiman].

Introducción 12

1.3 Árboles de Decisión

Introducción 13

1.4 PETs Variación de los árboles de decisión clásicos

donde la salida proporcionada es una probabilidad.

No modifican la manera de construir los árboles: usan criterios, particiones y métodos de poda diseñados para otras tareas o medidas.

Buenos resultados en términos del AUC (Area Under the Curve) y MSE (Mean Squared Error).

Aunque los PETs retornan probabilidades, no son probabilísticos en términos de cómo se usa el árbol para clasificar nuevas instancias.

Introducción 14

1.5 DBDT “Distance-Based Decision Trees”

Uso de distancias y funciones de similitud para diseñar árboles de decisión más flexibles.

Permite tratar cualquier tipo de datos en el que se puedan definir distancias.

Devuelve un árbol de prototipos de clase (nodos en el árbol).

Un ejemplo caerá en un nodo dado dependiendo de su proximidad al prototipo de clase.

Introducción 15

1.5 DBDT

Introducción

dnum(x,y) diferencia absoluta dnom(x,y) función identidad

16

1.6 Motivación

Presentación de un nuevo método de inducción de árboles de decisión, los Newton Trees.

Trabajan con cualquier tipo de datos.

Manejan de forma uniforme las distintas características.

Probabilísticos en su uso haciendo que cada instancia recorra todo el árbol y no sólo una rama.

Introducción 17

Newton Trees

2.1 Newton Trees

2.2 Particiones Gravitacionales

2.3 Generación del Árbol

2.4 Cálculo Estocástico de la Probabilidad

2.5 Comprensibilidad

2

18

Newton Trees Particiones

Gravitacionales Árboles de Estimación Estocástica de

Probabilidades.

Construcción, uso y representación del árbol basados en el principio de atracción. Las probabilidades se derivan también a partir de dicho principio.

Árbol de prototipos.

Representación gráfica del árbol sencilla de interpretar.

Los árboles son univariantes, pero sus particiones no son necesariamente paralelas a los ejes.

2.1 Newton Trees

Newton Trees 19


Gravitacionales Particiones nodo/cluster por clase.

Cada nodo/cluster es caracterizado por un prototipo (medioide).

A partir de los medioides calculados, los datos se distribuyen de acuerdo a la siguiente función de atracción:

2.2 Particiones Gravitacionales

Newton Trees 20


Gravitacionales 1. Para cada atributo Xr y cada clase i, se

calcula un prototipo πr, i.

2. Seleccionar el atributo que maximice algún criterio de partición (Gain Ratio).

3. Se asocia cada instancia de entrenamiento a su prototipo más próximo.

4. Si la partición es impura ir a 1, si no Fin.

2.3 Generación del árbol

Newton Trees 21


Gravitacionales 1. Computar, desde la raíz a las hojas, la

probabilidad de caer en cada nodo.

2. Calcular el vector de probabilidad en cada hoja.

2.4 Cálculo estocástico de la probabilidad

Newton Trees 22


Gravitacionales 3. Propagar hacia arriba este vector para

obtener en la raíz el vector total de

probabilidad p(root,e)

2.4 Cálculo estocástico de la probabilidad

Newton Trees 23

Instancia a clasificar:

(FEMALE,NO)

Newton Trees

2.4 11

0+

2

1𝑝 =

11

0 → 𝑝 = 1

11

0+

2

1𝑝 =

2

1 → 𝑝 = 0

24

Valores Faltantes

3.1 Valores Faltantes

3.2 Valores Faltantes en C4.5

3.3 Valores Faltantes en Newton Trees

3.4 Ejemplo

3

25

¿Qué pasa cuando parte de los datos están incompletos, como ocurre generalmente con cualquier conjunto de datos de la vida real?

Descartar una proporción importante de los datos por incompletos y declarar algunos casos como inclasificables.

Adaptar los algoritmos para poder trabajar con atributos con valores faltantes.

Valores Faltantes

3.1 Valores Faltantes

26

Quinlan mostró que la combinación de todos los posibles resultados con un valor faltante en el ejemplo de test en la fase de clasificación proporciona una mejor precisión general que otros enfoques.

Para clasificar un ejemplo e, éste se propaga por todas las ramas para calcular su probabilidad de forma proporcional al número de instancias de entrenamiento (con valores conocidos para el atributo de partición).

El algoritmo C4.5 adopta esta aproximación.

Valores Faltantes

3.2 Valores Faltantes en C4.5

27

Aproximación en Newton Trees: para atributos con valores faltantes se asume que la distancia a cualquier prototipo es igual, tal que:

Se ignoran los valores faltantes en la fase de aprendizaje .

Se establece constante (igual a 1) el valor de la distancia a cualquier prototipo.

Valores Faltantes

3.3 Valores Faltantes en Newton Trees

28

Instancia de Test:

(FEMALE,?)

Valores Faltantes

3.4 Ejemplo

29

Experimentación

4.1 Configuración

4.2 Resultados

4

30

Newton Trees vs J48 (sin poda y con suavizado de Laplace en las hojas) implementado en WEKA.

Gain Ratio.

30 Datasets extraídos del repositorio UCI.

20 repeticiones x 5 folds Cross Validation.

Métricas de evaluación: Accuracy, AUC y MSE.

Tests estadisticos (Wilcoxon signed-ranks)

4.1 Configuración

Experimentación 31

Tabla 1. Comparativa Global

(30 Datasets)

Newton Trees Unpruned

Laplace J48

Acc. AUC MSE Acc. AUC MSE

Media 82,091 0,866 0,100 80,728 0,842 0,110

Media (Binarios)

83,650 0,867 0,115 81,339 0,831 0,133

Media (> 2 Clases)

80,308 0,866 0,084 80,031 0,854 0,083

Nominales 90,159 0,931 0,069 87,310 0,894 0,080

Numéricos 79,703 0,860 0,118 79,422 0,848 0,127

Mixtos 77,205 0,810 0,109 75,888 0,781 0,118

4.2 Resultados

32

Tabla 2. Comparativa Valores Faltantes

(7 Datasets)

Newton Trees Unpruned Laplace

J48

Acc. AUC MSE Acc. AUC MSE

Media 83,934 0,874 0,095 83,641 0,860 0,100

Media (Binarios)

84,531 0,853 0,111 83,454 0,838 0,119

Media (Clases >2)

82,440 0,926 0,056 84,108 0,914 0,053

4.2 Resultados

33

Conclusiones y Trabajo Futuro

5.1 Conclusiones

5.2 Trabajo futuro

5.3 Artículos

Relacionados

5

34

Novedoso método de aprendizaje de árboles de estimación estocástica de probabilidad, los Newton Trees.

El uso de medioides permite el tratamiento homogéneo de cualquier tipo de datos.

Representación grafica inteligible.

Adaptación para el tratamiento de valores faltantes.

Conclusiones

5.1 Conclusiones

35

Los resultados obtenidos en las distintas pruebas llevadas a cabo cumplen nuestras expectativas en cuanto a homogeneidad (en el tratamiento de los tipos de datos), transparencia (tratamiento de los datos inteligible), eficiencia (con un coste bajo) y eficacia (con resultados significativamente mejores a que los obtenidos con el j48).

Conclusiones

5.1 Conclusiones

36

AUC como criterio de partición.

Extensión de los Newton Trees a otros métodos de aprendizaje como la regresión o el clustering.

Tratamiento de datos estructurados (cadenas, listas,…).

Clasificación de instancias multi-etiqueta.

Conclusiones

5.2 Trabajo Futuro

37

5.3 Artículos Relacionados

F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Newton trees , 23rd Australasian Joint Conference on Artificial Intelligence, AI 2010,(LNCS), Adelaide, Australia.

F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Tratamiento de Valores Faltantes en Newton trees , V Simposio de Teoría y Aplicaciones en Minería de Datos, TAMIDA 2010, Valencia, España.

F. Martinez-Plumed, V. Estruch, C. Ferri, J. Hernandez-Orallo, and M. J. Ramrez-Quintana. Newton trees . Extended Technical Report, DSIC UPV 2010, http://www.dsic.upv.es/~flip/NewtonTR.pdf

Introducción 39

http://www.dsic.upv.es/~flip/NewtonTR.pdf

http://www.dsic.upv.es/~flip/NewtonTR.pdf

¡Gracias!

40

Árboles de Estimación Estocástica de Probabilidades...

Documents

Transcript of Árboles de Estimación Estocástica de Probabilidades...