Decision Trees Exercise

Centro de Investigacion y Estudios Avanzados del

IPN

Minerıa de datos

Proyecto Arboles de decision

Heriberto Cruz Hernandez

26 de abril de 2011

Resumen

En este documento se da una breve introduccion a la minerıa de datos ylos arboles de decision, se detalla la manera de trabajar con esta tecnica enel software RapidMiner y se muestran los experimentos realizados para laobtencion de un clasificador para el conjunto de datos “zoo” tomado del

repositorio UCI [11].

Indice general

1. Introduccion a la Minerıa de Datos 61.1. El proceso de extraccion del conocimiento . . . . . . . . . . . 61.2. Tecnicas de Minerıa de Datos . . . . . . . . . . . . . . . . . . 81.3. Herramientas de software para Minerıa de Datos . . . . . . . 9

2. Arboles de Decision 102.0.1. Algoritmo ID3 . . . . . . . . . . . . . . . . . . . . . . 112.0.2. Algoritmo C4.5 . . . . . . . . . . . . . . . . . . . . . . 12

2.1. Conceptos Generales . . . . . . . . . . . . . . . . . . . . . . . 122.1.1. GINI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.2. Ganancia de Informacion . . . . . . . . . . . . . . . . 122.1.3. Radio de Ganancia . . . . . . . . . . . . . . . . . . . . 13

3. Experimentos 143.1. Seleccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.1. Recopilar e integrar las fuentes de datos existentes . . 143.1.2. Identificar y seleccionar las variables relevantes en los

datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.1.3. Aplicar tecnicas de muestreo adecuadas . . . . . . . . 15

3.2. Exploracion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3. Limpieza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3.1. Tratamiento de la informacion faltante o valores per-didos(missing values) . . . . . . . . . . . . . . . . . . . 24

3.3.2. Deteccion y tratamiento de valores atıpicos (outliers) . 243.4. Arboles de decision . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4.1. Tamano del conjunto de datos . . . . . . . . . . . . . 263.4.2. Criterio de seleccion de atributos(radio de ganancia,

ganancia de informacion, ındice GINI) . . . . . . . . 283.4.3. Mınimo tamano para split y

mınimo tamano para hojas . . . . . . . . . . . . . . . 293.4.4. Ganancia mınima . . . . . . . . . . . . . . . . . . . . . 303.4.5. Poda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.6. Evaluacion e interpretacion de resultados . . . . . . . 31

1

3.4.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . 32

Bibliografıa 38

A. Arboles de decision en RapidMiner 39A.1. Cargar conjunto de datos . . . . . . . . . . . . . . . . . . . . 39A.2. Visualizacion de datos . . . . . . . . . . . . . . . . . . . . . . 40

A.2.1. Scatter . . . . . . . . . . . . . . . . . . . . . . . . . . 40A.3. Estadisticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41A.4. Tratamiento de valores faltantes . . . . . . . . . . . . . . . . 41

2

Indice de figuras

1.1. Etapas del KDD Figura tomada del libro ”Minerıa de datos:tecnicas y herramientas”[1] . . . . . . . . . . . . . . . . . . . 7

3.1. Grafica de histograma generada en RapidMiner para el con-junto de datos “zoo”. . . . . . . . . . . . . . . . . . . . . . . . 16

3.2. Grafica de distribucion generada en RapidMiner para el con-junto de datos “zoo” (animales que son acuaticos y ponenhuevos). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3. Histograma para las clases de animales que tienen pelo gen-erada en RapidMiner para el conjunto de datos “zoo”. . . . . 18

3.4. Histograma para las clases de animales que son acuaticos gen-erada en RapidMiner para el conjunto de datos “zoo”. . . . . 19

3.5. Grafica scatter para clases y atributo “eggs” generada enRapidMiner para el conjunto de datos “zoo”. . . . . . . . . . 20

3.6. Grafica scatter para clases y atributo “airborne” (volador)generada en RapidMiner para el conjunto de datos “zoo”. . . 21

3.7. Grafica scatter para clases y atributo “toothed” (dentado)generada en RapidMiner para el conjunto de datos “zoo”. . . 22

3.8. Tabla de estadısticas generada en RapidMiner para el con-junto de datos “zoo”. . . . . . . . . . . . . . . . . . . . . . . . 23

3.9. Tabla de resultados para experimentos realizados con difer-entes metricas generada en RapidMiner para el conjunto dedatos “zoo” Distancia=0.9, Proporcion=0.9. . . . . . . . . . . 25

3.10. Tabla de resultados para experimentos realizados con difer-entes metricas generada en RapidMiner para el conjunto dedatos “zoo” Distancia=0.5, Proporcion=0.5. . . . . . . . . . . 25

3.11. Tabla con los parametros para la construccion del arbol y suvalor inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.12. Tabla de resultados del algoritmo C4.5 variando el parametro“Tamano del conjunto de entrenamiento” para el conjunto dedatos “zoo” . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.13. Arbol generada en RapidMiner para el conjunto de datos“zoo” con tamano de conjunto de entrenamiento del 40,50,60,70,80,90y 99 %. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3

3.14. Tabla de resultados del algoritmo C4.5 variando el parametro“Criterio de seleccion de atributos” para el conjunto de datos“zoo” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.15. Arbol generada en RapidMiner para el conjunto de datos“zoo” con el criterio de seleccion de atributos (radio de ganan-cia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.16. Arbol generada en RapidMiner para el conjunto de datos“zoo” con el criterio de seleccion de atributos (ganancia deinformacion). . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.17. Arbol generada en RapidMiner para el conjunto de datos“zoo” con el criterio de seleccion de atributos (ındice GINI). . 30

3.18. Tabla de resultados del algoritmo C4.5 variando el parametro“Criterio de seleccion de atributos” para el conjunto de datos“zoo” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.19. Arbol generada en RapidMiner para el conjunto de datos“zoo” con mınimo tamano para split de 2 y mınimo tamanopara hoja de 1. . . . . . . . . . . . . . . . . . . . . . . . . . . 31





3.24. Arbol generada en RapidMiner para el conjunto de datos“zoo” con mınimo tamano para split de 24 y mınimo tamanopara hoja de 12. . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.25. Tabla de resultados del algoritmo C4.5 variando el parametro“Ganancia ,mınima” para el conjunto de datos “zoo” . . . . . 35

3.26. Arbol generada en RapidMiner para el conjunto de datos“zoo” con ganancia mınima de 0.05-0.35. . . . . . . . . . . . . 35

3.27. Arbol generada en RapidMiner para el conjunto de datos“zoo” con ganancia mınima de 0.4. . . . . . . . . . . . . . . . 36

3.28. Arbol generada en RapidMiner para el conjunto de datos“zoo” con ganancia mınima de 0.5-1. . . . . . . . . . . . . . . 36

3.29. Arbol generada en RapidMiner para el conjunto de datos“zoo” sin podar. . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.30. Tabla con los parametros del arbol final. . . . . . . . . . . . . 373.31. Matriz de confusion para el arbol final. . . . . . . . . . . . . . 37

4

A.1. Importar un conjunto de datos. . . . . . . . . . . . . . . . . . 39A.2. Arrastre del conjunto de datos al proceso principal. . . . . . . 40A.3. Vista Metadata. . . . . . . . . . . . . . . . . . . . . . . . . . 40A.4. Vista Data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41A.5. Vista Plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41A.6. Grafica de scatter. . . . . . . . . . . . . . . . . . . . . . . . . 42A.7. Grafica de scatter. . . . . . . . . . . . . . . . . . . . . . . . . 42

5

Capıtulo 1

Introduccion a la Minerıa deDatos

La Minerıa de Datos puede verse como la extraccion de datos ocultos ono triviales a partir de un conjunto de datos generalmente de gran tamanopor ejemplo una base de datos. Hoy en dıa la minerıa de datos es utilizadaen varios en diferentes campos de la ciencia. Cabe destacar las aplicacionesfinancieras y en banca, en analisis de mercados y comercio, en seguros ysalud privada, en educacion, en procesos industriales, en medicina, en bi-ologıa y bioingenierıa, en telecomunicaciones y en muchas otras areas. Loesencial para empezar a trabajar en minerıa de datos, sea cual sea el campoen que se aplique, es la comprension de los propios conceptos, tarea que noexige ni mucho menos el dominio de aparato cientıfico que conlleva la ma-teria. Posteriormente, cuando ya sea necesaria la operatoria avanzada, losprogramas de ordenador permiten obtener los resultados sin necesidad dedescifrar el desarrollo matematico de los algoritmos que estan debajo de losprocedimientos. [1]

1.1. El proceso de extraccion del conocimiento

La existencia de voluminosas bases de datos conteniendo grandes canti-dades de datos, que exceden en mucho las capacidades humanas de reducciony analisis a fin de obtener informacion util, actualmente son una realidaden muchas organizaciones. Debido a esto, frecuentemente, las decisiones im-portantes se toman en base a la intuicion y experiencia de la persona quientoma la decision mas que considerando la rica informacion almacenada.[2]Esta situacion se intenta solucionar a traves del proceso de KDD1 (ver Fig1.1).

1KDD o Knowledge Discovery por sus siglas en ingles es el termino utilizado parareferirse a la extraccion de conocimiento

6

Figura 1.1: Etapas del KDD Figura tomada del libro ”Minerıa de datos:tecnicas y herramientas”[1]

El KDD comienza con la recopilacion e integracion de la informacion apartir de unos datos iniciales de que se dispone (fase de seleccion de datos).Las primeras fases del KDD determinan que las fases sucesivas sean capacesde extraer conocimiento valido y util a partir de la informacion original.[1]

La fase siguiente del KDD integra la exploracion, la limpieza o cribade datos (Data Cleanning) y la transformacion de datos. Se deben elimi-nar el mayor numero posible de datos erroneos , inconsistentes(limpieza) eirrelevantes(criba).

La fase siguiente en el KDD es la propia minerıa de datos que se ll-evara a cabo a partir del desarrollo de modelos predictivos y descriptivos(Model Development) y mediante el analisis de dalos Data Analysis). Unavez recogidos los datos de interes, un explorador puede decidir que tipo depatron quiere descubrir. El tipo de conocimiento que se desea extraer va amarcar claramente la tecnica de minerıa de datos a utilizar.

Para seleccionar y validar los modelos anteriores es necesaria una nuevafase consistente en el uso de criterios de evaluacion de hipotesis. El de-spliegue del modelo a veces es trivial pero otras veces requiere un proceso

7

de implementacion o interpretacion. En esta fase se utilizan adicionalmenteherramientas estadısticas y de visualizacion (Visualization tools).

Una fase posterior del KDD es la relativa a la difusion y uso del conocimien-to derivado de las tecnicas de minerıa de datos a traves del los modelos cor-respondientes que habitualmente desembocan en la generacion de resultados(Output Generation). El modelo puede tener muchos usuarios y necesitar di-fusion, con lo que puede requerir ser expresado de una manera comprensiblepara ser distribuido en la organizacion. En esta fase se utilizan herramientasde visualizacion (Visualization tools). presentacion (Presentation tools) ytransformacion de datos (Data transformation tools).

1.2. Tecnicas de Minerıa de Datos

Las tecnicas de Minerıa de Datos se pueden clasificar en dos grandescategorıas: algoritmos supervisados o predictivos y algoritmos no supervisa-dos o de descubrimiento del conocimiento (Weiss e Indurkhya. 1998). Losalgoritmos de aprendizaje automatico pertenecen a la primera categorıa.

Los algoritmos supervisados o preaictivos predicen el valor de un atributo(etiqueta) de un conjunto de datos, conocidos otros atributos (atributosdescriptivos). A partir de datos cuya etiqueta se conoce se induce un modeloque relaciona dicha etiqueta y los atributos descriptivos. Y esas relacionessirven para realizar la prediccion en datos cuya etiqueta es desconocida.Esta forma de trabajar se conoce como aprendizaje supervisado. En estegrupo se encuentran, por una parte, algoritmos que resuelven problemasde clasificacion debido a que trabajan con etiquetas discretas (arboles dedecision,tablas de decision, induccion neuronal. etc.) y por otra, algoritmosque se utilizan en la prediccion de valores continuos como son la regresion olas series temporales.

Los algoritmos no supervisados o de descubrimiento del conocimientorealizan tareas descriptivas como el descubrimiento de patrones y tendenciasen los datos actuales (no utilizan datos historicos). El descubrimiento de esainformacion sirve para llevar a cabo acciones y obtener un beneficio cientıficoo de negocio de ellas.

Otra clasificacion que puede establecerse para los algoritmos de minerıaes la de metodos de caja negra (redes neuronales y estadıstica) y metodosorientados al conocimiento (arboles de decision, reglas de asociacion, reglasde decision). Las tecnicas de Minerıa de Datos abarcan ambos enfoques,aunque estan mas centradas en la segunda categorıa. Por otra parte, en losultimos anos se estan desarrollando un conjunto de tecnicas que se agrupanbajo el nombre de soft computing y que pueden aplicarse en el campo dela Minerıa de Datos. Su principal caracterıstica es la tolerancia a la impre-cision e incertidumbre, lo que les permite resolver problemas en entornoscambiantes, de forma robusta y a bajo coste. Entre las mas representativas

8

se encuentran la logica difusa (fuzzy), los algoritmos evolutivos, algoritmosgeneticos y redes neuronales.[3]

1.3. Herramientas de software para Minerıa de Datos

Existen muchas herramientas de software para el desarrollo de modelosde minerıa de datos tanto libres como comerciales algunos de ellos son:

KNIME (Konstanz Information Miner) es un sistema de codigo abiertopara la integracıon, procesamiento , analisis y exploracion de datos.[4]

RapidMiner Aplicacion independiente para el analisis de datos con mo-tor de minerıa de datos para la integracion en productos propios congeneracion de informes ası como repositorios.[5]

SAS Enterprise Miner Software comercial de minerıa de datos para crearmodelos predictivos y descriptivos de gran precision basado en el anali-sis de grandes cantidades de datos orientado a empresas. Proporcionavarias herramientas para preparacion de datos, resumen y exploracion,Modelos Avanzados descriptivos y predictivos.[6]

Weka Es una coleccion de algoritmos de aprendizaje automatico para lastareas de minerıa de datos de codigo abierto. Los algoritmos puedenser aplicados directamente a un conjunto de datos o llamar desde supropio codigo Java. WEKA contiene herramientas para los datos depre-procesamiento, clasificacion, regresion, clustering, reglas de aso-ciacion, y la visualizacion.[7]

9

Capıtulo 2

Arboles de Decision

El uso de arboles de decision tuvo su origen en las ciencias sociales conlos trabajos de Sonquist y Morgan (1964) y Morgan y Messenger (1979)realizado en el Survey Research Center del Institute for Social Researchde la Universidad de Michigan. El programa AID (Automatic InteractionDetection), de Sonquist, Baker y Morgan (1971), fue uno de los primerosmetodos de ajuste de los datos basados en arboles de clasificacion.

En estadıstica, Kass (1980) introdujo un algoritmo recursivo de clasifi-cacion no binario, llamado CHAID (Chi-square automatic interaction detec-tion). Mas tarde, Breiman, Friedman, Olshen y Stone (1984) introdujeron unnuevo algoritmo para la construccion de arboles y los aplicaron a problemasde regresion y clasificacion. El metodo es conocido como CART (Classifica-tion and regression trees) por sus siglas en ingles. Casi al mismo tiempo elproceso de inducion mediante arboles de decision comenzo a ser usado porla comunidad de “Machine Learning” (Michalski, (1973), Quinlan (1983)) yla comunidad de “Pattern Recognition” (Henrichon y Fu, 1969).

El termino arboles es por la grafica.La raız es el nodo superior, en cadanodo se hace una particion hasta llegar a un nodo terminal u hoja. Cada nodono-terminal contiene una pregunta en la cual se basa la division del nodo.Cada nodo terminal contiene el valor de la variable de respuesta (arbolespara regresion) o el nombre de la clase a la cual pertenece(arboles paraclasificacion).

Un arbol de decision particiona el espacio de variables de prediccion enun conjunto de hiper-rectangulos y en cada uno de ellos ajusta un modelosencillo, generalmente una constante. Es decir y = c, donde y es la variablede respuesta.

La construccion de un arbol de decision se basa pues en cuatro elementos:

1. Un conjunto de preguntas binarias Q de la forma {x ∈ A?} donde Aes un subconjunto del espacio muestral.

2. El metodo usado para particionar los nodos (Ganancia de Informa-cion,Radio de Ganancia,Gini).

10

3. La estrategia requerida para parar el crecimiento del arbol (Reduccionde Eror, Costo-Complejidad).

4. La asignacion de cada nodo terminal a un valor de la variable derespuesta (regresion) o a una clase (clasificacion).

Las diferencias principales entre los algoritmos para construir arboles sehallan en la estrategia para podar los arboles, la regla para particionar losnodos y el tratamiento de valores perdidos.[9]

Algunos de los algoritmos mas representativos de esta tecnica son:

CHAID Significa “Chi-square automatic interaction detection”, fue intro-ducido por Kass (1980) y es un derivado del THAID: “A sequentialsearch program for the analysis of nominal scale dependent variables”(Morgan and Messenger, 1973).

CART Introducido por Breiman et al. (1984), propiamente es un algoritmode arboles de decision binario. El citerio para particionar es la impurezadel nodo.

ID3 Introducido por Quinlan (1986) dentro de la comunidad de “MachineLearning”.

Arboles Bayesianos Esta basado en aplicacion de metodos Bayesianos aarboles de decision. Buntine (1992).

C4.5 Sucesor del algoritmo ID (1993)·

NewId Es muy similar a C4.5.

2.0.1. Algoritmo ID3

Uno de los algoritmos do induccion de arboles de clasificacion mas popu-lares es el denominado ID3 introducido por Ross Quinlan (1986). En el mis-mo el criterio escogido para seleccionar la variable mas informativa esta basa-do en el concepto de cantidad de informacion mutua entre dicha variable yla variable clase. La terminologıa usada en este contexto para denominar ala cantidad de informacion mutua es la de ganancia en informacion (infor-mation gain).

ID3 efectua una seleccion de variables previa -denominada preprunningque consistente en efectuar un test de independencia entre cada variable deprediccion de tal manera que para la induccion del arbol de clasificaciontan solo se van a considerar aquellas variables de prediccion para las que serechaza el test de hipotesis de independencia.[8]

11

2.0.2. Algoritmo C4.5

Quinlan (1993) propone una mejora del algoritmo ID3, al que denominaC4.5; Este se basa en la utilizacion del criterio radio de ganancia (gain ratio).De esta manera se consigue evitar que las variables con mayor numero deposibles valores salgan beneficiadas en la seleccion. Ademas el algoritmoC4.5 incorpora una poda del arbol de clasificacion una vez que este ha sidoinducido. La poda esta basada en la aplicacion de un test de hipotesis quetrata de responder a la pregunta de si merece la pena expandir o no unadeterminada rama.[8]

2.1. Conceptos Generales

2.1.1. GINI

El ındice GINI es una metrica de impureza para una bifurcacion.El ındice GINI se define como:

Gini(D) = 1−m∑i=1

p2i

Donde pi representa la probabilidad de que un objeto pertenezca a una clasei. Esta suma es calculada para m clases. El ındice GINI puede ser usadocon varias particiones es decir si una bifurcacion binaria en A particiona elconjunto D en D1 y D2 para lo cual el ındice GINI estara definido como:

GiniA(D) =D1

DGini(D1) +

D2

DGini(D2)

El ındice Gini se usa para encontrar el atributo que minimiza la impureza.[2]

2.1.2. Ganancia de Informacion

Esta metrica se basa en el trabajo del pionero en la teorıa de la in-formacion Claude Shannon refiriendose al contenido de informacion de losmensajes. Sea N un nodo que sujeta las tuplas de la particion D el atributoque tenga la ganancia de informacion mas alta sera elegido como atributode bifurcacion para el nodo N . Este atributo minimiza la informacion nece-saria para clasificar las tuplas en la particion resultante y refleja la menorimpureza en la particion. Dado que este enfoque minimiza los la altura enel arbol de decision, garantiza que sera mas simple el arbol resultante. Lainformacion necesaria para clasificar una tupla en D esta dada por:

Info(D) = −m∑i=1

pilog2(pi)

12

Donde pi es la probabilidad de que una tupla en D pertenezca a la clase Ci. SiD es particionado en v subconjuntos la cantidad de informacion estara dadapor:

InfoA(D) =v∑

j=1

|Dj ||D|× Info(Dj)

Entonces en la eleccion del mejor atributo para una bifurcacion se uti-lizara la ganancia de informacion definida como:

Gain(A) = Info(D)− InfoA(D)

En otras palabras la Gain(A) nos dice cuanto ganamos al tomar la bifur-cacion en el atributo A.[2]

2.1.3. Radio de Ganancia

Para poder hablar del radio de ganancia es necesario obtener la cantidadde informacion para una bifurcacion SplitA(D) el cual esta definido como:

SplitInfoA(D) = −v∑

j=1

|Dj |D× log2

(|Dj ||D|

)Este valor representa el potencial de informacion generado por una bifur-cacion en el conjunto de datos D en v particiones. Una vez que se conoceesto, podemos definir el radio de ganancia como:

GainRatio(A) =Gain(A)

SplitInfo(A)

EL atributo con el maximo radio de ganancia sera seleccionado como elatributo de bifurcacion, a medida que SplitInfo se acerque a 0 el radio deganancia se vuelve inestable.[2]

13

Capıtulo 3

Experimentos

Construiremos un arbol de decision para un conjunto de datos utilizandola herramienta RapidMiner (seccion 1.3) siguiendo los pasos para la extrac-cion de conocimiento KDD mostrada en la figura 1.1

3.1. Seleccion

3.1.1. Recopilar e integrar las fuentes de datos existentes

El conjunto de datos que se selecciono fue “zoo” (zoologico) y fue tomadodel repositorio de UCI para Machine Learning [11] intenta dar la informa-cion necesaria para determinar el tipo de animal de una instancia dada. Lainformacion relevante de este conjunto es mostrada a continuacion (veaseA.1):

Numero de muestras: 101

Numero de atributos: 18 (Nombre del Animal, 15 Atributos boleanos, 1numerico,1 nominal)

Informacion de los atributos: Nombre , tipo y descripcion.

1. Nombre del animal (animal name). Unico para cada instancia.

2. Pelo (hair) boleano (indica si el animal tiene pelo).

3. Plumas (feathers) boleano (indica si el animal tiene plumas).

4. Huevos (eggs) boleano (indica si el animal pone huevos).

5. Leche (milk) boleano (indica si el animal da leche).

6. Volador (airborne) boleano (indica si el animal es volador).

7. Acuatico (aquatic) boleano (indica si el animal es acuatico.

8. Depredador (predator) boleano (indica si el animal es un depredador).

9. Dientes (toothed) boleano (indica si animal tiene dientes).

14

10. Columna (backbone) boleano (indica si el animal tiene columnavertebral).

11. Respira (breathes) boleano (indica si el animal respira).

12. Venenoso (venomous) boleano (indica si el animal es venenoso).

13. Aletas (fins) boleano (indica si el animal tiene aletas).

14. Numero de Patas (legs) numerico (indica cuantas patas tiene elanimal 0,2,4,5,6,8);

15. Cola (tail) boleano (indica si el animal tiene cola).

16. Domestico (domestic) boleano (indica si el animal es domestico).

17. Tamano de un gato (catsize) boleano (indica si es aproximada-mente del tamano de un gato).

18. Clase (class) nominal (indica la clase de animal que es: mamıfero(mammal), ave (bird), reptil (reptile), pez (fish), anfibio (amphib-ian), insecto (insect), invertabrado (invertebrate) )

Atributos faltantes: Ninguno

3.1.2. Identificar y seleccionar las variables relevantes en losdatos

En el conjunto “zoo” el atributo que funciona como etiqueta para lasinstancias es la clase mientras que los demas seran utilizados como posiblesnodos del arbol.

3.1.3. Aplicar tecnicas de muestreo adecuadas

El conjunto de datos “zoo” ya es un conjunto representativo por lo queen esta etapa no es necesario realizar ninguna accion.

15

3.2. Exploracion

Esta etapa vamos a dar una vista general del conjunto de datos aplican-do algunas tecnicas de visualizacion. En la figura 3.1 podemos apreciar elhistograma para le conjunto de datos “zoo” este nos muestra que existenmas registros con la etiqueta mamıfero aproximadamente 41, en segundolugar estan las aves con mas o menos 20 registros mientras que las demasclases estan entre 12 y 3 registros.

Figura 3.1: Grafica de histograma generada en RapidMiner para el conjuntode datos “zoo”.

16

En la figura 3.2 podemos apreciar una grafica de distribucion para losatributos aquatic y eggs en donde podemos ver que la mayorıa de los ani-males no son acuaticos sin embargo de aquellos animales no acuaticos pocomas de la mitad sı ponen huevos estos datos se pueden comparar con lasestadısticas del con junto en la figura 3.8.

Figura 3.2: Grafica de distribucion generada en RapidMiner para el conjuntode datos “zoo” (animales que son acuaticos y ponen huevos).

17

En la figura 3.3 podemos apreciar el histograma de las clases de animalesy la frecuencia de tener pelo, se puede observar que la gran mayorıa de losanimales que tienen pelo son mamıferos, esta es la clase con mayor numerode muestras en nuestro conjunto de datos.

Figura 3.3: Histograma para las clases de animales que tienen pelo generadaen RapidMiner para el conjunto de datos “zoo”.

18

En la figura 3.4 podemos apreciar el histograma de las clases de ani-males y la frecuencia de ser acuaticos. La tendencia esta sobre los pecescomo acuaticos mientras que la clase mayoritaria (mamıferos) no suele seracuatica, la clase insecto no cuenta con ninguna instancia que presente estacaracterıstica.

Figura 3.4: Histograma para las clases de animales que son acuaticos gener-ada en RapidMiner para el conjunto de datos “zoo”.

19

En la figura 3.5 tenemos la grafica scatter (vease A.2.1) para las difer-entes clases de animales y su valor para el atributo “eggs” se puede notarque algunas muestras son anormales o atıpicas para las clases mamıferos,invertabrados y reptiles que se trataran en la etapa de deteccion de outliers(vease 3.3.2).

Figura 3.5: Grafica scatter para clases y atributo “eggs” generada en Rapid-Miner para el conjunto de datos “zoo”.

20

En la figura 3.6 tenemos la grafica scatter (vease A.2.1) para las difer-entes clases de animales y su valor para el atributo “airborne” se puedennotar que algunas muestras son anormales o atıpicas para mamıferos que setrataran en la etapa de deteccion de outliers (vease 3.3.2).

Figura 3.6: Grafica scatter para clases y atributo “airborne” (volador) gen-erada en RapidMiner para el conjunto de datos “zoo”.

21

En la figura 3.7 tenemos la grafica scatter (vease A.2.1) para las difer-entes clases de animales y su valor para el atributo “toothed” se puedennotar que algunas muestras son anormales o atıpicas para mamıferos que setrataran en la etapa de deteccion de outliers (vease 3.3.2).

Figura 3.7: Grafica scatter para clases y atributo “toothed” (dentado) gen-erada en RapidMiner para el conjunto de datos “zoo”.

22

En la figura 3.8 tenemos una tabla que muestra estadısticas como la moday la frecuencia mınima para los atributos boleanos ası como el promediopara los atributos numericos (columna Statistics), ademas de los tipos deatributos (columna Type),rangos para cada atributo (columna Range) yvalores faltantes (columna Missing). De esta tabla podemos obtener muchainformacion que se comprueba con las graficas. Por ejemplo si miramos elatributo class y la columna estatistics, podemos apreciar que la moda es laclase mamıfero con 41 registros mientras que los menos son los anfibios con4 (vease A.2).

Figura 3.8: Tabla de estadısticas generada en RapidMiner para el conjuntode datos “zoo”.

23

3.3. Limpieza

Para que el algoritmo C4.5 pueda funcionar correctamente, es necesarioaplicar una etapa de limpieza esta consiste de las siguientes fases:

Tratamiento de la informacion faltante o valores perdidos(missing val-ues).

Deteccion y tratamiento de valores atıpicos (outliers).

Eliminacion de datos erroneos e irrelevantes.

Aplicar estas fases permite al algoritmo trabajar con datos mas certeros yentregara como resultado arboles de decision mas robustos y apegados a larealidad.

3.3.1. Tratamiento de la informacion faltante o valores per-didos(missing values)

En esta etapa se intenta completar de ser necesario y posible, los valoresfaltantes existen varias formas de hacer esto (vease A.4):

Promedio se completa el valor del atributo faltante con el promedio detodo el conjunto o de algun subconjunto.

Mınimo se completa el valor del atributo faltante con el mınimo de todoel conjunto o de algun subconjunto.

Maximo se completa el valor del atributo faltante con el promedio de todoel conjunto o de algun subconjunto.

Cero se completa el valor del atributo faltante con cero.

Valor especıfico se completa el valor del atributo faltante con un valorespecificado.

El conjunto de datos “zoo” no tiene valores faltantes por lo que estaetapa no tendra ninguna de las estrategias mencionadas.

3.3.2. Deteccion y tratamiento de valores atıpicos (outliers)

En la etapa de exploracion hemos notado que existen algunas muestrasque se comportan de manera anormal y que pueden afectar el rendimientodel arbol final, es por eso que intentaremos eliminar aquellos registros quelogramos ver en la exploracion ası como aquellos que no fueron percibidos.

Para poder detectar outliers en nuestro conjunto de datos debemos tomaren cuenta el tipo de datos que tenemos los tipos de datos son en su mayorıa

24

del tipo binomial1 una deteccion de outliers basada en la distancia Euclideano dara buenos resultados por lo que se intentara la deteccion por medio dela densidad utilizando diferentes metricas de distancia (vease tabla 3.9).

Metrica Outliers detectadosDistancia Euclidea 0Distancia Coseno 92

Angulo 2

Figura 3.9: Tabla de resultados para experimentos realizados con diferentesmetricas generada en RapidMiner para el conjunto de datos “zoo” Distan-cia=0.9, Proporcion=0.9.

Metrica Outliers detectadosDistancia Euclidea 101Distancia Coseno 2

Angulo 7

Figura 3.10: Tabla de resultados para experimentos realizados con diferentesmetricas generada en RapidMiner para el conjunto de datos “zoo” Distan-cia=0.5, Proporcion=0.5.

En la tabla 3.9 se puede apreciar que la unica metrica que da buenosresultados para el conjunto “zoo” es el angulo ya que la distancia Euclideay el Coseno arrojan valores no logicos. Al ir a verificar los outliers que in-dica el angulo, notamos que son el “ternero” y el “antılope” sin embargoal ir a verificar si en verdad son outliers nos damos cuenta que no tienencaracterısticas tan extranas pero si se detecto un error, el ternero tenıa enel atributo cola un valor de falso, cosa que no es verdad y se corrigio perono se consideraron como outliers. Dados los resultados de la etapa de ex-ploracion para el ornitorrinco , el escorpion y la serpiente de mar y al nopoder detectarlos por ninguna metrica como outliers decidı eliminar al orn-itorrinco solamente, puesto que tenemos muchos registros de mamıferos y elornitorrinco es el unico mamıfero en el mundo que no pone huevos ni tienedientes. Mientras que en el caso del escorpion decidı dejarlo ya que no esel unico insecto en el mundo que es vivıparo2 al igual que la serpiente demar que no es el unico reptil vivıparo en el mundo. En el caso de la tortugaque es un reptil sin dientes (vease Figura 3.7), decidı dejarlo puesto quese tienen pocas muestras para la clase reptil. En otro experimentos (veaseFigura 3.10) se detectaron 7 outliers, 6 de ellos mamıferos pero uno de ellos

1Binomial: Tipo de dato que puede tomar valores en este caso: verdadero o falso2Viviparo: Que sus crıas nacen vivas.

25

presento caracterısticas diferentes que fue el Delfın un mamıfero con ale-tas pero no el unico ya que las ballenas tambien presentan caracterısticassimilares por lo que se decidio no eliminarlo del conjunto de datos.

3.4. Arboles de decision

Se hicieron varias pruebas con el algoritmo C4.5 con diferentes paramet-ros para los siguientes atributos:

1. Tamano de conjunto de entrenamiento.

2. Criterio de seleccion de atributos (radio de ganancia, ganancia de in-formacion, ındice GINI)

3. Mınimo tamano para split (minimal size for split)

4. Mınimo tamano para hojas (minimal leaf size)

5. Ganancia mınima (minimal gain)

6. Poda

Debido a que existe una gran cantidad de configuraciones, Se fue variandocada parametro intentando obtener uno con buen desempeno y al obtenerel mejor arbol para ese parametro, se intento mejorar variando el siguienteparametro en la lista con la configuracion inicial mostrada en la figura 3.11.

Parametro Valor inicial

Tamano conjunto de entrenamiento 0.7Criterio de seleccion de atributos Radio de gananciaMınimo tamano para split (minimal size for split) 4Mınimo tamano para hojas (minimal leaf size) 2Ganancia mınima (minimal gain) 0.05Poda Activada

Figura 3.11: Tabla con los parametros para la construccion del arbol y suvalor inicial.

3.4.1. Tamano del conjunto de datos

En la figura 3.12 se muestran el performace al variar el tamano del con-junto de entrenamiento desde 40 % hasta 99 % se puede notar que mientrasse toma un porcentaje mayor como conjunto de entrenamiento el error seva acercando a 0 lo cual parecerıa ideal sin embargo el hecho de usar lamayorıa de nuestros registros para la fase de entrenamiento no permite unmedicion del performace correcta. Mientras que el escoger un conjunto de

26

entrenamiento pequeno puede resultar en una pobre capacidad de gener-alizacion. En este ejemplo el arbol resultante para los diferentes tamanosprobados es el mismo sin embargo el performace cambia por que el conjuntode prueba con el que cada arbol es validado es diferente es por eso que setomo el valor recomendado 70 % para el conjunto de entrenamiento en lafigura 3.13 se puede ver el arbol resultante.

Tamano conjunto entrenamiento ( %) Error de clasificacion para el conjunto prueba( %)

40 13.1350 1660 2070 2380 2090 1099 0

Figura 3.12: Tabla de resultados del algoritmo C4.5 variando el parametro“Tamano del conjunto de entrenamiento” para el conjunto de datos “zoo”

Figura 3.13: Arbol generada en RapidMiner para el conjunto de datos “zoo”con tamano de conjunto de entrenamiento del 40,50,60,70,80,90 y 99 %.

27

3.4.2. Criterio de seleccion de atributos(radio de ganancia,ganancia de informacion, ındice GINI)

Basandonos en el arbol de la figura 3.13 se probo variando el criteriode seleccion de atributos (vease figura 3.14), los arboles resultantes puedenapreciarse en las figuras 3.15, 3.16 y 3.17. Se puede observar que los arbolesmantienen el mismo performace, aun cuando sus caminos son diferentes,esto se debe a que un atributo que con alguna metrica (radio de ganancia,ganancia de informacion o ındice GINI) es clasificado como el mejor parahacer una bifurcacion puede no serlo para otro.

Criterio de seleccion de atributos Error de clasificacion para el conjunto prueba( %)

Radio de ganancia 23.33Ganancia de Informacion 23.33

Indice GINI 23.33

Figura 3.14: Tabla de resultados del algoritmo C4.5 variando el parametro“Criterio de seleccion de atributos” para el conjunto de datos “zoo”

Figura 3.15: Arbol generada en RapidMiner para el conjunto de datos “zoo”con el criterio de seleccion de atributos (radio de ganancia).

28

Figura 3.16: Arbol generada en RapidMiner para el conjunto de datos “zoo”con el criterio de seleccion de atributos (ganancia de informacion).

3.4.3. Mınimo tamano para split ymınimo tamano para hojas

Basandonos en el arbol de la figura 3.15 se probo variando el mınimotamano para una split y una hoja (vease figura 3.18), los arboles resultantespueden apreciarse en las figuras 3.19, 3.20, 3.21, 3.22, 3.23 y 3.24. Se puedeobservar que mientras se aumentan estos parametros los arboles se vuel-ven mas simples pero su performace empeora esto se debe a que se vandescartando propiedades que no son presentadas por un grupo grande demuestras lo que lleva a que los grupos mas pequenos sean mal clasificados.Para pasar a la siguiente etapa de experimentos se podrıa pensar en elegirla configuracion mınimo tamano para split de 2 y mınimo tamano para hojade 1 de la figura 3.19 que da el menor error de clasificacion. Sin embargosi miramos detenidamente este arbol podremos notar que algunos registrosson clasificados segun el nombre del animal lo que nos da como resultadoun arbol casado con el conjunto para el que fue entrenado que sera incapazde generalizar nuevos registros, por lo que elegimos la configuracion mıni-mo tamano para split de 6 y mınimo tamano para hoja de 3 que aunquetienen un performace similar al de la etapa pasada, es mas simple lo quetrae multiples ventajas entre ellas mayor velocidad al momento de clasificar.

29

Figura 3.17: Arbol generada en RapidMiner para el conjunto de datos “zoo”con el criterio de seleccion de atributos (ındice GINI).

Mınimo tamano para split mınimo tamano para hojas Error de clasificacion para el conjunto prueba( %)

2 1 13.333 2 23.334 2 23.336 3 23.3312 6 3024 12 40

Figura 3.18: Tabla de resultados del algoritmo C4.5 variando el parametro“Criterio de seleccion de atributos” para el conjunto de datos “zoo”

3.4.4. Ganancia mınima

Basandonos en el arbol de la figura 3.22 se probo variando la ganan-cia mınima (vease figura 3.25), los arboles resultantes pueden apreciarse enlas figuras 3.26, 3.27 y 3.28. Se puede observar que mientras la gananciamınima de informacion es aumentada los arboles se vuelven mas simplespero su performace empeora.Para la siguiente etapa se eligio el arbol con laconfiguracion de ganancia mınima = 0.35 de la figura 3.26.

3.4.5. Poda

Basandonos en el arbol de la figura 3.29 el ultimo experimento con-sistio en desactivar la poda del arbol (vease la figura 3.29) aunque estearbol es mas extenso podemos ver que la ultima condicion no tiene sentido.

30

Figura 3.19: Arbol generada en RapidMiner para el conjunto de datos “zoo”con mınimo tamano para split de 2 y mınimo tamano para hoja de 1.

3.4.6. Evaluacion e interpretacion de resultados

El arbol elegido como nuestro modelo de clasificacion despues de losexperimentos anteriores es el de la figura 3.26 que tiene la configuracionmostrada en la tabla 3.30, la matriz de confusion que mide el performacepara este arbol puede verse en la figura 3.31 en donde puede observarse queel arbol tiene un muy buen desempeno para las clases con mayor numerode ejemplos (mamıferos, peces), un desempeno aceptable para las clases conun numero suficiente de ejemplos (invertebrados e insectos) y un desempenopobre para las clases con pocas muestras (anfibios y reptiles), lo que nos daun desempeno final aceptable.

31


3.4.7. Conclusiones

Antes de la construccion de un modelo de clasificacion, es necesarioaplicar un preprocesamiento de los datos para obtener un mejor per-formace y mayor robustes al clasificador final.

Es muy importante la calidad y el tamano del conjunto de entre-namiento para obtener una buena generalizacion.

Para poder obtener un buen clasificador es necesario hacer diversosexperimentos donde se varıen los parametros de la tecnica utilizadapues no todas las configuraciones dan buenos resultados.

Aunque existen diversas herramientas de minerıa de datos que nospermiten realizar las diferentes etapas de la extraccion de conocimientode manera automatica, es necesaria la supervision de un usuario queguıe este proceso y verifique la congruencia de los resultados.

La tecnica de arboles de decision es un buen clasificador y predictorque puede aplicarse cuando se conocen de ante mano las clases de unconjunto de entrenamiento (aprendizaje supervisado).

Las clases mas difıciles de diferenciar, son aquellas que tienen compor-tamiento parecido y esta dificultad se acentua cuando se tienen pocas

32


muestras de estas clases en el conjunto de entrenamiento. La metri-ca “radio de ganancia” normaliza el peso de las clases sin importarel tamano del conjunto de datos de entrenamiento para cada una deellas.

Despues de los experimentos realizados se obtuvo un arbol de decisioncon un performace global aceptable que podrıa mejorarse con un mayornumero de ejemplos para las clases mas parecidas.

33



34


Ganancia mınima Error de clasificacion para el conjunto prueba( %)

0.05 - 0.35 23.330.4 33.33

0.5- 1 76.67

Figura 3.25: Tabla de resultados del algoritmo C4.5 variando el parametro“Ganancia ,mınima” para el conjunto de datos “zoo”

Figura 3.26: Arbol generada en RapidMiner para el conjunto de datos “zoo”con ganancia mınima de 0.05-0.35.

35

Figura 3.27: Arbol generada en RapidMiner para el conjunto de datos “zoo”con ganancia mınima de 0.4.

Figura 3.28: Arbol generada en RapidMiner para el conjunto de datos “zoo”con ganancia mınima de 0.5-1.

Figura 3.29: Arbol generada en RapidMiner para el conjunto de datos “zoo”sin podar.

36

Parametro Valor inicial

Tamano conjunto de entrenamiento 0.7Criterio de seleccion de atributos Radio de gananciaMınimo tamano para split (minimal size for split) 6Mınimo tamano para hojas (minimal leaf size) 3Ganancia mınima (minimal gain) 0.35Poda Activada

Figura 3.30: Tabla con los parametros del arbol final.

Figura 3.31: Matriz de confusion para el arbol final.

37

Bibliografıa

[1] Autor: Cesar Perez Lopez, Daniel Santin Gonzalez Minerıa de datos:tecnicas y herramientas. Editorial Thomson. Madrid, 2008.

[2] Autor: Jiawei Han & Micheline Kamber Data Mining Concepts andTechniques. Editorial Morgan Kaufmann. San Fransisco, 2001. Pag.298,301,302.

[3] Autor: Javier Tuya, Isabel Ramos Roman & Javier Dolado CosinTecnicas cuantitativas para la gestion en la ingenierıa del software..Editorial NETBIBLO. Espana, 2007.

[4] KNIME. Sitio Oficial 2011. Disponible en: http://www.knime.org/

[5] Rapidminer. Sitio Oficial 2011. Disponible en:http://rapid-i.com/content/view/181/190/

[6] SAS Enterprise Miner. Sitio Oficial 2011. Disponible en:http://www.sas.com/technologies/analytics/datamining/miner/

[7] WEKA. Sitio Oficial 2011. Disponible en:http://www.cs.waikato.ac.nz/ml/weka/

[8] Notas sobre arboles de decision. Autores: Pedro Larranaqa,Inaki Inza, Abdelmalik Moujahid . Departamento de Cieneiasde la Computacion e Inteligencia Artificial Universidaddel Paıs Vasco-Euskal Herriko Unibertsitatea. Disponibleen:www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf

[9] Arboles de decision. Autor: Dr. Edgar Acuna Fernandez. Universityof Puerto Rico, Mayaguez Campus, Doctoral Program en Computingand Information Sciences and Engineering. Puerto Rico, 2004.

[10] Autor: Florin Gorunescu Data Mining Concepts, Models and Tech-niques. Editorial Springer. Rumania, 2011. Pag. 169

[11] UCI Machine Learning Repository. Repositorio Online de bases dedatos y conjuntos de datos para Machine Learning Sitio Oficial 2011.Disponible en:www.ics.uci.edu/ mlearn/MLRepository.html

38

Apendice A

Arboles de decision enRapidMiner

En este apendice explico la forma en que utilize RapidMiner para lasdistintas etapas del KDD (1.1).

A.1. Cargar conjunto de datos

Para importar un conjunto de datos dirijase al menu file/importDatay seleccione el tipo de archivo con el que desea trabajar como se muestraen la figura A.1 a continuacion siga el asistente de importacion de datos(Data import wizard). En la ventana “repositories ” aparecera su conjuntode datos, arrastrelo al proceso principal como se muestra en la figura A.2

Figura A.1: Importar un conjunto de datos.

39

Figura A.2: Arrastre del conjunto de datos al proceso principal.

A.2. Visualizacion de datos

Haga doble click sobre el conjunto de datos en la ventana “repositories”para visualizarlo. Existen tres tipos de vistas

Metadata Se muestra un resumen del conjunto (vease figura A.3).

Data Se muestran los registros del conjunto (vease figura A.4).

Plot Nos permite aplicar diversas tecnicas de visualizacion (vease figuraA.5).

Figura A.3: Vista Metadata.

A.2.1. Scatter

La grafica scatter nos permite visualizar el comportamiento de una clasecon respecto a un atributo, para generarla valla a la vista “plot” seleccione“scatter” de la lista desplegable y especifique los parametros necesarios comose muestra en la figura A.6.

40

Figura A.4: Vista Data.

Figura A.5: Vista Plot.

A.3. Estadisticas

Las estadısticas de un conjunto de datos pueden apreciarse en la vistaMetadata (vease apendice A.2).

A.4. Tratamiento de valores faltantes

En la ventana operadores seleccione Data Transformation/Data Cleans-ing/Replace Missing Values y arrastrelo al proceso principal, conectelo a suconjunto de datos y modifique los parametros necesarios (vease figura A.7).

41

Figura A.6: Grafica de scatter.

Figura A.7: Grafica de scatter.

42

Decision Trees Exercise

Documents

Transcript of Decision Trees Exercise