Algoritmo C4.5

21
Sistema clásico de aprendizaje de árboles de decisión C4.5

description

Características del algoritmo C4.5

Transcript of Algoritmo C4.5

Page 1: Algoritmo C4.5

Sistema clásico de aprendizaje de árboles de decisión

C4.5

Page 2: Algoritmo C4.5

• Algoritmo desarrollado por Ross Quinlan en 1992.

• Sistema implementado en C para el entorno UNIX.

• Genera un árbol de decisión a partir de los datos a través de particiones realizadas recursivamente.

• Considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información.

2

Page 3: Algoritmo C4.5

• Trabaja con valores continuos para los atributos,separando los posibles resultados en 2 ramas Ai<=N yAi>N.

• Los árboles son menos frondosos, ya que cada hoja cubreuna distribución de clases no una clase en particular.

• Utiliza el método "divide y vencerás" para generar el árbolde decisión inicial.

• Es Recursivo.

Características

3

Page 4: Algoritmo C4.5

• Es una medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas.

Proporción de ganancia

Atributos

De valores continuos

Con valores perdidos

Con pesos diferentes

4

Page 5: Algoritmo C4.5

• Evitar sobreajuste de los datos.

• Determinar que tan profundo debe crecer el árbol de decisión.

• Reducir errores en la poda.

• Condicionar la Post-Poda.

• Manejar atributos continuos.

• Escoger un rango de medida apropiado.

• Manejo de datos de entrenamiento con valores faltantes.

• Manejar atributos con diferentes valores.

• Mejorar la eficiencia computacional.

Mejoras

5

Page 6: Algoritmo C4.5

6

golf.names

Atributos

Clases

Page 7: Algoritmo C4.5

7

golf.dataAntecedentes Consecuencias

Page 8: Algoritmo C4.5

8

>c4.5 –f Data\golf

Page 9: Algoritmo C4.5

Panorama

Humedad

Jugar No jugar

Viento

No Jugar Jugar

Jugar

Ejemplo

Soleado Nublado Lluvioso

<=75 >75 Verdadero Falso

9

Page 10: Algoritmo C4.5

10

La ejecución genera 2 archivos:

• golf.unpruned. Es el árbol sin podar.

• golf.tree. El árbol podado, que es necesario para ejecutar c.5rules y consult.

Page 11: Algoritmo C4.5

11

>c4.5rules –f Data\golf

Y este genera el archivo golf.rules

Page 12: Algoritmo C4.5

Panorama

Humedad

Jugar No jugar

Viento

No Jugar Jugar

Jugar

Ejemplo

SoleadoNublado Lluvioso

<=75 >75Verdadero Falso

12

24

3

1

Default

Page 13: Algoritmo C4.5

13

Árbol de decisión

Page 14: Algoritmo C4.5

14

Árbol de decisión simplificado

Page 15: Algoritmo C4.5
Page 16: Algoritmo C4.5

Localizar los datosInvoca un navegador para encontrar los archivos de la aplicación, o para cambiar la aplicación actual

Construir clasificadorSelecciona el tipo de clasificador para ser construido y establece otras opciones

Resultados de la revisiónVuelve a visualizar la salida del clasificador construcción anterior

DetenerInterrumple el proceso de la generación del clasificador

Usar clasificadorInteractivamente aplica el clasificador actual a uno o más casos

Referencia cruzadaMuestra cómo los casos en los datos de entrenamiento o de prueba se relacionancon un clasificador y viceversa

Page 17: Algoritmo C4.5

Construir clasificador

Page 18: Algoritmo C4.5

Ejemplo golf

Page 19: Algoritmo C4.5

Usar clasificador

Page 20: Algoritmo C4.5

Referencia cruzada

Page 21: Algoritmo C4.5

Servente Magdalena, ALGORITMOS TDIDT APLICADOS A LA MINERIA DE DATOS INTELIGENTE , 2002, Facultad de Ingeniería Universidad de Buenos Aires.

http://www.rulequest.com/Personal/

Bibliografía

21