Algoritmo C4.5

Post on 31-Mar-2016

241 views 3 download

description

Características del algoritmo C4.5

Transcript of Algoritmo C4.5

Sistema clásico de aprendizaje de árboles de decisión

C4.5

• Algoritmo desarrollado por Ross Quinlan en 1992.

• Sistema implementado en C para el entorno UNIX.

• Genera un árbol de decisión a partir de los datos a través de particiones realizadas recursivamente.

• Considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información.

2

• Trabaja con valores continuos para los atributos,separando los posibles resultados en 2 ramas Ai<=N yAi>N.

• Los árboles son menos frondosos, ya que cada hoja cubreuna distribución de clases no una clase en particular.

• Utiliza el método "divide y vencerás" para generar el árbolde decisión inicial.

• Es Recursivo.

Características

3

• Es una medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas.

Proporción de ganancia

Atributos

De valores continuos

Con valores perdidos

Con pesos diferentes

4

• Evitar sobreajuste de los datos.

• Determinar que tan profundo debe crecer el árbol de decisión.

• Reducir errores en la poda.

• Condicionar la Post-Poda.

• Manejar atributos continuos.

• Escoger un rango de medida apropiado.

• Manejo de datos de entrenamiento con valores faltantes.

• Manejar atributos con diferentes valores.

• Mejorar la eficiencia computacional.

Mejoras

5

6

golf.names

Atributos

Clases

7

golf.dataAntecedentes Consecuencias

8

>c4.5 –f Data\golf

Panorama

Humedad

Jugar No jugar

Viento

No Jugar Jugar

Jugar

Ejemplo

Soleado Nublado Lluvioso

<=75 >75 Verdadero Falso

9

10

La ejecución genera 2 archivos:

• golf.unpruned. Es el árbol sin podar.

• golf.tree. El árbol podado, que es necesario para ejecutar c.5rules y consult.

11

>c4.5rules –f Data\golf

Y este genera el archivo golf.rules

Panorama

Humedad

Jugar No jugar

Viento

No Jugar Jugar

Jugar

Ejemplo

SoleadoNublado Lluvioso

<=75 >75Verdadero Falso

12

24

3

1

Default

13

Árbol de decisión

14

Árbol de decisión simplificado

Localizar los datosInvoca un navegador para encontrar los archivos de la aplicación, o para cambiar la aplicación actual

Construir clasificadorSelecciona el tipo de clasificador para ser construido y establece otras opciones

Resultados de la revisiónVuelve a visualizar la salida del clasificador construcción anterior

DetenerInterrumple el proceso de la generación del clasificador

Usar clasificadorInteractivamente aplica el clasificador actual a uno o más casos

Referencia cruzadaMuestra cómo los casos en los datos de entrenamiento o de prueba se relacionancon un clasificador y viceversa

Construir clasificador

Ejemplo golf

Usar clasificador

Referencia cruzada

Servente Magdalena, ALGORITMOS TDIDT APLICADOS A LA MINERIA DE DATOS INTELIGENTE , 2002, Facultad de Ingeniería Universidad de Buenos Aires.

http://www.rulequest.com/Personal/

Bibliografía

21