Algoritmo C4.5
-
Upload
paco-hdz-arzola -
Category
Documents
-
view
241 -
download
3
description
Transcript of Algoritmo C4.5
Sistema clásico de aprendizaje de árboles de decisión
C4.5
• Algoritmo desarrollado por Ross Quinlan en 1992.
• Sistema implementado en C para el entorno UNIX.
• Genera un árbol de decisión a partir de los datos a través de particiones realizadas recursivamente.
• Considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información.
2
• Trabaja con valores continuos para los atributos,separando los posibles resultados en 2 ramas Ai<=N yAi>N.
• Los árboles son menos frondosos, ya que cada hoja cubreuna distribución de clases no una clase en particular.
• Utiliza el método "divide y vencerás" para generar el árbolde decisión inicial.
• Es Recursivo.
Características
3
• Es una medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas.
Proporción de ganancia
Atributos
De valores continuos
Con valores perdidos
Con pesos diferentes
4
• Evitar sobreajuste de los datos.
• Determinar que tan profundo debe crecer el árbol de decisión.
• Reducir errores en la poda.
• Condicionar la Post-Poda.
• Manejar atributos continuos.
• Escoger un rango de medida apropiado.
• Manejo de datos de entrenamiento con valores faltantes.
• Manejar atributos con diferentes valores.
• Mejorar la eficiencia computacional.
Mejoras
5
6
golf.names
Atributos
Clases
7
golf.dataAntecedentes Consecuencias
8
>c4.5 –f Data\golf
Panorama
Humedad
Jugar No jugar
Viento
No Jugar Jugar
Jugar
Ejemplo
Soleado Nublado Lluvioso
<=75 >75 Verdadero Falso
9
10
La ejecución genera 2 archivos:
• golf.unpruned. Es el árbol sin podar.
• golf.tree. El árbol podado, que es necesario para ejecutar c.5rules y consult.
11
>c4.5rules –f Data\golf
Y este genera el archivo golf.rules
Panorama
Humedad
Jugar No jugar
Viento
No Jugar Jugar
Jugar
Ejemplo
SoleadoNublado Lluvioso
<=75 >75Verdadero Falso
12
24
3
1
Default
13
Árbol de decisión
14
Árbol de decisión simplificado
Localizar los datosInvoca un navegador para encontrar los archivos de la aplicación, o para cambiar la aplicación actual
Construir clasificadorSelecciona el tipo de clasificador para ser construido y establece otras opciones
Resultados de la revisiónVuelve a visualizar la salida del clasificador construcción anterior
DetenerInterrumple el proceso de la generación del clasificador
Usar clasificadorInteractivamente aplica el clasificador actual a uno o más casos
Referencia cruzadaMuestra cómo los casos en los datos de entrenamiento o de prueba se relacionancon un clasificador y viceversa
Construir clasificador
Ejemplo golf
Usar clasificador
Referencia cruzada
Servente Magdalena, ALGORITMOS TDIDT APLICADOS A LA MINERIA DE DATOS INTELIGENTE , 2002, Facultad de Ingeniería Universidad de Buenos Aires.
http://www.rulequest.com/Personal/
Bibliografía
21