Algoritmo C4.5

25
Algoritmo C4.5 Algoritmo C4.5 José Antonio Espino López Javier Eduardo Tijerina Flores Manuel Cedano Mendoza Eleazar de la Fuente Amaya Juan José Pérez González Aníbal Chiñas Carballo Equipo # 6

description

Equipo # 6. José Antonio Espino López. Javier Eduardo Tijerina Flores. Manuel Cedano Mendoza. Eleazar de la Fuente Amaya. Juan José Pérez González. Aníbal Chiñas Carballo. Algoritmo C4.5. I NTELIGENCIA A RTIFICIAL Algoritmo C4.5. H istoria. - PowerPoint PPT Presentation

Transcript of Algoritmo C4.5

Page 1: Algoritmo C4.5

Algoritmo C4.5Algoritmo C4.5

José Antonio Espino López

Javier Eduardo Tijerina Flores

Manuel Cedano Mendoza

Eleazar de la Fuente Amaya

Juan José Pérez González

Aníbal Chiñas Carballo

Equipo # 6

Page 2: Algoritmo C4.5

IINTELIGENCIA NTELIGENCIA AARTIFICIALRTIFICIAL

Algoritmo C4.5Algoritmo C4.5

Page 3: Algoritmo C4.5

HistoriaFue desarrollado en 1993 por JR Quinlan, como una extensión

al

algoritmo ID3. Para dar solución a ciertas situaciones que el

algoritmo ID3 no consideraba.

Page 4: Algoritmo C4.5

Los tres tipos de pruebas posibles propuestas por el C4.5 son:

La prueba "estándar" para las variables discretas. Una prueba más compleja. Si una variable A tiene valores numéricos continuos.

A <= Z y A > Z.

Page 5: Algoritmo C4.5

CARACTERÍSTICAS

• Permite trabajar con valores continuos para los atributos, separando los posibles resultados en 2 ramas Ai<=N y Ai>N.

• Los árboles son menos frondosos, ya que cada hoja cubre una distribución de clases no una clase en particular.

• Utiliza el método "divide y vencerás" para generar el árbol de decisión inicial a partir de un conjunto de datos de entrenamiento.

• Es Recursivo.

Page 6: Algoritmo C4.5

Heurística

• Gain Ratio (proporción de ganancia)

Atributos

• Atributos de Valores Continuos• Atributos con Valores Perdidos• Atributos con Aspectos Diferentes

Page 7: Algoritmo C4.5

Ventajas respecto al Algoritmo ID3

• Evitar Sobreajuste de los datos.• Determinar que tan profundo debe crecer el árbol de decisión.• Reducir errores en la poda.• Condicionar la Post-Poda.• Manejar atributos continuos.• Escoger un rango de medida apropiado.• Manejo de datos de entrenamiento con valores faltantes.• Manejar atributos con diferentes valores.• Mejorar la eficiencia computacional.

Page 8: Algoritmo C4.5

El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma.

C4.5 forma parte de la familia de los TDIDT (Top Down Induction Trees), junto con antecesor el ID3.

C4.5 construye un árbol de decisión mediante el algoritmo "divide y vencerás"

C4.5 evalúa la Información en cada caso utilizando los criterios de entropía yganancia

Estructura de Algoritmo C4.5

Page 9: Algoritmo C4.5

Estructura General Arbol de Decisión

+ Nodos: Id de Atributos

+ Ramas: Posibles valores del atributo asociado al nodo

+ Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase

Árboles de decisión

Raíz

NodoA NodoB

Set de posibles respuestas

Set de posibles respuestas

ramas

Page 10: Algoritmo C4.5

Outlook

Temperature

Humidity

Windy

Play (positive) / Don't Play (negative)

sunny 85 85 false Don't Play

sunny 80 90 true Don't Play

overcast

83 78 false Play

rain 70 96 false Play

rain 68 80 false Play

rain 65 70 true Don't Play

overcast

64 65 true Play

sunny 72 95 false Don't Play

sunny 69 70 false Play

rain 75 80 false Play

sunny 75 70 true Play

overcast

72 90 true Play

Page 11: Algoritmo C4.5

Atributos: conjunto de atributos no clasificadores,C: atributo clasificador,Ejemplos: conjunto de ejemplos, devuelve un árbol de decisión

AtributoM atributo con mayor Proporción de Ganancia(AtributoM,Ejemplos) entre los atributos de R;

Devolver un árbol con la raíz nombrada como AtributoM y con los arcos nombrados

C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm);

Page 12: Algoritmo C4.5

Pseudocódigo de C4.5Función C4.5R: conjunto de atributos no clasificadores,C: atributo clasificador,S: conjunto de ejemplos, devuelve un árbol de decisiónComienzo Si S está vacío,

Devolver un único nodo con Valor Falla; ‘ para formar el nodo raiz Si todos los registros de S tienen el mismo valor para el atributo clasificador,

Devolver un único nodo con dicho valor; ‘un unico nodo para todos Si R está vacío,

Devolver un único nodo con el valor más frecuente del atributo clasificador en los registros de S [Nota: habrá errores, es decir, registros que no estarán bien clasificados en este caso];

Si R no está vacío, D atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R; Sean {dj | j=1,2,...., m} los valores del atributo D; Sean {dj | j=1,2,...., m} los subconjuntos de S correspondientes a los valores de dj

respectivamente; Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d2,....,dm, que van respectivamente a los árboles C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm);Fin

Page 13: Algoritmo C4.5

Conclusión

Se genera un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente, aplicando la estrategia de profundidad-primero (depth-first). El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos.

Page 14: Algoritmo C4.5

Algoritmo C4.5Algoritmo C4.5

Muchas Gracias por Su Muchas Gracias por Su AtenciónAtención

Continuara…Continuara…

Page 15: Algoritmo C4.5

Algoritmo C4.5Algoritmo C4.5

José Antonio Espino López

Javier Eduardo Tijerina Flores

Manuel Cedano Mendoza

Eleazar de la Fuente Amaya

Juan José Pérez González

Aníbal Chiñas Carballo

Equipo # 6

Page 16: Algoritmo C4.5

Aplicaciones Algoritmo C4.5

Page 17: Algoritmo C4.5
Page 18: Algoritmo C4.5

Los datos se obtuvieron de 3 pilotos experimentados.

Haciendo un plan de vuelo asignado 30 veces.

Cada acción del piloto creaba un ejemplo.

Se usaron 90,000 ejemplos descritos por 20 atributos.

Se uso C4.5 que genero un árbol y se convirtió a C.

Se insertó en el simulador y logro volar.

Los resultados fueron sorprendentes en el sentido de que aparte de aprender a volar a veces tomaba decisiones mejores que las de sus ``maestros''

Simulador Para Volar un Avión Cessna

Page 19: Algoritmo C4.5
Page 20: Algoritmo C4.5

Aprendizaje en la WWW

WebWatcher es un sistema de ayuda de localización de información.

Aprender las preferencias de un usuario.

Se registra, cada vez que el usuario selecciona información de la página, o enlaces.

Esta información está descrita por 530 atributos boléanos indicando si una palabra en particular aparece o no en el texto.

Page 21: Algoritmo C4.5
Page 22: Algoritmo C4.5

Grúa de embarcación

Manejar una grúa (6 variables, 450,000 ejemplos)

Imágenes de alta calidad generadas en tiempo real.

Gráficos 3D.

Texturas fotográficas obtenidas en el escenario real de trabajo.

Información para el usuario y el instructor en pantalla.

Secuencia de arranque y parada de la grúa real.

Estiba y desestiba en bodega con grapín.

Trabajo con varios tipos de materiales, con diferentes densidades y comportamientos.

Page 23: Algoritmo C4.5

Sistemas expertos

Cine.

Mecánica.

Autos.

Diagnostico medico.

Page 24: Algoritmo C4.5

DEMODEMO

Page 25: Algoritmo C4.5

Algoritmo C4.5Algoritmo C4.5

Muchas Gracias por Su Muchas Gracias por Su AtenciónAtención