Poda Arboles
description
Transcript of Poda Arboles
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
MÉTODOS DE PODA DE ÁRBOLES DE CLASIFICACIÓN
Por: Alexandra Cueva E.
INTRODUCCIÓN
Los árboles de clasificación tienen: Nodo raíz al que pertenecen todos los casos de la
muestra que se quiere clasificar. El resto de nodos del árbol se dividen en nodos
intermedios o no terminales y terminales.Nodo Raíz
Nodo terminalNodo Intermedio
VENTAJAS
A la hora de clasificar se parte desde el nodo raíz y dependiendo de los valores de la variable predictiva, los caso se van distribuyendo por los nodos hijos.
El conocimiento que se obtiene del árbol se puede representar de forma inteligible mediante reglas de decisión
Obedece a un criterio estadístico, puesto que para llegar a la solución establece distribuciones de probabilidad sobre las categorías de los individuos en cada uno de sus nodos.
ÁRBOLES PARSIMONIOSOS
Son árboles cuya complejidad es suficiente para resolver un problema y enfrentarse a nuevos casos de una manera eficiente.
La complejidad esta determinada con el número de nodos hojas o terminales.
………………
Sigue creciendo hasta que llegue hacer homogéneo los nodos terminales
ÁRBOLES PARSIMONIOSOS
Los árboles de clasificación se desarrollarían hasta que todos los nodos terminales sean homogéneos y esto no es eficiente.
Se aplica procesamientos para hacerlos mas parsimoniosos denominados Poda
PODA
Es el proceso de cortar o suprimir nodos de un árbol.
Tipos de Poda Pre-poda .- Aplican un criterio según va
creciendo el árbol Pos-poda.- Luego de creado el árbol se
decide cuales nodos no serán tomados en cuenta de acuerdo aun criterio determinado
PRE-PODA
Su objetivo es detener el crecimiento del árbol
antes que se produzca. El algoritmo que aplica este criterio es el
CHAID.Que va desarrollando nodos, a la variable
independiente exigiendo un mínimo de correlación respecto a la variable dependiente. Y
X
Se pregunta si X tiene correlación con Y
Si no se detiene el proceso
REGLAS DE PRE-PODA
Cuando un nodo solamente contiene ejemplos de una clase, obviamente, el proceso de construcción del árbol de decisión ha finalizado
Se puede establecer de antemano una cota de profundidad para no construir árboles excesivamente complejos
Cuando nos encontramos un nodo con menos de X ejemplos detenemos el proceso de obtención del árbol.
POS-PODA
Eliminar los subárboles que no contribuyen significativamente a la precisión de la clasificación
Y los algoritmos que aplican este criterio son. CART C4.5
XSe elimina x por que no tiene mayor aporte
MÉTODOS DE PODA DE ÁRBOLES
La poda por estimación del error La poda por coste-complejidad La poda pesimista.
La poda por estimación del errorUn nodo se poda si el error de resustitución
del nodo considerado como hoja es menor que el error de resustitución del subárbol cuya raíz es el nodo.
Esta técnica de poda es usada por el algoritmo CART.
MÉTODOS DE PODA DE ÁRBOLES
La poda por coste-complejidad.Se puede realizar utilizando un conjunto de
prueba independiente del conjunto de entrenamiento o validación cruzada
La poda pesimistaEsta técnica utiliza sólo el conjunto de casos
de entrenamiento con los que se construye el árbol, con lo que nos ahorramos tener que reservar casos para realizar la simplificación del árbol.
BIBLIOGRAFÍA
Aprendizaje Automático conceptos básicos y avanzados. Autor: Basilio Sierra Araujo.
Árboles de Decisión disponible en WWW: http://elvex.ugr.es/etexts/spanish/proyecto/cap6.pdf