Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina...

60
Modelos basados en ´ arboles Francisco J. Mart´ ın Mateos Jos´ e L. Ruiz Reina Juan Gal´ an P´ aez Dpto. Ciencias de la Computaci´ on e Inteligencia Artificial Universidad de Sevilla Razonamiento Asistido por Computador, 2018-2019

Transcript of Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina...

Page 1: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Modelos basados en arboles

Francisco J. Martın MateosJose L. Ruiz ReinaJuan Galan Paez

Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla

Razonamiento Asistido por Computador, 2018-2019

Page 2: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi
Page 3: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte I

Clasificacion usando arboles de decision

Page 4: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

• Decidir si ir a un restaurante desde el trabajo• Tipo de cocina

• Categorica• Discreta

• Distancia a la que se encuentra

• Numerica• Continua

• Admite Cheque Gourmet

• Booleano

Page 5: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

Page 6: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

Page 7: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

Page 8: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

Page 9: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

Page 10: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

〈italiana,0.5 km,sı〉

Page 11: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

〈mercado,2 km,no〉

Page 12: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Clasificacion usando arboles de decision

Comida

italiana mercado asiatica

< 1kmnosı ≥ 1km

Distancia

Sı No

SıCheque Gourmet

SıNo

〈asiatica,2 km,sı〉

Page 13: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte II

Aprendizaje de arboles de decision

Page 14: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Aprendizaje de arboles de decision

• Conjunto de entrenamiento: S• Criterio de separacion: S =⇒ S1, . . . ,Sr

S

Atributo

v1 vr

S1 Sr

Page 15: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Aprendizaje de arboles de decision

• Conjunto de entrenamiento: S• Criterio de separacion: S =⇒ S1, . . . ,Sr

S

Atributo

v1 vr

S1 Sr

en

vi

SiCategorıa

Si

Page 16: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Aprendizaje de arboles de decision

• Conjunto de entrenamiento: S• Criterio de separacion: S =⇒ S1, . . . ,Sr

S

Atributo

v1 vr

S1 Sr

vi

Si = ∅Categorıa

mayoritaria enS

Page 17: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte III

Criterios de separacion

Page 18: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Criterios de separacion

• Conjunto de instancias: S• Criterio de separacion: S =⇒ S1, . . . ,Sr

• Tienen en cuenta un unico atributo• Atributos discretos: Identificar su valor• Atributos continuos: Establecer una cota

• Cotas: Cambios en el valor de clasificacion

Page 19: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Criterios de separacion

• Conjunto de instancias: S• Criterio de separacion: S =⇒ S1, . . . ,Sr• Medida del grado de dispersion: µ(S)

• Minimizarr∑

i=1

|Si ||S|

µ(Si )

Page 20: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte IV

Cuantificando el grado de dispersion I

Page 21: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion I

• Conjunto de instancias: S• Categorıas de clasificacion: C1, . . . , Ck• Sp = {e ∈ S tales que e ∈ Cp}• Tasa de error

• Clase mayoritaria en S: Cp• Medida del grado de dispersion en S:

T (S) = 1− |Sp||S|

Page 22: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion I

• Conjunto de instancias: S• Categorıas de clasificacion: C1, . . . , Ck• Sp = {e ∈ S tales que e ∈ Cp}• Indice de Gini

• Distribucion de clases en S: p1, . . . , pk

pj =|Sj ||S|

• Medida del grado de dispersion en S:

G (S) =k∑

j=1

pj(1− pj)

Page 23: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion I

• Conjunto de instancias: S• Categorıas de clasificacion: C1, . . . , Ck• Sp = {e ∈ S tales que e ∈ Cp}• Indice de Gini

• Distribucion de clases en S: p1, . . . , pk

pj =|Sj ||S|

• Medida del grado de dispersion en S:

G (S) =k∑

j=1

pj(1− pj)

Page 24: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion I

• Conjunto de instancias: S• Categorıas de clasificacion: C1, . . . , Ck• Sp = {e ∈ S tales que e ∈ Cp}• Indice de Gini

• Distribucion de clases en S: p1, . . . , pk

pj =|Sj ||S|

• Medida del grado de dispersion en S:

G (S) =k∑

j=1

pj −k∑

j=1

pj2

Page 25: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion I

• Conjunto de instancias: S• Categorıas de clasificacion: C1, . . . , Ck• Sp = {e ∈ S tales que e ∈ Cp}• Indice de Gini

• Distribucion de clases en S: p1, . . . , pk

pj =|Sj ||S|

• Medida del grado de dispersion en S:

G (S) = 1−k∑

j=1

pj2

Page 26: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte V

Cuantificando el grado de dispersion II

Page 27: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion II

• Conjunto de instancias: S• Categorıas de clasificacion: C1, . . . , Ck• Distribucion de clases en S: p1, . . . , pk• Grado de entropıa

• Medida del grado de dispersion en S:

E (S) = −k∑

j=1pj 6=0

pj log2(pj)

Page 28: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Cuantificando el grado de dispersion II

• Conjunto de instancias: S• Criterio de separacion: S =⇒ S1, . . . ,Sr• Ganancia de informacion

• Reduccion en la entropıa:

E (S)−r∑

i=1

|Si ||S|

E (Si )

• Maximizar la ganancia de informacion

Page 29: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte VI

Algoritmos de aprendizaje

Page 30: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Algoritmos de aprendizaje

• ID3• Atributos categoricos• Minimiza el grado de entropıa

• C4.5 (Sucesor de ID3)• Atributos categoricos y numericos• Instancias con atributos indefinidos• Maximiza la ganancia de informacion

• CART• Atributos numericos• Implementado en scikit-learn

Page 31: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

CART

• CART: Classification and Regression Trees

• Solo atributos numericos• Criterio de separacion:

• Para cada atributo considera todos los posibles valores• Nodos binarios (dos ramas)• Cada nodo esta representado por un atributo y un valor de

corte• El mismo atributo puede aparecer en mas de un nodo

• Medida de dispersion o impureza:• Gini (por defecto)• Ganancia de la informacion

• Decision final:• Clasificacion: votacion• Regresion: media

Page 32: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

CART

Page 33: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte VII

Sobreajuste

Page 34: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Sobreajuste

• Objetivo del aprendizaje:• Obtener patrones extrapolables a situaciones desconocidas

• Aprendizaje con sobreajuste:• No se han aprendido patrones generales• Se han memorizado instancias• Conocimiento no extrapolable

• Sobreajuste en arboles de decision

• Arboles con complejidad (o profundidad) elevadas.

• Medidas para reducir el sobreajuste• Reducir la complejidad del modelo• Ensamble de clasificadores (Ensemble learning)

Page 35: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Sobreajuste

Page 36: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Sobreajuste

Page 37: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte VIII

Reduciendo la complejidad: prepoda

Page 38: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Reduciendo la complejidad: prepoda

• Conjuntos de instancias demasiado pequenos o sesgados

• Podado durante el aprendizaje

• Criterios de separacion innecesarios

• La proporcion de la clase dominante es muy alta

• La proporcion de ejemplos con respecto al total es muy baja

Page 39: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

CART - prepoda y sobreajuste

• Nodos binarios

• Mas de un nodo por atributo• Sin limitar el crecimiento del arbol (la complejidad del

modelo):• Riesgo de sobreajuste muy elevado

• Metodos frecuentes de prepoda:• Limitar la profundidad• Limitar el numero de ejemplos en una hoja• Limitar el numero de hojas del arbol• Limitar el numero de ejemplos mınimos necesarios para

ramificar

Page 40: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte IX

Reduciendo el sobreajuste: postpoda

Page 41: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Reduciendo el sobreajuste: postpoda

• Podado a posteriori• Arbol de decision aprendido• Conjunto de validacion

• Repetir mientras haya mejoras• Reemplazar los nodos internos por

nodos hoja• Rendimiento en el conjunto de validacion• Continuar con el arbol que mejora el rendimiento

• En Scikit-learn no disponemos de metodos de postpoda.

Page 42: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte X

Ensemble learning

Page 43: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Analogıa en Psicologıa - Sabidurıa de las masas

• Sabidurıa de las masas• Funciona solo ante determinadas condiciones

• Poblacion heterogenea:• Expertos• Conocimiento medio• Desconocimiento total

• Opinion promedio de alta precision

Page 44: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Ensemble learning

Page 45: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Ensemble learning

• Requisitos:• Poblacion de modelos heterogenea• Algoritmos sencillos

• Diversificacion de modelos:• Diversicacion de los algoritmos• Diversificacion de los datos

• Tecnicas de ensamblado• Bagging• Boosting• Stacking

Page 46: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Ensamble de arboles: Random forest

• Leo Breiman (2001)

• Bagging: Bootstrap aggregating

• Conjunto de CARTs• CARTs completamente desarrollados

• Permitimos (y queremos) sobreajuste

• Diversificacion: anade aleatoriedad en los datos• Dos nuevos conceptos:

• Bootstrapping• Random CART

• Idea intuitiva:• Crear individuos expertos solo en una parte del problema• Tomar la opinion mayoritaria como cierta

Page 47: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Bootstrapping

• Metodo de remuestreo estadıstico

• Bradley Efron (1979)

• Permite aproximar la distribucion de la poblacion original(normalmente desconocida)• Idea:

• Generar nuevos conjuntos de datos a partir del original• Tamano igual o inferior• Muestreo con reemplazamiento• Para un numero elevado de muestras, el promedio de las

muestras se comporta como el promedio de la poblacionoriginal

Page 48: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Bootstrapping

Page 49: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Bootstrapping

• To lift himself up by his bootstraps

Page 50: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Random CART

• Cada nodo (corte binario) solo puede usar un subconjunto delos atributos• Valores tıpicos:

• round(sqrt(D))• round(log2(x))

• Esta idea forma parte de los denominados Random SubspaceMethods

• No se establecen lımites al crecimiento• Reduce el tiempo de computacion

• Menor tiempo de computo al elegir el mejor corte

Page 51: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Random Forest

• Obtencion de nuevos conjuntos de entranamiento mediantebootstrapping• Objetivo: Evitar el sobrejuste, especialmente sobre instancias

’raras’

• Entrenar un Random Cart sobre cada uno de estos conjuntosde entrenamiento• Prediccion para una nueva instancia de datos:

• Realizar una prediccion sobre la nueva instancia de datos concada arbol

• La prediccion final: la mas votada

• Idea intuitiva: cada rCART (weak learner) sacara el maximopartido de una parte de los datos. La votacion mayoritariaaportara una prediccion mas robusta (elimina ruido)

Page 52: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Gradient boosting

• Jerome H. Friedman (1999)

• Ensamblado de arboles mediante Boosting• Boosting:

• Ensamblado secuencial de modelos• Idea: Con cada nuevo modelo intentamos pulir las deficiencias

de los anteriores

• Gradient boosted regression trees:• Se generan arboles de decision de forma secuencial• Cada arbol intenta reducir el error cometido por los anteriores• En cada iteracion (construccion de un nuevo arbol)

priorizamos las instancias peor clasificadas por los anteriores

Page 53: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Gradient boosting - Algoritmo

• Partimos de un modelo inicial o valor constante• En cada Iteracion:

• Calculamos el residuo de la respuesta (el error cometido encada instancia)

• Entrenamos un nuevo arbol usando el residuo como respuesta• Optimizamos el peso del nuevo arbol (arbol completo u hojas)

• Controlando la complejidad:• Tasa de aprendizaje (learning rate)• Profundidad

• Arboles muy sencillos. Limitamos mucho la profundidad (e.g.3-5)

Page 54: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Conclusiones

• CART• Rapidos y sencillos. Facilitan la interpretabilidad• No generalizan bien. Tienden al sobreajuste

• Random Forests• Robustos ante sobreajuste, buena capacidad de generalizacion• Configuracion de hiperparametros sencilla• Paralelismo trivial (arboles independientes)

• Gradient Boosting• Puede conseguir algo mas de precision que Random Forests• Configuracion de hiperparametros muy sensible• Tienen cierto riesgo de sobreajuste

Page 55: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte XI

Modelos basados en arboles en

scikit-learn

Page 56: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Arboles de decision

• Tipo de problema• DecisionTreeClassifier• DecisionTreeRegressor

• Medidas de dispersion• Clasificacion: gini (por defecto) o entropy• Regresion: mse (por defecto) o mae

• Control de complejidad:• max depth• max leaf nodes• min samples leaf• min samples split

Page 57: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Random Forest

• Tipo de problema• RandomForestClassifier• RandomForestRegressor

• Medidas de dispersion• Clasificacion: gini (por defecto) o entropy• Regresion: mse (por defecto) o mae

• Principales parametros a ajustar:• n estimators• max features• max depth• max features

Page 58: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Gradient boosting

• Tipo de problema• GradientBoostingClassifier• GradientBoostingRegressor

• Medidas de dispersion• Clasificacion: gini (por defecto) o entropy• Regresion: mse (por defecto) o mae

• Ademas proporcionamos una funcion de perdida (lossfunction) a optimizar• Principales parametros a ajustar:

• n estimators• learning rate• max depth

Page 59: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Parte XII

Bibliografıa

Page 60: Modelos basados en arbolesModelos basados en arboles Francisco J. Mart n Mateos Jos e L. Ruiz Reina Juan Gal an P aez Dpto. Ciencias de la Computaci on e Inteligencia Arti cial Clasi

Bibliografıa

• Charu C. AggarwalData Mining: The Textbook (Springer, 2015)• Cap. 10: “Data Classification”

• Andreas C. Muller y Sarah GuidoIntroduction to Machine Learning with Python (O’Really,2017)• Cap. 2: “Supervised Learning”