Download - Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 1: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Modelos de RegresiónEL PROBLEMA DE LA SELECCIÓN DE VARIABLES

Javier Olaya Ochoa

Escuela de EstadísticaUniversidad del Valle

Cali - Colombia

13 de febrero de 2016

Page 2: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Page 3: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Contenido

La prueba F-parcial

La bibliografía

Page 4: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 5: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 6: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 7: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 8: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 9: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 10: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

Page 11: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

1 =SCESCT

+SCRSCT

Page 12: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

1 =SCESCT

+SCRSCT

Page 13: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

Page 14: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

Page 15: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

Page 16: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

aj y sedefine así

R2aj = R2 n − 1

n − p

Page 18: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

aj y sedefine así

R2aj = R2 n − 1

n − p

Page 19: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

aj y sedefine así

R2aj = R2 n − 1

n − p

Page 20: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

aj y sedefine así

R2aj = R2 n − 1

n − p

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

Page 22: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 23: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 24: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 25: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

Page 26: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

AIC = −nlog(

SCEn

)+ 2p

Page 27: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

AIC = −nlog(

SCEn

)+ 2p

Page 28: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

AIC = −nlog(

SCEn

)+ 2p

Page 29: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

AIC = −nlog(

SCEn

)+ 2p

Page 30: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Page 31: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anterior

I Al término de la derecha se le conoce como “penalización”,por lo que el BIC tiene una penalización más fuerte que elAIC

Page 32: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

BIC = −nlog(

SCEn

)+ log(n)p

Page 33: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

BIC = −nlog(

SCEn

)+ log(n)p

Page 34: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Contenido

La prueba F-parcial

La bibliografía

Page 35: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

Page 36: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 37: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 38: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

Page 39: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

Page 40: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I ¿Por qué usar menos variables?I The simpler, the better

I Es menos posible que se presente “colinealidad”I Los costos son menores

Page 41: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”

I Los costos son menores

Page 42: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

Page 43: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I Antes de escoger variables asegúrese de:

I Identificar atípicos y si es del caso excluirlos, al menostemporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 44: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

Page 45: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmente

Page 46: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.

Page 47: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

Page 48: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 49: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 50: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Page 51: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad

(multiplicidad de modelos)

Page 52: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

I Si tiene pocos datos, evite modelos complejos

I Si le es posible, conserve algunos de sus datos para validarsu modelo

I Documéntese: use la literatura para elegir su modelo, perono se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

Page 53: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

su modelo

I Documéntese: use la literatura para elegir su modelo, perono se case con uno

Page 54: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

no se case con uno

Page 55: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

sencillo si todos producen resultados similares.

Page 56: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad

(multiplicidad de modelos)

Page 57: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Contenido

La prueba F-parcial

La bibliografía

Page 58: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Page 59: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

Page 60: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

Page 61: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Page 62: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

SCEk

Page 63: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

I Y sea SCEq, la suma para el modelo (2)

I Como el modelo (2) tiene más variables, entonces SCEq <SCEk

Page 64: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

SCEk

Page 65: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

SCEk

Page 66: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se deﬁne

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo