Modelos de RegresiónEL PROBLEMA DE LA SELECCIÓN DE VARIABLES
Javier Olaya Ochoa
Escuela de EstadísticaUniversidad del Valle
Cali - Colombia
13 de febrero de 2016
Contenido
Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2
El coeficiente de Determinación Ajustado R2aj
El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)
El problema de la selección de variables
La prueba F-parcial
La bibliografía
Contenido
Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2
El coeficiente de Determinación Ajustado R2aj
El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)
El problema de la selección de variables
La prueba F-parcial
La bibliografía
¿Cuál modelo es mejor?
I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”
I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión
I En el mundo de las decisiones personales, los criterios sonpersonales
I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones
I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos
I Presentaremos algunos de ellos
¿Cuál modelo es mejor?
I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”
I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión
I En el mundo de las decisiones personales, los criterios sonpersonales
I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones
I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos
I Presentaremos algunos de ellos
¿Cuál modelo es mejor?
I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”
I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión
I En el mundo de las decisiones personales, los criterios sonpersonales
I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones
I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos
I Presentaremos algunos de ellos
¿Cuál modelo es mejor?
I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”
I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión
I En el mundo de las decisiones personales, los criterios sonpersonales
I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones
I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos
I Presentaremos algunos de ellos
¿Cuál modelo es mejor?
I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”
I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión
I En el mundo de las decisiones personales, los criterios sonpersonales
I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones
I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos
I Presentaremos algunos de ellos
¿Cuál modelo es mejor?
I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”
I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión
I En el mundo de las decisiones personales, los criterios sonpersonales
I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones
I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos
I Presentaremos algunos de ellos
El coeficiente de Determinación R2
I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo
n∑i=1
(yi − y)2 =n∑
i=1
(yi − yi)2 +
n∑i=1
(yi − y)2
I O seaSCT = SCE + SCR
I Si dividimos ambos términos de la igualdad entre SCT,tenemos
1 =SCESCT
+SCRSCT
El coeficiente de Determinación R2
I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo
n∑i=1
(yi − y)2 =n∑
i=1
(yi − yi)2 +
n∑i=1
(yi − y)2
I O seaSCT = SCE + SCR
I Si dividimos ambos términos de la igualdad entre SCT,tenemos
1 =SCESCT
+SCRSCT
El coeficiente de Determinación R2
I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo
n∑i=1
(yi − y)2 =n∑
i=1
(yi − yi)2 +
n∑i=1
(yi − y)2
I O seaSCT = SCE + SCR
I Si dividimos ambos términos de la igualdad entre SCT,tenemos
1 =SCESCT
+SCRSCT
El coeficiente de Determinación R2
I El Coeficiente de Determinación del modelo se denota R2
y se define como
R2 =SCRSCT
I Se calcula así
R2 =SCRSCT
= 1 − SCESCT
I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado
El coeficiente de Determinación R2
I El Coeficiente de Determinación del modelo se denota R2
y se define como
R2 =SCRSCT
I Se calcula así
R2 =SCRSCT
= 1 − SCESCT
I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado
El coeficiente de Determinación R2
I El Coeficiente de Determinación del modelo se denota R2
y se define como
R2 =SCRSCT
I Se calcula así
R2 =SCRSCT
= 1 − SCESCT
I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado
El coeficiente de Determinación Ajustado R2aj
I El Coeficiente de Determinación R2 crece con la adición denuevas variables
I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables
I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables
I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2
aj y sedefine así
R2aj = R2 n − 1
n − p
I El R2aj no necesariamente será mayor al aumentar el
número de variables en el modelo
El coeficiente de Determinación Ajustado R2aj
I El Coeficiente de Determinación R2 crece con la adición denuevas variables
I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables
I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables
I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2
aj y sedefine así
R2aj = R2 n − 1
n − p
I El R2aj no necesariamente será mayor al aumentar el
número de variables en el modelo
El coeficiente de Determinación Ajustado R2aj
I El Coeficiente de Determinación R2 crece con la adición denuevas variables
I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables
I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables
I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2
aj y sedefine así
R2aj = R2 n − 1
n − p
I El R2aj no necesariamente será mayor al aumentar el
número de variables en el modelo
El coeficiente de Determinación Ajustado R2aj
I El Coeficiente de Determinación R2 crece con la adición denuevas variables
I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables
I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables
I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2
aj y sedefine así
R2aj = R2 n − 1
n − p
I El R2aj no necesariamente será mayor al aumentar el
número de variables en el modelo
El coeficiente de Determinación Ajustado R2aj
I El Coeficiente de Determinación R2 crece con la adición denuevas variables
I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables
I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables
I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2
aj y sedefine así
R2aj = R2 n − 1
n − p
I El R2aj no necesariamente será mayor al aumentar el
número de variables en el modelo
El estadístico Cp de Mallows
I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera
Cp =SCEσ2 − (n − 2p)
I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p
I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap
I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p
El estadístico Cp de Mallows
I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera
Cp =SCEσ2 − (n − 2p)
I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p
I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap
I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p
El estadístico Cp de Mallows
I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera
Cp =SCEσ2 − (n − 2p)
I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p
I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap
I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p
El estadístico Cp de Mallows
I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera
Cp =SCEσ2 − (n − 2p)
I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p
I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap
I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p
El criterio de información de Akaike (AIC)
I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:
AIC = −nlog(
SCEn
)+ 2p
I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones
I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos
I Este criterio no tiene una cota, por lo que es útil en términosrelativos
I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)
El criterio de información de Akaike (AIC)
I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:
AIC = −nlog(
SCEn
)+ 2p
I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones
I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos
I Este criterio no tiene una cota, por lo que es útil en términosrelativos
I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)
El criterio de información de Akaike (AIC)
I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:
AIC = −nlog(
SCEn
)+ 2p
I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones
I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos
I Este criterio no tiene una cota, por lo que es útil en términosrelativos
I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)
El criterio de información de Akaike (AIC)
I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:
AIC = −nlog(
SCEn
)+ 2p
I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones
I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos
I Este criterio no tiene una cota, por lo que es útil en términosrelativos
I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)
El criterio de información de Akaike (AIC)
I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:
AIC = −nlog(
SCEn
)+ 2p
I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones
I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos
I Este criterio no tiene una cota, por lo que es útil en términosrelativos
I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)
El criterio de información de Bayesiano (BIC)
I Y otra alternativa es el BIC, definido así:
BIC = −nlog(
SCEn
)+ log(n)p
I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,
por lo que el BIC tiene una penalización más fuerte que elAIC
I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC
El criterio de información de Bayesiano (BIC)
I Y otra alternativa es el BIC, definido así:
BIC = −nlog(
SCEn
)+ log(n)p
I Este criterio es una variación del anterior
I Al término de la derecha se le conoce como “penalización”,por lo que el BIC tiene una penalización más fuerte que elAIC
I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC
El criterio de información de Bayesiano (BIC)
I Y otra alternativa es el BIC, definido así:
BIC = −nlog(
SCEn
)+ log(n)p
I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,
por lo que el BIC tiene una penalización más fuerte que elAIC
I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC
El criterio de información de Bayesiano (BIC)
I Y otra alternativa es el BIC, definido así:
BIC = −nlog(
SCEn
)+ log(n)p
I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,
por lo que el BIC tiene una penalización más fuerte que elAIC
I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC
Contenido
Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2
El coeficiente de Determinación Ajustado R2aj
El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)
El problema de la selección de variables
La prueba F-parcial
La bibliografía
El problema de la selección de variables
I El problema de la selección de variables es en realidad unproblema de selección de modelos
I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables
I Este será nuestro interés a partir de este momento
El problema de la selección de variables
I El problema de la selección de variables es en realidad unproblema de selección de modelos
I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables
I Este será nuestro interés a partir de este momento
El problema de la selección de variables
I El problema de la selección de variables es en realidad unproblema de selección de modelos
I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables
I Este será nuestro interés a partir de este momento
El problema de la selección de variables
I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación
I ¿Por qué usar menos variables?
I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores
El problema de la selección de variables
I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación
I ¿Por qué usar menos variables?
I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores
El problema de la selección de variables
I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación
I ¿Por qué usar menos variables?I The simpler, the better
I Es menos posible que se presente “colinealidad”I Los costos son menores
El problema de la selección de variables
I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación
I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”
I Los costos son menores
El problema de la selección de variables
I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación
I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores
El problema de la selección de variables
I Antes de escoger variables asegúrese de:
I Identificar atípicos y si es del caso excluirlos, al menostemporalmente
I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente
I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.
I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmente
I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente
I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.
I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al
menos temporalmente
I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.
I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al
menos temporalmenteI Si planea o necesita introducir algún tipo de transformación
de los datos, hacerlo con anticipación.
I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al
menos temporalmenteI Si planea o necesita introducir algún tipo de transformación
de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar
asociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al
menos temporalmenteI Si planea o necesita introducir algún tipo de transformación
de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar
asociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al
menos temporalmenteI Si planea o necesita introducir algún tipo de transformación
de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar
asociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos
temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al
menos temporalmenteI Si planea o necesita introducir algún tipo de transformación
de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar
asociado con la naturaleza de sus variables y del problemaque tiene
I Los métodos de selección eligen modelos que sonestadísticamente preferibles
I Pero estos modelos pueden no ser los mejores para suproblema
I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio
El problema de la selección de variables
I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos
I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar
su modeloI Documéntese: use la literatura para elegir su modelo, pero
no se case con unoI Si le es posible, pruebe con varios modelos y elija el más
sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad
(multiplicidad de modelos)
El problema de la selección de variables
I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos
I Si tiene pocos datos, evite modelos complejos
I Si le es posible, conserve algunos de sus datos para validarsu modelo
I Documéntese: use la literatura para elegir su modelo, perono se case con uno
I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.
I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)
El problema de la selección de variables
I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos
I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar
su modelo
I Documéntese: use la literatura para elegir su modelo, perono se case con uno
I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.
I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)
El problema de la selección de variables
I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos
I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar
su modeloI Documéntese: use la literatura para elegir su modelo, pero
no se case con uno
I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.
I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)
El problema de la selección de variables
I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos
I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar
su modeloI Documéntese: use la literatura para elegir su modelo, pero
no se case con unoI Si le es posible, pruebe con varios modelos y elija el más
sencillo si todos producen resultados similares.
I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)
El problema de la selección de variables
I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos
I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar
su modeloI Documéntese: use la literatura para elegir su modelo, pero
no se case con unoI Si le es posible, pruebe con varios modelos y elija el más
sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad
(multiplicidad de modelos)
Contenido
Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2
El coeficiente de Determinación Ajustado R2aj
El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)
El problema de la selección de variables
La prueba F-parcial
La bibliografía
Prueba F-parcial
I En lo sucesivo diremos que p es el número de parámetrosβ del modelo
I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1
I Consideremos dos modelos anidados
yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)
Prueba F-parcial
I En lo sucesivo diremos que p es el número de parámetrosβ del modelo
I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1
I Consideremos dos modelos anidados
yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)
Prueba F-parcial
I En lo sucesivo diremos que p es el número de parámetrosβ del modelo
I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1
I Consideremos dos modelos anidados
yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)
Prueba F-parcial
I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k
I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)
I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <
SCEk
I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"
Prueba F-parcial
I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k
I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)
I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <
SCEk
I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"
Prueba F-parcial
I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k
I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)
I Y sea SCEq, la suma para el modelo (2)
I Como el modelo (2) tiene más variables, entonces SCEq <SCEk
I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"
Prueba F-parcial
I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k
I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)
I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <
SCEk
I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"
Prueba F-parcial
I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k
I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)
I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <
SCEk
I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"
Prueba F-parcial
I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa
I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba
F =
(SCEk−SCEq)(q−k)SCEq
(n−(q+1))
(3)
I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad
I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo
Prueba F-parcial
I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa
I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba
F =
(SCEk−SCEq)(q−k)SCEq
(n−(q+1))
(3)
I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad
I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo
Prueba F-parcial
I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa
I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba
F =
(SCEk−SCEq)(q−k)SCEq
(n−(q+1))
(3)
I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad
I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo
Prueba F-parcial
I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa
I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba
F =
(SCEk−SCEq)(q−k)SCEq
(n−(q+1))
(3)
I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad
I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo
Contenido
Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2
El coeficiente de Determinación Ajustado R2aj
El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)
El problema de la selección de variables
La prueba F-parcial
La bibliografía
Bibliografía
Draper y Smith (1998), Applied Regression Analysis, 3ra. edn, JohnWiley & Sons, New York, NY.
Faraway, J. J. (2004), Linear Models with R, Chapman & Hall/CRC,London.
Top Related