AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos:...

53
18/06/2010 1 REGRESIÓN LINEAL MULTIVARIADA Fortino Vela Peón [email protected] Juan F. Islas Aguirre [email protected] Junio, 2010 TALLERES DE VERANO EN MÉTODOS DE INVESTIGACIÓN EN POBLACIÓN Y TERRITORIO F. VELA / J. F. ISLAS Descripción En este curso se desarrollan técnicas de regresión lineal que permiten cuantificar relaciones entre variables, contrastar hipótesis y predecir valores futuros de ciertas variables en función del modelo considerado. El curso tiene un carácter aplicado y se aprende a utilizar Stata. F. VELA / J. F. ISLAS Objetivos Ofrecer los elementos básicos vinculados a las técnicas de regresión lineal simple y múltiple Dotar del manejo básico del Stata para poder llevar a cabo un análisis empírico basado en los conocimientos teóricos adquiridos.

Transcript of AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos:...

Page 1: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

1

REGRESIÓN LINEAL MULTIVARIADA

Fortino Vela Peó[email protected]

Juan F. Islas [email protected]

Junio, 2010

TALLERES DE VERANO EN MÉTODOS DE INVESTIGACIÓNEN POBLACIÓN Y TERRITORIO

F. VELA / J. F. ISLAS

Descripción

� En este curso se desarrollan técnicas deregresión lineal que permiten cuantificarrelaciones entre variables, contrastar hipótesis ypredecir valores futuros de ciertas variables enfunción del modelo considerado.

� El curso tiene un carácter aplicado y se aprendea utilizar Stata.

F. VELA / J. F. ISLAS

Objetivos

� Ofrecer los elementos básicos vinculados a lastécnicas de regresión lineal simple y múltiple

� Dotar del manejo básico del Stata para poderllevar a cabo un análisis empírico basado en losconocimientos teóricos adquiridos.

Page 2: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

2

F. VELA / J. F. ISLAS

TemarioTema Contenido

1 Conceptos básicos2 Modelo de Regresión Lineal Simple3 Modelo de Regresión Lineal Múltiple4 El Modelo de Regresión Lineal Simple y Múltiple con Stata5 Contrastes de restricciones lineales y predicción6 Errores en la especificación7 Multicolinealidad8 Variables cualitativas9 Diagnóstico del modelo

F. VELA / J. F. ISLAS

Tema 1. Conceptos básicos

1.- Introducción.

2.- ¿Qué es el análisis de regresión (lineal)?

3.- Preeliminares estadísticos.

4.- Análisis de datos: introducción a Stata

F. VELA / J. F. ISLAS

Tema 2. Modelo de regresión linealsimple (MRLS)

1.- Introducción.2.- Elementos del modelo de regresión simple.3.- Supuestos del modelo.4.- Estimación por mínimos cuadrados

ordinarios.5.- Contrastes de hipótesis e intervalos de

confianza.6.- Resumen y ejemplos.

Page 3: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

3

F. VELA / J. F. ISLAS

Tema 4. MRLS y MRLM con Stata

1. Ejemplo2. Estimación por mínimos cuadrados ordina-

rios utilizando Stata3. Análisis de los resultados mostrados4. Bondad de ajuste y selección de modelos5. Contrastes de hipótesis e intervalos de

confianza con Stata.6. Presentación de los resultados.

F. VELA / J. F. ISLAS

Tema 5. Contrastes de restriccioneslineales y predicción

1.- Contrastes de restricciones lineales.

2.- Contrastes utilizando Stata.

3.- Estimación bajo restricciones lineales.

4.- Estadísticos equivalentes.

5.- Predicción.

F. VELA / J. F. ISLAS

Tema 6. Errores de especificación

1.- Introducción.2.- Efectos de omisión de variables relevan-

tes.3.- Efectos de inclusión de variables irrele-

vantes.

Page 4: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

4

F. VELA / J. F. ISLAS

Tema 7. Multicolinealidad

1.- Multicolinealidad perfecta.

2.- Multicolinealidad de grado alto.

3.- Identificación con Stata.

F. VELA / J. F. ISLAS

Tema 8. Variables cualitativas

1.- Introducción. Un ejemplo.

2.- Modelo con una variable cualitativa.

3.- Modelo con dos o más variables cualita-

tivas.

4.- Contraste de cambio estructural.

5.- Implementación en Stata.

F. VELA / J. F. ISLAS

Tema 9. Diagnóstico del modelo

1.- Introducción. Un ejemplo.

2.- Modelo con una variable cualitativa.

3.- Modelo con dos o más variables cualita-

tivas.

4.- Contraste de cambio estructural.

5.- Implementación en Stata.

Page 5: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

5

F. VELA / J. F. ISLAS

BibliografíaJames y Mark W. Watson (2002).Introduction to Econometrics ,Addison-Wesley-Pearson, EstadosUnidos. 330.18 / S8642inhttp://wps.aw.com/aw_stock_ie_2/50/13016/3332253.cw/index.html

Kutner Michael H. et. al. (2005).Applied Linear Statistical Models ,5ª. ed., McGraw-Hill, Singapur.https://netfiles.umn.edu/users/nacht001/www/nachtsheim/5th/

Gujarati, Damodar y Dawn Porter(2010). Econometría , 5ª. ed.,McGraw-Hill, México. 330.18/G969e/1997http://highered.mcgraw-hill.com/sites/0073375772/student_view0/data_sets.html

Fox, John (2008). AppliedRegression Analysis andGeneralized Linear Models , 2ª.ed., Sage, Estados Unidos.http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/index.html

Bowerman, Bruce L.; Richard T.O’Connell et al. (2007).Pronósticos, series de tiempo yregresión: Un enfoque aplicado ,CENGAGE, México.http://www.cengage.com.mx/Book_detail.php?ISBN=9789706866066

F. VELA / J. F. ISLAS

Metodología� Se pone a disposición de los alumnos un conjunto

de notas o lecturas que apoyan los contenidos delcurso.

� mregresion.wordpress.com

� Preferentemente se emplearan datos disponiblespara su utilización en el programa Stata.

F. VELA / J. F. ISLAS

Bases de datos� Applied Regression, Generalized Linear Models,

and Related Methods, Second Edition

� http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/index.html

� Procedimiento:1. Entrar a la pagina.2. Guardar el archivo con extensión “.txt”3. Agregar, si fuese necesario, la etiqueta de la variable

“id” para el identificador.4. Utilizar el comando insheet de la siguiente manera

insheet using “ LOCALIZACIÓN/ ARCHIVO.txt",clear

Page 6: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

6

F. VELA / J. F. ISLAS

Tema 1. Conceptos básicos

F. VELA / J. F. ISLAS

F. VELA / J. F. ISLAS

Page 7: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

7

F. VELA / J. F. ISLAS

F. VELA / J. F. ISLAS

Clasificación de las variables

� Nivel de medición

� Escala de medición

� Función en la investigación

� Grado de abstracción

Discretas

Continuas

NominalesOrdinalesIntervaloContinuas

Dependiente(s)

Independiente(s)

Conceptuales o abstractasIntermediasEmpíricas u observables

F. VELA / J. F. ISLAS

Escalas de medición de las variables

� Nominales: nombres o clasificaciones que se utilizanpara datos en categorías distintas y separadas.

� Ordinales: son las que clasifican las observaciones encategorías con un orden significativo.

� Intervalo: medidas numéricas en la cual el valor cero esarbitrario pero la diferencia entre valores es importante.

� Razón: medidas numéricas en las cuales el valor cero esun valor fijo y la diferencia entre valores es importante.

Page 8: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

8

F. VELA / J. F. ISLAS

¿Qué es el análisis de regresión?

� Es una metodología estadística que es utiliza la

relación entre dos o más variables, de manera tal

que la variable de respuesta o de resultado, puede

ser predecida a partir de otra(s) variable(s).

� Es una herramienta utilizada en distintas áreas del

conocimiento.

� Sirve también como medio en la contrastación de

hipótesis y/o teorías con la realidad a través de

modelos estadísticos.

F. VELA / J. F. ISLAS

Análisis de regresión

� Relación funcional vs relación estadística.

� Linealidad vs no linealidad

� Selección de variables predictoras.

� Forma funcional.

F. VELA / J. F. ISLAS

Estrategia del análisis de regresión

Fuente: Kutner et. al (2005:14)

Page 9: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

9

F. VELA / J. F. ISLAS

Tipo de datos� Corte transversalUn conjunto dedatos de unamuestra deindividuos, hogares,empresas, ciudades,estados o paísestomados en unpunto del tiempo enparticular.

Observación SALA EDUCA EXPER SEXO EDO

1 3.10 11 2 1 0

2 3.24 12 22 1 1

3 3.00 11 44 0 0. ..

525 11.56 16 5 0 0

526 3.50 8 7 1 0

O b s e rv a c ió n A ñ o S A L A E D U C A E X P E R S E X O E D O

1 1 9 5 0 3 .1 0 1 1 2 1 0

2 1 9 5 1 3 .2 4 1 2 2 2 1 1

3 1 9 5 2 3 .0 0 1 1 4 4 0 0. . . . . . .. . . . . . .. . . . . . .

5 0 1 9 9 9 1 1 .5 6 1 6 5 0 0

5 1 2 0 0 0 3 .5 0 8 7 1 0

� Serie de tiempo

Observaciones dedistintas variablesefectuadas en eltiempo.

F. VELA / J. F. ISLAS

� Panel

Es la combinaciónde datos de cortetransversal condatos en series detiempo donde tienencomo característicaprincipal que lasunidades deobservación sonsiempre los mismos.

Observación Año PRECASA ANTI CUARTOS AREA

1 1993 85,500 42 3 1

2 1993 67,300 36 3 0

3 1993 134,000 10 4 1. . . . . .. . . . . .. . . . . .

250 1993 243,600 4 4 0

251 1995 65,000 44 3 1252 1995 182,400 38 3 0

. . . . . .

. . . . . .

. . . . . .520 1995 57,200 16 4 0

F. VELA / J. F. ISLAS

� Stata es una herramienta computacional diseñada para realizar

análisis estadístico la cual fue creada en 1985 por StataCorp.

� El denominativo de Stata es una abreviación de las palabras

“Statistics" y "data ".

� Actualmente es utilizado tanto en instituciones académicas como

en empresas donde sus usuarios se ubican en las áreas de la

economía, sociología, ciencia política, ciencias de la salud y

epidemiología.

Page 10: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

10

F. VELA / J. F. ISLAS

� Sus capacidades incluyen :

- Manejo y organización de datos

- Graficación.

- Análisis estadístico .

- Simulación.

- Programación de tareas.

F. VELA / J. F. ISLAS

• Actualmente, en el mercado se

encuentra la versión 11.

• Su lenguaje computacional es C.

• Existen versiones para

plataformas en Windows, Mac,

UNIX y LINUX.

F. VELA / J. F. ISLAS

Tema 2. El modelo de regresión lineal simple (MRSL)

Page 11: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

11

F. VELA / J. F. ISLAS

Temas� Modelo de regresión lineal simple.� Estimaciones puntuales de los mínimos

cuadrados.� Estimaciones puntuales y predicciones

puntuales.� Suposiciones del modelo y el error estándar.� Prueba de significancia individual para la

pendiente y la ordenada al origen.� Intervalos de confianza y de predicción.� Coeficientes de determinación y correlación

simples.� Una prueba F para el modelo.

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

� Requisitos básicos:

i) las variables dependiente (y) e independiente(x) son métricas;

ii) la relación entre la variable dependiente (y) yla variable independiente (x) esaproximadamente en forma de una línearecta.

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

Diagramade

dispersión

100

200

300

400

500

600

wor

k

2 0 40 6 0 80 1 0 0 1 20lot

observamos: - tendencia positiva- puntos dispersos alrededor de la línea

Fuente: Kutner et. al. (2005:19).

Page 12: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

12

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

Diagramade

dispersión

100

200

300

400

500

600

2 0 4 0 6 0 80 1 0 0 1 20lot

w o rk F it te d v alue s

Fuente: Kutner et. al. (2005:19).

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

Diagramade

dispersión

05

01

001

502

00m

ort

alit

y

0 1 00 0 0 20 0 00 3 0 00 0 4 00 0 0g n pp c

Fuente: Fox (2008: 62).

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

y = µy|x + ε = β0 + β1x + εdonde

µy|x = β0 + β1x es el valor medio de la variable dependiente y

cuando el valor de la variable independiente es x.

β0 = ordenada al origen (valor medio de y cuando x = 0)

β1 = pendiente (∆ valor medio de y cuando ↑ x una unidad)

ε es un término de error: describe los efectos de todos losfactores no incluidos en el modelo

Page 13: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

13

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

� Si β0 = 62.37 y β1 = 3.57, entonces cuandolot = 60, el valor medio estimado de horastrabajadas

µy|x = β0 + β1x = 62.36586 + 3.570202(65)

= 294.4 horas trabajadas.

F. VELA / J. F. ISLAS

Modelo de regresión lineal simple

� β0 y β1 se llaman parámetros de regresión.� Ya que no conocemos los valores reales deβ0 y β1 , debemos estimarlos con los datos dela muestra.

� La interpretación de β0 en ocasiones no esaplicable.

� Importante: observamos que estas variablesse mueven juntas, mas no podemos deducirclaramente una relación causa-efecto.

F. VELA / J. F. ISLAS

Estimaciones puntuales de los mínimos cuadrados� Estimación puntual de los mínimos cuadrados de la pendiente β1

( )( )

( ) ( )∑ ∑

∑ ∑ ∑ ∑

=−=

−=−−=

=

n

xxxSS

yn

yxyxyyxxSS

donde

SS

SSb

iixx

iiiiiixy

xx

xy

2

2

1

Page 14: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

14

F. VELA / J. F. ISLAS

Estimaciones puntuales y predicciones puntuales

� Estimación puntual del valor medio de la variable dependiente cuando el valor de la variable independiente es x0

� se predice ε = 0

010ˆ xbby +=

F. VELA / J. F. ISLAS

Estimaciones puntuales y predicciones puntuales

� Se puede demostrar que estas estimaciones puntualesdan un valor de la suma de los errores cuadráticos(SSE) que es menor que la que se obtiene concualesquiera otros valores de b0 y b1. Se les llamanestimaciones puntuales de los mínimos cuadrados.

� La recta se llama recta de regresión de mínimoscuadrados

� La ecuación se llama ecuación de predicción demínimos cuadrados.

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error estándar

� Suposiciones1. A cualquier valor dado de x, la media de la población de los

valores potenciales del término error es igual a cero .2. Suposición de varianza constante . A cualquier valor dado

de x, ε tiene una varianza que no depende del valor de x. 3. Suposición de normalidad . A cualquier valor dado de x, ε

tiene una distribución normal.4. Suposición de independencia . Cualquier valor del término

error ε es estadísticamente independiente de cualquier otro valor de ε.

Page 15: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

15

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error estándar� En otras palabras

— dado un valor de x, la población de valores potencialesdel término de error tiene una distribución normal, convalor medio 0 y varianza σ2 que no depende de x.

— La población de valores potenciales de y|x tienedistribución normal con valor medio de β0 + β1x yvarianza σ2 que no depende de x.

— Es más probable que la suposición de independencia seviole cuando se utilizan series de tiempo en un estudiode regresión.

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error estándar� Error cuadrático medio = estimación puntual

de σ2

� error estándar = estimación puntual de σ2

2

−=

n

SSEs

2−=

n

SSEs

( )∑ ∑ ∑ ∑= = = =

+−=−=n

i

n

i

n

i

n

iiiiiii yxbybyyySSE

1 1 1 110

22ˆ

vary|x

F. VELA / J. F. ISLAS

Prueba de la significancia de la pendiente y la ordenada al origen

� Hipótesis nula: β1 = 0

� nivel de significancia α (0.10, 0.05, 0.01)

� los valores p se basan en n-2 grados de libertad

� Se rechaza la hipótesis nula si se cumple la condición de punto de rechazo de alguna de las hipótesis alternativas, o si p < α

Page 16: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

16

F. VELA / J. F. ISLAS

Prueba de la significancia de la pendiente y la ordenada al origen

� Si se cumplen los supuestos de la regresión, entonces la población de todos los valores posibles de b1 es normalmente distribuida con valor medio β1 y desviación estándar

cuya estimación puntual es

xx

bSS

σσ =1

xx

bSS

ss =

1

F. VELA / J. F. ISLAS

Prueba de la significancia de la pendiente y la ordenada al origen

y la población de todos los valores posibles de la estadística de prueba t

tiene una distribución t con n – 2 grados de libertad.

1

1

bs

bt =

F. VELA / J. F. ISLAS

Prueba de la significancia de la pendiente y la ordenada al origen

Hipótesis alternativa

Condición de punto de rechazo

Valor p

Ha : β1 ≠ 0 2 × (área bajo la curva t a la derecha de |t|)

Ha : β1 > 0 área bajo la curva t a la derecha de t

Ha : β1 < 0 área bajo la curva t a la izquierda de t

[ ])2(

2/|| −> ntt α

[ ]( )2−> ntt α

[ ]( )2−−< ntt α

Page 17: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

17

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

� Si se cumplen las suposiciones de la regresión, un intervalo de confianza de 100(1-α)% para la pendiente verdadera β1 es

[ ]( )[ ]

1

22/1 b

n stb −± α

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

� Si se cumplen las suposiciones de la regresión,un valor de distancia (v.d.) para un valorparticular x0 de x (para la regresión lineal simple)es

( )xxSS

xx

ndv

201

..−+=

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

� Si se cumplen las suposiciones de la regresión,un intervalo de confianza de 100(1-α)% para elvalor medio de y cuando la variableindependiente es x0 es

[ ]( ) ..ˆ 2

2/ dvsty n−± α

Page 18: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

18

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

� La población de todos los errores posibles depredicción está normalmente distribuida con mediacero y desviación estándar

σ√1 + valor de distancia

� La estimación puntual es

s√1 + valor de distancia

� Se llama error estándar del error de predicción

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

� Si se cumplen las suposiciones de la regresión,un intervalo de predicción 100(1-α)% para unvalor individual de y cuando la variableindependiente es x0 es

[ ]( ) ..1ˆ 2

2/ dvsty n +± −α

F. VELA / J. F. ISLAS

Intervalos de confianza y de predicción

� Nótese que el intervalo de predicción es mayorque el intervalo de confianza: mayorincertidumbre acerca del término de error.

� Entre más alejado del valor medio es xi, mayoresson los intervalos de confianza y de predicción.

Page 19: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

19

F. VELA / J. F. ISLAS

Coeficientes de determinación y correlación simples

� En el caso del modelo de regresión lineal simple,1. Variación total = Σ(yi-y)2

2. Variación explicada = Σ(yi-y)2

3. Variación inexplicada = Σ(yi-yi)2

4. Variación total = Variación explicada + Variación inexplicada

5. El coeficiente de determinación simple es r2 = (variación explicada)/(variación total)

6. El r2 es la proporción de la variación total en los n valores observados de la variable dependiente que explica el modelo de regresión lineal simple

F. VELA / J. F. ISLAS

Coeficientes de determinación y correlación simplesCoeficiente de correlación simple (r) entre y y x

� si b1 > 0

� si b1 < 0

� donde b1 es la pendiente de la recta de mínimos cuadrados que relaciona y con x. Este coeficiente de correlación mide la fuerza de la relación lineal entre y y x.

2

2

rr

rr

−=

+=

F. VELA / J. F. ISLAS

Coeficientes de determinación y correlación simples

� También se puede calcular mediante lafórmula

yyxx

xy

SSSS

SSr =

Page 20: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

20

F. VELA / J. F. ISLAS

Coeficientes de determinación y correlación simples

� La correlación de la población de todas lascombinaciones posibles de valores observadosde x e y se denomina ρ.

� Para probar la hipótesis nula H0: ρ = 0,utilizamos la estadística de prueba

21

2

r

nrt

−−=

F. VELA / J. F. ISLAS

Prueba F para el modelo�Estadística F global

Variación inexplicadaF(modelo) =

(Variación explicada)/(n-2)

�Podemos rechazar H0:β1=0 y aceptar Ha: β1≠0 en el nivel de significan-

cia α si se cumple alguna de:

�F(modelo)>F[α]

�Valor p < α

�En el punto F[α] se basa en 1 grado de libertad para el numerador y n-2

grados de libertad para el denominador.

F. VELA / J. F. ISLAS

Tema 3. Modelo de regresiónlineal múltiple (MRLS)

Page 21: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

21

Modelo de Regresión Lineal Múltiple

� Se emplean más de una variable independiente.

� Relaciona y con x1, x2, ..., xk

� Modelo:

εββββεµ +++++=+= kkxxxy xxxyk

L22110,...,,| 21

� Valor medio de y cuando los valores de las variables independientes son x1, x2, ..., xk :

� Parámetros: β0, β1, β2, ..., βk

� Término de error: ε

εββββµ +++++== kkxxxy xxxyk

L22110,...,,| 21

� Suposiciones del modelo de regresión lineal:

1. Para cualquier combinación dada de valores de x1, x2, ..., xk , la media de la población de los valores potenciales de ε = 0.

2. Varianza constante del error.3. Normalidad de errores.4. Independencia de los errores.5. Ninguna relación entre las variables independientes.

Page 22: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

22

F. VELA / J. F. ISLAS

Ejemplo

El gerente de una compañía desea evaluar el desempeñode su fuerza de ventas en el territorio de actuación.Recopila información sobre cinco variables, que según sucriterio, podrían ejercer alguna influencia sobre las ventas.Tomando una muestra aleatoria de 25 vendedores, seplantea el siguiente modelo de regresión lineal:

0 1 1 2 ´2 3 3 4 ´4 5 ´5i i i i i i iy x x x x xβ β β β β β ε= + + + + + +

F. VELA / J. F. ISLAS

y= ventas anuales en miles de dólares (sales ).

x1= número de meses de empleado en la compañía (time ).

x2= ventas del producto de la compañía y productos de lacompetencia en el territorio (mktpoten ).

x3= gasto en publicidad (adver ).

x4 = promedio ponderado de la participación en el mercadode la compañía en el territorio en los últimos cuatro años(mktshare ).

x5=cambio en la participación en el mercado de la compañíaen el territorio en los últimos cuatro años (change ).

ε= termino de error aleatorio.

Interpretación geométrica del modelo de regresión

� Región experimental: combinaciones de los valores

observados de x1, x2, ..., xk

� Plano de medias

Page 23: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

23

� Los parámetros relacionan la media de la variable dependiente con las variables independientes en un sentido global.

� β0 : ordenada al origen (valor de y cuando x1=x2=…xk=0).

� βi : cambio en la variable dependiente asociado con el incrementode una unidad de la variable xi manteniendo las k-1 variablesrestantes sin cambio alguno (∀ i=1,2,...,k-1).

Interpretación de los parámetros deregresión β0, β1,..., βk

Estimación de mínimos cuadrados: estimación puntual y predicción

� Estimación puntual del valor medio y de un valorindividual de la variable dependiente y cuando losvalores de las variables independientes son x01, x02,..., x0k .

� Se predice ε = 0

� Esta ecuación se llama la ecuación de regresión o depredicción de mínimos cuadrados

kkxbxbxbby 00220110ˆ ++++= L

Estimadores MCO utilizando algebra matricial

1ˆ ( ' ) 'X X X Yβ −=

11 1

12 2

1

1 ...

1 ...

... ... ... ...

1 ...

k

k

n kn

x x

x xX

x x

=

1

2

...

n

y

yY

y

=

0

1ˆ...

k

ββ

β

β

=

donde donde

Page 24: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

24

F. VELA / J. F. ISLAS

Ejemplo 4.2Matriz de diagramas de dispersión

sa les

tim e

m k tpoten

adv er

m k tshare

2 00 0

4 00 0

6 00 0

2 00 0 4 000 60 00

0

2 00

4 00

0 20 0 4 00

2 00 00

4 00 00

6 00 00

8 00 00

2 00 00 40 000 6 000 0 8 00 00

0

5 00 0

1 00 00

0 5 000 1 00 00

0

5

1 0

1 5

0 5 1 0 1 5

F. VELA / J. F. ISLAS

Estimadores MCO Source | SS df MS Number of obs = 25 -------------+------------------------------ F( 5, 19) = 40.91 Model | 37862661 5 7572532.21 Prob > F = 0.0000 Residual | 3516890.29 19 185099.489 R-squared = 0.9150 -------------+------------------------------ Adj R-squared = 0.8926 Total | 41379551.3 24 1724147.97 Root MSE = 430.23 --------------------------------------------------- --------------------------- sales | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- time | 3.612101 1.1817 3.06 0.0 06 1.138775 6.085428 mktpoten | .0420881 .0067312 6.25 0.0 00 .0279995 .0561767 adver | .1288568 .0370361 3.48 0.0 03 .0513393 .2063742 mktshare | 256.9556 39.13607 6.57 0.0 00 175.0428 338.8683 change | 324.5335 157.2831 2.06 0.0 53 -4.663819 653.7308 _cons | -1113.788 419.8869 -2.65 0.0 16 -1992.621 -234.9546 --------------------------------------------------- ---------------------------

Error Cuadrático Medio y Error Estándar

� Una estimación puntual de σ2 es el error cuadrático medio:

� Una estimación puntual de σ es el error estándar:

2ˆSCE

n kσ =

ˆSCE

n kσ =

Page 25: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

25

F. VELA / J. F. ISLAS

Utilidad del Modelo: R2, R2 Ajustada y la Prueba F Global

� En el caso del modelo de regresión lineal múltiple,1. Variación total = 2. Variación explicada = 3. Variación inexplicada =4. Variación total = Variación explicada + Variación inexplicada5. El coeficiente de determinación múltiple es

R2 = (variación explicada)/(variación total)6. El R2 es la proporción de la variación total de los valores

observados de la variable dependiente que es explicada porlas variables independientes incluidas en el modelo deregresión.

7. Coeficiente de correlación múltiple: R = √R2

( )2

iY Y−∑( )2

iY Y−∑( )2ˆ

i iY Y−∑

� R2 Ajustada

donde

R2 es el coeficiente de determinación múltiplen es la cantidad de observaciones y k es la cantidad de coeficientes estimados en el modelo

2 2 1 1

1

k nR R

n n k

− − = − − −

Prueba F de significancia global

� H0: β0 = β1 = β2 =... = βk = 0

� Ha: por lo menos uno de los β0, β1, β2, ..., βk ≠ 0

� Estadística F global:

( )( ) [ ]

_exp /( 1)(mod )

_ exp /

Variación licada kF elo

Variación in licada n k

−=

Page 26: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

26

� Se puede rechazar H0 y aceptar Ha en el nivel de significancia α si se mantiene alguna de las condiciones siguientes:

� Estadística F (modelo) > F[α]

donde el punto F[α] se basa en k-1 grados de libertad para el numerador y n-k para el denominador.

� valor p (de F) < α

Prueba de significancia individual� Defina la estadística de una prueba

y asuma que las suposiciones de regresión se mantienen.

ˆ( )j

j

b

bt

eeσ=

Hipótesis alternativa

Condición de punto de rechazo Valor p

Ha : βj ≠ 0 2 × (área bajo la curva t a la derecha de |t|)

Ha : βj > 0 área bajo la curva t a la derecha de t

Ha : βj < 0 área bajo la curva t a la izquierda de t

[ ]( ))1(2/|| +−> kntt α

[ ]( )( )1+−> kntt α

[ ]( )( )1+−−< kntt α

Page 27: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

27

Intervalo de Confianza para βj

� Si se cumplen las suposiciones de la regresión,

un intervalo de confianza de 100(1-α)% para el

parámetro de regresión βj es

[ ]( )

/ 2ˆ ˆ( )n k

j jt eeαβ β− ±

Intervalos de Confianza para valores esperados y de predicción� Para calcular el valor de distancia en un modelo

de regresión múltiple, se requiere de álgebra de matrices.

� Valor de distancia.

' 10 0( ' )x X X x−=Valor de distancia

[ ]01 02 01 ... kx x xx0=donde

� Si se cumplen las suposiciones de la regresión,un intervalo de confianza de 100(1-α)% para elvalor medio de y cuando los valores de lasvariables independientes son x01, x02, ..., x0k es

[ ]( )

/ 2ˆ ˆ . .n ky t v dα σ−±

Page 28: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

28

� Si se cumplen las suposiciones de la regresión,un intervalo de predicción 100(1-α)% para unvalor individual de y cuando los valores de lasvariables independientes son x01, x02, ..., x0k es

[ ]( )

/ 2ˆ 1 . .n ky t s v dα

−± +

F. VELA / J. F. ISLAS

Tópicos

� Modelo de regresión cuadrática.

� Términos de interacción.

� Uso de variables ficticias para modelar variables independientes cualitativas.

Modelo de regresión cuadrática

� El modelo de regresión cuadrática que relaciona y con x es: εβββ +++= 2

210 xxy

µy|x µy|x µy|x

µy|x µy|x µy|x

x x x

x x x

Page 29: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

29

Interacción� Se introduce un término de interacción cuando

se cree que una variable (xi) influye en la

relación entre otra variable (xj) independiente y

la variable dependiente, y.

εββββ ++++= 21322110 xxxxy

F. VELA / J. F. ISLAS

Uso de variables ficticias para modelar variables independientes cualitativas

� Cuando se quiere incluir una variable cualitativa, se pueden utilizar variables ficticias (variables indicadoras, dummies).

� Toman el valor de 1 o 0.

� Esta variable influye en el intercepto.

Ejemplo

La cadena de tiendas Sonny -que comercializaequipos de audio y video- desea conocer elimpacto que tiene sobre sus ventas, y, (enmiles de dólares), tanto el número de hogaresalrededor del área de las tiendas, x, (en miles),así como la ubicación de las tiendas, D, ya seaque estás se encuentren: i) en el centro de laciudad; ii) dentro de un centro comercial o, iii)fuera de un centro comercial (nótese que D esuna variable cualitativa).

Page 30: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

30

Para comparar el efecto de las tresubicaciones sobre las ventas, se plantea elsiguiente modelo:

0 1 2 3M Dy x D Dβ β β β ε= + + + +donde se define

1 si la tienda está en un centro comercial.DM=

0 en cualquier otra parte.

1 si la tienda se ubica en el centro de la ciudad.DD=

0 en cualquier otra parte.

0 1 2 3 0 1 2 3(1) (0)M Dy x D D xβ β β β β β β β= + + + = + + +

0 1 2 3 0 1 2 3(0) (0)M Dy x D D xβ β β β β β β β= + + + = + + +

Se deduce entonces que:1. Para las tiendas en la calle, el volumen mediode las ventas esta dado por:

( )0 2 1xβ β β= + +

0 1 2 3 0 1 2 3(0) (1)M Dy x D D xβ β β β β β β β= + + + = + + +( )0 3 1xβ β β= + +

2. En el caso de las tiendas ubicadas en el centrocomercial, el volumen medio de las ventas estadado por:

3. Las tiendas ubicadas en el centro de la ciudad,el volumen medio de las ventas esta dado por:

0 1xβ β= +

Interpretación geométrica del modelo:

Page 31: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

31

Source | SS df MS Number of obs = 15 -------------+------------------------------ F( 3, 11) = 275.07 Model | 33268.6975 3 11089.5658 Prob > F = 0.0000 Residual | 443.465035 11 40.3150032 R-squared = 0.9868 -------------+------------------------------ Adj R-squared = 0.9833 Total | 33712.1625 14 2408.01161 Root MSE = 6.3494 --------------------------------------------------- --------------------------- y | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- x | .8685884 .0404899 21.45 0.0 00 .7794707 .9577062 dm | 28.37376 4.461307 6.36 0.0 00 18.55449 38.19303 dd | 6.863778 4.770477 1.44 0.1 78 -3.635971 17.36353 _cons | 14.97769 6.188446 2.42 0.0 34 1.357012 28.59837 --------------------------------------------------- ---------------------------

DM DDxy 864.6374.2886859.0978.14ˆ +++=

Prueba F parcial: Prueba de lasignificancia de una parte de un modelode regresión� Permite probar la significancia de un subconjunto

seleccionado de las variables independientes.

� Sea, por ejemplo, el modelo

� Podría ser de interés saber si las variables x2 y x3 sonrelevantes en el modelo.

� H0: β2=β3=0Ha: por lo menos una de β2 y β3 ≠0

0 1 1 2 2 3 3y x x xβ β β β ε= + + + +

� Se puede pensar en términos de dos modelos rivales:

� Se busca establecer si:H0: β2=β3=0 vs. Ha: por lo menos una de β2 y β3 ≠0

0 1 1 2 2 3 3 cy x x xβ β β β ε= + + + +

0 1 1 Ry xβ β ε= + +

Modelocompleto

Modeloreducido

Page 32: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

32

� El estadístico de prueba esta dado por

donde

k= número de variables independientes del modelocompleto.

g= número de coeficientes del modelo reducido

� Rechazar Ho ssi F > F(α), o bien,Valor p(F) < α

[ ][ ]

( )/

/ ( 1)R C

C

SCE SCE k gF

SCE n k

− −=

− +

Para comparar el efecto de las tresubicaciones sobre las ventas, se plantea elsiguiente modelo:

εββββ ++++= DM DDxy 32110

DM DDxy 864.6374.2886859.0978.14ˆ +++=

esto es

Tema 7: Multicolinealidad

Page 33: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

33

Temas� Multicolinealidad.

� Comparación de los modelos de regresión. con base en R2, σ, R2 ajustada, longitud del intervalo de predicción y estadística Cp.

� Regresión por pasos y eliminación hacia atrás.

Multicolinealidad

� Las variables independientes están relacionadasentre sí o dependen una de otra.

� No se trata de un “problema” de presencia oausencia sino de grado.

� Cuando existe la multicolinealidad entre dos o másvariables independientes, la principal consecuenciaes que se dificulta o impide obtener estimacionesprecisas de los efectos individuales de cada variableindependiente sobre la dependiente.

� Infla los valores de los errores estándar de βjestimados.

Identificación de la multicolinealidad

� Son varias la formas que pueden utilizarse paraidentificar un alto grado de multicolinealidad.

� La más sencilla es utilizando la matriz decorrelación.

- La multicolinealidad es fuerte si por lo menos uno de loscoeficientes de correlación simple entre las variablesindependientes es mayor o igual a 0.9.

� Otra forma es a través de los factores deinflación de la varianza ó VIF.

� Existe también la “regla práctica”, el índice detolerancia (TOL), entre otros.

Page 34: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

34

De nuevo el ejemplo 4.2 (pp. 146 y 222).

El gerente de una compañía desea evaluar el desempeñode su fuerza de ventas en el territorio de actuación. Paraello, se agregan al análisis efectuado en el capitulo anterior,la información sobre tres variables adicionales (a las cincoya existentes), que según el criterio del gerente, podríanejercer alguna influencia sobre las ventas. La muestracontinua siendo de 25 vendedores, y ahora se plantea elsiguiente modelo de regresión lineal:

0 1 1 2 ´2 3 3 4 ´4 5 ´5i i i i i iy x x x x xβ β β β β β= + + + + +

6 6 7 ´7 8 ´8i i i ix x xβ β β ε+ + + +

y= sales .x1= time .x2= mktpoten .x3= adver .x4 = mktshare .x5 = change .x6= cantidad de cuentas que maneja el representante

(accts ).x7= carga de trabajo promedio (wkload ).x6= calificación sobre desempeño (rating ).ε= termino de error aleatorio.

(Ver tabla 5.1)

Matriz de correlación y valores p asociados (en Stata)

pwcorr ,sig star (.05) | sales time mktpoten adver mktshare change accts wkload rating -------------+------------------------------------- ---------------------------------------------- sales | 1.0000 | time | 0.6229* 1.0000 | 0.0009 | mktpoten | 0.5978* 0.4540* 1.0000 | 0.0016 0.0226 | adver | 0.5962* 0.2492 0.1741 1.0000 | 0.0017 0.2297 0.4052 | mktshare | 0.4835* 0.1062 -0.2107 0.2645 1.0000 | 0.0143 0.6133 0.3121 0.2014 | change | 0.4892* 0.2515 0.2683 0.3765 0.0855 1.0000 | 0.0131 0.2253 0.1947 0.0636 0.6846 | accts | 0.7540* 0.7578 * 0.4786* 0.2000 0.4030* 0.3274 1.0000 | 0.0000 0.0000 0.0155 0.3377 0.0458 0.1101 | wkload | -0.1172 -0.1793 -0.2588 -0.2722 0.3493 -0.2877 -0.1988 1.0000 | 0.5768 0.3911 0.2115 0.1880 0.0870 0.1632 0.3406 | rating | 0.4019* 0.1011 0.3587 0.4115* -0.0236 0.5493* 0.2286 -0.2769 1.0000 | 0.0464 0.6305 0.0783 0.0410 0.9110 0.0045 0.2717 0.1802

Observe que r accts,timepresenta un valor moderado

(instrucción en Stata)

Page 35: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

35

Factores de Inflación de la Varianza� Los factores de inflación de la varianza, FIV, (o

VIF) se definen como:

� Rj2 es el coeficiente de determinación múltiple

para el modelo que relaciona xj con el resto delas variables independientes (regresión auxiliar).

� Si Rj2=0 entonces VIFj = 1

21

1

jj R

VIF−

=

� La multicolinealidad es grave si:

1. el VIF más grande > 10

2. el VIF medio es sustancialmente > 1

Ejemplo 4.2. VIF y multicolinealidadregress sales time mktpoten adver mktshare change a ccts wkload rating Source | SS df MS Number of obs = 25 -------------+------------------------------ F( 8, 16) = 23.65 Model | 38153566.4 8 4769195.8 Prob > F = 0.0000 Residual | 3225984.94 16 201624.059 R-squared = 0.9220 -------------+------------------------------ Adj R-squared = 0.8831 Total | 41379551.3 24 1724147.97 Root MSE = 449.03 --------------------------------------------------- --------------------------- sales | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- time | 2.009566 1.930654 1.04 0.3 13 -2.083238 6.10237 mktpoten | .0372049 .0082023 4.54 0.0 00 .0198168 .054593 adver | .1509889 .0471085 3.21 0.0 06 .0511233 .2508545 mktshare | 199.0236 67.02793 2.97 0.0 09 56.9307 341.1164 change | 290.8551 186.782 1.56 0.1 39 -105.105 686.8153 accts | 5.550961 4.77555 1.16 0.2 62 -4.572753 15.67467 wkload | 19.79389 33.6767 0.59 0.5 65 -51.59751 91.1853 rating | 8.189297 128.5056 0.06 0.9 50 -264.2304 280.609 _cons | -1507.814 778.635 -1.94 0.0 71 -3158.446 142.8186 --------------------------------------------------- ---------------------------

Page 36: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

36

Ejemplo 4.2. (continua)

vif Variable | VIF 1/VIF -------------+---------------------- accts | 5.64 0.177326 time | 3.34 0.299167 mktshare | 3.24 0.309047 mktpoten | 1.98 0.505657 adver | 1.91 0.523502 wkload | 1.82 0.549950 rating | 1.81 0.552927 change | 1.60 0.624325 -------------+---------------------- Mean VIF | 2.67

(instrucción en Stata)

- Note que el valor mas alto dees el correspondiente aVIFaccts =5.64, lo que indica queno existe un alto grado de multicolinealidad en el modelo.

- Por otra parte, el promedio de los VIF es 2.67.

Regla práctica para detectarmulticolinealidad

� Cuando no se tiene acceso a la matriz decorrelación o a los VIF, se puede considerar lasiguiente regla práctica para identificar un altogrado de multicolinealidad:

“Observar una R 2 ajustada alta y pocos (oningún) coeficiente de regresión estimadossignificativos ”

Índice de tolerancia (TOL)

� Se define como

(para j = 1, 2, ... K variables)

o bien

� Si TOL cercano a cero existe altamulticolinealidad.

21j jTOL R= −

1TOL

VIF=

Page 37: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

37

Soluciones posibles para la altamulticolinealidad

� Algunos autores (Blanchard, 1998) consideranque si el objetivo final es el pronóstico no sedebe hacer nada.

� La solución más común, aunque no siempre lamejor, eliminar una de las variables que seconsidere provoca el problema.

� Transformación de variables.

Ejemplo: Datos de la NBASe busca establecer la influencia que diferentesacciones de los jugadores de la NBA ejercen sobre elnúmero de puntos que anotan en promedio porpartido (pts). Para ello se selecciona al azar a unequipo de la NBA (Chicago Bulls) y se plantea elsiguiente modelo de regresión (temporada 2007-08):

0 1 2 3 4 5 6 7PTS= GP MIN AST STL BLK TO PFi i i i i i i iβ β β β β β β β ε+ + + + + + + +

PTS= puntos anotadosGP = partidos jugadosMIN= minutos jugadosAST= asistencias

STL = robos de balónBLK = bloqueosTO= balones perdidosPF= faltas personales

donde

Matriz de correlaciónpwcorr ,sig star (.05) | gp min pts ast stl blk to pf -------------+------------------------------------- ---------------------------------- gp | 1.0000 | min | 0.6025* 1.0000 | 0.0063 | pts | 0.5221* 0.8482* 1.0000 | 0.0218 0.0000 | ast | 0.5359* 0.7216 * 0.5477* 1.0000 | 0.0180 0.0005 0.0152 | stl | 0.4585* 0.7932 * 0.4545 0.6992* 1.0000 | 0.0483 0.0001 0.0506 0.0009 | blk | 0.2629 0.4600* 0.1933 -0.0367 0.4141 1.0000 | 0.2768 0.0475 0.4278 0.8813 0.0780 | to | 0.5880* 0.8688* 0.9090 * 0.7370* 0.5931* 0.1641 1.0000 | 0.0081 0.0000 0.0000 0.0003 0.0074 0.5020 | pf | 0.6924* 0.7854 * 0.7652* 0.5199* 0.5034* 0.4854* 0.7839 * 1.0000 | 0.0010 0.0001 0.0001 0.0225 0.0280 0.0351 0.0001

Page 38: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

38

Regresiónregress pts gp min ast stl blk to pf Source | SS df MS Number of obs = 19 -------------+------------------------------ F( 7, 11) = 28.58 Model | 500.61849 7 71.5169272 Prob > F = 0.0000 Residual | 27.5288813 11 2.50262557 R-squared = 0.9479 -------------+------------------------------ Adj R-squared = 0.9147 Total | 528.147371 18 29.3415206 Root MSE = 1.582 --------------------------------------------------- --------------------------- pts | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- gp | -.0047026 .0188224 -0.25 0.8 07 -.0461304 .0367252 min | .5114093 .1219865 4.19 0.0 02 .2429189 .7798997 ast | -1.328452 .5149655 -2.58 0.0 26 -2.461884 -.195021 stl | -3.415964 1.785418 -1.91 0.0 82 -7.345643 .5137151 blk | -3.566664 1.525258 -2.34 0.0 39 -6.923734 -.2095937 to | 4.267745 1.98899 2.15 0.0 55 -.1099917 8.645483 pf | .7377111 .9262618 0.80 0.4 43 -1.300978 2.7764 _cons | -2.401254 .9950284 -2.41 0.0 34 -4.591296 -.2112107 --------------------------------------------------- ---------------------------

VIF vif Variable | VIF 1/VIF -------------+---------------------- min | 12.29 0.081342 to | 8.54 0.117126 pf | 5.24 0.190847 ast | 4.45 0.224654 stl | 4.20 0.238195 blk | 3.46 0.289220 gp | 2.12 0.472134 -------------+---------------------- Mean VIF | 5.76

Eliminando la variable min se tiene

regress pts gp ast stl blk to pf Source | SS df MS Number of obs = 19 -------------+------------------------------ F( 6, 12) = 12.77 Model | 456.632952 6 76.1054921 Prob > F = 0.0001 Residual | 71.5144189 12 5.95953491 R-squared = 0.8646 -------------+------------------------------ Adj R-squared = 0.7969 Total | 528.147371 18 29.3415206 Root MSE = 2.4412 --------------------------------------------------- --------------------------- pts | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- gp | -.0038181 .029044 -0.13 0.8 98 -.0670995 .0594632 ast | -.8901853 .7781226 -1.14 0.2 75 -2.585569 .8051982 stl | -.1718016 2.482941 -0.07 0.9 46 -5.581665 5.238061 blk | -.5166832 2.068707 -0.25 0.8 07 -5.024009 3.990642 to | 9.904448 2.261829 4.38 0.0 01 4.976347 14.83255 pf | .8968988 1.42816 0.63 0.5 42 -2.214794 4.008592 _cons | -3.404519 1.490409 -2.28 0.0 41 -6.651841 -.1571964 --------------------------------------------------- ---------------------------

Page 39: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

39

vif Variable | VIF 1/VIF -------------+---------------------- pf | 5.23 0.191168 to | 4.64 0.215682 ast | 4.27 0.234310 stl | 3.41 0.293290 blk | 2.67 0.374398 gp | 2.12 0.472194 -------------+---------------------- Mean VIF | 3.72

Construcción de modelos� ¿Qué hay que hacer para encontrar un modelo

adecuado?

� Son diversos los criterios que la literaturaseñala para elegir entre modelos “rivales”.

� Dos (o más) modelos son “rivales” si estospresentan la misma variable dependienteaunque las variables independientes no seanlas mismas.

� Ejemplo:

0 1 2 4 2sales= + time+ mktpoten+ wkload+β β β β ε0 1 8 1sales= + time+ rating+β β β ε

Criterios para la construcción demodelos� Existen diversos criterios que se emplean para elegir

entre modelos rivales con propósitos de pronóstico.

� Comparación de los modelos de regresión con base enR2, σ, R2 ajustada, longitud del intervalo de predicción yestadística Cp entre otros.

� Todos estos criterios pretenden minimizar la SCE (oincrementar R2), y salvo el primero de ellos, los demásimponen una penalización al incluir más variablesindependientes.

Page 40: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

40

Primer criterio

R2 = (variación explicada)/(variación total)

� R2 ↑ al ↑ el número de variables

Segundo criterio

� al ↑ el número de variables, se pierden grados de libertad

� si al introducir otra variable independiente al modelo, el σ ↑, no debemos sumar la variable independiente al modelo.

ˆSCE

n kσ =

Tercer criterio

� al ↑ el número de variables, se pierden grados de libertad� si al introducir otra variable independiente al modelo, el R2

ajustada ↓, no debemos sumar la variable independiente al modelo.

2 2 1 1

1

k nR R

n n k

+ − = − − −

Page 41: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

41

Cuarto criterio

Estadística C (o C p) de Mallow

�Considérese un modelo con k coeficientes de regresión(incluyendo la constante, i. e. β0).

�Sea el verdadero estimador s2.

�Suponga que solo se ha elegido p variablesindependientes (incluyendo β0), donde p≤k, y se obtieneSCE utilizando a las p variables independientes.

Cuarto criterio

Estadística C (o Cp) de Mallow

� Queremos que C sea pequeña.� Queremos que C sea casi igual a k + 1.� Si C > k , el modelo tiene un sesgo notable.� Si C < k , el modelo no tiene sesgo y es deseable.

[ ]22

ˆp

SSEC n k

σ= − −

Ejemplo 5.1 (p. 228).

A continuación se presentan los resultados enSTATA para el calculo de R-squared , elestadístico C de Mallows , SEE( ) y MSE( )para todos los posibles modelos de regresión delejemplo 4.2 ampliado propuesto en este capítulo.

Para ello se deben seguir los pasos siguientes:

σ 2σ

Page 42: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

42

Paso 1.

Una vez cargado el archivo t5-1 sales territorycomplete.dta, escribir en la ventana de comandosfindit rsquare , entrar dentro de la sección

“Web resources from Stata and other users” arsquare from

http://www.ats.ucla.edu/stat/stata/ado/analysis

y descargar los archivos rsquare.ado yrsquare.hlp

Paso 2.Estimar el modelo: sales vs. time mktpoten

adver mktshare change accts wkloadrating.

Paso 3.

Después de la estimación, se escribe en laventana de comandos:

rsquare sales time mktpoten adver mktshare change accts wkload rating

y se obtiene:

Regression models for dependent variable : sales R-squared Mallows' C SEE MSE models with 1 variable 0.3880 104.60 2.532e+07 1.101e+06 time 0.3574 110.89 2.659e+07 1.156e+06 mktpoten 0.3554 111.29 2.667e+07 1.160e+06 adver 0.2338 136.25 3.171e+07 1.379e+06 mktshare 0.2393 135.12 3.148e+07 1.369e+06 change 0.5685 67.56 1.786e+07 7.763e+05 accts 0.0137 181.41 4.081e+07 1.774e+06 wkload 0.1615 151.09 3.470e+07 1.509e+06 rating R-squared Mallow's C SEE MSE models with 2 variables 0.5130 80.94 2.015e+07 9.159e+05 time mktpoten 0.5953 64.05 1.674e+07 7.611e+05 time adver 0.5642 70.44 1.803e+07 8.197e+05 time mktshare 0.5061 82.37 2.044e+07 9.290e+05 time change 0.5747 68.28 1.760e+07 7.999e+05 time accts 0.3881 106.59 2.532e+07 1.151e+06 time wkload 0.5041 82.78 2.052e+07 9.328e+05 time rating 0.6071 61.63 1.626e+07 7.390e+05 mktpoten adver 0.7461 33.12 1.051e+07 4.776e+05 mktpoten mktshare 0.4739 88.98 2.177e+07 9.896e+05 mktpoten change 0.6413 54.61 1.484e+07 6.747e+05 mktpoten accts 0.3589 112.58 2.653e+07 1.206e+06 mktpoten wkload 0.3977 104.61 2.492e+07 1.133e+06 mktpoten rating 0.4696 89.86 2.195e+07 9.976e+05 adver mktshare 0.4371 96.53 2.329e+07 1.059e+06 adver change 0.7751 27.16 9.306e+06 4.230e+05 adver accts 0.3576 112.84 2.658e+07 1.208e+06 adver wkload 0.3849 107.23 2.545e+07 1.157e+06 adver rating 0.4358 96.78 2.334e+07 1.061e+06 mktshare change 0.6070 61.65 1.626e+07 7.391e+05 mktshare accts 0.3270 119.11 2.785e+07 1.266e+06 mktshare wkload

Page 43: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

43

R- squared Mallow's C SEE MSE models with 3 variables 0.6991 44.74 1.245e+07 5.928e+05 time mktpoten adver 0.8121 21.56 7.774e+06 3.702e+05 time mktpoten mktshare 0.5942 66.27 1.679e+07 7.995e+05 time mktpoten change 0.6426 56.34 1.479e+07 7.042e+05 time mktpoten accts 0.5176 82.01 1.996e+07 9.506e+05 time mktpoten wkload 0.5663 72.02 1.795e+07 8.547e+05 time mktpoten rating 0.6959 45.42 1.259e+07 5.993e+05 time adver mktshare 0.6365 57.61 1.504e+07 7.163e+05 time adver change 0.7752 29.14 9.302e+06 4.430e+05 time adver accts 0.6066 63.73 1.628e+07 7.751e+05 time adver wkload 0.6251 59.94 1.551e+07 7.387e+05 time adver rating 0.6657 51.62 1.383e+07 6.588e+05 time mktshare change 0.6305 58.83 1.529e+07 7.281e+05 time mktshare accts 0.5954 66.03 1.674e+07 7.972e+05 time mktshare wkload 0.6905 46.52 1.281e+07 6.098e+05 time mktshare rating 0.6403 56.83 1.488e+07 7.088e+05 time change accts 0.5132 82.90 2.014e+07 9.591e+05 time change wkload 0.5396 77.48 1.905e+07 9.071e+05 time change rating 0.5761 70.00 1.754e+07 8.353e+05 time accts wkload 0.6354 57.83 1.509e+07 7.184e+05 time accts rating 0.5117 83.21 2.020e+07 9.621e+05 time wkload rating 0.8490 13.99 6.249e+06 2.976e+05 mktpoten adver mktshare 0.6390 57.08 1.494e+07 7.112e+05 mktpoten adver change 0.8277 18.36 7.129e+06 3.395e+05 mktpoten adver accts 0.6336 58.19 1.516e+07 7.219e+05 mktpoten adver wkload 0.6073 63.60 1.625e+07 7.739e+05 mktpoten adver rating 0.8086 22.27 7.918e+06 3.771e+05 mktpoten mktshare change

R-squared Mallow's C SEE MSE models with 3 variables 0.7885 26.40 8.750e+06 4.167e+05 mktpoten mktshare accts 0.7730 29.59 9.395e+06 4.474e+05 mktpoten mktshare wkload 0.7735 29.49 9.374e+06 4.464e+05 mktpoten mktshare rating 0.6907 46.48 1.280e+07 6.095e+05 mktpoten change accts 0.4888 87.91 2.115e+07 1.007e+06 mktpoten change wkload 0.4750 90.75 2.172e+07 1.035e+06 mktpoten change rating 0.6488 55.09 1.453e+07 6.921e+05 mktpoten accts wkload 0.6683 51.08 1.373e+07 6.537e+05 mktpoten accts rating 0.4044 105.25 2.465e+07 1.174e+06 mktpoten wkload rating 0.5543 74.47 1.844e+07 8.782e+05 adver mktshare change 0.7862 26.88 8.847e+06 4.213e+05 adver mktshare accts 0.4839 88.92 2.136e+07 1.017e+06 adver mktshare wkload 0.5203 81.44 1.985e+07 9.452e+05 adver mktshare rating 0.7872 26.67 8.804e+06 4.192e+05 adver change accts 0.4489 96.11 2.281e+07 1.086e+06 adver change wkload 0.4390 98.14 2.322e+07 1.106e+06 adver change rating 0.7969 24.67 8.402e+06 4.001e+05 adver accts wkload 0.7795 28.25 9.123e+06 4.344e+05 adver accts rating 0.3914 107.90 2.518e+07 1.199e+06 adver wkload rating 0.6785 48.98 1.330e+07 6.335e+05 mktshare change accts 0.4621 93.39 2.226e+07 1.060e+06 mktshare change wkload 0.4749 90.77 2.173e+07 1.035e+06 mktshare change rating 0.6118 62.67 1.606e+07 7.649e+05 mktshare accts wkload 0.6764 49.40 1.339e+07 6.376e+05 mktshare accts rating 0.4427 97.38 2.306e+07 1.098e+06 mktshare wkload rating 0.6438 56.09 1.474e+07 7.018e+05 change accts wkload 0.6488 55.07 1.453e+07 6.919e+05 change accts rating 0.2671 133.42 3.033e+07 1.444e+06 change wkload rating 0.6328 58.36 1.520e+07 7.236e+05 accts wkload rating

R- squared Mallow's C SEE MSE models with 4 variables 0.8960 6.35 4.305e+06 2.152e+05 time mktpoten adver mktshare 0.7222 42.02 1.150e+07 5.748e+05 time mktpoten adver change 0.8283 20.23 7.104e+06 3.552e+05 time mktpoten adver accts 0.7284 40.74 1.124e+07 5.619e+05 time mktpoten adver wkload 0.7030 45.95 1.229e+07 6.144e+05 time mktpoten adver rating 0.8609 13.56 5.758e+06 2.879e+05 time mktpoten mktshare change 0.8134 23.30 7.722e+06 3.861e+05 time mktpoten mktshare accts 0.8279 20.33 7.123e+06 3.561e+05 time mktpoten mktshare wkload 0.8480 16.19 6.289e+06 3.144e+05 time mktpoten mktshare rating 0.6923 48.15 1.273e+07 6.367e+05 time mktpoten change accts 0.6126 64.51 1.603e+07 8.015e+05 time mktpoten change wkload 0.6034 66.38 1.641e+07 8.205e+05 time mktpoten change rating 0.6502 56.79 1.448e+07 7.238e+05 time mktpoten accts wkload 0.6725 52.21 1.355e+07 6.775e+05 time mktpoten accts rating 0.5803 71.13 1.737e+07 8.683e+05 time mktpoten wkload rating 0.7401 38.33 1.075e+07 5.377e+05 time adver mktshare change 0.7890 28.29 8.729e+06 4.365e+05 time adver mktshare accts 0.6979 46.99 1.250e+07 6.249e+05 time adver mktshare wkload 0.7455 37.23 1.053e+07 5.265e+05 time adver mktshare rating 0.7875 28.62 8.795e+06 4.397e+05 time adver change accts 0.6583 55.13 1.414e+07 7.070e+05 time adver change wkload 0.6440 58.06 1.473e+07 7.366e+05 time adver change rating 0.7971 26.65 8.397e+06 4.199e+05 time adver accts wkload 0.7800 30.14 9.102e+06 4.551e+05 time adver accts rating 0.6451 57.83 1.468e+07 7.342e+05 time adver wkload rating 0.7031 45.93 1.229e+07 6.143e+05 time mktshare change accts 0.6729 52.14 1.354e+07 6.768e+05 time mktshare change wkload 0.7124 44.02 1.190e+07 5.949e+05 time mktshare change rating 0.6388 59.12 1.494e+07 7.472e+05 time mktshare accts wkload 0.7166 43.17 1.173e+07 5.864e+05 time mktshare accts rating 0.6974 47.09 1.252e+07 6.260e+05 time mktshare wkload rating 0.6506 56.71 1.446e+07 7.230e+05 time change accts wkload 0.6578 55.22 1.416e+07 7.079e+05 time change accts rating 0.5527 76.79 1.851e+07 9.254e+05 time change wkload rating 0.6457 57.71 1.466e+07 7.330e+05 time accts wkload rating 0.8732 11.02 5.246e+06 2.623e+05 mktpoten adver mktshare change0.9004 5.43 4.119e+06 2.060e+05 mktpoten adver mktshare accts 0.8513 15.53 6.155e+06 3.077e+05 mktpoten adver mktshare wkload0.8512 15.55 6.159e+06 3.080e+05 mktpoten adver mktshare rating0.8350 18.86 6.828e+06 3.414e+05 mktpoten adver change accts 0.6772 51.25 1.336e+07 6.678e+05 mktpoten adver change wkload

Page 44: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

44

R-squared Mallow's C SEE MSE models with 4 variables 0.6442 58.03 1.472e+07 7.362e+05 mktpoten adver change rating 0.8641 12.90 5.625e+06 2.812e+05 mktpoten adver accts wkload 0.8277 20.36 7.128e+06 3.564e+05 mktpoten adver accts rating 0.6347 59.97 1.511e+07 7.557e+05 mktpoten adver wkload rating 0.8352 18.82 6.819e+06 3.409e+05 mktpoten mktshare change accts 0.8174 22.49 7.558e+06 3.779e+05 mktpoten mktshare change wkload 0.8108 23.83 7.830e+06 3.915e+05 mktpoten mktshare change rating 0.7981 26.45 8.356e+06 4.178e+05 mktpoten mktshare accts wkload 0.8130 23.37 7.736e+06 3.868e+05 mktpoten mktshare accts rating 0.7901 28.08 8.687e+06 4.343e+05 mktpoten mktshare wkload rating 0.7099 44.53 1.200e+07 6.002e+05 mktpoten change accts wkload 0.6944 47.73 1.265e+07 6.324e+05 mktpoten change accts rating 0.4910 89.47 2.106e+07 1.053e+06 mktpoten change wkload rating 0.6830 50.06 1.312e+07 6.558e+05 mktpoten accts wkload rating 0.8019 25.66 8.198e+06 4.099e+05 adver mktshare change accts 0.5574 75.83 1.831e+07 9.157e+05 adver mktshare change wkload 0.5644 74.41 1.803e+07 9.013e+05 adver mktshare change rating 0.7977 26.51 8.370e+06 4.185e+05 adver mktshare accts wkload 0.7949 27.09 8.486e+06 4.243e+05 adver mktshare accts rating 0.5284 81.79 1.951e+07 9.757e+05 adver mktshare wkload rating 0.8160 22.77 7.615e+06 3.807e+05 adver change accts wkload 0.7876 28.59 8.788e+06 4.394e+05 adver change accts rating 0.4519 97.49 2.268e+07 1.134e+06 adver change wkload rating 0.8055 24.91 8.048e+06 4.024e+05 adver accts wkload rating 0.6785 50.97 1.330e+07 6.651e+05 mktshare change accts wkload 0.7001 46.55 1.241e+07 6.205e+05 mktshare change accts rating 0.4940 88.84 2.094e+07 1.047e+06 mktshare change wkload rating 0.6767 51.36 1.338e+07 6.690e+05 mktshare accts wkload rating 0.6624 54.29 1.397e+07 6.985e+05 change accts wkload rating

R- squared Mallow's C SEE MSE models with 5 variables 0.9150 4.44 3.517e+06 1.851e+05 time mktpoten adver mktshare change 0.9064 6.22 3.875e+06 2.039e+05 time mktpoten adver mktshare accts 0.8965 8.24 4.284e+06 2.254e+05 time mktpoten adver mktshare wkload 0.9025 7.01 4.035e+06 2.124e+05 time mktpoten adver mktshare rating 0.8353 20.79 6.813e+06 3.586e+05 time mktpoten adver change accts 0.7617 35.91 9.861e+06 5.190e+05 time mktpoten adver change wkload 0.7222 44.01 1.149e+07 6.050e+05 time mktpoten adver change rating 0.8648 14.74 5.593e+06 2.944e+05 time mktpoten adver accts wkload 0.8283 22.23 7.104e+06 3.739e+05 time mktpoten adver accts rating 0.7358 41.23 1.093e+07 5.755e+05 time mktpoten adver wkload rating 0.8609 15.55 5.757e+06 3.030e+05 time mktpoten mktshare change accts 0.8651 14.69 5.583e+06 2.939e+05 time mktpoten mktshare change wkload 0.8686 13.98 5.439e+06 2.863e+05 time mktpoten mktshare change rating 0.8280 22.31 7.119e+06 3.747e+05 time mktpoten mktshare accts wkload 0.8481 18.18 6.287e+06 3.309e+05 time mktpoten mktshare accts rating 0.8545 16.87 6.022e+06 3.169e+05 time mktpoten mktshare wkload rating 0.7117 46.16 1.193e+07 6.278e+05 time mktpoten change accts wkload 0.6971 49.16 1.253e+07 6.597e+05 time mktpoten change accts rating 0.6251 63.95 1.551e+07 8.165e+05 time mktpoten change wkload rating 0.6881 51.01 1.291e+07 6.792e+05 time mktpoten accts wkload rating 0.8064 26.73 8.010e+06 4.216e+05 time adver mktshare change accts 0.7401 40.33 1.075e+07 5.660e+05 time adver mktshare change wkload 0.7596 36.34 9.949e+06 5.236e+05 time adver mktshare change rating 0.7984 28.37 8.342e+06 4.391e+05 time adver mktshare accts wkload 0.8023 27.57 8.180e+06 4.305e+05 time adver mktshare accts rating 0.7458 39.18 1.052e+07 5.537e+05 time adver mktshare wkload rating 0.8163 24.70 7.601e+06 4.001e+05 time adver change accts wkload 0.7880 30.51 8.773e+06 4.617e+05 time adver change accts rating 0.6692 54.90 1.369e+07 7.205e+05 time adver change wkload rating 0.8064 26.74 8.012e+06 4.217e+05 time adver accts wkload rating 0.7038 47.79 1.226e+07 6.451e+05 time mktshare change accts wkload 0.7354 41.31 1.095e+07 5.764e+05 time mktshare change accts rating 0.7156 45.36 1.177e+07 6.193e+05 time mktshare change wkload rating 0.7179 44.90 1.167e+07 6.144e+05 time mktshare accts wkload rating 0.6729 54.13 1.353e+07 7.123e+05 time change accts wkload rating 0.9124 4.98 3.624e+06 1.907e+05 mktpoten adver mktshare change accts 0.8735 12.97 5.235e+06 2.756e+05 mktpoten adver mktshare change wkload 0.8737 12.91 5.224e+06 2.750e+05 mktpoten adver mktshare change rating 0.9028 6.94 4.021e+06 2.116e+05 mktpoten adver mktshare accts wkload 0.9013 7.25 4.082e+06 2.149e+05 mktpoten adver mktshare accts rating

R- squared Mallow's C SEE M SE models with 5 variables 0.8530 17.17 6.082e+06 3.201e+05 mktpoten adver mktshare wkload rating 0.8777 12.09 5.060e+06 2.663e+05 mktpoten adver change accts wkload 0.8364 20.57 6.768e+06 3.562e+05 mktpoten adver change accts rating 0.6808 52.52 1.321e+07 6.952e+05 mktpoten adver change wkload rating 0.8648 14.75 5.595e+06 2.945e+05 mktpoten adver accts wkload rating 0.8371 20.43 6.739e+06 3.547e+05 mktpoten mktshare change accts wkload 0.8383 20.19 6.691e+06 3.522e+05 mktpoten mktshare change accts rating 0.8187 24.20 7.501e+06 3.948e+05 mktpoten mktshare change wkload rating 0.8170 24.56 7.573e+06 3.986e+05 mktpoten mktshare accts wkload rating 0.7156 45.36 1.177e+07 6.193e+05 mktpoten change accts wkload rating 0.8171 24.53 7.567e+06 3.983e+05 adver mktshare change accts wkload 0.8038 27.26 8.118e+06 4.273e+05 adver mktshare change accts rating 0.5671 75.85 1.791e+07 9.429e+05 adver mktshare change wkload rating 0.8074 26.52 7.968e+06 4.194e+05 adver mktshare accts wkload rating 0.8174 24.48 7.558e+06 3.978e+05 adver change accts wkload rating 0.7002 48.52 1.240e+07 6.529e+05 mktshare change accts wkload rating R-squared Mallow's C SEE MSE models with 8 variables 0.9220 48.52 1.240e+07 6.529e+05 time mktpoten adver mktshare change accts wkloa d rating

Page 45: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

45

Métodos computacionales

Regresión por pasos

� Se especifican αentry y αstay

� Paso 1: 1. se corre una regresión para cada variable independiente.2. Se denomina a la variable con el mayor valor de la estadística t,

x[1]

3. Si la estadística t no indica que x[1] sea significante en el nivel

αentry, el procedimiento termina. Si es significante, se conserva

para usarla en el paso 2.

Construcción de modelos y los efectos de la multicolinealidadRegresión por pasos� Paso 2: — se corre una regresión agregando cada variable

independiente al modelo

— y = β0 + β1x[1] + β2xj + ε— Se denomina a la variable (nueva) con el mayor valor de

la estadística t, x[2]

— Si la estadística t no indica que x[2] sea significante en el

nivel αentry , el procedimiento termina. Si es significante,

se comprueba que la estadística t >αstay para x[1] .

Construcción de modelos y los efectos de la multicolinealidad

Regresión por pasos� Pasos posteriores: 1. Se continúan agregando variables independientes, una por una, al

modelo. En cada paso se suma una variable independiente almodelo si tiene la estadística t más grande de las variablesindependientes que no están en el modelo y si su estadística t indicaque es significante en el nivel

2. Después de añadir una variable independiente, el procedimientocomprueba que todas las variables independientes ya incluidastienen t significante en el nivel αstay

Page 46: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

46

Construcción de modelos y los efectos de la multicolinealidadEliminación hacia atrás1. Se corre una regresión con todas las p variables

independientes.2. Si la estadística t más pequeña es significante en el

nivel αstay , se conserva el modelo con todas las variables.

3. Si la estadística t más pequeña no es significante en el nivel αstay , se elimina esa variable del modelo y se corre la regresión de nuevo.

4. Se repite estos pasos hasta conseguir que la estadística t más pequeña sea significante en el nivel αstay .

Tema 9. Diagnóstico del modelo

Temas� gráficas de residuos y pruebas nùmericas.

� suposición de la normalidad.� suposición de varianza constante.

� suposición de la forma funcional correcta.� suposición de independencia.

� transformación de la variable dependiente.

Page 47: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

47

Análisis residual en la regresión simple

� Recuerde que

� Si las suposiciones de la regresión se mantienen, losresiduos deben parecer que han sido seleccionadosen forma aleatoria e independiente de poblacionesdistribuidas normalmente cuya media es 0 y suvarianza es σ2

yye ˆ−=

Análisis residual en la regresión simple

Gráficas de residuos� Se elaboran gráficas de residuos contra

1. valores de x

2. valores de y

3. el orden en el tiempo en el cual los datos han sido observados (para series de tiempo)

Análisis residual en la regresión simple

Suposición de varianza constante� se examinan las gráficas de los residuos

• varianza de error creciente

• varianza de error decreciente

Page 48: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

48

Análisis residual en la regresión simple

Suposición de la forma funcional correcta� Si usamos un modelo de regresión lineal simple

cuando la relación verdadera es curva, la gráfica de residuos tendrá una apariencia curva.

Análisis residual en la regresión simple

Suposición de la normalidad

� Se acomodan los errores en orden ascendente� Se grafican contra el valor z correspondiente.

� z = punto en el eje horizontal bajo la curva normal estándar de modo que el área bajo la curva a la izquierda de z(i) es (3i-1)/(3n+1)

� Esta gráfica debe asemejarse a una recta.

kdensity r, normal

Page 49: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

49

22 ( 3)

6 4

n CJB A

−= +

Skewness/Kurtosis tests for Norm ality -- ----- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj ch i2(2) Prob>chi2 -------------+------------------------------------- ------------------ r | 0.905 0.785 0.09 0.9567

2219 (0.785 3)

0.9056 4

JB −= +

Análisis residual en la regresión simple

Suposición de independencia� más probable violar esta suposición en series

de tiempo: � autocorrelación positiva� patrón cíclico en los errores

� autocorrelación negativa

� Los términos de error deben ocurrir en un patrón aleatorio en el tiempo.

Page 50: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

50

Análisis residual en la regresión simple

Transformación de la variable dependiente� posible remedio en casos de transgresión de las

suposiciones de• varianza constante• forma funcional correcta

• normalidad

Análisis residual en la regresión simple

Transformación de la variable dependiente� transformación de la raíz cuadrada

� transformación de la raíz cuárta

� transformación logarítmica

5.* yyy ==

25.4* yyy ==

yy ln* =

Análisis residual en la regresión múltiple

� Se grafican los residuos contra

1. valores de cada variable independiente

2. valores del valor predicho de la variable dependiente

3. orden en el tiempo en el cual se observaron los datos

Page 51: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

51

Diagnóstico para detectar observaciones atípicas e influyentes

Temas� valor de la ventaja� residuos y residuos estudentizados

� residuos eliminados y residuos eliminados estudentizados

� medida de la distancia de Cook� Qué hacer con respecto a las observaciones

atípicas y las influyentes

Diagnóstico para detectar observaciones atípicas e influyentes

� atípica: una observación muy separada del resto de los datos

� influyente: cambia de forma significativa algún aspecto importante (b o s) del análisis de regresión si se elimina la observación

Diagnóstico para detectar observaciones atípicas e influyentes

Valor de la ventaja� mide la distancia entre los valores x de la observación y

el centro de la región experimental� Si el valor de la ventaja es grande, la observación es

atípica con respecto a sus valores x.� Se considera grande si es mayor que lo doble del

promedio de todos los valores de la ventaja. (2(k+1)/n)

Page 52: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

52

Diagnóstico para detectar observaciones atípicas e influyentes

residuos y residuos estudentizados

� Cualquier residuo notablemente diferente de los otros es sospechoso.

� residuo estudentizado: e/s

� Si el resiguo estudentizado es mayor que 2, hay alguna evidencia de que la observación es atípica.

Diagnóstico para detectar observaciones atípicas e influyentes

� residuos eliminados y residuos eliminados estudentizados

� se calcula la distancia entre yi y y(i)

� residuo eliminado estudentizado = (residuo eliminado) / s� Hay fuerte evidencia de que la observación es atípica

con respecto a su valor y si el residuo eliminado estudentizado es mayor que

[ ]( )( )2

005.+− knt

Medida de la Distancia de Cook

� D de Cook

� Si la D de Cook de la observación i es grande, entonces las estimaciones puntuales de mínimos cuadrados cambian mucho con la inclusión de i

� Si D < F[.80], i no es influyente

� Si D > F[.50], i sí es influyente

Page 53: AN LISIS DE REGRESI N [Modo de compatibilidad] · PDF file20 40 60 80 100 120 lot observamos: - tendencia positiva - puntos dispersos alrededor de la línea Fuente: Kutner et. al.

18/06/2010

53

Qué hacer con respecto a las observa-ciones atípicas y las influyentes

� Comenzar con las observaciones atípicas en la variable y1. Comprobar que el valor esté capturado correctamente;

corregirlo si es necesario.2. Si no se puede corregir o si es correcto, desechar la

observación y correr la regresión de nuevo.� Luego ver los valores x3. Tratar de detectar razones (causas) para el valor y atípico

(ver si algún valor x también es atípico).

4. Considerar otras variables independientes no incluidas en el modelo.