DiapositivasTema2 Regresion Multiple

24
Tema 2. Métodos de Regresión Estadística Métodos Estadísticos en Ordenador Grado en Relaciones Laborales y Recursos Humanos Parte II: Regresión lineal múltiple

description

regresion multiple

Transcript of DiapositivasTema2 Regresion Multiple

Page 1: DiapositivasTema2 Regresion Multiple

Tema 2. Métodos de Regresión Estadística

Métodos Estadísticos en OrdenadorGrado en Relaciones Laborales y Recursos Humanos

Parte II: Regresión lineal múltiple

Page 2: DiapositivasTema2 Regresion Multiple

Supuesto prácticoUna empresa fabricante de cereales para el desayuno deseaconocer la ecuación que permita predecir las ventas (en miles deeuros) en función de la inversión en publicidad infantil en televisión(en miles de euros), en publicidad en radio (en miles de euros) y lainversión en publicidad en los periódicos (en miles de euros). Serealiza un estudio en el que se reúnen los datos mensualescorrespondientes a los últimos 20 meses. Estos datos aparecen enla tabla adjunta. Se pide:

1. Ajustar un modelo de regresión lineal múltiple. Estimar losparámetros del modelo e interpretarlos.

2. Verificar que el modelo ajustado es adecuado, es decir, lasvariables están asociadas linealmente (contraste de regresión)y estudiar la bondad del ajuste.

3. Realizar el contraste de significación de las constante yconcluir si es adecuado incluirla en el modelo.

4. Comparar los efectos de los gastos en publicidad en tv, radio yperiódicos y concluir qué tipo de publicidad es la más rentabley cuál e la menos rentable.

5. Ajustar de nuevo el modelo de regresión de forma que sólo seincluyan las variables independientes significativas. Utilizarpara ello un método de selección automática.

ejregmult_1.sav

Page 3: DiapositivasTema2 Regresion Multiple

Regresión lineal múltiple-Modelo teórico-

Modelo lineal Y = β0 + β1 X1+ β2 X2 +…+ βk Xk + ε (1)

Parámetros

βj magnitud del efecto que Xj tienen sobre Y (incremento en la media de Y cuando Xj aumenta una unidad, y el resto de variables independientes permanecen constantes)

β0 término constante (promedio de Y cuando las v. explicativas valen 0)ε residuos (perturbaciones aleatorias, error del modelo)

Datos (observaciones, muestra) { (Yi, X1i,…,Xki) : i = 1,…,n }

PROBLEMA Suponiendo que la relación entre las variables es comoen (1), estimar los coeficientes ( βj ) utilizando lainformación proporcionada por la muestra

Page 4: DiapositivasTema2 Regresion Multiple

Paso 1. Ajustar el modelo de regresión lineal múltiple

� Identificar el modelo (variable dependiente y variables independientes).

� Estimar los parámetros del modelo (efectosde las variables independientes).

� Interpretar los parámetros estimados.

Page 5: DiapositivasTema2 Regresion Multiple

Supuesto práctico (ejregmult_1.sav)

Objetivo: Ajustar un modelo lineal que permita predecir las ventasen función de la inversión en publicidad en televisión, la inversiónen publicidad en radio y la inversión en publicidad en periódicos.Variable dependiente o de respuesta (Y):

ventas ventas mensuales en miles de eurosVariables independientes o explicativas (X 1 , X2 , X3):

publ_tv inversión publicidad tv (miles de euros)publ_rad inversión publicidad radio (miles de euros)publ_per inversión publicidad periódicos (miles de euros)

ventas = β0 + β1*publ_tv + β2*publ_rad + β3*publ_per + ε

Page 6: DiapositivasTema2 Regresion Multiple

Estimación del modelo

Problema de mínimos cuadrados

Solución( n > k+1 ) Suma residual de cuadrados

Yi valor predicho^

Estimación de los coeficientes

Page 7: DiapositivasTema2 Regresion Multiple

AnalizarRegresión

Lineal

ventas = 2.108 + 3.432*publ_tv + 0.001*publ_rad + 11.347*publ_per

Estimación de los parámetrosdel modelo

(efectos de las variables)

Page 8: DiapositivasTema2 Regresion Multiple

ventas = 2.108 + 3.432*publ_tv + 0.001*publ_rad + 11.347*publ_per

Interpretación de los parámetros del modelo(efectos de las variables independientes)

constante (2.108) si no es invierte en ningún tipo de publicidad (tv, radio y periódicos), las ventas medias son de 2.108 miles de euros.

publ-tv (3.432) por cada unidad (miles de euros) que se incrementa la inversión en publicidad en tv las ventas se incrementan en 3.432 unidades(miles de euros).

publ-rad (0.001) por cada unidad (miles de euros) que se incrementa la inversión en publicidad en radio las ventas se incrementan en 0.001 unidades (miles de euros).

publ-per (11.347) ….. ¿interpretación? .

Page 9: DiapositivasTema2 Regresion Multiple

Paso 2. Bondad del ajuste

� Verificar que el modelo ajustado es adecuado, es decir, las variables están asociadas linealmente (contraste de regresión).

� Estudiar la bondad del ajuste.

Page 10: DiapositivasTema2 Regresion Multiple

Utilidad: Verificar que el modelo lineal es adecuado paradescribir la relación entre las variables

Contraste: H0 : β1 = β2 =… = βk = 0

H1 : Algún βj ≠ 0

H0 : R = 0

H1 : R ≠ 0

Aceptar H0 significa que “las variables independientes no están asociadas linealmente con la variable dependient e” ,

esto es, “el modelo lineal no es adecuado”

Contraste de regresión

Interpretación:

Page 11: DiapositivasTema2 Regresion Multiple

Al 5% se rechaza H0 (el modelo lineal es adecuado

para describir la relación entre las variables)

Contraste de regresión

TABLA ANOVA

FUENTESUMA DE

CUADRADOSG.D.L.

MEDIA CUADRÁTICA

Fexp p-valor

MODELO VE k VE/k

RESIDUAL VNE N-k-1 VNE/(N-k-1)

TOTAL VT N-1

Page 12: DiapositivasTema2 Regresion Multiple

Bondad del ajusteDescomposición de la variabilidad

Coeficiente de determinación:

Coeficiente de determinación corregido:

Inconveniente: sobrevalora la bondad del ajuste

Page 13: DiapositivasTema2 Regresion Multiple

R2 = 0.832

R2 corregido = 0.801 (es siempre algo menor que R2)

Interpretación: la variable ventas queda explicada en un 80.1% por las variables inversión en publicidad en tv, radio y periódicos a través del modelo lineal ajustado

Bondad del ajuste

Page 14: DiapositivasTema2 Regresion Multiple

Paso 3. Significación de la constante

� Verificar que es conveniente incluir la constante en el modelo.

Page 15: DiapositivasTema2 Regresion Multiple

Significación de la constante

Utilidad: verficar si es conveniente ajustar un modelo lineal con un término constante

Contraste de hipótesis H0 : β0 = 0

H1 : β0 ≠ 0

Aceptar H0 significa que “no es conveniente incluir un término constante en la ecuación del modelo lineal”

Interpretación:

Page 16: DiapositivasTema2 Regresion Multiple

H0 : β0 = 0

H1 : β0 ≠ 0

Dado que el p-valor es 0.320>0.05, entonces se acepta la hipótesis nula y la constante podría ser

eliminada del modelo

Significación de la constante

Page 17: DiapositivasTema2 Regresion Multiple

Paso 4. Comparar losefectos de las variables

independientes� Identificar qué variables son las que más

influyen en la variable dependiente.� Ver si alguna de las variables no aporta

información significativa y podría sereliminada del modelo de regresión

Page 18: DiapositivasTema2 Regresion Multiple

Comparación de los efectos

Interpretación: la variable que más influye en las ventas es la inversión en publicidad en periódicos (coeficiente tipificado0.711) y la que menos influye es la publicidad en radio (0.006).

Coeficientes tipificados

Page 19: DiapositivasTema2 Regresion Multiple

Significación individual de las variables

Comparación de los efectos

Interpretación: la variable inversión en publicidad en radio no aporta información significativa en la explicación de las ventas (p-valor=0.961>0.05). El modelo por tanto se puede simplificar.

H0 : βj = 0

H1 : βj ≠ 0

Para cada variable independiente, aceptar H0significa que “la variable no aporta información

significativa” en el modelo

Page 20: DiapositivasTema2 Regresion Multiple

Paso 5. Selecciónautomática de variables en el

modelo de regresión lineal� Ajustar un modelo más sencillo donde

sólo las variables que aportan información significativa se incluyan.

Page 21: DiapositivasTema2 Regresion Multiple

Selección de un subconjunto óptimode variables independientes

Objetivo: Seleccionar las variables que sin ser redundantes proporcionen la mejorexplicación de la variable dependiente.

Métodos secuenciales en SPSS: Hacia atrás, Hacia delante, Pasos sucesivos

En términos muy muy generales…

…Evalúan contrastes de hipótesispara controlar la entrada y salidade variables en el modelo

Page 22: DiapositivasTema2 Regresion Multiple

Selección de un subconjunto óptimode variables independientes

Elegimos ajustar el modelo según el método “Pasossucesivos” y eliminamos la constante (botón “Opciones)

Page 23: DiapositivasTema2 Regresion Multiple

Selección de un subconjunto óptimode variables independientes

Modelo final:

R2 corregido = 0.984 la variable ventas queda explicada en un 98.4% por las variables inversión en publicidad en tv y periódicos a través del modelo lineal ajustado

ventas = 12.082*publ_per + 4.599*publ_tv

Page 24: DiapositivasTema2 Regresion Multiple

Ejercicio propuesto

Se pretende estudiar la posiblerelación lineal entre el precio de pisosen miles de euros, en una conocidaciudad española y variables como lasuperficie en m2 y la antigüedad delinmueble en años. Para ello, se realizaun estudio, en el que se selecciona deforma aleatoria una muestrarepresentativa de los distintos barriosde la ciudad. Los datos aparecen en latabla adjunta.

Realizar un análisis de regresión quepermita describir el precio de los pisosen función de la superficie y laantigüedad.