DiapositivasTema2 Regresion Multiple
-
Upload
elisa-rescalvo -
Category
Documents
-
view
251 -
download
10
description
Transcript of DiapositivasTema2 Regresion Multiple
Tema 2. Métodos de Regresión Estadística
Métodos Estadísticos en OrdenadorGrado en Relaciones Laborales y Recursos Humanos
Parte II: Regresión lineal múltiple
Supuesto prácticoUna empresa fabricante de cereales para el desayuno deseaconocer la ecuación que permita predecir las ventas (en miles deeuros) en función de la inversión en publicidad infantil en televisión(en miles de euros), en publicidad en radio (en miles de euros) y lainversión en publicidad en los periódicos (en miles de euros). Serealiza un estudio en el que se reúnen los datos mensualescorrespondientes a los últimos 20 meses. Estos datos aparecen enla tabla adjunta. Se pide:
1. Ajustar un modelo de regresión lineal múltiple. Estimar losparámetros del modelo e interpretarlos.
2. Verificar que el modelo ajustado es adecuado, es decir, lasvariables están asociadas linealmente (contraste de regresión)y estudiar la bondad del ajuste.
3. Realizar el contraste de significación de las constante yconcluir si es adecuado incluirla en el modelo.
4. Comparar los efectos de los gastos en publicidad en tv, radio yperiódicos y concluir qué tipo de publicidad es la más rentabley cuál e la menos rentable.
5. Ajustar de nuevo el modelo de regresión de forma que sólo seincluyan las variables independientes significativas. Utilizarpara ello un método de selección automática.
ejregmult_1.sav
Regresión lineal múltiple-Modelo teórico-
Modelo lineal Y = β0 + β1 X1+ β2 X2 +…+ βk Xk + ε (1)
Parámetros
βj magnitud del efecto que Xj tienen sobre Y (incremento en la media de Y cuando Xj aumenta una unidad, y el resto de variables independientes permanecen constantes)
β0 término constante (promedio de Y cuando las v. explicativas valen 0)ε residuos (perturbaciones aleatorias, error del modelo)
Datos (observaciones, muestra) { (Yi, X1i,…,Xki) : i = 1,…,n }
PROBLEMA Suponiendo que la relación entre las variables es comoen (1), estimar los coeficientes ( βj ) utilizando lainformación proporcionada por la muestra
Paso 1. Ajustar el modelo de regresión lineal múltiple
� Identificar el modelo (variable dependiente y variables independientes).
� Estimar los parámetros del modelo (efectosde las variables independientes).
� Interpretar los parámetros estimados.
Supuesto práctico (ejregmult_1.sav)
Objetivo: Ajustar un modelo lineal que permita predecir las ventasen función de la inversión en publicidad en televisión, la inversiónen publicidad en radio y la inversión en publicidad en periódicos.Variable dependiente o de respuesta (Y):
ventas ventas mensuales en miles de eurosVariables independientes o explicativas (X 1 , X2 , X3):
publ_tv inversión publicidad tv (miles de euros)publ_rad inversión publicidad radio (miles de euros)publ_per inversión publicidad periódicos (miles de euros)
ventas = β0 + β1*publ_tv + β2*publ_rad + β3*publ_per + ε
Estimación del modelo
Problema de mínimos cuadrados
Solución( n > k+1 ) Suma residual de cuadrados
Yi valor predicho^
Estimación de los coeficientes
AnalizarRegresión
Lineal
ventas = 2.108 + 3.432*publ_tv + 0.001*publ_rad + 11.347*publ_per
Estimación de los parámetrosdel modelo
(efectos de las variables)
ventas = 2.108 + 3.432*publ_tv + 0.001*publ_rad + 11.347*publ_per
Interpretación de los parámetros del modelo(efectos de las variables independientes)
constante (2.108) si no es invierte en ningún tipo de publicidad (tv, radio y periódicos), las ventas medias son de 2.108 miles de euros.
publ-tv (3.432) por cada unidad (miles de euros) que se incrementa la inversión en publicidad en tv las ventas se incrementan en 3.432 unidades(miles de euros).
publ-rad (0.001) por cada unidad (miles de euros) que se incrementa la inversión en publicidad en radio las ventas se incrementan en 0.001 unidades (miles de euros).
publ-per (11.347) ….. ¿interpretación? .
Paso 2. Bondad del ajuste
� Verificar que el modelo ajustado es adecuado, es decir, las variables están asociadas linealmente (contraste de regresión).
� Estudiar la bondad del ajuste.
Utilidad: Verificar que el modelo lineal es adecuado paradescribir la relación entre las variables
Contraste: H0 : β1 = β2 =… = βk = 0
H1 : Algún βj ≠ 0
H0 : R = 0
H1 : R ≠ 0
Aceptar H0 significa que “las variables independientes no están asociadas linealmente con la variable dependient e” ,
esto es, “el modelo lineal no es adecuado”
Contraste de regresión
Interpretación:
Al 5% se rechaza H0 (el modelo lineal es adecuado
para describir la relación entre las variables)
Contraste de regresión
TABLA ANOVA
FUENTESUMA DE
CUADRADOSG.D.L.
MEDIA CUADRÁTICA
Fexp p-valor
MODELO VE k VE/k
RESIDUAL VNE N-k-1 VNE/(N-k-1)
TOTAL VT N-1
Bondad del ajusteDescomposición de la variabilidad
Coeficiente de determinación:
Coeficiente de determinación corregido:
Inconveniente: sobrevalora la bondad del ajuste
R2 = 0.832
R2 corregido = 0.801 (es siempre algo menor que R2)
Interpretación: la variable ventas queda explicada en un 80.1% por las variables inversión en publicidad en tv, radio y periódicos a través del modelo lineal ajustado
Bondad del ajuste
Paso 3. Significación de la constante
� Verificar que es conveniente incluir la constante en el modelo.
Significación de la constante
Utilidad: verficar si es conveniente ajustar un modelo lineal con un término constante
Contraste de hipótesis H0 : β0 = 0
H1 : β0 ≠ 0
Aceptar H0 significa que “no es conveniente incluir un término constante en la ecuación del modelo lineal”
Interpretación:
H0 : β0 = 0
H1 : β0 ≠ 0
Dado que el p-valor es 0.320>0.05, entonces se acepta la hipótesis nula y la constante podría ser
eliminada del modelo
Significación de la constante
Paso 4. Comparar losefectos de las variables
independientes� Identificar qué variables son las que más
influyen en la variable dependiente.� Ver si alguna de las variables no aporta
información significativa y podría sereliminada del modelo de regresión
Comparación de los efectos
Interpretación: la variable que más influye en las ventas es la inversión en publicidad en periódicos (coeficiente tipificado0.711) y la que menos influye es la publicidad en radio (0.006).
Coeficientes tipificados
Significación individual de las variables
Comparación de los efectos
Interpretación: la variable inversión en publicidad en radio no aporta información significativa en la explicación de las ventas (p-valor=0.961>0.05). El modelo por tanto se puede simplificar.
H0 : βj = 0
H1 : βj ≠ 0
Para cada variable independiente, aceptar H0significa que “la variable no aporta información
significativa” en el modelo
Paso 5. Selecciónautomática de variables en el
modelo de regresión lineal� Ajustar un modelo más sencillo donde
sólo las variables que aportan información significativa se incluyan.
Selección de un subconjunto óptimode variables independientes
Objetivo: Seleccionar las variables que sin ser redundantes proporcionen la mejorexplicación de la variable dependiente.
Métodos secuenciales en SPSS: Hacia atrás, Hacia delante, Pasos sucesivos
En términos muy muy generales…
…Evalúan contrastes de hipótesispara controlar la entrada y salidade variables en el modelo
Selección de un subconjunto óptimode variables independientes
Elegimos ajustar el modelo según el método “Pasossucesivos” y eliminamos la constante (botón “Opciones)
Selección de un subconjunto óptimode variables independientes
Modelo final:
R2 corregido = 0.984 la variable ventas queda explicada en un 98.4% por las variables inversión en publicidad en tv y periódicos a través del modelo lineal ajustado
ventas = 12.082*publ_per + 4.599*publ_tv
Ejercicio propuesto
Se pretende estudiar la posiblerelación lineal entre el precio de pisosen miles de euros, en una conocidaciudad española y variables como lasuperficie en m2 y la antigüedad delinmueble en años. Para ello, se realizaun estudio, en el que se selecciona deforma aleatoria una muestrarepresentativa de los distintos barriosde la ciudad. Los datos aparecen en latabla adjunta.
Realizar un análisis de regresión quepermita describir el precio de los pisosen función de la superficie y laantigüedad.