REGRESIÓN LINEAL SIMPLE
Email:[email protected]
Objetivos:
Al finalizar este capitulo el alumno será capaz de:• Representar la recta que define la relación lineal
entre dos variables• Estimar la recta de regresión por el método de
mínimos cuadrados e interpretar su ajuste.• Realizar inferencia sobre los parámetros de la recta
de regresión• Construir e interpretar intervalos de confianza e
intervalos de predicción para la variable dependiente
• Realizar una prueba de hipótesis para determinar si el coeficiente de correlación es distinto de cero
USOS DEL ANÁLISIS DE REGRESIÓN:
• Predicción: razón principal para usar regresión. • Descripción: La idea es establecer una ecuación que
describa la relación entre la variable dependiente y las variables predictoras.
• Control: Controlar el comportamiento o variación de la variable de respuesta. Selección de variables
REPRESENTACION GRAFICA
• Relación entre las variables• Sugerir modelos posibles• Existencia de valores atípicos
GRAFICO DE DISPERSION
EL MODELO DE REGRESIÓN LINEAL SIMPLE
iii eXY ++= βα
• La variable X es no aleatoria y observada con la mejor precisión posible.
• Los errores ei son variables aleatorias con media 0 y varianza σ2 constantes .
• Los errores ei y ej (i,j=1…,n) son independientes entre si. Es decir, Cov(eiej)=0.
Suposiciones del modelo:
ESTIMACION DE LOS PARAMETROS
OBJETIVO:
Hallar los estimadores bo y b1 de los parámetros desconocidos βo, β1 respectivamente, y obtener la ecuación de predicción
ANALISIS DE VARIANZA
Descomposición de la variación total
CUADRO ANOVA
Fuentes de Variación G.L Suma de Cuadrados(SC) Cuadrados Medios(CM) Test FRegresión 1 SCReg CMReg=SCReg F=CMReg/CMEError n-2 SCE CME =SCE/n-2Total n-1 SCY
Test de F de la tabla del ANOVA
1
1
: 0
: 0
Ho
Ha
ββ
=≠
El coeficiente de determinación R2
Corresponde a la porción de la variación total SCTo, de la variable dependiente que es explicada por el modelo de regresión.
2 ReSC gR
SCTo=
Se han recogido datos de una localidad mediante sendas encuestas sobre el consumo (Y ) de productos de hogar y del ingreso (X) de los consumidores consultados, obteniéndose los siguientes resultados:
X Y7.1 54.63.4 44.75.5 514.3 49.73.7 47.26 55
3.3 42.96.7 55.65.1 47.64.5 49.52.7 44.65.9 57.2
• ¿Cumple los supuestos de la regresión?
• Hallar la ecuación de regresión estimada
• Hallar el ANOVA
• Determinar el coeficiente de determinación
• Probar si existe relación lineal entre X e Y. Usar un nivel de significación del 5 %..
3 4 5 6 7
42
47
52
57
X2
Y2
Y2 = 35.1728 + 3.05029 X2
S = 2.11519 R-Sq = 82.2 % R-Sq(adj) = 80.5 %
Regression Plot
Average: -0.0000000StDev: 2.01676N: 12
Anderson-Darling Normality TestA-Squared: 0.241P-Value: 0.713
-3 -2 -1 0 1 2 3 4
.001
.01
.05
.20
.50
.80
.95
.99
.999
Pro
babi
lity
RESI3
Normal Probability Plot
-3 -2 -1 0 1 2 3 4
0
1
2
3
4
Residual
Fre
quen
cy
Histogram of Residuals
0 5 10
-5
0
5
Observation Number
Res
idua
l
I Chart of Residuals
Mean=-5.9E-16
UCL=5.266
LCL=-5.266
45 50 55
-3
-2
-1
01
2
3
4
Fit
Res
idua
l
Residuals vs. Fits
-2 -1 0 1 2
-3
-2
-1
0
1
2
3
4
Normal Plot of Residuals
Normal Score
Re
sid
ua
l
Residual Model Diagnostics
The regression equation is
Y2 = 35.2 + 3.05 X2
Predictor Coef SE Coef T P
Constant 35.173 2.258 15.58 0.000
X2 3.0503 0.4482 6.81 0.000
S = 2.115 R-Sq = 82.2% R-Sq(adj) = 80.5%
Analysis of Variance
Source DF SS MS F P
Regression 1 207.21 207.21 46.31 0.000
Residual Error 10 44.74 4.47
Total 11 251.95
INTERVALO DE CONFIANZA PARA EL COEFICIENTE DE REGRESIÓN
Supuesto:1 1 1( , ( ))b N Vβ β:
Luego, un intervalo de confianza de 100(1-α) para β1 está dado por:
1 11 1 1( ) ;b bIC b tS b tSβ = − +
1 ( )b
CMES
SC X= (1 , 2)
2n
t t α− −=
Donde:
PRUEBA DE HIPOTESIS PARA β1
1
1
: 0
: 0
Ho
Ha
ββ
=≠
( )
c
bt
CMESC X
=
ESTIMACIÓN DE LA RECTA MEDIA
Interesa estimar la respuesta media en función de un valor especifico de Xh
2/( , )hy xY N µ σ:
0 1h hY b b X= +
Luego, un intervalo de confianza de 100(1-α) para µY/X está dado por:
ˆ ˆ/ˆ ˆ( ) ;
h hY X h hY Y
IC Y tS Y tSµ = − +
(1 , 2)2n
t t α− −=
( ) 2
ˆ
1
( )h
h
Y
X XS CME
n SC X
− = +
Donde:
PREDICCION DE UNA NUEVA OBSERVACION
Interesa predecir una observación que se producirá para un valor especifico Xp
2/( , )pp y xY N µ σ:
Luego, un intervalo de confianza de 100(1-α) para la nueva observación Yp está dado por:
ˆ ˆˆ ˆ( ) ;
pp p pY Yp
IC Y Y tS Y tS= − +
Donde:
(1 , 2)2n
t t α− −= ( ) 2
ˆ
11
( )
p
Yp
X XS CME
n SC X
− = + +
COEFICIENTE DE CORRELACION
.
SPxyrSCx SCy
=
El análisis de CORRELACION intenta medir la fuerza de la relación lineal entre dos variables.
cov( )XY
x y
XYρσ σ
=
Estimado por:
1r = + 1r = −
0r = 0r =
PRUEBA DE HIPOTESIS DE LA CORRELACION
: 0Ho ρ =
: 0Ha ρ ≠
21
2
c
rt
r
n
=−−
Un comerciante al menudeo lleva a cabo un estudio para determinar la relación entre los gastos semanales de publicidad y las ventas. Se registran los siguientes datos:
Costos por Publicidad 40 20 25 20 30 50 40 20 50 40 25 50Ventas($) 385 400 395 365 475 440 490 420 560 525 480 510
Resolver:
1. Analizar el diagrama de dispersión
2. Ajustar un modelo de regresión lineal simple
3. Determinar si el efecto del monto de las ventas sobre el costo promedio de la publicidad es significativo.
4.Calcule el intervalo de confianza del 95% para el parámetro β.
5. ¿Podría afirmarse que por cada $10 de aumento en el costo de publicidad, el monto promedio de las ventas aumenta en $35?.
6.Estime el monto promedio de las ventas si en una semana en particular se invierte en publicidad $35. Calcule un intervalo de confianza del 95% para esta estimación.
7.Suponga que la semana entrante se van a invertir en publicidad un total de $45. ¿Cuál será el monto de las ventas? Encuentre un intervalo de confianza del 95 % para esta predicción.
8. Análisis de los supuestos sobre el término de error.
Average: -0.0000000StDev: 47.8883N: 12
Anderson-Darling Normality TestA-Squared: 0.281P-Value: 0.575
-50 0 50
.001
.01
.05
.20
.50
.80
.95
.99
.999P
roba
bilit
y
RESI5
Normal Probability Plot
400 450 500
-2
-1
0
1
Fitted Value
Sta
nd
ard
ize
d R
esi
du
al
Residuals Versus the Fitted Values(response is Ventas($)
-2 -1 0 1
-2
-1
0
1
2
Nor
mal
Sco
re
Standardized Residual
Normal Probability Plot of the Residuals(response is Ventas($)