Post on 19-Feb-2018
Este documento es de distribución gratuita y llega gracias a
“Ciencia Matemática” www.cienciamatematica.com
El mayor portal de recursos educativos a tu servicio!
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 1 M. en C. José Luis Hernández González
INSTITUTO TECNOLÓGICO DE APIZACO
DEPARTAMENTO DE CIENCIAS BÁSICAS www.itapizaco.edu.mx/~cbasicas
ESTADÍSTICA ADMINISTRATIVA II (Licenciatura en administración)
M. en C. JOSÉ LUIS HERNÁNDEZ GONZÁLEZ www.itapizaco.edu.mx/~joseluis (~ alt 126)
Enviar las tareas al correo: tareasjlhg@yahoo.com
Alum.:____________________________________________ No. Lista: _________
Apizaco Tlax., Agosto/Diciembre 2007
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 2 M. en C. José Luis Hernández González
ESTADÍSTICA ADMINISTRATIVA II
(Licenciatura en administración) OBJETIVO GENERAL DEL CURSO. Analizará y aplicará conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en la solución de problemas en áreas de su competencia.
1 Pruebas de Hipótesis 1.1 Hipótesis estadísticas. Conceptos generales 1.2 Errores tipo I y II 1.3 Pruebas unilaterales y bilaterales 1.4 Prueba de una hipótesis: referente a la media con varianza Desconocida utilizando la distribución normal y “t” student 1.5 Dos muestras: pruebas sobre dos medias utilizando la distribución Normal y “t” student. 1.6 Una muestra: prueba sobre una sola proporción 1.7 Dos muestras: prueba sobre dos proporciones 1.8 Dos muestras: pruebas pareadas
2 Pruebas de la bondad del ajuste y análisis de varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Paquete computacional
3 Análisis de regresión, correlación lineal simple y múltiple 3.1 Estimación mediante la línea de regresión 3.1.1 Diagrama de dispersión 3.1.2 Método de mínimos cuadrados 3.1.3 Interpretación del error estándar de la estimación 3.1.4 Intervalos de predicción aproximados 3.1.5 Análisis de correlación 3.1.6 Paquete computacional para la solución de problemas 3.1.7 Regresión múltiple y análisis de correlación 3.1.8 Usos de variables ficticias 3.1.9 Residuales y gráficas de residuales 3.1.10 Interpretación del intervalo de confianza. 3.1.11 Uso del coeficiente de determinación múltiple 3.1.12 Paquete computacional para la solución de problemas.
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 3 M. en C. José Luis Hernández González
4 Series de tiempo 4.1 Modelo clásico de series de tiempo 4.2 Análisis de tendencia 4.3 Análisis de variaciones cíclicas 4.4 Medición de variaciones estacionales 4.5 Aplicación de ajustes estacionales 4.6 Pronósticos basados en factores de tendencia y estacionales 4.7 Pronósticos, ciclos e indicadores económicos 4.8 Promedios móviles 4.9 Suavización exponencial como pronóstico 4.10 Aplicaciones del paquete computacional
5 Estadística no paramétrica. 5.1 Escala de medición 5.2 Métodos estadísticos contra no paramétricos 5.3 Prueba de corridas para aleatoriedad 5.4 Una muestra: prueba de signos 5.5 Una muestra: prueba de Wilcoxon 5.6 Dos muestras: prueba de Mann-Whitney 5.7 Observaciones pareadas: prueba de signos 5.8 Observaciones pareadas prueba de Wilcoxon 5.9 Varias muestras independientes: prueba de Kruskal-Wallis 5.10 Aplicaciones del paquete computacional
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 6 M. en C. José Luis Hernández González
PRUEBAS DE HIPÓTESIS.
Dentro de la inferencia estadística se encuentra la prueba de hipótesis, cuyo objetivo es probar o comprobar si la afirmación que se hace sobre un parámetro poblacional basado en conclusiones obtenidas de una muestra es correcta o incorrecta. Hipótesis estadística. Es una proposición o suposición que se hace sobre los parámetros de una distribución de probabilidad de una variable aleatoria. Dicha hipótesis puede ser verdadera o falsa, por lo que se puede aceptar o rechazar. Prueba de hipótesis estadística. Es el procedimiento empleado para decidir si se acepta o se rechaza por su veracidad o falsedad, una hipótesis estadística también se le conoce como “ensayos de significación”, “reglas de decisión” ó “contraste de hipótesis”. Su objetivo es evaluar proposiciones o afirmaciones que se hacen acerca de los parámetros poblacionales basados en estadísticos muestrales con un grado o nivel de significancia determinado. Hipótesis nula e hipótesis alternativa.
En una prueba de hipótesis de significación se plantean dos tipos de hipótesis excluyentes, llamadas hipótesis nula e hipótesis alternativa. La hipótesis nula expresa que una proposición es verdadera, mientras que la hipótesis
alternativa afirma que es falsa ó viceversa. Ho = hipótesis nula H1 = hipótesis alternativa Ejemplos: Ho µ = 1.68 H1 µ ≠ 1.68 H1 µ < 1.68 H1 µ > 1.68 Ho µ = 4200 H1 µ > 4200 H1 µ < 4200 H1 µ ≠ 4200
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 7 M. en C. José Luis Hernández González
Errores tipo I y tipo II. En el proceso de emplear una muestra para formar una decisión poblacional en una prueba de hipótesis, podemos cometer dos equivocaciones, al rechazar una hipótesis verdadera o al aceptar una hipótesis falsa; estas equivocaciones se conocen como: a) Error tipo I. Se comete cuando se rechaza una hipótesis que por ser verdadera debería ser aceptada. b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa debería ser rechazada.
Buen estudiante Mal estudiante
Aprobarlo Decisión correcta Error tipo II
Repobarlo Error tipo I Decisión correcta
Nivel de significancia y nivel de confianza. El nivel de significancia se refiere a la probabilidad α de cometer error tipo I, es decir, rechazar una hipótesis verdadera. El nivel de confianza se refiere a la probabilidad 1- α de aceptar una hipótesis verdadera.
H0 verdadera H1 falsa
Se acepta Ho Decisión correcta (1 – α) Error tipo II (β)
Se rechaza Ho Error tipo I (α) Decisión correcta (1 – β)
Procedimiento para realizar una prueba de hipótesis. 1.- Del fenómeno estadístico a probar. Se establecen las hipótesis nula Ho, y la hipótesis alternativa H1. 2.- Se especifica la probabilidad del error tipo I (α) como nivel de significancia y 1 – α como nivel de confianza. 3.- Se selecciona el tamaño de la muestra, la función de distribución de probabilidad y el estadístico muestral que sirva de base para la regla de decisión conocido como estadístico de prueba. 4.- Se determinan los valores críticos que limita la región de aceptación de la región de rechazo (que dependerá del valor de α y de la hipótesis alternativa).
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 8 M. en C. José Luis Hernández González
5.- Si el valor del estadístico muestral cae dentro de la región de rechazo, rechazamos Ho, debido a que la probabilidad de obtener ese valor del estadístico muestral cuando Ho es cierta o verdadera, es tan pequeño que no debe atribuirse a errores de muestreo, lo que nos conduce a deducir que Ho es falsa. 6.- Dar conclusión acerca del problema y/o formar una decisión. Hipótesis unilateral y bilateral. Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo de un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas se denominan unilaterales o de una cola; en el segundo caso se conoce como bilaterales o de dos colas. En los ensayos unilaterales la región de rechazo es única a un lado de la distribución con un área determinada por el valor de α. En las bilaterales la región de rechazo el área se determina dividiendo el nivel de significancia en dos partes iguales.
BILATERAL ≠
UNILATERAL >
UNILATERAL <
Zona de aceptación Zona de rechazo
α 1−α
Zona de aceptación Zona de rechazo
α 1−α
Zona de aceptación
Zona de rechazo
α/2 1−α α/2
Zona de rechazo
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 9 M. en C. José Luis Hernández González
H0 Estadístico de prueba
Distribución normal µ = µ0
n
x=z
σµ−
Distribución t µ = µ0
n
sx
=tµ−;v = n – 1
Distribución normal µ1 – µ2 = d0
σ1 y σ2 conocidas 2
22
1
21
021
nn
d)xx(z
σ+
σ
−−=
Distribución t µ1 – µ2 = d0
σ1 = σ2 desconocidas 21
p
021
n
1
n
1s
d)xx(t
+
−−= ;
2nn
s)1n(s)1n(s
21
222
2112
p −+
−+−=
Distribución t µ1 – µ2 = d0
σ1 ≠ σ2 desconocidas
2
22
1
21
021
n
s
n
s
d)xx(t
+
−−= ;
1n
n
s
1n
n
s
n
s
n
s
2
2
2
22
1
2
1
21
2
2
22
1
21
−
+−
+
=v
Distribución normal p = p0 )p1(np
npxz
00
0
−
−=
Distribución normal p1= p2
+
−=
21
21
n
1
n
1qp
)pp(z ;
21
21
nn
xxp
+
+=
Distribución χ2 σ = σ0 2
22 s)1n(
σ
−=χ
Distribución F σ1 = σ2 2
2
21
s
sf =
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 10 M. en C. José Luis Hernández González
ANÁLISIS DE REGRESIÓN E INTERPOLACIÓN Las funciones que representan un conjunto de datos pueden ser o no polinomiales. Los métodos más utilizados para ajustar curvas a un conjunto de puntos son: a) Interpolación polinomial. Consiste en encontrar una función que pase exactamente a través de cada uno de los puntos. b) Análisis de regresión. Consiste en encontrar una función que se ajuste a los puntos pero no necesariamente pase a través de ellos.
a) b)
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
El análisis de regresión trata de establecer una relación funcional entre variables y proporciona un mecanismo de predicción o pronostico y en realidad lo que se requiere es estimar:
xx|y β+α=µ
Las relaciones que se pueden establecer dependiendo del número de variables independientes x son: Análisis de regresión simple. Se establece cuando la variable dependiente y esta en función de una única variable independiente x.
y = f(x) Análisis de regresión múltiple. Se establece cuando la variable dependiente y, se determinan o esta en función de más de una variable dependiente x.
y = f(x1, x2, ..., xn)
Para el caso de regresión lineal simple tenemos que
bxaY +=
Donde Y se conoce como y estimada, por simplicidad escribiremos: y = a + bx
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 11 M. en C. José Luis Hernández González
DIAGRAMA DE DISPERSIÓN Es la grafica que representa un conjunto de pares ordenados o datos observados y que describe la relación que existe entre ellos.
ANÁLISIS DE REGRESIÓN
Las funciones matemáticas empleadas son las siguientes. 1. Función lineal y = a + bx
2. Función cuadrática y = a + bx + cx2
ANÁLISIS DE REGRESIÓN LINEAL
Una vez elegida la función matemática que mejor represente al fenómeno, se requiere de un método estadístico para estimar los parámetros o valores numéricos que ponderen la relación entre variables, existen varios métodos pero el mejor es el de mínimos cuadrados. El modelo matemático más simple de una aproximación por mínimos cuadrados, es el ajuste de una línea recta a un conjunto de pares ordenados (x, y).
y = a + bx + e
x
y
x
y
x
y
e
x
y
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 12 M. en C. José Luis Hernández González
Para obtener la mejor línea a través de los datos se debe minimizar la suma de los errores residuales al cuadrado.
e = y – a – bx
2eSr =
∑ −−= 2)bxay(Sr
derivando respecto a a y respecto a b
∑
∑
−−−=∂∂
−−−=∂∂
x)bxay(2b
Sr
)bxay(2a
Sr
Hay un mínimo o máximo igualando las dos ecuaciones a cero.
∑ ∑ ∑∑ ∑ ∑
=−+
=−+
0yxbxax
0ybxa2
si naa =∑
∑ ∑∑∑ ∑
=+
=+
xybxxa
yxbna2
es decir
=
∑∑
∑∑∑
xy
y
b
a
xx
xn2
Resolviendo el sistema de ecuaciones
( )∑ ∑∑ ∑ ∑∑
−
−=
22
2
xxn
xyxxya
( )∑ ∑∑ ∑∑
−
−=
22 xxn
yxxynb
Para la inferencia también es necesario calcular:
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 13 M. en C. José Luis Hernández González
( )n
xx)xx(S
22
n
1iixx
∑∑∑ −=−==
( )n
yy)yy(S
22
n
1iiyy
∑∑∑ −=−==
( )( )n
yxxy)yy)(xx(S i
n
1iixy
∑∑∑∑ −=−−==
xx
xy
S
Sb =
∑ −
−=
−−
=−
=2n
bSS
2n
)yy(
2n
SSES xyyy
22 Estimador insesgado de la varianza
Ejemplo: Realizar el ajuste lineal para el siguiente conjunto de datos.
x y
-2 13
-1 24
0 39
1 65
2 106
x y x2 y2 xy
-2 13 4 169 -26
-1 24 1 576 -24
0 39 0 1521 0
1 65 1 4225 65
2 106 4 11236 212
0 247 10 17727 227
Cálculo de los coeficientes a y b.
4.4950
2470
)0()10)(5(
)227)(0()10)(247(a
2==
−−
=
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 14 M. en C. José Luis Hernández González
7.2250
1135
)0()10)(5(
)227)(0()227)(5(b
2==
−−
=
y = 49.4 + 22.7 x
Calcular el valor de y para cuando x = 1.5.
Cuando x = 1.5
y(2.2) = 49.4 + 22.7(1.5)
y(1.5) = 83.45
ANÁLISIS DE CORRELACIÓN
Nos permite determinar cuantitativamente el grado de relación que existe entre las variables. Para medir el grado de ajuste de una línea a un diagrama de dispersión usamos:
a) Coeficiente de determinación. Representa la proporción de la variabilidad total de la muestra aleatoria alrededor de y
Si r2 = 1 Indica un ajuste perfecto
Si r2 = 0 Indica un ajuste deficiente o nulo
1r0 2 ≤≤ b) Coeficiente de correlación. Mide la asociación lineal entre las dos variables.
1r1 ≤≤−
( )( ) ( ) )yyn)(xxn(
yxxynr
2222
2
2
∑ ∑∑∑∑∑∑
−−
−=
O
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 15 M. en C. José Luis Hernández González
yyyyxx
2xx
yy
xx22
S
SSR
SS
S
S
Sbr ===
2rr =
yyxx
xx
yy
xx
SS
S
S
Sbr ==
( )( ) ( )
=−−
−=
)247)17727)(5)((0)10)(5((
)247)(0()227)(5(r
22
22 0.9326
9657.09326.0r ==
REGRESIÓN CUADRÁTICA
Por medio de mínimos cuadrados podemos ajustar a la ecuación
y = a + bx + cx2 Con un procedimiento similar al análisis de regresión lineal obtenemos los valores de a, b y c.
2xcany ∑∑ += ;
∑∑ ∑ += 422 xcxayx
∑∑=
2x
xyb ;
Ejemplo: Realizar el ajuste cuadrático para el siguiente conjunto de datos.
x y x2 x4 xy x2y
-2 13 4 16 -26 52
-1 24 1 1 -24 24
0 39 0 0 0 0
1 65 1 1 65 65
2 106 4 16 212 424
0 247 10 34 227 565
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 16 M. en C. José Luis Hernández González
=
∑∑
∑∑∑
yx
y
c
a
xx
xn242
2
;
=
565
247
c
a
3410
105
a = 39.257; 7.2210
227b == ; c = 5.071
y = a + bx + cx2
y = 39.258 + 22.7x + 5.071x2
y(1.5) = 39.258 + 22.7(1.5) + 5.071(1.5)2 = 84.718
INFERENCIAS EN EL ANÁLISIS DE REGRESIÓN
Usualmente se realizan inferencias sobre α y β.
Intervalo de confianza para ββββ
Un intervalo de confianza para (1-α)100% para el parámetro β en la línea de regresión
xk/y β+α=µ es
xx
2/
xx
2/
S
Stb
S
Stb αα +<β<−
Donde tα/2 es un valor de la distribución t con n-2 grados de libertad.
Prueba de hipótesis sobre la pendiente
H0: β = 0
H1: β ≠ 0
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 17 M. en C. José Luis Hernández González
Se requiere de utilizar la distribución t con n-2 grados de libertad y establecer una región crítica
basados en
xx
0
S
sb
tβ−
=
Procedimiento de análisis de varianza
Consiste en subdividir la variación total de la variable dependiente (y) en componentes significativos
que se observan y se tratan de manera sistemática.
Suponga que se tienen n puntos de datos experimentales en la forma acostumbrada (xi,yi) y que se
estima la línea de regresión. La varianza (σ2) del conjunto de puntos, se puede calcular con:
Syy = bSxy + SSE
La formula alternativa es:
∑ ∑∑= ==
−+−=−n
1i
n
1i
2i
2i
n
1i
2i )yy()yy()yy(
Con lo que se logra una partición de la suma total de cuadrados de y en dos componentes.
SST = SSR + SSR
SSR es la suma de cuadrados de regresión y refleja la cantidad de variación en los valores y,
explicados por el modelo.
SSE es la suma de cuadrados del error, que refleja la variación alrededor de la línea de regresión.
Bajo la condición de que β = 0, se puede demostrar 2
SSR
σ y
2
SSE
σson valores de variables χ2
Independientes con l y n-2 grados de libertad, respectivamente, y por lo tanto se sigue que 2
SST
σ
también es un valor de χ2 con n – 1 grados de libertad. Para realizar esta prueba tenemos:
2s
SSR
2n
SSEl
SSR
f =
−
=
Se rechaza H0 al nivel de significancia α cuando f > fα(l,n-2)
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 18 M. en C. José Luis Hernández González
El resumen se presenta en una tabla de análisis de varianza.
ANÁLISIS DE VARIANZA
Grados de
libertad Suma de cuadrados
Promedio de los
cuadrados F
Valor crítico de
F
Regresión 1
( )xx
2xy
S
SSSR =
SSR 2s
SSR
Residuos n – 2 SSE = SST – SSR 2n
SSES2
−=
Total n – 1 SST = Syy
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción a
b
Ejemplo: Los siguientes datos se obtuvieron de la medición de un problema de caída libre bajo
ciertas condiciones de laboratorio. Ajuste un modelo de regresión lineal.
T d
1 6
2 30
3 60
4 91
5 130
6 170
7 200
8 280
9 240
10 340
Los resultados con la herramienta de regresión de Excel son:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97895976
Coeficiente de determinación R^2 0.95836221
R^2 ajustado 0.95241395
Error típico 22.6605034
Observaciones 9
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 19 M. en C. José Luis Hernández González
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los
cuadrados F Valor crítico
de F
Regresión 1 82733.0667 82733.0667 161.116499 4.3581E-06
Residuos 7 3594.48889 513.498413
Total 8 86327.5556
Coeficiente
s Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -
51.5777778 19.1090143 -2.69913335 0.03067747 -96.7634164 -6.3921392
1 37.1333333 2.9254584 12.6931674 4.3581E-06 30.2157234 44.0509432
Análisis de los residuales Resultados de datos de probabilidad
Observación Pronóstico
6 Residuos Residuos estándares Percentil 6
1 22.6888889 7.31111111 0.34491319 5.55555556 30
2 59.8222222 0.17777778 0.00838695 16.6666667 60
3 96.9555556 -5.95555556 -0.28096272 27.7777778 91
4 134.088889 -4.08888889 -0.19289978 38.8888889 130
5 171.222222 -1.22222222 -0.05766026 50 170
6 208.355556 -8.35555556 -0.3941865 61.1111111 200
7 245.488889 34.5111111 1.62811607 72.2222222 240
8 282.622222 -42.6222222 -2.01077052 83.3333333 280
9 319.755556 20.2444444 0.95506358 94.4444444 340
Curva de regresión ajustada
0
50
100
150
200
250
300
350
400
Gráfico de los residuales
-60
-40
-20
0
20
40
0 2 4 6 8 10 12
Residuos
Gráfico de probabilidad normal
0
100
200
300
400
0 20 40 60 80 100
Muestra percentil
6
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 20 M. en C. José Luis Hernández González
ANÁLISIS DE REGRESIÓN MÚLTIPLE En la mayoría de los problemas se requiere de más de una variable independiente para un modelo de regresión, por lo cual se hace necesario considerar que:
y = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk Aplicando mínimos cuadrados podemos calcular los coeficientes
∑ −−−−= )xb...xbxby(Sr kk22112
Derivando respecto a cada uno de los coeficientes, e igualando a cero obtenemos un conjunto de k+1 ecuaciones.
=
∑
∑∑∑
∑∑∑∑
∑∑∑∑∑∑∑∑∑∑∑
yx
yx
yx
y
b
b
b
b
x...xxxxx
...
xx...xxxx
xx...xxxx
x...xxn
k
2
1
k
2
1
0
2k2k1kk
k222122
k121211
k21
MMMMMM
Resolviendo el sistema de ecuaciones obtenemos los coeficientes de x. Ejemplo. Realizar un análisis de regresión múltiple para los siguientes datos.
y x1 x2
90 32 171
70 43 232
90 32 245
102 43 342
96 46 211
77 35 233
51 52 147
88 51 324
82 50 230
94 48 233
Formamos un sistema de 3x3.
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 21 M. en C. José Luis Hernández González
=
203532
36019
840
b
b
b
5926381027072368
10270719196432
236843210
2
1
0
Resolviendo las ecuaciones tenemos
153.0b
621.0b
655.74b
2
1
0
=
−=
=
y = 74.655 – 0.621x1 + 0.153x2
y(40,150) = 74.655 – 0.621(40) + 0.153(150) = 72.77
En termino de matrices se puede expresar como
Ab=y
(X’X)b =X’y
A=X’X
g=X’y
Resolviendo
b = A–1g
b = (X’X) –1X’y
Inferencia en la regresión lineal múltiple
a) Intervalo de confianza para la respuesta pronosticada
Una de las inferencias más útiles qu se pueden haces en relación a la cantidad de la respuesta
pronosticada y0 que corresponde a los valores x10, x20, …, xk0 es el intervalo de confianza sobre
la respuesta media 02010 ,...,,| kxxxYµ para el conjunto de condiciones.
01
02/0x,...,x,x|Y01
02/0 x)X'X('xstyx)X'X('xsty0k2010
−α
−α +<µ<−
Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.
1kn
SSEs
−−=
SSRSSSE YY −=
O
www.cienciamatematica.com
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas
Estadística II (Lic. en Administración) pag. 22 M. en C. José Luis Hernández González
( ) ( )
−β−
−= ∑∑
n
Y'Y'X'ˆ
n
YY'YSSE
22
donde ∑= 2YY'Y
n = número de datos de la muestra
k = número de variables independientes
La cantidad 01
0 x)X'X('xs − , se llama error estándar de predicción y por lo general se calcula
en un programa de computadora.
b) Intervalo de predicción para una sola respuesta
01
02/0001
02/0 x)X'X('x1styyx)X'X('x1sty −α
−α ++<<+−
Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.
c) Prueba de hipótesis sobre los coeficientes individuales
La inclusión de cualquier variable única en un sistema de regresión aumentará la suma de
cuadrados de regresión y por ello reducirá la suma de cuadrados del error. Por ello se debe
decidir si el aumento en la regresión es suficiente para garantizar su uso en el modelo. En
consecuencia el uso de variables sin importar puede reducir la efectividad de la ecuación de
predicción al aumentar la varianza de la respuesta estimada.
Se acostumbra probar
H0 : βj = Bj0
H1 : βj ≠ Bj0
Se calcula el estadístico ij
0jj
cs
Bbt
−=
Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.
Cjj es el elemento de la diagonal principal de la matriz inversa (X’X) –1 correspondiente a jj
www.cienciamatematica.com