· PDF fileEnviar las tareas al correo: ... 4.4 Medición de variaciones estacionales...

Este documento es de distribución gratuita y llega gracias a

“Ciencia Matemática” www.cienciamatematica.com

El mayor portal de recursos educativos a tu servicio!

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 1 M. en C. José Luis Hernández González

INSTITUTO TECNOLÓGICO DE APIZACO

DEPARTAMENTO DE CIENCIAS BÁSICAS www.itapizaco.edu.mx/~cbasicas

ESTADÍSTICA ADMINISTRATIVA II (Licenciatura en administración)

M. en C. JOSÉ LUIS HERNÁNDEZ GONZÁLEZ www.itapizaco.edu.mx/~joseluis (~ alt 126)

Enviar las tareas al correo: tareasjlhg@yahoo.com

Alum.:____________________________________________ No. Lista: _________

Apizaco Tlax., Agosto/Diciembre 2007

ESTADÍSTICA ADMINISTRATIVA II

(Licenciatura en administración) OBJETIVO GENERAL DEL CURSO. Analizará y aplicará conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en la solución de problemas en áreas de su competencia.

1 Pruebas de Hipótesis 1.1 Hipótesis estadísticas. Conceptos generales 1.2 Errores tipo I y II 1.3 Pruebas unilaterales y bilaterales 1.4 Prueba de una hipótesis: referente a la media con varianza Desconocida utilizando la distribución normal y “t” student 1.5 Dos muestras: pruebas sobre dos medias utilizando la distribución Normal y “t” student. 1.6 Una muestra: prueba sobre una sola proporción 1.7 Dos muestras: prueba sobre dos proporciones 1.8 Dos muestras: pruebas pareadas

2 Pruebas de la bondad del ajuste y análisis de varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Paquete computacional

3 Análisis de regresión, correlación lineal simple y múltiple 3.1 Estimación mediante la línea de regresión 3.1.1 Diagrama de dispersión 3.1.2 Método de mínimos cuadrados 3.1.3 Interpretación del error estándar de la estimación 3.1.4 Intervalos de predicción aproximados 3.1.5 Análisis de correlación 3.1.6 Paquete computacional para la solución de problemas 3.1.7 Regresión múltiple y análisis de correlación 3.1.8 Usos de variables ficticias 3.1.9 Residuales y gráficas de residuales 3.1.10 Interpretación del intervalo de confianza. 3.1.11 Uso del coeficiente de determinación múltiple 3.1.12 Paquete computacional para la solución de problemas.

www.cienciamatematica.com

4 Series de tiempo 4.1 Modelo clásico de series de tiempo 4.2 Análisis de tendencia 4.3 Análisis de variaciones cíclicas 4.4 Medición de variaciones estacionales 4.5 Aplicación de ajustes estacionales 4.6 Pronósticos basados en factores de tendencia y estacionales 4.7 Pronósticos, ciclos e indicadores económicos 4.8 Promedios móviles 4.9 Suavización exponencial como pronóstico 4.10 Aplicaciones del paquete computacional

5 Estadística no paramétrica. 5.1 Escala de medición 5.2 Métodos estadísticos contra no paramétricos 5.3 Prueba de corridas para aleatoriedad 5.4 Una muestra: prueba de signos 5.5 Una muestra: prueba de Wilcoxon 5.6 Dos muestras: prueba de Mann-Whitney 5.7 Observaciones pareadas: prueba de signos 5.8 Observaciones pareadas prueba de Wilcoxon 5.9 Varias muestras independientes: prueba de Kruskal-Wallis 5.10 Aplicaciones del paquete computacional

PRUEBAS DE HIPÓTESIS.

Dentro de la inferencia estadística se encuentra la prueba de hipótesis, cuyo objetivo es probar o comprobar si la afirmación que se hace sobre un parámetro poblacional basado en conclusiones obtenidas de una muestra es correcta o incorrecta. Hipótesis estadística. Es una proposición o suposición que se hace sobre los parámetros de una distribución de probabilidad de una variable aleatoria. Dicha hipótesis puede ser verdadera o falsa, por lo que se puede aceptar o rechazar. Prueba de hipótesis estadística. Es el procedimiento empleado para decidir si se acepta o se rechaza por su veracidad o falsedad, una hipótesis estadística también se le conoce como “ensayos de significación”, “reglas de decisión” ó “contraste de hipótesis”. Su objetivo es evaluar proposiciones o afirmaciones que se hacen acerca de los parámetros poblacionales basados en estadísticos muestrales con un grado o nivel de significancia determinado. Hipótesis nula e hipótesis alternativa.

En una prueba de hipótesis de significación se plantean dos tipos de hipótesis excluyentes, llamadas hipótesis nula e hipótesis alternativa. La hipótesis nula expresa que una proposición es verdadera, mientras que la hipótesis

alternativa afirma que es falsa ó viceversa. Ho = hipótesis nula H1 = hipótesis alternativa Ejemplos: Ho µ = 1.68 H1 µ ≠ 1.68 H1 µ < 1.68 H1 µ > 1.68 Ho µ = 4200 H1 µ > 4200 H1 µ < 4200 H1 µ ≠ 4200

Errores tipo I y tipo II. En el proceso de emplear una muestra para formar una decisión poblacional en una prueba de hipótesis, podemos cometer dos equivocaciones, al rechazar una hipótesis verdadera o al aceptar una hipótesis falsa; estas equivocaciones se conocen como: a) Error tipo I. Se comete cuando se rechaza una hipótesis que por ser verdadera debería ser aceptada. b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa debería ser rechazada.

Buen estudiante Mal estudiante

Aprobarlo Decisión correcta Error tipo II

Repobarlo Error tipo I Decisión correcta

Nivel de significancia y nivel de confianza. El nivel de significancia se refiere a la probabilidad α de cometer error tipo I, es decir, rechazar una hipótesis verdadera. El nivel de confianza se refiere a la probabilidad 1- α de aceptar una hipótesis verdadera.

H0 verdadera H1 falsa

Se acepta Ho Decisión correcta (1 – α) Error tipo II (β)

Se rechaza Ho Error tipo I (α) Decisión correcta (1 – β)

Procedimiento para realizar una prueba de hipótesis. 1.- Del fenómeno estadístico a probar. Se establecen las hipótesis nula Ho, y la hipótesis alternativa H1. 2.- Se especifica la probabilidad del error tipo I (α) como nivel de significancia y 1 – α como nivel de confianza. 3.- Se selecciona el tamaño de la muestra, la función de distribución de probabilidad y el estadístico muestral que sirva de base para la regla de decisión conocido como estadístico de prueba. 4.- Se determinan los valores críticos que limita la región de aceptación de la región de rechazo (que dependerá del valor de α y de la hipótesis alternativa).

5.- Si el valor del estadístico muestral cae dentro de la región de rechazo, rechazamos Ho, debido a que la probabilidad de obtener ese valor del estadístico muestral cuando Ho es cierta o verdadera, es tan pequeño que no debe atribuirse a errores de muestreo, lo que nos conduce a deducir que Ho es falsa. 6.- Dar conclusión acerca del problema y/o formar una decisión. Hipótesis unilateral y bilateral. Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo de un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas se denominan unilaterales o de una cola; en el segundo caso se conoce como bilaterales o de dos colas. En los ensayos unilaterales la región de rechazo es única a un lado de la distribución con un área determinada por el valor de α. En las bilaterales la región de rechazo el área se determina dividiendo el nivel de significancia en dos partes iguales.

BILATERAL ≠

UNILATERAL >

UNILATERAL <

Zona de aceptación Zona de rechazo

α 1−α

Zona de aceptación Zona de rechazo

α 1−α

Zona de aceptación

Zona de rechazo

α/2 1−α α/2

Zona de rechazo

H0 Estadístico de prueba

Distribución normal µ = µ0

σµ−

Distribución t µ = µ0

=tµ−;v = n – 1

Distribución normal µ1 – µ2 = d0

σ1 y σ2 conocidas 2

d)xx(z

−−=

Distribución t µ1 – µ2 = d0

σ1 = σ2 desconocidas 21

d)xx(t

−−= ;

s)1n(s)1n(s

p −+

−+−=

Distribución t µ1 – µ2 = d0

σ1 ≠ σ2 desconocidas

d)xx(t

−−= ;

Distribución normal p = p0 )p1(np

Distribución normal p1= p2

)pp(z ;

Distribución χ2 σ = σ0 2

22 s)1n(

−=χ

Distribución F σ1 = σ2 2

ANÁLISIS DE REGRESIÓN E INTERPOLACIÓN Las funciones que representan un conjunto de datos pueden ser o no polinomiales. Los métodos más utilizados para ajustar curvas a un conjunto de puntos son: a) Interpolación polinomial. Consiste en encontrar una función que pase exactamente a través de cada uno de los puntos. b) Análisis de regresión. Consiste en encontrar una función que se ajuste a los puntos pero no necesariamente pase a través de ellos.

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

El análisis de regresión trata de establecer una relación funcional entre variables y proporciona un mecanismo de predicción o pronostico y en realidad lo que se requiere es estimar:

xx|y β+α=µ

Las relaciones que se pueden establecer dependiendo del número de variables independientes x son: Análisis de regresión simple. Se establece cuando la variable dependiente y esta en función de una única variable independiente x.

y = f(x) Análisis de regresión múltiple. Se establece cuando la variable dependiente y, se determinan o esta en función de más de una variable dependiente x.

y = f(x1, x2, ..., xn)

Para el caso de regresión lineal simple tenemos que

bxaY +=

Donde Y se conoce como y estimada, por simplicidad escribiremos: y = a + bx

DIAGRAMA DE DISPERSIÓN Es la grafica que representa un conjunto de pares ordenados o datos observados y que describe la relación que existe entre ellos.

ANÁLISIS DE REGRESIÓN

Las funciones matemáticas empleadas son las siguientes. 1. Función lineal y = a + bx

2. Función cuadrática y = a + bx + cx2

ANÁLISIS DE REGRESIÓN LINEAL

Una vez elegida la función matemática que mejor represente al fenómeno, se requiere de un método estadístico para estimar los parámetros o valores numéricos que ponderen la relación entre variables, existen varios métodos pero el mejor es el de mínimos cuadrados. El modelo matemático más simple de una aproximación por mínimos cuadrados, es el ajuste de una línea recta a un conjunto de pares ordenados (x, y).

y = a + bx + e

Para obtener la mejor línea a través de los datos se debe minimizar la suma de los errores residuales al cuadrado.

e = y – a – bx

2eSr =

∑ −−= 2)bxay(Sr

derivando respecto a a y respecto a b

−−−=∂∂

x)bxay(2b

)bxay(2a

Hay un mínimo o máximo igualando las dos ecuaciones a cero.

∑ ∑ ∑∑ ∑ ∑

0yxbxax

0ybxa2

si naa =∑

∑ ∑∑∑ ∑

xybxxa

yxbna2

es decir

∑∑

∑∑∑

Resolviendo el sistema de ecuaciones

( )∑ ∑∑ ∑ ∑∑

xyxxya

( )∑ ∑∑ ∑∑

22 xxn

yxxynb

Para la inferencia también es necesario calcular:

xx)xx(S

∑∑∑ −=−==

yy)yy(S

∑∑∑ −=−==

( )( )n

yxxy)yy)(xx(S i

∑∑∑∑ −=−−==

∑ −

−−

SSES xyyy

22 Estimador insesgado de la varianza

Ejemplo: Realizar el ajuste lineal para el siguiente conjunto de datos.

x y x2 y2 xy

-2 13 4 169 -26

-1 24 1 576 -24

0 39 0 1521 0

1 65 1 4225 65

2 106 4 11236 212

0 247 10 17727 227

Cálculo de los coeficientes a y b.

4.4950

)0()10)(5(

)227)(0()10)(247(a

−−

7.2250

)0()10)(5(

)227)(0()227)(5(b

−−

y = 49.4 + 22.7 x

Calcular el valor de y para cuando x = 1.5.

Cuando x = 1.5

y(2.2) = 49.4 + 22.7(1.5)

y(1.5) = 83.45

ANÁLISIS DE CORRELACIÓN

Nos permite determinar cuantitativamente el grado de relación que existe entre las variables. Para medir el grado de ajuste de una línea a un diagrama de dispersión usamos:

a) Coeficiente de determinación. Representa la proporción de la variabilidad total de la muestra aleatoria alrededor de y

Si r2 = 1 Indica un ajuste perfecto

Si r2 = 0 Indica un ajuste deficiente o nulo

1r0 2 ≤≤ b) Coeficiente de correlación. Mide la asociación lineal entre las dos variables.

1r1 ≤≤−

( )( ) ( ) )yyn)(xxn(

yxxynr

∑ ∑∑∑∑∑∑

−−

yyyyxx

Sbr ===

Sbr ==

( )( ) ( )

=−−

)247)17727)(5)((0)10)(5((

)247)(0()227)(5(r

22 0.9326

9657.09326.0r ==

REGRESIÓN CUADRÁTICA

Por medio de mínimos cuadrados podemos ajustar a la ecuación

y = a + bx + cx2 Con un procedimiento similar al análisis de regresión lineal obtenemos los valores de a, b y c.

2xcany ∑∑ += ;

∑∑ ∑ += 422 xcxayx

∑∑=

Ejemplo: Realizar el ajuste cuadrático para el siguiente conjunto de datos.

x y x2 x4 xy x2y

-2 13 4 16 -26 52

-1 24 1 1 -24 24

0 39 0 0 0 0

1 65 1 1 65 65

2 106 4 16 212 424

0 247 10 34 227 565

∑∑

∑∑∑

a = 39.257; 7.2210

227b == ; c = 5.071

y = a + bx + cx2

y = 39.258 + 22.7x + 5.071x2

y(1.5) = 39.258 + 22.7(1.5) + 5.071(1.5)2 = 84.718

INFERENCIAS EN EL ANÁLISIS DE REGRESIÓN

Usualmente se realizan inferencias sobre α y β.

Intervalo de confianza para ββββ

Un intervalo de confianza para (1-α)100% para el parámetro β en la línea de regresión

xk/y β+α=µ es

Stb αα +<β<−

Donde tα/2 es un valor de la distribución t con n-2 grados de libertad.

Prueba de hipótesis sobre la pendiente

H0: β = 0

H1: β ≠ 0

Se requiere de utilizar la distribución t con n-2 grados de libertad y establecer una región crítica

basados en

tβ−

Procedimiento de análisis de varianza

Consiste en subdividir la variación total de la variable dependiente (y) en componentes significativos

que se observan y se tratan de manera sistemática.

Suponga que se tienen n puntos de datos experimentales en la forma acostumbrada (xi,yi) y que se

estima la línea de regresión. La varianza (σ2) del conjunto de puntos, se puede calcular con:

Syy = bSxy + SSE

La formula alternativa es:

∑ ∑∑= ==

−+−=−n

2i )yy()yy()yy(

Con lo que se logra una partición de la suma total de cuadrados de y en dos componentes.

SST = SSR + SSR

SSR es la suma de cuadrados de regresión y refleja la cantidad de variación en los valores y,

explicados por el modelo.

SSE es la suma de cuadrados del error, que refleja la variación alrededor de la línea de regresión.

Bajo la condición de que β = 0, se puede demostrar 2

σson valores de variables χ2

Independientes con l y n-2 grados de libertad, respectivamente, y por lo tanto se sigue que 2

también es un valor de χ2 con n – 1 grados de libertad. Para realizar esta prueba tenemos:

Se rechaza H0 al nivel de significancia α cuando f > fα(l,n-2)

El resumen se presenta en una tabla de análisis de varianza.

ANÁLISIS DE VARIANZA

Grados de

libertad Suma de cuadrados

Promedio de los

cuadrados F

Valor crítico de

Regresión 1

SSSR =

SSR 2s

Residuos n – 2 SSE = SST – SSR 2n

Total n – 1 SST = Syy

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción a

Ejemplo: Los siguientes datos se obtuvieron de la medición de un problema de caída libre bajo

ciertas condiciones de laboratorio. Ajuste un modelo de regresión lineal.

10 340

Los resultados con la herramienta de regresión de Excel son:

Resumen

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.97895976

Coeficiente de determinación R^2 0.95836221

R^2 ajustado 0.95241395

Error típico 22.6605034

Observaciones 9

ANÁLISIS DE VARIANZA

Grados de libertad

Suma de cuadrados

Promedio de los

cuadrados F Valor crítico

Regresión 1 82733.0667 82733.0667 161.116499 4.3581E-06

Residuos 7 3594.48889 513.498413

Total 8 86327.5556

Coeficiente

s Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -

51.5777778 19.1090143 -2.69913335 0.03067747 -96.7634164 -6.3921392

1 37.1333333 2.9254584 12.6931674 4.3581E-06 30.2157234 44.0509432

Análisis de los residuales Resultados de datos de probabilidad

Observación Pronóstico

6 Residuos Residuos estándares Percentil 6

1 22.6888889 7.31111111 0.34491319 5.55555556 30

2 59.8222222 0.17777778 0.00838695 16.6666667 60

3 96.9555556 -5.95555556 -0.28096272 27.7777778 91

4 134.088889 -4.08888889 -0.19289978 38.8888889 130

5 171.222222 -1.22222222 -0.05766026 50 170

6 208.355556 -8.35555556 -0.3941865 61.1111111 200

7 245.488889 34.5111111 1.62811607 72.2222222 240

8 282.622222 -42.6222222 -2.01077052 83.3333333 280

9 319.755556 20.2444444 0.95506358 94.4444444 340

Curva de regresión ajustada

Gráfico de los residuales

0 2 4 6 8 10 12

Residuos

Gráfico de probabilidad normal

0 20 40 60 80 100

Muestra percentil

ANÁLISIS DE REGRESIÓN MÚLTIPLE En la mayoría de los problemas se requiere de más de una variable independiente para un modelo de regresión, por lo cual se hace necesario considerar que:

y = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk Aplicando mínimos cuadrados podemos calcular los coeficientes

∑ −−−−= )xb...xbxby(Sr kk22112

Derivando respecto a cada uno de los coeficientes, e igualando a cero obtenemos un conjunto de k+1 ecuaciones.

∑∑∑

∑∑∑∑

∑∑∑∑∑∑∑∑∑∑∑

x...xxxxx

xx...xxxx

x...xxn

2k2k1kk

k222122

k121211

MMMMMM

Resolviendo el sistema de ecuaciones obtenemos los coeficientes de x. Ejemplo. Realizar un análisis de regresión múltiple para los siguientes datos.

y x1 x2

90 32 171

70 43 232

90 32 245

102 43 342

96 46 211

77 35 233

51 52 147

88 51 324

82 50 230

94 48 233

Formamos un sistema de 3x3.

203532

5926381027072368

10270719196432

236843210

Resolviendo las ecuaciones tenemos

153.0b

621.0b

655.74b

y = 74.655 – 0.621x1 + 0.153x2

y(40,150) = 74.655 – 0.621(40) + 0.153(150) = 72.77

En termino de matrices se puede expresar como

(X’X)b =X’y

A=X’X

g=X’y

Resolviendo

b = A–1g

b = (X’X) –1X’y

Inferencia en la regresión lineal múltiple

a) Intervalo de confianza para la respuesta pronosticada

Una de las inferencias más útiles qu se pueden haces en relación a la cantidad de la respuesta

pronosticada y0 que corresponde a los valores x10, x20, …, xk0 es el intervalo de confianza sobre

la respuesta media 02010 ,...,,| kxxxYµ para el conjunto de condiciones.

02/0x,...,x,x|Y01

02/0 x)X'X('xstyx)X'X('xsty0k2010

−α +<µ<−

Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.

−−=

SSRSSSE YY −=

( ) ( )

−β−

−= ∑∑

Y'Y'X'ˆ

YY'YSSE

donde ∑= 2YY'Y

n = número de datos de la muestra

k = número de variables independientes

La cantidad 01

0 x)X'X('xs − , se llama error estándar de predicción y por lo general se calcula

en un programa de computadora.

b) Intervalo de predicción para una sola respuesta

02/0001

02/0 x)X'X('x1styyx)X'X('x1sty −α

−α ++<<+−

c) Prueba de hipótesis sobre los coeficientes individuales

La inclusión de cualquier variable única en un sistema de regresión aumentará la suma de

cuadrados de regresión y por ello reducirá la suma de cuadrados del error. Por ello se debe

decidir si el aumento en la regresión es suficiente para garantizar su uso en el modelo. En

consecuencia el uso de variables sin importar puede reducir la efectividad de la ecuación de

predicción al aumentar la varianza de la respuesta estimada.

Se acostumbra probar

H0 : βj = Bj0

H1 : βj ≠ Bj0

Se calcula el estadístico ij

Cjj es el elemento de la diagonal principal de la matriz inversa (X’X) –1 correspondiente a jj

· PDF fileEnviar las tareas al correo: ... 4.4 Medición de variaciones estacionales...

Documents

Transcript of · PDF fileEnviar las tareas al correo: ... 4.4 Medición de variaciones estacionales...

La Proposición lógica

Estimación de hidrogramas anuales estacionales en cuencas ...

Cambios de ánimo estacionales ¿cómo superarlos

Programa Huertas Orgánicas con Celebraciones Estacionales

Proposición Base Aérea

Suavizacion Exponencial y Variaciones Estacionales Con Tendencia

VARIABLES ESTACIONALES EN LOS MODELOS DE REGRESIÓN ...

Una aplicación de los modelos BVAR estacionales.

Prestaciones Medias Estacionales Bombas de Calor 2

LA ELIMINACIÓN DEL REENVÍO, LA SUPOSICIÓN FALSA Y EL ...

Promedios Estacionales de PM10 y PM2.5

PROPOSICIÓN - mep.go.cr

Verificación de las predicciones estacionales

Variaciones estacionales y diurnas

Conevecio N169OIT estacionales

Promociones Estacionales y Días Especiales (Caso Dunkin Donuts)

Variaciones estacionales de la estructura comunitaria … · Variaciones estacionales de la estructura comunitaria del fitoplancton ... cas del agua, influyen en la estructura de

Aplicación de ajustes estacionales

Guía de Proposición Categórica

Aplicación de pronósticos climáticos estacionales e ... · Aplicación de pronósticos climáticos estacionales e información satelital para mejorar la toma de decisiones en el