nada
-
Upload
gabriel-bickel -
Category
Documents
-
view
225 -
download
2
description
Transcript of nada
-
Unidad 3: La prueba CHI- CUADRADO y el Anlisis de la Varianza.
Sesiones: 11, 12, 13, 14, 15, 16, 17, 18, 19 y 20
Estadstica Aplicada a la Administracin
-
El anlisis de la varianza (ANOVA) es una potente herramienta estadstica, de
gran utilidad tanto en la industria, para el control de procesos, como en el
laboratorio de anlisis, para el control de mtodos analticos.
La ANOVA es un test estadstico paramtrico que analiza la varianza de tus
muestras.
Se utiliza para comparar las medias de tres o mas grupos (3, 4,5, 6...).
Para comparar 2 grupos se utilizara la el test T.
Tanto ANOVA como t-student son dos mtodos estadsticos buenos para ver si
hay diferencias significativas entre la media de dos grupos. La nica diferencia
que creo que existe es que ANOVA se utiliza cuando hay mas de tres grupos y t
- student cuando solo hay 2 grupos que comparar.
Para que es til el ANOVA?
-
Por qu no evitar hacer t- tests en vez de
hacer un simple ANOVA?
El hacer mltiples t tests es que aumentaramos nuestro error tpico I ( riesgo ) y eso se evita por lo tanto utilizando el ANOVA.
-
ANOVA de Una Va
Esta modalidad de ANOVA puede sintetizarse en un diseo experimental, en donde se analiza un (1) factor, en mltiples niveles. Tpicamente, se llama a los niveles del factor tratamientos. De forma estricta, la ANOVA de Una Va es un OFAT. Su utilidad es de gran valor, tanto en la prctica como en el ejercicio conceptual.
-
ANOVA de Dos Vas
Esta modalidad de ANOVA tiene la propiedad de poder incorporar dos , factores, cada uno con a cantidad de niveles. La ANOVA de Dos Vas no es un OFAT (one-factor-at-A-Time), y es un modelo experimental ms complejo. La ANOVA de dos vas, permite entender el efecto del factor A, el factor B, adems de su interaccin AB, lo que la convierte en una herramienta muy poderosa. Igualmente, es un diseo experimental de amplia utilidad prctica.
-
Por ejemplo usaras una ANOVA si compararas tres clases de
alumnos en una escuela (Primero A, B y C) respecto a sus notas
finales (cada alumno tiene una nota final sobre 10).
Imagina que cada clase tiene 25 alumnos, cada uno con su
nota. Se podra hacer una media de los 25 alumnos y obtendras
un valor medio.
La ANOVA comparara las medias de las tres clases. Te da un
valor de significancia, de cuan diferentes son las tres clases. Se
considera que la diferencia es significativa cuando el valor de
significancia (P) es menor a 0.05.
-
Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de hiptesis, aunque se aceptan ligeras desviaciones de las
condiciones ideales: 1. Cada conjunto de datos debe ser independiente del resto. 2. Los resultados obtenidos para cada conjunto deben seguir una distribucin
normal. 3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa. La distribucin F tambin se usa para probar la igualdad de ms de dos medias con la tcnica llamada anlisis de variancia
(ANOVA).
-
Procedimiento de anlisis de varianza:
Hiptesis nula: las medias de las poblaciones son
iguales. Hiptesis alterna: al menos una de las medias es
diferente.
Estadstico de prueba: F = (variancia entre
muestras)/(variancia dentro de muestras).
Regla de decisin: para un nivel de significancia a, la hiptesis nula se rechaza si F (calculada) es
mayor que F (en tablas) con grados de libertad en el numerador y en el denominador.r
-
Caracterstica de la Distribucin F de
Fisher
1. Existe una familia de distribuciones F . La familia queda determinado
por 2 parmetros : Grado de libertad en el numerador y grado de
libertad en el denominador.
2. La distribucin F es continua. Puede tomar una cantidad infinita de
valores entre cero y ms infinito.
3. La distribucin F no puede ser negativa. El menor valor que puede
asumir es cero.
4. La distribucin F es positivamente sesgada: La cola larga de la
distribucin se encuentra a la derecha, conforme el nmero de
grados de libertad aumenta. La distribucin se aproxima a la
distribucin normal.
5. La distribucin F es asntota, conforme a los valores de X aumentan
la curva de la distribucin F se aproxima a X pero nunca la toca.
-
Modelo de Distribucin F de Fisher
-
Manejo de la Tabla de Fisher
-
Supuestos del ANOVA
1. Observaciones Independientes.
2. Varianzas Homogneas de los
residuos.
3. Distribucin Normal de los
residuos.
-
1.- Independencia de las
Observaciones
Con el fin de obtener inferencias vlidas, resulta
importante determinar si los errores se encuentran
correlacionados.
El supuesto ms importante es la independencia de
las observaciones, pues si no hubo asignacin
aleatoria de tratamientos a unidades experimentales,
entonces los resultados pueden incluir un efecto
persistente de factores no considerados en el
anlisis.
Esto invalida el experimento
-
Comparacin de 2 Variables Poblacionales
La distribucin F se utiliza para probar la Hiptesis de que la
Varianza de una poblacin normal es igual a la varianza de otra
poblacin normal.
La distribucin F tambin se utiliza para validar los supuestos para
alguna pruebas estadsticas.
Se tiene que demostrar que:
Si se tiene una poblacin P y de ella se sacan dos muestras random
(aleatorio) , se tiene que demostrar que estas dos muestra son
iguales o no son iguales. Este paso es una tarea de investigacin y
de anlisis.
-
Grados de Libertad
-
Aplicacin
Supongamos que estamos haciendo un estudio estadstico
acerca de medir dos rutas exactas para ir de un lugar a otro y lo
hacemos por diferentes vas y por lo tanto tambin tendremos
diferentes tiempos. Por la Ruta # 1 tengo valores en minutos y
por la Ruta # 2 tambin tengo valores en minutos . Utilizando un
nivel de significancia de 0.10 existe alguna diferencia en la
variacin de los tiempos de recorrido por ambas rutas? Todo
esto se muestra en la siguiente tabla:
X Y
Ruta # 1
Ruta # 2
Comparacin de 2 Varianzas Poblacionales
-
Todo esto se muestra en la siguiente tabla:
Ruta # 1 Ruta # 2
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65
Asumir un Nivel de Significancia del 0.10
-
Solucin:
Clculos adicionales:
Ruta # 1 Ruta # 2
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65
408 472
Clculo de la las Medias:
1
40858.29
7X
2
47259.00
8X
-
Clculo de las Desviaciones Standard:
Ruta # 1 ( X1 )
Ruta # 2 ( X2 )
52 59 2704 3481
67 60 4489 3600
56 61 3136 3721
45 51 2025 2601
70 56 4900 3136
54 63 2916 3969
64 57 4096 3249
65 4225
408 472 24.266 27.982
2
1X2
2X
-
Para Ruta # 1:
2(408)24266
7 8,9977 1
18,997x
Frmula :
Clculo de las Desviaciones Standard:
-
Para Ruta # 2 :
2
2(472)27982
8 4,3758 1
x
24,375x
-
Pasos : los usados en Hiptesis
1er Paso: Formulacin de las Hiptesis Nula y Alternativa
Ho :
H1 :
2 2
1 2
2 2
2 2
2do. Paso : Se elige el Nivel de Significancia ; para
nuestro caso:
= 0.10
-
3er Paso : Se establece el estadstico de prueba.
Para este caso el la Distribucin de FISHER ( F )
4to. Paso : Calculo del valor crtico o tabla de FISHER (F)
previo clculo de los respectivos grados de libertad.
Como se esta realizando una prueba de dos colas el
nivel de significancia que se busca en la tabla es de
0.05 que se obtiene de : / 2 = 0.10 / 2 = 0.05
Continuacin////
-
Calculando los Grados de Libertad:
gl= n - 1
gl1 = 7 1 = 6 en el numerador (Ruta # 1)
gl2 = 8 1 = 7 en el denominador ( Ruta # 2 )
(grado de libertad)
Se debe revisar la tabla de la Distribucin F y as
podremos encontrar el valor de F(tab=Crtica) = 3.87
As, la regla de decisin es : si la razn de las varianzas
es mayor que 3.87, se rechaza la hiptesis nula.
-
gl2
gl1
Ftab
numerador
d
e
n
o
m
i
n
a
d
o
r
Segn tabla de Distribucin de Fisher ,
tenemos :
-
Fisher Calculada (Fcal ) :
2 2
1
2 2
2
(8,997) 80,9464,2289 4,23
(4,375) 19,141cal
SF
S
Pero: Fcal > Ftab
4,23 > 3,87
Conclusin: Se rechaza la Ho y se acepta la H1
Interpretacin: La ruta # 2 parece haber tenido mayor
congestin por mayor trfico , mayor semforos , etc., que
han dado mayor dificultad para trasladarse de X a Y.
5to. Paso : Clculo de Fcal y tomar decisin final
-
ANOVA
-
Suposiciones para el ANOVA
Otro uso para la Distribucin de F de Fisher es la tcnica
del anlisis de la Varianza ANOVA con las que se comparten tres ms medias poblacionales para
determinar si son iguales.
Tambin se debe cumplir los siguientes parmetros:
1. Las poblaciones estn distribuidas normalmente.
2. Las poblaciones tienen desviaciones standards iguales.
3. Las muestras se seleccionan independientemente.
Anlisis de la Varianza
( ANVA ANOVA )
-
Prueba ANOVA
La estrategia es calcular la varianza poblacional
(desviacin standard al cuadrado) en dos formas y despus
encontrar la razn de esas dos estimaciones.
Si esta razn es aproximadamente igual a , entonces las
dos estimaciones son iguales, y se concluye tambin que
las medias poblacionales son iguales, caso contrario se
rechazaran.
-
Aplicacin:
Un profesor del curso de Mercadotecnia pidi a los alumnos de uno de
sus grupos que evaluarn su desempeo como excelente, bueno,
regular, o deficiente. Un estudiante egresado recopil las evaluaciones y
asegur a los estudiantes que el profesor los recibira hasta que las
calificaciones del curso se hubieran enviado a la oficina de registros. La
evaluacin (es decir, el tratamiento) que cada alumno asign al profesor
se compar con la calificacin, que poda ir de 0 a 100, que obtuvo el
estudiante en el curso. A continuacin se presenta la informacin de la
muestra .Existe diferencias entre los promedios de las calificaciones de
los alumnos en cada una de las cuatro categoras de evaluacin?. Utilice
un = 0.01
-
Excelente Bueneo Regular Deficiente
94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
68 65
65
Tabla de Valores de la aplicacin :
Tener presente que si se escoge R B E D , reflejen el mismo
resultado.
Calificaciones del Curso
-
Solucin :
1er. Paso : Formulacin de las hiptesis.
Si no se rechaza la hiptesis nula, se concluye que
no hay diferencia en los promedios de las
calificaciones del curso con base en las
evaluaciones al profesor.
Si se rechaza Ho se concluye que hay diferencia
en al menos un par de promedios de
calificaciones, pero por el momento no se sabe
qu par o cuantos pares difieren.
-
2do. Paso : Seleccionar el Nivel de Significancia.
Se elige el Nivel de Significancia de = 0.01
3er. Paso : Determinar el Estadstico de Prueba
El estadstico de prueba sigue la distribucin
de F de FISHER
-
Hallando el valor de Ftabla = crtico gl1
gl2
F tab = crt
-
5to. Paso : Seleccionar la muestra, realizar los clculos y tomar una decisin.
Es conveniente resumir los clculos estadsticos F en una
tabla ANOVA , cuyo formato a utilizar despus de algunos
clculos es:
Formato
Fuente de
Variacin
Suma de
Cuadrados
Grado de
Libertad
Media de
Cuadrados
F
Tratamiento SST K - 1 SST/(k-1)= MST MST/MSE
Error SSE n - k SSE/(n-k)= MSE
Total SS Total n - 1
-
Construccin de la Tabla de ANOVA
Excelente Bueno Regular Deficiente
X X X X
94 8836 75 5625 70 4900 68 4624
90 8100 68 4624 73 5329 70 4900
85 7225 77 5929 76 5776 72 5184
80 6400 83 6889 78 6084 65 4225
88 7744 80 6400 74 5476
68 4624 65 4225
65 4225
349 30561 391 30811 510 37338 414 28634
n= 4 n= 5 n= 7 n= 6
2x
-
Hallando las sumatorias totales :
2
349 391 510 414 1.664
4 5 7 6 22
30561 30811 37338 28634 127.344
X
n
x
-
Luego desarrollamos la prueba del ANOVA, pero tambin tenemos
que ver que parmetros contiene esta tabla.
Frmulas a utilizar :
2
2( )
( )xtratamientos
SSTn n
Nomenclatura :
1. SStotal : Sumatoria de
cuadrados, total
2. MST : Cuadrado medio
Tratamiento
3. SST : Suma cuadrados
tratamiento.
4. SSE: suma cuadrados error
5. MSE: Cuadrado Medio Error
6. F : Fisher
SSE= SStotal - SST
2
2( )X
SStotal Xn
( 1)
SSTMST
k
( )
SSEMSE
n k
MST
FMSE
-
Desarrollando las frmulas :
2 2 2 2 2(349) (391) (510) (414) (1664)890.68
4 5 7 6 22SST
2(1664)127344 1485.09
22SStotal
1485.09 890.68 594.41SSE
-
Los grados de libertad son:
gltratamiento = k-1 = 3 y glerror = (n k ) 18 gltotal = 3+18= 21
Calculando los cuadrados medios respectivamente:
890.68296.89
3MST
594.4133.02
18MSE
-
Calculamos el valor F de Fisher:
296,898,99
33,02ValorF
MSTValorF
MSE
-
Tabla ANOVA
Componentes de la tabla ANOVA : Fuente de Variacin Suma de Cuadrados Grados de Libertad
Cuadrado Medio Fisher
Fuente de
Variacin
Suma de
Cuadrados
Grado de
Libertad
Media de
Cuadrados
F
Tratamiento SST K - 1 SST/(k-1)= MST MST/MSE
Error SSE n - k SSE/(n-k)= MSE
Total SS Total n - 1
-
Tabla de la Varianza ANOVA completado.
F.V SStotal gl MS Valor F
Tratamiento 890,68 3 296,89 8,99
Error 594,41 18 33,02
Total 1485,09 21
Conclusin : se rechaza Ho
(F cal) 8,99 > 5,09 (F tab)
Pero: gl tratamiento = K 1 = 4 -1 = 3
gl Error = n K = 22 4 = 18
gl Total = n 1 = 22 1 = 21 tambin : gl Total = 3 + 18 = 21
-
Interpretacin:
Se concluye que las medias poblacionales no son
iguales. Las calificaciones promedio no son iguales en
los cuatro grupos de evaluacin.
Es probable que las calificaciones que obtuvieron los
estudiantes en el curso estn relacionadas con la
opinin que tienen de la capacidad y desempeo del
profesor en el aula. Por ahora slo se puede concluir
que hay diferencias entre las medias de tratamiento.
No se puede determinar cul o cuantos grupos de
tratamiento difieren.
-
Anlisis de la Varianza en Dos
Direcciones La organizacin Warren Area Regional Transit Authority (WARTA), en
USA, realiza la ampliacin del servicio de autobuses desde el suburbio de
Starbrick, hasta el distrito central de Warren. Hay cuatro rutas a
considerar: Va U.S. 6; va West End ; va la Calle Hickory y; va la Ruta
59.
Se tiene que WARTA realiz varios recorridos de prueba para determinar
si haba diferencias entre los tiempos en las cuatro rutas. Como habr una
gran cantidad de conductores, la prueba se realiz de manera que cada
uno de los conductores recorriera cada una de las cuatro rutas. A
continuacin se muestra los tiempos del recorrido, en minutos, de cada
combinacin conductor-ruta.
-
Tiempo del recorrido de Starbrick a Warren
( minutos)
Conductor U.S. 6 West End Calle
Hickory
Ruta 59
Deans 18 20 20 22
Snaverly 21 22 24 24
Ormson 20 23 25 23
Zollaco 25 21 28 25
Filbeck 26 24 28 25
-
Al nivel de significancia de 0,05. Existe alguna
diferencia en el tiempo medio de viaje a lo largo de
las 4 rutas? Si se elimina el efecto de los
conductores, Existir alguna diferencia en el
tiempo promedio de viaje?
-
Solucin :
Para empezar, se realiza una prueba de hiptesis usando
un ANOVA en una direccin. Es decir, se consideran slo
las cuatro rutas. En estas condiciones la variacin se
debe a los tratamientos o al azar.
La hiptesis nula y la alternativa para comparar el tiempo
medio de recorrido a lo largo de las cuatro rutas son.
1er. Paso : Formulacin de las Hiptesis:
0 1 2 3 4:H H 1 : No todas las medias de tratamiento son
iguales.
-
2do. Paso : El Nivel de Significancia.
Este es = 0,05.
3er. Paso: Estadgrafo de Prueba.
El estadstico de prueba sigue la
distribucin de F de FISHER
4to. Paso : Establecer la Regla de Decisin.
Hay cuatro rutas, as que los grados d
libertad son:
-
gl = K 1 = 4-1= 3 para el numerador
gl = n k = 20 4 = 16 para el denominador
Si adems = 0,05
Luego el valor de tabla o crtico es :
F (tabla = crtico) = 3,24
-
F tab = crit
Trabajando con la tabla de Fisher F.
-
Hallamos los grados de libertad:
gl1 = K-1 = 4-1 = 3
gl2 = n k = 20 -4 = 16
La regla de decisin es rechazar la hiptesis nula si
el valor F calculado es mayor que F tabla 0 crtica
(3,24)
F cal > F tab
Se rechaza la hiptesis nula
-
Clculos necesarios para un ANOVA en una
direccin y en dos direcciones
Tiempo de recorrido de Starbrick a Warren (minutos)
Conductor U.S. 6 West End Calle
Hickory
Ruta 59 Suma
reglones
Deans 18 20 20 22 80 Snaverly 21 22 24 24 91 Ormson 20 23 25 23 91 Zollaco 25 21 28 25 99 Filbeck 26 24 28 25 103 Total de columnas Tc
110 110 125 119 464
Suma de Cuadrados
2466 2430 3169 2839 10904
-
Los clculos se realizan con las frmulas , como sigue
2 22
( ) (464)10904 139,2
20
XSStotal X
n
Despus, se calcula la variacin de tratamiento:
22 2 2 2 2 2( ) 110 110 125 119 464( ) 32.4
5 5 5 5 20
c
c
XTSST
n n
-
Se determina la variacin del error.
139.2 32.4 106.8SSE SStotal SST
Al introducir estos datos en la tabla ANOVA
tenemos:
F . V. SS total gl MS F
Tratamiento 32.4 3 10.8 1.618
Error 106.8 16 6.675
Total 139.2 19
-
Conclusin
Debido a que el valor de F calculado = 1.618; es menor
que el valor crtico 3.24, no se rechaza la hiptesis
nula.
Interpretacin:
WARTA puede concluir que no hay diferencia
en el tiempo medio del recorrido a lo largo de
las 4 rutas. No hay razn para indicar que una
de ellas es ms rpida que las otras.
-
En el ejemplo anterior se consider la variacin debida
a los tratamientos (rutas) y se supuso que toda la
variacin restante era random. Sin embargo, no se
establecieron pruebas considerando que cada uno de
los 5 conductores recorri cada una de las 4 rutas. Si se
pudiera considerar el efecto de los diversos conductores
,esto permitira reducir el trmino SSE, lo que llevara a
un valor F ms grande. La segunda variable de
tratamiento los conductores en este caso se conoce como variable de bloqueo
-
Variable de Bloqueo.- Una segunda variable de
tratamiento , que al ser considerada en el ANOVA , tiene el
efecto de reducir al trmino SSE.
En nuestro caso , los conductores son la variable de
Bloqueo.
Suma de Cuadrados en Bloque: ( SSB )
2
2
tXB
SSBK n
Nomenclatura:
1.- SSB : suma de cuadrados de
bloqueo.
2.- B t : total del bloque 3.- K : es el # de elementos en cada
bloque
-
Suma de Cuadrados del Error, dos direcciones:
SSE = SS total SST - SSB
Fuente
Variacin
SST g l MS F
Tratamientos SST K 1 SST/(K-1) = MST MST/MSE
Bloque SSB B 1 SSB/(B-1) = MSB MSB/MSE
Error SSE (k-1) (b-1) SSE/(K-1) (B-1) = MSE
Total SS total n-1
Elaboracin de la Tabla de Anova
-
Hallando SSB, tenemos:
2 2 2 2 2 280 91 91 99 103 46478.2
4 4 4 4 4 20SSB
Hallando el SSE tenemos.
SSE = 139.20- - 32.4 78.2 = 28.6
-
F.V SST g l MS
Tratamientos 32.40 3 10.80
Bloques 78.20 4 19.55
Error 28.60 12 2.38
Total 139.20
Calculando Fisher ( F ) .-
10.804.54
2.38
MSTF
MSE
19.558.21
2.38
MSBF
MSE
Ho se rechaza y se acepta H1 El tiempo medio de viaje no es el mismo en todas las rutas
Ho se rechaza y se acepta H1
E tiempo medio no es igual para todos los conductores