Anova1A
-
Upload
ken-matsuda -
Category
Documents
-
view
14 -
download
0
description
Transcript of Anova1A
ANALISIS DE VARIANZA DE UN CRITERIO (ANOVA)
ANOVA Prof. Mg Ken Matsuda Oteza
ANALISIS DE VARIANZA DE UNA VA o DIRECCIN (ANOVA 1 VIA)
El anlisis de la varianza de un criterio (ANOVA) es una metodologa para analizar la variacin entre muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un mtodo estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio nos permite poner a prueba hiptesis tales como:
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son:
1. Ambas poblaciones son normales.
2. Las varianzas poblacionales son iguales, esto es,
Como el ANOVA de un criterio es una generalizacin de la prueba de t para dos muestras, los supuestos para el ANOVA de un criterio son:
1. Todas las poblaciones k son normales.2.
El mtodo de ANOVA con un criterio requiere del clculo de dos estimaciones independientes para , la varianza poblacional comn. Estas dos estimaciones se denotan por . se denomina estimacin de la varianza entre muestras y se denomina estimacin de la varianza al interior de las muestras. El estadstico tiene una distribucin muestral resultando:
El valor crtico para la prueba F es:
Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia.
k = nmero de muestras.
El Procedimiento es el siguiente:
1. Determinar si las muestras provienen de poblaciones normales.
2. Proponer las hiptesis.
3. Encontrar las medias poblacionales y las varianzas.
4. Encontrar la estimacin de la varianza al interior de las muestras y sus grados de libertad asociados glw.5. Calcular la gran media para la muestra de las medias mustrales.
6. Determinar la estimacin de la varianza entre muestras y sus grados de libertad asociados.
7. Hallar el valor del estadstico de la prueba F.
8. Calcular el valor crtico para F basado en glb y glw.9. Decidir si se rechaza H0.Calculo Manual
Se utilizan las frmulas siguientes:
Suma de cuadrados total (SST o SCT)
*** **Xi valores individuales
* *** **
XMedia de medias
** **
***
Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr):
Media X3
*
5
5
4 *
*Media X2
Media X1
Suma de cuadrados del error (SSE o SCE):
** *
XiXi
*
** *** *
****Xmedia 3
X media 1** *
*Xmedia 2Xi*
O tambin SCE = SCT - SCTr
Grados de libertad:
Gl. Totales = n 1
Gl. Tratamientos = c -1
Gl. Error = n c
Cuadrados medios (MS o CM):
CMT = SCT / Gl. SCTCMTr = SCTr / Gl. SCTr
CME = SCE / Gl. SCE
Estadstico calculado Fc:
Fc = CMTr / CME
P value = distr.f (Fc, Gl. CMtr, Gl. CME)
F crtica de tables o Excel = distr.f.inv(alfa, Gl. CMT, Gl. CME)
Si P es menor a alfa o Fc es mayor a Ft se rechaza Ho indicando que los efectos de los diferentes niveles del factor tienen efecto significativo en la respuesta.
Distr. F
NO RECHAZARZONA DE RECHAZo
Alfa
La tabla de ANOVA final queda como sigue:
TABLA DE ANOVA
FUENTE DE VARIACIN SUMA DEGRADOS DE CUADRADOVALOR F
CUADRADOSLIBERTADMEDIO
Entre muestras (tratam.)SCTRc-1CMTRCMTR/CME
Dentro de muestras (err.)SCEn-cCME
Variacin totalSCTn-1CMT
Regla: No rechazar si la F de la muestra es menor que la F de Excel para una cierta alfa
Si las medias son diferentes se puede aplicar la prueba de Tukey o DMS como sigue:
PRUEBA DE TUKEY
Se utiliza para diseos balanceados (todos los tratamientos tienen
asignado el mismo nmero de elementos)
Se utiliza el estadstico T
Se compara T vs la diferencia en valor absoluto de
cada par de medias, si esta dif. Excede a T, las medias son diferentes
o iguales en caso contrario.n = 16 r = 4
c =4Alfa=0.05
Por ejemplo:3.6CME =19.6875T
Mediasq.05,4,12=4.29.31
X1 =145!X1 - X2!=0.25 X1=X2
X2=145.25!X1-X3! =12.75 X1X3
X3=132.25!X1-X4!=15.75 X1X4
X4=129.25!X2-X3!=13 X2X3
!X2-X4!=16 X2X4
!X3-X4!=3 X3=X4
X4 X3 X1 X2 DMS =3.41
129.25 132.25 145 145.2
DMS
MEDIAS
MEDIAS
IGUALESDIFERENTES
9.45
Otro mtodo ms conservador es el la DIFERENCIA MNIMA SIGNIFICATIVA
DMS
r=4
F = DISTR.F.INV(alfa, gl. =1, gl. CME =12)
CME =19.6875
r=4
F.05,1,124.75
187.031346.757816.837968
Para el caso de diseos no balanceados se utiliza el mtodo DMS
para comparar cada par de muestras
r j es el nmero de elementos asignados al tratamiento j
r k es el nmero de elementos asignados al tratamiento k
Verificar si X1 = X2 y si X2 = X3 en el ejemplo de empleados.
DMS 1,2 ?DMS 2,3 ?
Por ejemplo:3.4
F=3.34
Para comparar X1-X2Alfa =.05
r1 = 5r2=4X1=21.74X2=21.5CME=0.02571
DMS =0.1965
X1-X2=0.24
Se concluye que X1 y X2 son diferentes
Utilizando los paquetes de Excel y Minitab se tiene:Ejemplo 1:
Tres tipos distintos de motores de gasolina fueron probados para determinar cunto tiempo son tiles antes de necesitar una reparacin; si los tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen la misma varianza, haga una prueba usando para determinar si difieren las medias de vida til antes de requerir una reparacin. En la tabla aparecen los tiempos de vida til, en decenas de miles de millas para cada tipo de motor.
ABC
683
272
475
124
761
Mediante Minitab determinamos si las muestras provienen de una poblacin Normal.
Seleccione en el menu para cada muestra:
Stat > Basic statistics > Normality test
Variable Columnas de datos
Test for normality Seleccionar Ryan Joiner OK Hay normalidad si P value es >=0.05.
Analizando las grficas nos damos cuenta de que las muestras provienen de poblaciones normales.
Si denotamos por las medias poblacionales de los tiempos de vida til para los tipos A, B y C, respectivamente, entonces podemos escribir las hiptesis estadsticas como:
H1: Al menos dos medias poblacionales no son iguales.
Procedimiento en Excel: En el men herramientas seleccione la opcin Anlisis de datos, en funciones para anlisis seleccione Anlisis de varianza de un factor. En Rango de entrada seleccionar la matriz de datos.
Alfa = 0.05
En Rango de salida indicar la celda donde se inciar la presentacin de resultados.
En la tabla observamos que el estadstico de prueba Fc es menor al valor crtico para F
2.41 ANOVA > One Way (Unstacked) Response in separate columns A, B, C
Seleccionar ! Store Residuals ! Store Fits Confidence level 95%Graphs
Seleccionar Normal plot of residuals
Comparisons
Seleccionar Tukeys Family error rate OK
Resultados:La grfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo:
Ecuentre los errores en las siguientes pginas:One-way ANOVA: A, B, C
Source DF SS MS F P
Factor 2 23.33 11.67 2.41 0.132
Error 12 58.00 4.83
Total 14 81.33Como este valor P es mayor a 0.05 se acepta la hiptesis nula, es decir, A, B y C (tratamientos) no tienen efecto en la respuesta.S = 2.198 R-Sq = 28.69% R-Sq(adj) = 16.80%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
A 5 4.000 2.550 (----------*----------)
B 5 6.000 2.345 (----------*----------)
C 5 3.000 1.581 (----------*----------)
------+---------+---------+---------+---
2.0 4.0 6.0 8.0
Pooled StDev = 2.198
Los intervalos de confianza de los tres niveles A, B, C del factor se pueden traslapar por tanto sus efectos no son diferentes.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
A subtracted from:
Lower Center Upper ---------+---------+---------+---------+
B -1.707 2.000 5.707 (----------*---------)
C -4.707 -1.000 2.707 (---------*----------)
---------+---------+---------+---------+
-3.5 0.0 3.5 7.0
B subtracted from:
Lower Center Upper ---------+---------+---------+---------+
C -6.707 -3.000 0.707 (---------*----------)
---------+---------+---------+---------+
-3.5 0.0 3.5 7.0
Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A y C y entre B y C no hay diferencia entre el efecto entre estos niveles.A continuacin se muestran los residuos y los valores estimados para la respuesta Y por el modelo:
RESI1RESI2RESI3FITS1FITS2FITS3
220463
-21-1463
012463
-3-41463
30-2463
Donde cada residuo es Eij = Yij observado Yij estimado
Yij estimado es el promedio en cada columna.Ejemplo 2: La tabla adjunta contiene el nmero de palabras escritas por minuto por cuatro secretarias de la universidad en cinco ocasiones diferentes usando la misma mquina.
La grfica de residuos es la siguiente, mostrando que el modelo es vlido:
One-way ANOVA: A, B, C, D
Source DF SS MS F P
Factor 3 52.2 17.4 0.20 0.892Error 16 1367.6 85.5
Total 19 1419.8
Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los niveles del factor A, B, C y D.S = 9.245 R-Sq = 3.68% R-Sq(adj) = 0.00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
A 5 73.800 7.190 (--------------*--------------)
B 5 70.800 10.918 (--------------*--------------)
C 5 75.200 5.450 (-------------*--------------)
D 5 72.600 11.887 (--------------*--------------)
-------+---------+---------+---------+--
66.0 72.0 78.0 84.0
Pooled StDev = 9.245
Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia significativa en sus efectos.Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 98.87%
A subtracted from:
Lower Center Upper --------+---------+---------+---------+-
B -19.745 -3.000 13.745 (-------------*------------)
C -15.345 1.400 18.145 (-------------*-------------)
D -17.945 -1.200 15.545 (-------------*-------------)
--------+---------+---------+---------+-
-12 0 12 24
B subtracted from:
Lower Center Upper --------+---------+---------+---------+-
C -12.345 4.400 21.145 (-------------*-------------)
D -14.945 1.800 18.545 (------------*-------------)
--------+---------+---------+---------+-
-12 0 12 24
C subtracted from:
Lower Center Upper --------+---------+---------+---------+-
D -19.345 -2.600 14.145 (-------------*-------------)
--------+---------+---------+---------+-
-12 0 12 24
En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta. EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
EMBED Equation.3
Estadstica. Richard C.Weimer. CECSA. Segunda Edicin.2000
Pgina 11
_1060076065.unknown
_1162353826
_1162358348.unknown
_1162358549.unknown
_1162359168.unknown
_1162359169.unknown
_1162359166.unknown
_1162358391.unknown
_1162355135.xlsHoja1
ABCD
82556987
79677261
75847882
68778361
65717472
_1162355229
_1162354445
_1060084702.unknown
_1162353615
_1162353788
_1078840113.unknown
_1078826301.unknown
_1060077712.unknown
_1060077858.unknown
_1060077081.unknown
_1060077355.unknown
_1060077494.unknown
_1060076163.unknown
_1060075251.unknown
_1060075748.unknown
_1060075872.unknown
_1060075705.unknown
_1060074148.unknown
_1060074324.unknown
_1060074065.unknown