Clases 3 Pruebas de Hipótesis Curso de Metodología de la Investigación Profesor Manuel Lobos...
-
Upload
baldomero-magan -
Category
Documents
-
view
220 -
download
1
Transcript of Clases 3 Pruebas de Hipótesis Curso de Metodología de la Investigación Profesor Manuel Lobos...
Clases 3Pruebas de Hipótesis
Curso de Metodología de la InvestigaciónProfesor Manuel Lobos González
Año 2011
Análisis de la Varianza de un factor(ANOVA)
El análisis de la varianza (ANOVA) es una técnica estadística paramétrica de contraste de hipótesis. El ANOVA de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata, por tanto, de una generalización de la Prueba T para dos muestras independientes al caso de diseños con más de dos muestras.
A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar la llamamos independiente o factor y la representamos por VI. A la variable cuantitativa (de intervalo o razón) en la que deseamos comparar los grupos la llamamos dependiente y la representamos por VD.
La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la VD en cada nivel de la VI) son iguales. Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la VD y que, en consecuencia, la VI o factor es independiente de la VD.
Condiciones:• Cada muestra debe ser independiente de las
otras.
• Cada muestra debe haber sido seleccionada al
azar de la población de donde proviene.
• Las población de donde provienen las muestras
debe tener distribución normal.
• Las varianzas de cada población deben ser
iguales.
ANOVA
Ejemplo
• Una Directora de un colegio, preocupada de explicar los problemas de comportamiento de sus estudiantes, se dispuso a hacer un estudio para establecer si existían diferencias en ese aspecto según estado civil de los padres, entre otras variables.
• Para ese fin, solicitó a los padres de 45 niños la aplicación del Child Behavior Checklist, versión para padres. El CBCL (Achenbach, 1991) es un instrumento conformado por 113 ítems que comprenden problemas específicos, agrupados en síndromes que exploran dos tipos de anomalías de conducta: externalización (agresión, delincuencia y trastornos de conducta) e internalización (aislamiento, preocupaciones somáticas, depresión y ansiedad). Además, (Friedrich et al., 1986) seis de sus ítems conforman la escala de problemas sexuales, la que sólo se aplica a niños y niñas mayores.
• Los ítems son categorizados 0=no es cierto o nunca observado, 1=es cierto algunas veces o de cierta manera, 2=muy cierto o a menudo cierto. El puntaje total se obtiene a partir de la suma de los parciales.
ANOVA
Paso 1: Obtiene los siguientes datos ANOVA
CASADO SEPARADO VIUDO SOLTERO
10 23 78 22
19 62 70 70
36 90 48 48
55 30 68 28
45 73 62 45
41 30 29 30
30 40 38 55
41 28 68 45
32 43 60 50
46 54 61 42
38 49 58 66
15 19 25
30 62 60
55 28
63
ANOVA
Paso 2: Calculamos la media de cada grupo y la media global
gM
CASADO SEPARADO VIUDO SOLTERO
10 23 78 22
19 62 70 70
36 90 48 48
55 30 68 28
45 73 62 45
41 30 29 30
30 40 38 55
41 28 68 45
32 43 60 50
46 54 61 42
38 49 58 66
15 19 25
30 62 60
55 28
63
35,21 46,27 58,18 45,08 45,53
Paso 3: Calculamos la suma de cuadrados de las desviaciones de cada observación respecto a la media global, suma que denominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidad total. Si se divide por el tamaño total de muestra se obtiene la varianza total.
ANOVA
2 giT MSC x
ANOVA
208,166952 giT MSC x
CASADO SEPARADO VIUDO SOLTERO
1262,26 507,52 1054,41 553,58
703,75 271,32 598,86 598,86
90,79 1977,73 6,11 6,11
89,71 241,13 504,98 307,24
0,28 754,69 271,32 0,28
20,51 241,13 273,18 241,13
241,13 30,56 56,68 89,71
20,51 307,24 504,98 0,28
183,01 6,39 209,43 20,00
0,22 71,77 239,37 12,45
56,68 12,05 155,54 419,09
931,98 703,75 421,41
241,13 271,32 209,43
89,71 307,24
305,26
16695,208
Paso 4: Calculamos la suma de cuadrados de las desviaciones entre la media de cada grupo y la media general. Esta es la suma de cuadrados explicada por el factor considerado, a la que denominaremos Suma de cuadrados del factor (SCF) o variabilidad explicada.
2 gKKF MMSC n
ANOVA
k grupo del aritmética mediak grupo elen sujetos de número
global media
K
k
g
M
M
n
• Siendo:
En la literatura científica también se denomina a la SCF como SC Entre los grupos (SS Between) o SC del Modelo (SS Model)
ANOVA
CASADO SEPARADO VIUDO SOLTERO MEDIA GLOBAL
MEDIA 35,21 46,27 58,18 45,08 45,53
n 14 15 11 13
(x-X)2 106,38 0,55 160,11 0,20
n(x-X)2 1489,305 8,178 1761,226 2,649 3261,358
358,32612 gKKF MMSC n
Paso 5: Calculamos la suma de cuadrados de las desviaciones entre cada dato y la media de su grupo. Esta es la suma de cuadrados no explicada, a la que denominaremos Suma de cuadrados residual (SCR) o variabilidad residual.
2
Mx kR ikSC
k grupo del aritmética media
k grupo del i dato cada
___
x
x
k
ik
ANOVA
• Siendo:
En la literatura científica también se denomina a la SCR como SC Dentro de los grupos (SS Within)
FTRRFT SCSCSCSCSCSC Si
ANOVA
CASADO SEPARADO VIUDO SOLTERO
635,76 541,34 392,76 532,54
262,90 247,54 139,67 621,16
0,62 1912,60 103,67 8,54
391,47 264,60 96,40 291,62
95,76 714,67 14,58 0,01
33,47 264,60 851,58 227,31
27,19 39,27 407,31 98,47
33,47 333,67 96,40 0,01
10,33 10,67 3,31 24,24
116,33 59,80 7,94 9,47
7,76 7,47 0,03 437,78
408,62 743,47 403,08
27,19 247,54 222,70
391,47 333,67
280,00
13433,850
850,13433
2
Mx kR ikSC
ANOVA
• Cada suma de cuadrados tiene sus propios grados de libertad.
• La SCT es el número total de casos menos uno, es decir n-1;
• La SCF es el número de grupos menos uno, es decir, k-1 y
• La SCR es el número total de datos menos k, es decir,
n-k. • En el análisis de la varianza, se define una media
cuadrática como el cociente entre la suma de cuadrados y sus correspondientes grados de libertad:
Paso 6: Calculamos las medias cuadráticas, para lo cual necesitamos conocer los grados de libertad correspondiente a cada suma de cuadrados de las desviaciones
Grados de libertad• Factor, Entre los grupos (between)
(k-1): (4 - 1) = 3
• Residual, Dentro de los grupos (within) (n-k):53-4 = 49
• Total = (n – 1):53 - 1 = 52
ANOVA
RFT SCSCSC glglgl
ANOVA
Medias Cuadráticas
kn
SCMC R
R
1k
SCMC F
F
1n
SCMC T
T
160,27449
13433,850RMC
119,10873
358,3261FMC
52
16695,208TMC
ANOVA
Paso 7: Calculamos el estadístico F de Snedecor, que nos informará si tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis nula.
965,3160,274
119,1087F
En nuestro caso
R
F
R
F
R
F
S
S
knSCkSC
MC
MCF
2
21
ANOVA
Paso 8: Con el fin de informar los resultados, se procede a generar el cuadro resumen del ANOVA.
En nuestro caso
FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado
FACTOR SC ENTRE k - 1 SC Entre / k-1 MC Entre/MC Dentro
RESIDUAL SC DENTRO n - k SC Dentro/ n-k
TOTAL SC TOTAL n - 1
FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado
FACTOR 3261,358 3 1087,119 3,965
RESIDUAL 13433,850 49 274,160
TOTAL 16695,208 52
Paso 9) Se procede a establecer la probabilidad de error tipo I o alfa asociada a nuestro valor F.
Procedimiento:
Encuentre el valor crítico en una distribución F, con k-1 grados de libertad en el numerador (en las columnas) y n-k grados de libertad en el denominador (en las filas), que deje una probabilidad de en la cola superior de la distribución.Rechace la hipótesis nula si el estadístico F calculado en el Paso 7 es mayor o igual que el valor crítico F(k-1, n-K) que encontramos en la tabla de F.
ANOVA
Las reglas de decisión en este procedimiento son las siguientes:
REGLAS DE DECISIÓN
)(obs0 si Rechace FFH
)(obs0 si rechace No FFH
k210 ... : H
)...( : k211 H
ANOVA
En la tabla correspondiente, ubicamos los valores (k-1) en las columnas; y (n-k) en las filas y el punto de intersección nos informa el valor F con el cual compararemos el Fobs
Si desarrollamos el contraste en nuestro ejemplo, tenemos los siguientes valores:
3)1( kglF 49)( knglR 965,3F
ANOVA
Los valores críticos de F son:
28,210.0 F
Al realizar la comparación de Fobs con F, se observa que
Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que existe evidencia empírica suficiente para afirmar que existen diferencias significativas entre las medias de, al menos, dos de los grupos de padres.
Paso 10) Se concluye sobre la Hipótesis nula.
05.0FFobs
92,205.0 F
59,3025.0 F
24,501.0 F
ANOVA
920,2965,3
A partir de los resultados expuestos sabemos que las cuatro categorías de la variable independiente presentan resultados diferentes.
Pero no sabemos exactamente entre que categoría se presentan dichas diferencias, pues ANOVA no nos informa al respecto. Nos dice que hay diferencias significativas, pero no entre que pares
ANOVA
• ¿Los hijos de padres casados presentan menos problemas específicos que los de padres separados?
• ¿Los hijos de padres viudos presentan más problemas específicos que los de padres separados?
• ¿Existen diferencias entre los hijos de padres solteros y los de padres separados
•Podemos tener varias preguntas:
•El ANOVA de un factor no responde estas preguntas
ANOVA
• Podemos probar la significación estadística de las diferencias entre pares individuales de condiciones
• Estas pruebas son conocidas como comparaciones post-hoc
• Se calcula un valor crítico de diferencias a través del procedimiento que explicaremos a continuación.
ANOVA
Las Comparaciones Post-Hoc ( a posteriori) se hacen solamente si
el resultado de ANOVA es p<0,05, es decir, se han encontrado
diferencias significativas.
COMPARACION POST-HOC ANOVA
En este curso aplicaremos en estos casos la Prueba T de Student
para muestras independientes, explicada anteriormente.
Análisis de la Varianza de Kruskal-Wallis
El contraste de Kruskall-Wallis es la alternativa no paramétrica del método ANOVA Unifactorial, es decir, sirve para contrastar la hipótesis de que k muestras cuantitativas han sido obtenidas de la misma población. La única exigencia se refiere a la aleatoriedad en la extracción de las muestras, sin hacer referencia a las otras condiciones de homocedasticidad y normalidad necesarias para la aplicación del test paramétrico ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumplen algunas de las condiciones que se necesitan para aplicar dicho método.
Al igual que las demás técnicas no paramétricas, ésta se apoya en el uso de los rangos asignados a las observaciones.
Ejemplo
• Un psicopedagogo investigador pretende establecer si existen diferencias en las expectativas de logro que manifiestan los padres acerca de los avances de sus hijos en la atención especializada que reciben, según la dependencia del colegio de procedencia de los niños.
• Para ese fin, aplica una escala de expectativas, la cual indica que a mayor puntuación, mayor expectativa sobre los avances de su hijo(a).
PRUEBA DE KRUSKAL-WALLIS
Paso 1: Se obtienen los siguientes datos PRUEBA DE KRUSKAL-WALLIS
MUNICIPAL PARTICULAR PARTICULAR
PAGADO SUBVENCIONADO
14 12 11
15 14 12
14 15 9
16 14 8
16 13
17
Paso 2) Se ordenan todos los datos, de menor a mayor, de las k muestras y en un solo conjunto, cuidando de identificar a cada uno con su muestra respectiva.
PRUEBA DE KRUSKAL-WALLIS
Municipal R1 Particular R2 Particular R3
pagado subvencionado
14 8,5 12 4,5 8 1
14 8,5 14 8,5 9 2
15 11,5 14 8,5 11 3
16 13,5 15 11,5 12 4,5
16 13,5 13 6
17 15
42,0 61,5 16,5
Paso 3) Luego se suman los rangos de cada grupo.
Paso 4) A continuación se calcula el valor H de Kruskal-Wallis.
gruposk lossumar deben se que Indica
grupo cadaen rangos los de Suma
grupo cadaen sujetos de número
sujetos de totalnúmero
grupos de número
1
k
j
jRjn
N
k
PRUEBA DE KRUSKAL-WALLIS
)1(3)1(
12
1
2
Nn
R
NNH
k
j j
j
En nuestro ejemplo de las expectativas de los padres según la dependencia del colegio de sus hijos, tenemos los siguientes valores:
4)(1 Mn 6)(2 PPn
Si sustituimos en
Tenemos
291,8HPor lo tanto
)115(35
5,16
6
5,61
4
42
)115(15
12
)1(3)1(
12
222
1
2
Nn
R
NNH
k
j j
j
5)(3 PSn
42)(1 MR 5,61)(2 PPR 5,16)(3 PSR
PRUEBA DE KRUSKAL-WALLIS
Existen dos procedimientos, asociados a la cantidad de grupos y sus tamaños
Paso 5) Se procede a establecer la probabilidad de error tipo I o alfa asociada a nuestro valor H.
PRUEBA DE KRUSKAL-WALLIS
Primer procedimiento:
Si el número de muestras es k=3 y el número de observaciones en cada una de ellas no pasa de 5, se rechaza H0 si el valor de Hobs supera el valor teórico de H que encontramos en la tabla de Kruskal-Wallis. (La tabla aportada en el curso opera hasta k=5 para n=3).
Segundo procedimiento:
En cualquier otro caso, se compara el valor de Hobs con el de la tabla de Chi cuadrado con k-1 grados de libertad. Se rechaza H0 si el valor del estadístico supera el valor teórico .
Las reglas de decisión en este procedimiento son las siguientes:
REGLAS DE DECISIÓN
)(obs0 si Rechace HHH
)(obs0 si rechace No HHH
PRUEBA DE KRUSKAL-WALLIS
k210 M...MM : H
)M...M(M : k211 H
En la tabla correspondiente, ubicamos los valores de los tamaños de los grupos 6,5,4 y comparamos nuestro valor Hobs con el H correspondiente
Si desarrollamos el contraste en nuestro ejemplo, siguiendo el primer procedimiento, tenemos los siguientes valores:
PRUEBA DE KRUSKAL-WALLIS
4)(1 Mn 6)(2 PPn 5)(3 PSn 291,8H
Los valores críticos de H son:
522,410.0 H
Al realizar la comparación de Hobs con H, se observa que
Por lo tanto, podemos rechazar la hipótesis nula, al 1%, y debemos aceptar que existe evidencia empírica suficiente para afirmar que existen diferencias significativas entre las medias de rangos entre, al menos, dos de los grupos de padres.
Paso 6) Se concluye sobre la Hipótesis nula.
01.0HHobs
PRUEBA DE KRUSKAL-WALLIS
661,505.0 H
750,6025.0 H
936,701.0 H
Si desarrollamos los pasos 5 y 6, siguiendo el segundo procedimiento de contraste, tenemos los siguientes valores:
3k
PRUEBA DE KRUSKAL-WALLIS
291,8HEn la tabla correspondiente, ubicamos en la columna DF nuestro k-1 y
comparamos nuestro valor Hobs con el X 2 correspondiente
Los valores críticos de H son:
605,410.0 H
Al realizar la comparación de Hobs con H, se observa que
Por lo tanto, podemos rechazar la hipótesis nula, al 2%, y debemos aceptar que existe evidencia empírica suficiente para afirmar que existen diferencias significativas entre las medias de rangos entre, al menos, dos de los grupos de padres.
Paso 6) Se concluye sobre la Hipótesis nula.
02.0HHobs
PRUEBA DE KRUSKAL-WALLIS
991,505.0 H
824,702.0 H
210,901.0 H
A partir de los resultados expuestos sabemos que las tres categorías de la variable independiente presentan resultados diferentes.
Pero no sabemos exactamente entre que categoría se presentan dichas diferencias, pues el Test de Kruskal-Wallis no nos informa al respecto. Nos dice que hay diferencias significativas, pero no entre que pares
PRUEBA DE KRUSKAL-WALLIS
• ¿Los padres M tienen más expectativas que los PS?
• ¿Los padres PS tienen menos expectativas que los PP?
• ¿Existen diferencias entre los padres PP y M?
•Podemos tener varias preguntas:
PRUEBA DE KRUSKAL-WALLIS
•La prueba de Kruskal-Wallis no responde estas preguntas
• Podemos probar la significación estadística de las diferencias entre pares individuales de condiciones
• Estas pruebas son conocidas como comparaciones post-hoc
• Se calcula un valor crítico de diferencias a través de uno de los procedimientos.
• En este curso usaremos la U de Mann Whitney, explicada anteriormente.
COMPARACIONES POST-HOC KRUSKAL-WALLIS