Análisis de Varianza (ANOVA) de una Vía

21
Análisis de Varianza de una Vía

Transcript of Análisis de Varianza (ANOVA) de una Vía

Análisis de Varianza de una Vía

Principios generales

• El análisis de la varianza (ANOVA) es una técnica estadística paramétrica de contraste de hipótesis.

• El ANOVA de un factor sirve para comparar varios grupos en una variable cuantitativa.

• Se trata, por tanto, de una generalización de la Prueba t de Student para dos muestras independientes al caso de diseños con más de dos muestras.

• A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar la llamamos independiente o factor y la representamos por VI.

• A la variable cuantitativa (de intervalo o razón, que en clase llamamos Escalar) en la que deseamos comparar los grupos la llamamos dependiente y la representamos por VD.

Hipótesis

• La hipótesis nula que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias de la VD en cada nivel de la VI) son iguales.

• Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la VD y que, en consecuencia, la VI o factor que influya sobre la VD.

• Ho: G1 = G2 = G3 = … = Gn

• Ha: Al menos uno de los grupos es distinto a otro

Condiciones

• Cada muestra debe ser independiente de las otras.

• Cada muestra debe haber sido seleccionada al azar de la población de donde proviene.

• Las población de donde provienen las muestras debe tener distribución normal.

• Las varianzas de cada población deben ser iguales.

Ejemplo

• Una Directora de un colegio, preocupada de explicar los problemas de comportamiento de sus estudiantes, se dispuso a hacer un estudio para establecer si existían diferencias en ese aspecto según estado civil de los padres, entre otras variables.

• Para ese fin, solicitó a los padres de 45 niños la aplicación del Child Behavior Checklist, versión para padres. El CBCL (Achenbach, 1991) es un instrumento conformado por 113 ítems que comprenden problemas específicos, agrupados en síndromes que exploran dos tipos de anomalías de conducta: externalización (agresión, delincuencia y trastornos de conducta) e internalización (aislamiento, preocupaciones somáticas, depresión y ansiedad). Además, (Friedrich et al., 1986) seis de sus ítems conforman la escala de problemas sexuales, la que sólo se aplica a niños y niñas mayores.

• Los ítems tienen un nivel de medición escalar.

Datos

Calculamos la media de cada grupo y la media global Calculamos la suma de cuadrados de las desviaciones de cada observación respecto a la media global, suma que denominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidad total. Si se divide por el tamaño total de muestra se obtiene la varianza total.

SCT =X

(xi �Mg)2

CASADO SEPARADO VIUDO SOLTERO

1262,26 507,52 1054,41 553,58

703,75 271,32 598,86 598,86

90,79 1977,73 6,11 6,11

89,71 241,13 504,98 307,24

0,28 754,69 271,32 0,28

20,51 241,13 273,18 241,13

241,13 30,56 56,68 89,71

20,51 307,24 504,98 0,28

183,01 6,39 209,43 20,00

0,22 71,77 239,37 12,45

56,68 12,05 155,54 419,09

931,98 703,75 421,41

241,13 271,32 209,43

89,71 307,24

305,26

16695,208SCT =

X(xi �Mg)

2 = 16695, 208

Calculamos la suma de cuadrados de las desviaciones entre la media de cada grupo y la media general. Esta es la suma de cuadrados explicada por el factor considerado, a la que denominaremos Suma de cuadrados del factor (SCF) o variabilidad explicada.

k grupo del aritmética mediak grupo elen sujetos de número

global media

===

K

k

g

M

M

n

• Siendo:

En la literatura científica también se denomina a la SCF como SC Entre los grupos (SS Between) o SC del Modelo (SS Model)

SCF =X

nk(Mk �Mg)2

CASADO SEPARADO VIUDO SOLTERO MEDIA GLOBAL

MEDIA 35,21 46,27 58,18 45,08 45,53

n 14 15 11 13

(Mk-Mg)2 106,38 0,55 160,11 0,20

nk(Mk-Mg)2 1489,305 8,178 1761,226 2,649 3261,358

SCF =X

nk(Mk �Mg)2 = 3261, 358

Paso 5: Calculamos la suma de cuadrados de las desviaciones entre cada dato y la media de su grupo. Esta es la suma de cuadrados no explicada, a la que denominaremos Suma de cuadrados residual (SCR) o variabilidad residual.

• Siendo:

En la literatura científica también se denomina a la SCR como SC Dentro de los grupos (SS Within)

FTRRFT SCSCSCSCSCSC −=⇒+= Si

SCR =X

(xik �Mk)2

xik

Mk

= cada dato i del grupo k = media aritmética del grupo k

CASADO SEPARADO VIUDO SOLTERO635,76 541,34 392,76 532,54

262,90 247,54 139,67 621,16

0,62 1912,60 103,67 8,54

391,47 264,60 96,40 291,62

95,76 714,67 14,58 0,01

33,47 264,60 851,58 227,31

27,19 39,27 407,31 98,47

33,47 333,67 96,40 0,01

10,33 10,67 3,31 24,24

116,33 59,80 7,94 9,47

7,76 7,47 0,03 437,78

408,62 743,47 403,08

27,19 247,54 222,70

391,47 333,67

280,00

13433,850

850,134332

=⎟⎟⎠

⎞⎜⎜⎝

⎛−=∑ Mx kR ikSC

• Cada suma de cuadrados tiene sus propios grados de libertad.

• La SCT es el número total de casos menos uno, es decir n-1;

• La SCF es el número de grupos menos uno, es decir, k-1 y • La SCR es el número total de datos menos k, es decir, n-k. • En el análisis de la varianza, se define una media

cuadrática como el cociente entre la suma de cuadrados y sus correspondientes grados de libertad:

Calculamos las medias cuadráticas, para lo cual necesitamos conocer los grados de libertad correspondiente a cada suma de cuadrados de las desviaciones

Grados de libertad• Factor, Entre los grupos (between)

(k-1): (4 - 1) = 3

• Residual, Dentro de los grupos (within) (n-k):53-4 = 49

• Total = (n – 1):53 - 1 = 52

RFT SCSCSC glglgl +=

Medias Cuadráticas

knSCMC R

R −=

1−=kSCMC F

F

1−=nSCMC T

T

160,27449

13433,850==RMC

119,10873358,3261

==FMC

5216695,208

=TMC

Calculamos el estadístico F, que nos informará si tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis nula.

965,3160,274119,1087

==F

En nuestro caso

R

F

R

F

R

F

SS

knSCkSC

MCMCF 2

21 =

−==

Con el fin de informar los resultados, se procede a generar el cuadro resumen del ANOVA.

En nuestro caso

FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado

FACTOR SC ENTRE k - 1 SC Entre / k-1 MC Entre/MC Dentro

RESIDUAL SC DENTRO n - k SC Dentro/ n-k

TOTAL SC TOTAL n - 1

FUENTE DE VARIACIÓN SUMA DE CUADRADOS (SC) GRADOS DE LIBERTAD (gl) MEDIA DE CUADRADOS (MC) F calculado

FACTOR 3261,358 3 1087,119 3,965

RESIDUAL 13433,850 49 274,160

TOTAL 16695,208 52

Las reglas de decisión en este procedimiento son las siguientes:

REGLAS DE DECISIÓN

)(obs0 si Rechace αFFH ≥

)(obs0 si rechace No αFFH <

k210 ... : µµµ ==H)...( : k211 µµµ ==¬H

En la tabla correspondiente, ubicamos los valores (k-1) en las columnas; y (n-k) en las filas y el punto de intersección nos informa el valor Fα con el cual compararemos el Fobs

Si desarrollamos el contraste en nuestro ejemplo, tenemos los siguientes valores:

3)1( =−kglF 49)( =− knglR 965,3=F

Los valores críticos de Fα son:

28,210.0 =F

Al realizar la comparación de Fobs con Fα, se observa que

Por lo tanto, podemos rechazar la hipótesis nula, al 2,5% y aceptamos que existe evidencia empírica suficiente para afirmar que existen diferencias significativas entre las medias de, al menos, dos de los grupos de padres.

Paso 10) Se concluye sobre la Hipótesis nula. 05.0FFobs >

92,205.0 =F59,3025.0 =F24,501.0 =F

920,2965,3 >

A partir de los resultados expuestos sabemos que las cuatro categorías de la variable independiente presentan resultados diferentes.

Pero no sabemos exactamente entre que categoría se presentan dichas diferencias, pues ANOVA no nos informa al respecto. Nos dice que hay diferencias significativas, pero no entre que pares