Noparametrico Wilcoxon

download Noparametrico Wilcoxon

of 28

Transcript of Noparametrico Wilcoxon

Comparacin de grupos con mtodos no paramtricos En captulo 12: Mtodos no paramtricos

Los mtodos que hemos visto hasta ahora, asumen como distribucin muestral la distribucin Normal, supuesto que no siempre se cumple, sin embargo estos mtodos paramtricos son robustos. Pero qu hacemos cuando no se cumple la normalidad o tenemos muy pocos datos? Opciones: 1. Si hay valores extremos y el tamao muestral es pequeo cualquier mtodo de inferencia es dudoso.

1

2. A veces podemos transformar los datos (log es la transformacin ms usada)

2

Ejemplo: Se tienen datos sobre la emisin de monxido de Carbono (CO) de 46 vehculos del mismo tipo (Monoxido.sav).IDEN 1 2 3 . . . 44 45 46 HC 0.5 0.65 0.46 . . . 0.46 0.47 0.55 CO 5.01 14.67 8.6 . . . 3.99 5.22 7.47 NOX 1.28 0.72 1.17 . . . 2.01 1.12 1.39

A los investigadores les interesa calcular un intervalo de confianza para la media del monxido de Carbono14 12 10

8

6

4 Desv. tp. = 5.26 Media = 8.0 0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 16.0 18.0 20.0 22.0 24.0 N = 46.00

2

Monxido de Carbono

Intervalo de confianza 95% para la media: (6,398 - 9,522)3

Se acuerdan como se calcula este intervalo?

Necesitamos el promedio del CO y la desviacin estndar:x = 7,96 s = 5,261 n = 46 t0,975 ( 45) = 2,0215,261 7,96 2,021 46

4

Transformamos la variable con el logaritmo natural de los datos de Carbono:12 10 8

6

4

2

Desv. tp. = .61 Media = 1.89 N = 46.00 .50 .75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 3.25

0

Log(CO)

Intervalo de confianza 95% para la media del log CO (1,7061 - 2,0691) Convertimos a la unidad original de CO con exponencial ( l = 5,507 l = 7,918 )1, 7061 2 , 0691

Sin transformacin: Intervalo de confianza 95% para la media (6,398 - 9,522)

5

Qu pasa con el supuesto de Normalidad?Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. .187 46 .000 .104 46 .200*a

Monxido de Carbono Log(CO)

Shapiro-Wilk Estadstico gl .842 46 .970 46

Sig. .000 .266

*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significacin de Lilliefors

Grfico Q-Q normal de Monxido de Carbono3

2

1

0

Normal esperado

-1

-2

-3 -10 0 10 20 30

Valor observado

Grfico Q-Q normal de Log(CO)3

2

1

0

Normal esperado

-1

-2

-3 .5 1.0 1.5 2.0 2.5 3.0 3.5

Valor observado

6

3. Tambin existen mtodos paramtricos que asumen otras distribuciones, por ejemplo para el tiempo que demora en fallar un producto se usa una distribucin de Weibull (ver diagrama).

7

8

4. Finalmente, existen mtodos que no asumen una distribucin, tambin llamados de distribucin libre o no paramtricos.

9

Los mtodos no paramtricos son la manera ms directa de solucionar el problema de falta de normalidad. Estos mtodos son muy simples de usar y estn disponibles en SPSS. Pero tienen dos desventajas. Primero que tienen menos poder* que las equivalentes soluciones paramtricas. Adems, los tests no paramtricos NO contestan a la misma pregunta. Por ejemplo si queremos hacer un test para docimar sobre el centro de la distribucin, el test no paramtrico establece la hiptesis en trminos de la mediana y el test paramtrico usa la media.

*

Se define poder o potencia del test como la capacidad del test para detectar hiptesis nulas falsas. Potencia = 1-10

Test no Problema paramtrico Una muestra Test del signo de rangos de Wilcoxon Muestras Test t simple Test del signo pareadas de rangos de Wilcoxon Dos muestras Test t para Test de suma independientes muestras de rangos de independientes Wilcoxon Ms de dos ANOVA de un Test de muestras factor Kruskal-Wallis independientes Diseo en ANOVA con Ji cuadrado de bloques bloque Friedman aleatorios

Test Paramtrico Test t simple

Existen dos grandes tipos de test no paramtricos, los que usan cuentas o nmeros y los que usan rangos.

11

Ejemplo: Se tienen dos parcelas experimentales. Daar la presencia de maleza la produccin maz? Malezas por metro cuadrado Produccin 0 166,7 172,2 165,0 176,9 3 158,6 176,4 153,1 156,0Hiptesis En este problema del maz la hiptesis nula es que la maleza no afecta la produccin de maz. Si estamos dispuestos a asumir que la produccin de maz es Normal, o si tenemos un tamao muestral razonablemente grande, usamos el test t para medias independientes. Las hiptesis son: H 0 : 1 = 2 H1 : 1 > 2 Cuando la distribucin no es Normal, podemos reescribir las hiptesis en trminos de medianas:H 0 : mediana1 = mediana 2 H1 : mediana1 > mediana 212

Qu tipo de test ser el adecuado en este caso? Revisemos es supuesto de normalidad:

13

Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. .241 4 .341 4a

YIELD

WEEDS 0 3

. .

Shapiro-Wilk Estadstico gl .938 4 .819 4

Sig. .640 .140

a. Correccin de la significacin de Lilliefors

Grfico Q-Q normal de YIELDPara WEEDS= 01.0

.5

0.0

Normal esperado

-.5

-1.0 164 166 168 170 172 174 176 178

Valor observado

Grfico Q-Q normal de YIELDPara WEEDS= 31.0

.5

0.0

Normal esperado

-.5

-1.0 150 160 170 180

Valor observado

14

Test de suma de rangos de Wilcoxon* Transformacin a rangos Ordenamos los datos de menor a mayor:Produccin 153.1 Rango 1 156.0 2 158.6 3 165.0 4 166.7 5 172.2 6 176.4 7 176.9 8

Pasar de los datos a sus rangos, es equivalente a transformar los datos. Los rangos retienen solamente en orden de las observaciones y no el valor numrico. Si la presencia de maleza afecta la produccin de maz esperamos que los rangos ms pequeos sean de ese grupo. Podemos comparar la suma de los rangos de los dos tratamientos:

*

Este test fue creado por el qumico Frank Wilcoxon (1892-1965) en 1945.15

Tratamiento Suma de rangos Sin maleza 23 Con maleza 13

Por definicin la suma de rangos de 1 a 8 es:

n(n + 1) 8 9 = = 36 2 2Por lo tanto podemos calcular la suma en uno de los grupos y el otro tiene que ser la diferencia (36- 23=13) Si no hay diferencia entre los tratamientos esperamos que los rangos sean la mitad en cada grupo, es decir 18.

16

Test de suma de rangos de Wilcoxon Se tiene una m.a.s de tamao n1 de una poblacin, y una segunda m.a.s de tamao n2 de otra poblacin. Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango de las n observaciones. El test estadstico ser la suma W de los rangos de grupo con menor suma de rangos, este ser el estadstico de suma de rangos de Wilcoxon. Si las dos poblaciones tienen la misma distribucin continua, entonces W tiene media:

n1 (n + 1) W = 2y desviacin estndar: n1n2 (n + 1) W = 1217

El test de suma de rangos de Wilcoxon rechaza la hiptesis nula de que las dos poblaciones tienen la misma distribucin cuando la suma de rangos W est lejos de su media. En el ejemplo del maz queremos docimar: H0: no hay diferencias en la distribucin de la produccin de maz en los dos grupos versus H1: la produccin es mayor en el tratamiento sin malezas

18

Nuestro test estadstico W=13 Bajo Ho W tiene media:4(8 + 1) W = = 18 2

y desviacin estndar:W =4 4(8 + 1) = 3,4641 12

Valor p = P(W 13 | H 0 ) Necesitamos conocer la distribucin muestral de W bajo la hiptesis nula. Existen tablas que dependen de n1 + n2. Veamos qu nos da SPSS:

19

b Estadsticos de contraste

U de Mann-Whitney W de Wilcoxon Z Sig. asintt. (bilateral) Sig. exacta [2*(Sig. unilateral)] Sig. exacta (bilateral) Sig. exacta (unilateral) Probabilidad en el punto

YIELD 3.000 13.000 -1.443 .149 .200 .200 .100 .043a

a. No corregidos para los empates. b. Variable de agrupacin: WEEDS

La salida de SPSS nos da el valor p exacto para la distribucin muestral de W. El valor p para la hiptesis unilateral es 0,1 (valor p exacto segn SPSS). Si comparamos con el equivalente test paramtrico t = 1.554, valor p=0,171/2=0,0855Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

Prueba T para la igualdad de medias

F YIELD Se han asumido varianzas iguales No se han asumido varianzas iguales 1.256

Sig. .305

t -1.554 -1.554

gl 6 4.495

Sig. (bilateral) .171 .187

Diferencia de medias -9.175 -9.175

Error tp. de la diferencia 5.9056 5.9056

95% Intervalo d confianza para l diferencia Inferior Supe -23.6254 -24.8832

5.2

6.5

20

La aproximacin Normal El estadstico de suma de rangos W se aproxima a la distribucin Normal cuando n es grande. Entonces podemos formar un test z para estandarizar a W:

z=

W W

W

El valor de z en el ejemplo del maz nos da:z= 13 18 = 1,44 3,4641

Esperamos rechazar para valores grandes de W si la hiptesis alternativa es verdadera, por lo que el valor p aproximado es:Valor p = P( Z 1.44) = 1 0,9251 = 0,0749

SPSS da el valor p exacto para W y el asinttico o aproximado que utiliza la aproximacin a la Normal.

21

Adems SPSS nos entrega el estadstico U de MannWhitney, este es equivalente al test de suma de rangos de Wilcoxon.

22

Empates La distribucin exacta de test de Wilcoxon para suma de rangos se obtiene asumiendo que todas las observaciones tienen diferentes valores y por lo tanto su rango. En la prctica ocurre que muchas veces tenemos valores iguales. Lo que hacemos es asignar el valor promedio del rango que ocupan. Ejemplo:Observacin Rango 153 1 155 2 158 3,5 158 3,5 161 5 164 6

La distribucin exacta del test de Wilcoxon se aplica a datos sin empates, por lo que deberemos ajustar la desviacin estndar en la presencia de empates.

23

Ejemplo: La comida que se vende en eventos al aire libre puede ser menos segura que la de restoranes porque se prepara en lugares no acondicionados y a menudo por voluntarios. Qu pensar la gente acerca de la seguridad de la comida en ferias? Un estudio pregunt a asistentes a este tipo de eventos: Qu tan a menudo piensa usted que se enferma la gente que consume comida en eventos al aire libre? Las respuestas posibles eran: 1 = raramente 2 = de vez en cuando 3 = a menudo 4 = muy frecuentemente 5 = siempre En total 303 personas respondieron a la pregunta. De estos 196 eran mujeres y 107 hombres. Existe evidencia que hombres y mujeres difieren en su percepcin acerca de la seguridad en la comida de ferias al aire libre?

24

Tabla de contingencia Sexo * Respuesta Recuento 1 Sexo Total F M 13 22 35 2 108 57 165 Respuesta 3 50 22 72 4 23 5 28 5 2 1 3 Total 196 107 303

Comparamos los porcentajes por filas:Tabla de contingencia Sexo * Respuesta % de Sexo 1 6.6% 20.6% 11.6% 2 55.1% 53.3% 54.5% Respuesta 3 25.5% 20.6% 23.8% 4 11.7% 4.7% 9.2% 5 1.0% .9% 1.0% Total 100.0% 100.0% 100.0%

Sexo Total

F M

Es la diferencia entre sexos significativa? H0: hombres y mujeres no difieren en sus respuestas H1: uno de los dos sexos da sistemticamente mayores respuestas que el otro La hiptesis alternativa es de dos colas.Como las respuestas posibles son slo 5 hay muchos empates.

25

Veamos la salida de SPSS:Rangos Rango promedio 163.25 131.40 Suma de rangos 31996.50 14059.50

Respuesta

Sexo F M Total

N 196 107 303

a Estadsticos de contraste

U de Mann-Whitney W de Wilcoxon Z Sig. asintt. (bilateral) Sig. exacta (bilateral) Sig. exacta (unilateral) Probabilidad en el punto

Respuesta 8281.500 14059.500 -3.334 .001 .001 .000 .000

a. Variable de agrupacin: Sexo

Tenemos suficiente evidencia para concluir que existen diferencias significativas entre la percepcin acerca de la seguridad de la comida al aire libre entre hombres y mujeres. Como el tamao de la muestra es grande podramos haber usado el test paramtrico:

26

Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

Prueba T para la igualdad de medias

F Respuesta Se han asumido varianzas iguales No se han asumido varianzas iguales 3.031

Sig. .083

t 3.361 3.365

gl 301 218.856

Sig. (bilateral) .001 .001

Diferencia de medias .33 .33

Error tp. la diferen

.

.

Pero en este caso, tenemos argumentos a favor del test no paramtrico. El test paramtrico asume que las respuestas tienen valor numrico y en realidad en una escala cualitativa. Usar rangos es ms apropiado en este caso.

27

Tipo de aceiteRangos Tipo de aceite Animal Vegetal Total N 12 12 24 Rango promedio 15.29 9.71 Suma de rangos 183.50 116.50

Absorcin

b Estadsticos de contraste

U de Mann-Whitney W de Wilcoxon Z Sig. asintt. (bilateral) Sig. exacta [2*(Sig. unilateral)]

Absorcin 38.500 116.500 -1.936 .053 .052a

a. No corregidos para los empates. b. Variable de agrupacin: Tipo de aceite

Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior -.698 -.706 19.198 19.206

F Absorcin Se han asumido varianzas iguales No se han asumido varianzas iguales .310

Sig. .583

t 1.928 1.928

gl 22 21.694

Sig. (bilateral) .067 .067

Diferencia de medias 9.25 9.25

Error tp. de la diferencia 4.797 4.797

28