Prueba Kruskal Wallis

download Prueba Kruskal Wallis

of 11

Transcript of Prueba Kruskal Wallis

  • 7/23/2019 Prueba Kruskal Wallis

    1/11

    1

    Profesora : Lic. Rita Guzmn

    PRUEBAS PARA K MUESTRASINDEPENDIENTES

    Profesora : Lic. Rita Guzmn

    Prueba de 2 para K MuestrasIndependientes

    Es una extensin de la prueba 2 para dos muestrasindependientes.

    Cuando las observaciones de una investigacin

    corresponden a muestras independientes y estnformados por frecuencias en categoras discretas, laprueba de 2 puede determinar la significancia de lasdiferencias entre las k muestras.

    Para la aplicacin de este prueba se debe considerar queninguna celdilla debe tener frecuencia esperada 0, y slo el20% de las celdillas deben tener una frecuencia esperadainferior a 5. Si no se dan estas condiciones hay que agrupar los datos. En caso contrario la prueba no es vlida.

  • 7/23/2019 Prueba Kruskal Wallis

    2/11

    2

    Profesora : Lic. Rita Guzmn

    Para aplicar la prueba 2, se disponen las frecuencias en una tablade contingencia de r x k.

    Hiptesis a contrastar:

    0 -entre s.

    -Las K muestras proceden de la misma poblacin o depoblaciones idnticas. F(x 1)==F(X k)

    -Las K muestras se distribuyen similarmente entre r clases

    H1: - Al menos dos de las K muestras de frecuencias oproporciones difieren entre s.

    - Alguna de las K muestras proviene de una poblacindiferente. F(x i)F(X j)

    - Al menos dos de las K muestras se distribuyen de formadiferente.

    Profesora : Lic. Rita Guzmn

    Estadstico de Prueba :

    El estadstico de prueba 2c se aproxima a la distribucinchi-cuadrada con g.l.=(k-1)(r-1), donde k= es el nmerode columnas y r= el nmero de filas.

    El valor del estadstico de prueba es calculado por la

    formula:

    21r 1k

    r

    i

    k

    j ij

    2ijij2

    c e

    eO ))*((,

    )(

    = Donde:

    O ij = Nmero observado de casos clasificados en la fila i de lacolumna j.

    e ij = Nmero de casos esperados conforme a H 0 para serclasificados en la fila i de la columna j.

  • 7/23/2019 Prueba Kruskal Wallis

    3/11

    3

    Profesora : Lic. Rita Guzmn

    Procedimiento para el calculo del valor del estadstico:

    1) Arreglar las observaciones en una tabla de contingencias.

    .

    3) Calcular las diferencias entre los valores observados conrespecto a los tericos de cada casilla.

    4) Elevar al cuadrado las diferencias y dividirlas entre el valorterico de la casilla correspondiente.

    5) Obtener la sumatoria de los valores anteriores, que es elestadstico X 2c.

    6) Calcular los grados de libertad (g.l):gl = (k columnas -1) (r filas -1).

    Profesora : Lic. Rita Guzmn

    Donde la probabilidades estimadas estadada por:

    C.F.

    C 1... C j C k Total

    F1e 11

    O11

    e 1jO1j

    e 1kO1k

    n 1...

    .

    ...

    .

    ...

    .

    .

    .

    .

    .

    nn

    C P j1.)( =

    nn

    F P i.1)( =

    existe independencia entre las Kmuestras, entonces la probabilidad delas observaciones por celda es:

    )()()( ji ji C P F P C F P =

    .. . . . . .

    Fi e i1O i1

    e ijO ij

    e 2kO2k

    n i....

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    Fre r1

    O r1

    e rjO rj

    e rkO rk

    n 3.Entonces calculamos la frecuenciaesperada para la casilla

    .1 .j .k

    nnn

    e

    nnn

    nn

    nn

    nnC P F P nC F P e

    ij

    ji jiij

    1..1

    1..11..1)]()([))((

    =

    =

    ===

  • 7/23/2019 Prueba Kruskal Wallis

    4/11

    4

    Profesora : Lic. Rita Guzmn

    Regla de Decisin:Para un nivel de significancia , y si,

    > 2 112 )(*)(, k r c Rechazamos H 0

    Aplicat ivo :Una empresa que vende cuatro productos desea determinar si lasventas se han distribuido similarmente entre cuatro clase generalesde clientes. Una muestra al azar de 1000 registros de ventasproporciona la siguiente informacin:

    Profesora : Lic. Rita Guzmn

    Producto

    Grupo de Clientes 1 2 3 4

    Profesionales 85 23 56 36

    Hombres de negocios 153 44 128 75

    Obreros Industriales 128 26 101 45

    Granjeros 34 7 15 44

    Qu conclusin puede obtener usted de los resultados de laprueba?. Utilizar =0.05

  • 7/23/2019 Prueba Kruskal Wallis

    5/11

    5

    Profesora : Lic. Rita Guzmn

    Hiptesis a contrastar:

    H0: Las 4 muestras se distribuyen similarmente entre las 4 clases

    H1: Dos de las 4 muestras se distribuyen de forma diferente entrelas 4 clases.

    =0.05 , Luego calculamos los esperados correspondientes :

    Producto

    TOTALGrupo de Clientes 1 2 3 4

    Profesionales80 20 60 40

    20085 23 56 36

    160 40 120 80

    nnn

    eij1..1=

    Hombres de negocios 400

    153 44 128 75

    Obreros Industriales120 30 90 60

    300128 26 101 45

    Granjeros40 10 30 20

    10034 7 15 44

    TOTAL 400 100 300 200 1000

    Profesora : Lic. Rita Guzmn

    El estadstico de prueba ser entonces:

    21r 1k

    r

    i

    k

    j ij

    2ijij2

    c e

    eO ))*((,

    )(

    =

    24.4720

    )2044(30

    )3015(...

    40)4036(

    60)6056(

    20)2023(

    80)8085( 2222222 =++++++=c

    == = 9.162 9)3)*(3(,05.02 )1)*(1(, r k

    =>= .. .)9;05.0( gl c Rechazamos H 0Entonces con un 5% de significancia, concluimos que existesuficiente evidencia estadstica para afirmar que las ventas seencuentran distribuidos similarmente entre las cuatro clases declientes.

  • 7/23/2019 Prueba Kruskal Wallis

    6/11

    6

    Profesora : Lic. Rita Guzmn

    Prueba de Kruskal-Wallis para K MuestrasIndependientes

    La prueba de rango de Kruskal-Wallis es una generalizacin de laPrueba de Mann-Whitney para dos muestras independientes.

    Se aplica cuando la variable en estudio ha sido medida en una escalaordinal.

    La Prueba de Kruskal-Wallis compara el rango medio alcanzado encada subgrupo con los dems y determina si estas diferencias sonsuficientemente significativa como para rechazar la hiptesis nula.

    Frecuentemente hace falta decir si varias muestras independientesdeben considerarse como procedente de una misma poblacin, estodebido a que los valores de las muestras casi siempre difieren en ciertogrado y el problema es determinar si tras las diferencias muestralesobservadas hay diferencias entre poblaciones o si son solo variacionesal azar que se esperara entre muestras aleatorias de la mismapoblacin.

    Profesora : Lic. Rita Guzmn

    Muestra 1 x 11 x12

    Muestra 2 x 21 x22

    1n1 x

    2n2 x

    supongamos que tenemos k muestras representadas en una tabla como sigue :

    La hiptesis a contrastar es:

    Muestra k x k1 xk2 k kn x

    donde : N=n 1+n 2++n k , N: nmero total de observaciones

    (las muestras provienen de Poblaciones con medianas iguales, o dela misma poblacin, o igualdad en los efectos de los tratamientos ).

    H1 : Al menos una de las medianas es diferente(alguna de las k muestras proviene de una poblacin conmediana diferente a las dems).

  • 7/23/2019 Prueba Kruskal Wallis

    7/11

    7

    Profesora : Lic. Rita Guzmn

    )()(

    1 N 3n

    R

    1 N N 12

    H k

    1 j j

    2 j +

    +=

    =

    Estadstico de Prueba :

    Procedimiento para el calculo del valor del estadstico:

    - Se ordenan las observaciones de menor a mayor, asignando a cadauna de ellas su rango (1 para la menor, 2 para la siguiente, ... hastaasignar un rango al mayor de las observaciones).

    - Para cada una de las muestras se calcula R =1 2.. k como la suma, , , .., ,

    de los rangos de las observaciones que les corresponden a cadamuestra.

    - Se reemplazan los datos en la formula arriba indicada y obtenemos elvalor del estadstico de prueba H.

    Profesora : Lic. Rita Guzmn

    REGLA DE DECISION :

    bajo un nivel de significancia

    - Si el nmero de muestras es k=3 el nmero deobservaciones en cada una de ellas no pasa de 5:

    Se rechaza H 0 si: el valor de H supera el valor terico queencontramos en la tabla de Kruskall-Wallis ( H>H tabla, ).

    -Para cualquier otro caso diferente al anterior, se compara el *- - . .

    Se rechaza H 0 si el valor del estadstico supera el valor terico de tabla H>2tabla(k-1)*(r-1) g.l; ).

  • 7/23/2019 Prueba Kruskal Wallis

    8/11

    8

    Profesora : Lic. Rita Guzmn

    Observaciones Ligadas:

    -Si ms del 25% de las observaciones estn ligadas(empates), es necesario corregir el efecto determinandocuantos grupos ligados ocurrieron y cuantos puntajes

    .

    Se define:ti: Nmero de observaciones ligadas en un grupo i

    Ti = t3i - tiFactor de correccin para el estadstico H:

    t

    )(

    )(

    N N 1 31i

    i

    =

    ])(

    )([

    N N

    T 1

    H

    3

    t

    1ii

    corregido

    =

    =

    Ti: Indica sumar en todos los grupos de ligaN=n 1+n 2++n k , N: nmero total de observaciones

    Profesora : Lic. Rita Guzmn

    Aplicat ivo :Se desea probar la hiptesis que los administradores escolares soncaractersticamente ms autoritarios que los profesores de clase.Para eso el investigador decide dividir sus 14 sujetos en tresgrupos: Profesores orientados a la enseanza (profesores quedesean permanecer en la enseanza), profesores orientados a laadministracin (profesores que aspiran a ser administradores) y

    administradores. Se aplica un test a cada grupo para obtener lospuntajes de autoritarismo.

    Profesores Profesores Administradores

    Puntajes de autoritarismo de tres grupos de educadores

    orientados a laenseanza

    orientados a laadministracin

    96 83 115

    128 128 149

    83 132 166

    83 115 147

    101 109

  • 7/23/2019 Prueba Kruskal Wallis

    9/11

    9

    Profesora : Lic. Rita Guzmn

    Solucin:

    Planteamos las hiptesis:

    H0 : No hay diferencia entre las medianas de puntajes de,

    los profesores orientados a la administracin y losadministradores.

    H1 : Al menos uno de los grupos de educadores tiene medianadistinta a los otros.

    Calculo del estadstico de prueba:

    1) Ordenar de menor a mayor todas las observaciones de lostres grupos en una sola serie y asignamos rangos :

    Profesora : Lic. Rita Guzmn

    Grupos Puntajes Rango(R i)

    A 83 2

    B 83 2

    A 83 2

    A: Profesores orientados a laenseanza

    B: Profesores orientados a la

    A 101 5

    B 109 6

    C 115 9B 115 9

    B 128 8.5

    A 128 8.5

    B 132 10

    C: Administradores

    C 147 12

    C 149 13

    C 166 14

    2) Reagrupamos los rangos :

  • 7/23/2019 Prueba Kruskal Wallis

    10/11

    10

    Profesora : Lic. Rita Guzmn

    Profesoresorientados a la

    enseanza

    Profesoresorientados a laadministracin

    Administradores

    4 2 7.5

    Rangos

    9.5 9.5 13

    2 11 14

    2 7.5 12

    5 6

    R1=22.5 R 2=36 R 3=46.5

    3) Calculamos el valor del estadstico de prueba:

    )()( 1 N 3n

    R

    1 N N 12 H k

    1 j j

    2

    j ++= =

    49.6)114(34

    )48(5

    )5.35(5

    )5.21()114(14

    12 222 =+

    +++

    = H

    Profesora : Lic. Rita Guzmn

    49.6= H Como se presentan ligas entre dos o mspuntajes, corregimos el valor de H de los efectosde ligas con el factor de correccin: )(

    )(

    N N

    T 1 3

    t

    1ii

    =

    e emp eza a e erm nar cu n os grupos ga os an ocurr o ycuntos puntajes estaban ligados en cada grupo. La primera ligaocurri entre 3 puntajes en los profesores orientados a laenseanza y los orientados a la administracin (83 puntos) aquienes se les asign el rango de 2, entonces , t el nmero depuntajes ligados =3 entonces:

    T1 = t3 t = (3) 3 3 = 24

    La siguiente liga ocurri entre 2 puntajes a los que se les asign elrango promedio de 7.5, entonces t = 2

    T2= t3 t = (2) 3-2 = 6

  • 7/23/2019 Prueba Kruskal Wallis

    11/11

    Profesora : Lic. Rita Guzmn

    Y la ltima liga ocurri entre 2 puntajes a los que se les asign el

    rango promedio de 9.5, entonces t = 2T3= t3 t = (2) 3-2 = 6

    Resumiendo:

    T 24 6 6 36

    Entonces calculamos el factor de correccin:

    )(

    )(

    N N

    T 1 3

    t

    1ii

    = 987.0

    )14)14(()36(

    1 3 =

    Entonces aplicando la correccin de H:

    ])(

    )([

    N N

    T 1

    H H

    3

    t

    1ii

    corregido

    =

    =

    58.6987.049.6 == corregido H

    Profesora : Lic. Rita Guzmn

    58.6=corregido H

    Como el nmero de muestras es k=3 y el nmero de observaciones encada una de ellas no pasa de 5, usaremos la tabla de Kruskal-Wallis.

    uego e va or e a as e a o un n ve e s gn canc a e . es:

    64295 H 050455tabla ..),,( ==Donde: rechazaremos H 0 s i : H corregido > H tabla

    Comparando el valor calculado con el de tabla rechazamos H 0 bajoun nivel de significancia de 0.05.

    Bajo un nivel de significancia del 5% concluimos que los tres gruposde educadores especificados difieren en grado de autoritarismo,entonces podemos asegurar que las diferencias que se presentanentre los grupos de observaciones no pueden ser atribuidos a laaleatoriedad incorporada en la muestra.