SIM-ET Kolmogorov Smirnov PRE p16

download SIM-ET Kolmogorov Smirnov PRE p16

of 16

description

simulacion kolmogorov Smirnov

Transcript of SIM-ET Kolmogorov Smirnov PRE p16

  • TALLER DEL MTODO NO PARAMTRICO:PRUEBA DE KOLMOGOROV-SMIRNOV

    GARCA, YelitzaCRDENAS, EduardoFIGUEREDO, Rosa

    Universidad Nacional Experimental de GuayanaIngeniera Informtica. Urb. Chilemex. Ciudad Guayana. Venezuela.

    e-mail: [email protected]

    RESUMEN

    El Mtodo de Kolmogorov-Smirnov para dos muestras dirige el inters hacia los puntos deacuerdo a dos distribuciones acumulativas. Esta prueba examina los puntos de coincidenciade dos conjuntos de valores muestrales. Si las dos muestras han sido de verdad extradas dela misma distribucin de poblacin, puede esperarse que las distribuciones acumulativas deambas muestras sean claramente prximas entre s, ya que solamente deberan mostrardesviaciones casuales de la distribucin de poblacin. Un alejamiento excesivo de lasdistribuciones acumulativas de las dos muestras sugieren que las muestras provienen depoblaciones diferentes. As, una desviacin bastante grande entre las dos distribucionesacumulativas muestrales es una razn para rechazar H0.

    PALABRAS CLAVES

    Mtodos No-Paramtricos, Kolmogorov-Smirnov, estocsticamente.

    INTRODUCCIN

    El mtodo no-paramtrico de Kolmogorov-Smirnov para dos muestras independientes que

    se presentar a continuacin, establece que para la aplicacin de este mtodo se utilicen la

    tabla de valores crticos de KD, la tabla de valores crticos de D y la tabla de valores crticos

    de Ji-cuadrado.

    1

    mailto:[email protected]

  • La primera tabla, se usa cuando n1 y n2 son iguales y son menores o iguales que 40. La

    segunda es para muestras grandes sin considerar la igualdad entre muestras, y la ultima para

    pruebas de una cola y con muestras grandes sin considerar la igualdad entre ellas.

    A travs de la aplicacin de este mtodo se verificar la igualdad entre las funciones de

    distribucin de las muestras extradas de poblaciones diferentes.

    1. PRUEBA DE DOS MUESTRAS DE KOLMOGOROV-SMIRNOV

    La prueba de dos muestras de Kolmogorov-Smirnov dirige el inters hacia los puntos de

    acuerdo entre dos distribuciones acumulativas. Examina los puntos de coincidencia de dos

    conjuntos de valores mustrales.

    Esta prueba de dos muestras puede confirmar que dos muestras independientes han sido

    extradas de la misma poblacin (o de poblaciones con la misma distribucin). La prueba

    de dos colas es sensible a cualquier diferencia en las distribuciones de las que se sacaron las

    dos muestras: Diferencias en colocacin (tendencia central), en dispersin, en oblicuidad,

    etc. La prueba de una cola se usa para decidir si los valores de la poblacin en las que se

    tom una de las muestras son mayores o menores que los de la poblacin de la que se tom

    la otra.

    Si las dos muestras han sido de verdad extradas de la misma distribucin de poblacin,

    puede esperarse que las distribuciones acumulativas de ambas muestras sean claramente

    prximas entre s, ya que solamente deberan mostrar desviaciones casuales de la

    distribucin de poblacin. Un alejamiento excesivo de las distribuciones acumulativas de

    las dos muestras sugiere que las muestras provienen de poblaciones diferentes. As, una

    desviacin bastante grande entre las dos distribuciones acumulativas mustrales es una

    razn para rechazar la hiptesis nula Ho.

    2

  • Mtodo.

    Al aplicar la prueba de dos muestras de Kolmogorov-Smirnov, hacemos una distribucin de

    frecuencia acumulativas para cada muestra de observaciones, usando los mismos intervalos

    para ambas distribuciones. En seguida sustraemos, para cada intervalo, cada funcin

    escalonada de la otra. La prueba examina la ms grande de estas desviaciones observadas.

    Sea Sn1 (X) la funcin acumulativa escalonada que se ha observado en una de las muestras,

    esto es, Sn1(X) = K/n1, donde K es el nmero de puntajes iguales o menores de X. Y sea Sn2(X) la funcin acumulativa escalonada que se ha observado en la otra muestra, esto es,

    Sn2(X) = K/n2. Ahora bien, la prueba de dos muestras de Komogorov-Smirnov examina la

    diferencia:

    D = mxima [Sn1 (X) Sn2 (X)] (1.1)

    Para una prueba de una cola, y:

    D = mxima Sn1 (X) Sn2 (X) (1.2)

    para una prueba de dos colas. La distribucin muestral de D se conoce (Smirnov 1948;

    Massey, 1951) y las probabilidades asociadas con la ocurrencia de valores tan grandes

    como el de una D observada conforme a la hiptesis de nulidad (que supone dos muestras

    procedentes de la misma distribucin) se han tabulado.

    Para la prueba de una cola encontramos el valor mximo de D en la direccin predicha por

    la formula 1.1 y para una prueba de dos colas encontramos el valor mximo absoluto de D

    por la formula 1.2, es decir, la desviacin mxima independientemente de su direccin.

    Esto se debe a que en la prueba de una cola, H1 afirma que los valores de la poblacin de la

    que extrajo una de las muestras son estocsticamente ms grandes que los de la poblacin

    3

  • de la que se sac la otra, mientras en la prueba de dos colas, H1 simplemente dice que las

    dos muestras proceden de diferentes poblaciones.

    Muestras pequeas.

    Cuando n1 = n2 y cuando ambas n1 y n2 valen 40 o menos, puede usarse la tabla L para

    probar la hiptesis de nulidad. Para leer la tabla L, se debe conocer el valor N y el valor de

    Kd.

    Por ejemplo, en una prueba de una cola donde N = 14, si Kd 8 podemos rechazar la

    hiptesis de nulidad a nivel = 0.01.

    Ejemplo para muestra pequea.

    Se compara el aprendizaje serial de diez alumnos del sptimo grado con el aprendizaje

    serial de diez alumnos de dcimo grado. Su hiptesis era que el efecto de primaca debera

    ser menos prominente en el aprendizaje del grupo de los sujetos jvenes. El efecto de

    primaca es la tendencia a que el material aprendido tempranamente en una serie sea

    recordado ms eficientemente que el material aprendido posteriormente en la seria. El

    prob esta hiptesis comparando el porcentaje de errores hechos por los dos grupos en la

    primera mitad de las series de material aprendido, prediciendo que el grupo de mayor edad

    (los de dcimo grado) haran relativamente menos errores al repetir la primera mitad de la

    serie que el grupo ms joven.

    1.- Ho: no hay diferencias en las proporciones de errores al recordar la primera mitad de las

    series aprendidas entre los sujetos del undcimo y sptimo grado.

    Ha: los del undcimo grado cometen proporcionalmente menos errores que los del

    sptimo grado al recordar la primera mitad de la serie aprendida.

    4

  • 2.- Nivel de significacin = 0.01 y n1 = n2 = N, nmero de sujetos en cada grupo, 10.

    3.- Distribucin muestral. La tabla de los valores crticos de Kd para n1 = n2 donde n1 y n2

    son menores que 40.

    4.- Regin de rechazo. Como Ha predice la direccin de la diferencia, la regin de rechazo

    tiene una cola. H0 ser rechazada si el valor de Kd para la mayor desviacin en la

    direccin predicha es tan grande que la probabilidad asociada con su ocurrencia

    conforme a H0 es menor o igual que = 0.01.

    5.- Decisin. La TABLA 1 contiene los porcentajes de los errores de cada sujeto,cometidos al recordar la primera mitad del material aprendido serialmente. Para el

    anlisis con la prueba de Kolmogorov-Smirnov, estos datos fueron clasificados en dos

    distribuciones acumulativas, mostradas en la TABLA 2. Aqu n1 = 10 pertenecientes alundcimo grado y n2 =10 al sptimo grado.

    TABLA 1. Porcentaje de errores totales en la primera mitad de la serie.Sujetos del sptimo grado Sujetos del undcimo grado

    39.1 35.241.2 39.245.2 40.946.2 38.148.4 34.448.7 29.155.0 41.840.6 24.352.1 32.447.2 32.6

    5

  • TABLA 2. Datos de la TABLA 1 ordenados para la prueba de Kolmogorov-Smirnov.

    Porcentaje de errores totales en la primera mitad de la serie24-27 28-31 32-35 36-39 40-43 44-47 48-51 52-55

    S1 (X) 1/10 2/10 5/10 7/10 10/10 10/10 10/10 10/10S2 (X) 0/10 0/10 0/10 0/10 3/10 5/10 8/10 10/10S1 (X)-S2 (X) 1/10 2/10 5/10 7/10 7/10 5/10 2/10 0

    Obsrvese que la discrepancia ms grande entre las dos series es 7/10. Kd = 7, el numerador

    de esta diferencia mayor. La referencia a la tabla de los valores crticos de Kd revela que

    cuando N es igual a 10 el valor de Kd = 7 es significativo en el nivel = 0.01 para una

    prueba de una cola. En vista de que el valor observado de Kd de acuerdo con H0 es a lo ms

    igual al nivel de significacin previamente fijado, se rechaza H0 y se acepta Ha. Concluimos

    que los del undcimo grado cometen proporcionalmente menos errores que los del sptimo

    grado al recordar la primera mitad de la serie aprendida.

    Muestras grandes: pruebas de dos colas.

    Cuando n1 y n2 son mayores que 40, la tabla de valores crticos D puede usarse para la

    prueba de dos muestras de Kolmogorov-Smirnov. Cuando se emplea esta tabla, no es

    necesario que n1 = n2.

    Para usar esta tabla se determina el valor de D para los datos observados usando la formula

    (1.2). Despus se compara el valor observado con el valor critico que se obtiene insertando

    los valores observados de n1 y n2 en la expresin dada en la tabla de valores crticos de D.

    Si la D observada es igual o menor que la calculada a partir de la expresin en la tabla, H0puede rechazarse en el nivel de significacin asociado con esa expresin.

    Ejemplo. Una muestra aleatoria de tamao 9, X1, ... X9 es obtenida de una poblacin y otramuestra aleatoria de tamao 15, Y1, ..., Y15 es obtenida de una segunda poblacin. La

    hiptesis nula es que las dos poblaciones tienen funciones de distribucin idnticas. Si las

    6

  • respectivas funciones son denotadas por F(x) y G(x), entonces la hiptesis nula podra ser

    escrita como:

    H0: F(x) = G(x)

    La hiptesis alternativa puede ser como:

    Ha: F(x) G(x)

    Las dos muestras son ordenadas de la ms pequea a la ms grande por conveniencia, y sus

    valores, junto con otros conjuntos de valores pertinentes a informacin acerca de sus

    funciones de distribucin empricas, son dadas como sigue:

    Xi Yi S1 (x) - S1 (x) 5.2 0 - 1/15 = -1/155.7 0 - 2/15 = -2/15

    5.9 0 - -3/15 = -1/5

    6.5 0 - 4/15 = -4/15

    6.8 0 - 5/15 = -1/3

    7.6 1/9 - 5/15 = -2/9

    8.2 1/9 = 6/15 = -13/45

    8.4 2/9 - 6/15 = -8/45

    8.6 3/9 - 6/15 = -1/15

    8.7 4/9 - 6/15 = 2/45

    9.1 4/9 - 7/15 = -1/45

    9.3 5/9 - 7/15 = 4/45

    9.8 5/9 - 8/15 = 1/45

    9.9 6/9 - 8/15 = 2/15

    10.1 7/9 - 8/15 = 11/45

    10.6 8/9 - 8/15 = 16/45

    10.8 8/9 - 9/15 = 13/45

    7

  • 11.2 1 - 9/15 = 2/15

    11.3 1 - 10/15 = 1/3

    11.5 1 - 11/15 = 4/15

    12.3 1 - 12/15 = 1/15

    12.5 1 - 13/15 = 2/15

    13.4 1 - 14/15 = 1/15

    14.6 1 - 1 = 0

    La esttica de la prueba para la prueba de dos muestras est dada por la siguiente ecuacin

    como

    T1 = mximoS1(x) - S2(x)

    = 2/5 = 0.4

    la diferencia mayor entre S1(x) y S2(x), el cual pertenece a la ocurrencia entre x = 11.2 y x =

    11.3. El valor 0.4 de T1 pudo haber sido determinado grficamente por el dibujo de la

    grfica de S1(x) y S2(x) en el mismo eje de coordenadas.

    De la tabla de valores crticos de D (para muestras grandes de dos colas) podemos observar

    que para un nivel de significacin de 0.05 y con n = 9 = N1 y m = 15 = N2 podemos utilizar

    la ecuacin especificada en dicha tabla.

    ____________W0.05 = 1.36(9 + 15)/9*15 = 0.573

    Esto ilustra la tendencia de la aproximacin asinttica de una prueba conservadora.

    Muestras Grandes: prueba de una cola.

    Cuando n1 y n2 son grandes haciendo caso omiso de que sean iguales o no, podemos hacer

    una prueba de una cola con:

    D = mxima [Sn1 (X) - Sn2 (X)] (1.1)

    8

  • Probamos la hiptesis de nulidad que supone dos muestras extradas de la misma poblacin

    alterna, que afirma que los valores de la poblacin de la que una de las muestras fue

    extrada son estocsticamente mayores que los de la poblacin de la que se sac la otra

    muestra. Por ejemplo, podemos probar no simplemente si un grupo experimental es

    diferente de un grupo de control, sino si un grupo experimental es "ms alto" que el grupo

    control.

    Ha sido demostrado que

    x2 = 4D2(n1n2/n1 +n2) (1.3)

    tiene una distribucin muestral a la que se aproxima la distribucin Ji-cuadrada con gl = 2.

    Es decir, podemos determinar la significacin de un valor observado de D, calculado a

    partir de la frmula (1.2), resolviendo la frmula (1.3) para los valores de D, n1 y n2,

    consultando la distribucin Ji-cuadrada con gl = 2.

    Ejemplo para muestras grandes: prueba de una cola.

    En un estadio de los correlatos de la estructura de la personalidad autoritaria, se elabor una

    hiptesis que supona que las personas de alto autoritarismo mostrara mayor presencia de

    estereotipos frente a los miembros de diferentes grupos tnicos nacionales que aquellas

    otras de autoritarismo bajo. Esta hiptesis fue probada con un grupo de 98 alumnas

    universitarias seleccionadas al azar. A cada sujeto se le dieron veinte fotografas y se le

    pidi "identificar" aquellas cuya nacionalidad reconocieran, colocando junto a las

    fotografas que escogieran, el nombre del grupo nacional. Las sujetas estaban en libertad de

    "identificar" (con ste mtodo) tantas fotografas como desearan. Sin que lo supieran las

    estudiantes, todas las fotografas eran de nacionalidades mexicanos - candidatos a la

    Legislatura y triunfadoras en concursos de belleza - mientras la lista de los veinte grupos

    9

  • tnicos y nacionales no inclua "mexicano". Debido a esto, el nmero de fotografas

    "identificadas" por cualquier sujeto constituy un ndice de su tendencia al estereotipo.

    El autoritarismo fue medido por la muy bien conocida F de autoritarismo, y las sujetas

    fueron agrupadas por sus puntajes "altos" y "bajos". Las de puntajes "altos" fueron las que

    calificaron en la mediana o por encima de ella en la escala F; las de puntajes bajos, las que

    calificaron por debajo de la mediana. Se predijo que los dos grupos diferan en el nmero

    de fotografas "identificadas".

    1. Hiptesis de nulidad.

    H0: las alumnas de la universidad que califican con autoritarismo bajo estereotipan tanto

    ("identifican" tantas fotografas) como las que califican con autoritarismo alto.

    Ha: las alumnas que califican con autoritarismo alto estereotipan ms ("identifican"

    tantas fotografas) que las que califican con autoritarismo bajo.

    2. Prueba estadstica. Como las de calificaciones baja y las de calificaciones altas

    constituyen dos grupos independiente, se escogi una prueba para dos muestras

    independientes. Debido a que el nmero de fotografas "identificadas" por una sujeta no

    puede considerarse ms que una medida ordinal de la tendencia de la sujeto a

    estereotipar, es adecuada a una prueba no paramtrica. La prueba de dos muestras de

    Kolmogorov-Smirnov compara las dos distribuciones de frecuencias acumulativas de las

    muestras y determina si la D observada permite deducir que han sido tomadas de dos

    diferentes poblaciones, una de las cuales es estocsticamente mayos que la otra.

    3. Nivel de significacin. Sea = 0.01. Los tamaos de n1 y n2 pueden determinarse

    solamente despus de obtener los datos, en vista de que las sujetos sern agrupadas de

    10

  • acuerdo a su calificacin en la escala F, ya sea en la mediana o, por encima de ella, o ya

    sea por debajo de la mediana.

    4. Distribucin muestral. La distribucin muestral es:

    x2 = 4D2(n1 y n2)/( n1 + n2)

    Segn la frmula (1.3), donde D ha sido calculada con la frmula (1.1). Se le aproxima

    a la distribucin Ji- cuadrada, con gl = 2. La probabilidad asociada con un valor

    observado de D puede determinarse calculando x2 con la frmula (1.3) y la tabla C.5. Regin de rechazo. En vista de que Ha predice la direccin de la diferencia entre las de

    puntajes F bajos y altos, se us una prueba de una cola. La regin de rechazo consiste

    en todos los valores de x2, calculados con la frmula (1.3), tan grandes que laprobabilidad asociada con su ocurrencia conforme a H0 para gl = 2 es igual o menor que

    = 0.01.

    6. Decisin. De las 98 alumnas, 44 obtuvieron puntajes F por debajo de la mediana. As,n1 = 44. Las restantes 54 obtuvieron puntajes en, o por encima de la mediana: n2 = 54.

    El nmero de fotografas "identificada" por cada una de las sujetas de los dos grupos se

    da en la TABLA 3. Para aplicar la prueba de Kolmogorov-Smirnov, reorganizaremosestos datos en dos distribuciones de frecuencias acumulativas, como se ha hecho en la

    TABLA 4. Para facilitar el clculo, las fracciones mostradas en dicha tabla puedenconvertirse en valores decimales; estos valores aparecen en la TABLA 5.

    11

  • TABLA 3. Nmero de alumnas de autoritarismo altos y bajos que identifican "diferentesnmeros de fotografas.

    Nmero de fotografas"identificadas"

    Nmero de puntajes bajos Nmero de puntajes altos

    0-2 11 13-5 7 36-8 8 69-11 3 1212-14 5 1215-17 5 1418-20 5 6

    TABLA 4. Datos de la TABLA 3 organizados para la prueba de Kolmogorov-Smirnov

    Nmero de fotografa "identificada"0-2 3-5 6-8 9-11 12-14 15-17 18-20

    S44(x) 11/44 18/44 26/44 29/44 34/44 39/44 44/44S54(x) 1/54 5/54 10/54 22/54 34/54 38/54 54/54

    TABLA 5. Equivalentes decimales de los datos de la TABLA 4

    Nmero de fotografa "identificada"0-2 3-5 6-8 9-11 12-14 15-17 18-20

    S44(x) 0.250 0.409 0.591 0.659 0.773 0.886 1.0S54(x) 0.018 0.074 0.184 0.407 0.630 0.704 1.0

    S44(x) - S54(x) 0.232 0.335 0.406 0.252 0.143 0.182 0.0

    Por simple sustraccin, encontramos las diferencias entre las distribuciones en los

    diferentes intervalos de las dos muestras. La mayor de estas diferencias en la direccin

    predicha es 0.406.

    12

  • Estos es,

    D = mximo valor de [Sn1(x) - Sn2(x)] (1.1)

    = mximo valor de [S44(x) - S54(x)]

    = 0.406

    Con D = 0.406, calculamos el valor de x2 definido por la frmula (1.3).

    x2 = 4D2(n1n2)/n1 + n2 = 4(0.406)2(44)(54)/44 + 54

    = 15.97

    La referencia al tabla C seala que la probabilidad asociada con x2 = 15.97 para gl = 2, es p < 0.001, (prueba de una cola). Ya que este valor es menor que = 0.01, podemos

    rechazar Ho ya aceptar Ha. Concluimos que las alumnas con calificacin alta en la escala de

    autoritarismo estereotipan ms ("identifican" ms fotografas) que las alumnas con

    calificacin baja.

    CONCLUSIONES

    Resumen del procedimiento. Pasos para usar la prueba de dos muestras de Kolmogorov-

    Smirnov:

    1. Se dispone cada uno de los grupos de puntajes en una distribucin de frecuencias

    acumulativas con los mismos intervalos (o clasificaciones) para ambas

    distribuciones. Si usan tantos intervalos como sea factible, claro esta si existe un

    numero considerable de intervalos los resultados sern mas precisos.

    2. Por sustraccin, se determina la diferencia entre las distribuciones acumulativas de

    las dos muestras en cada punto registrado.

    13

  • 3. Por inspeccin, se determina la mayor de estas diferencias; esta es D. Para una

    prueba de una cola, D es la diferencia ms grande en la direccin predicha.

    4. El mtodo para determinar la significacin de la D observada depende del tamao

    de las muestras y de la naturaleza de Ha.

    a. Cuando n1 = n2 = N y cuando N 40, se usa la tabla de valores crticos deKd, que contiene los valores crticos de Kd (el numerador de D) en diferentes

    niveles de significacin, de pruebas de una y dos colas.

    b. Para una prueba de dos colas, cuando n1 = n2. Los valores crticos de D paravalores grandes dados de n1 y n2 pueden calcularse a partir de las

    expresiones incorporadas a la tabla de los valores crticos de D.

    c. Para una prueba de una cola, cuando n1 y n2 son grandes, el valor de x2 congl = 2 asociado con la D observada se calcula con la formula:

    x2 = 4D2(n1n2 / n1+n2). La significacin del valor resultante de x2 con gl = 2 puede

    determinarse por referencia a la tabla *C. Esta aproximacin Ji- cuadrada es tambin til

    para muestras pequeas con n1 n2, pero en esa aplicacin la prueba es conservadora.

    Si el valor observado es igual o mayor que el que se da en la tabla apropiada para un nivel

    particular de significacin, Ho puede rechazarse en tal nivel de significacin.

    14

  • Tabla de Valores crticos de KD en la prueba de dos muestras deKolmogorov-Smirnov (Muestras Pequeas)

    N Prueba de una cola Prueba de dos colas = 0.05 = 0.01 = 0.05 = 0.01

    3 3 - - -4 4 - 4 -5 4 5 5 56 5 6 5 67 5 6 6 68 5 6 6 79 6 7 6 710 6 7 7 811 6 8 7 812 6 8 7 813 7 8 7 914 7 8 8 915 7 9 8 916 7 9 8 1017 8 9 8 1018 8 10 9 1019 8 10 9 1020 8 10 9 1121 8 10 9 1122 9 11 9 1123 9 11 10 1124 9 11 10 1225 9 11 10 1226 9 11 10 1227 9 12 10 1228 10 12 11 1329 10 12 11 1330 10 12 11 1335 11 13 1240 11 14 13

    15

  • Tabla de valores crticos de D en la prueba de dos muestras de Kolmogorov-Smirnov

    (Muestras grandes: prueba de dos colas)

    Nivel designificacin

    Valores de D tan grandes que requieren rechazar H0en el nivel de significacin indicado, donde D =

    mximo Sn1(X) - Sn1(X)

    0.10 1.22(n1 + n2)/n1n2

    0.05 1.36(n1 + n2)/n1n2

    0.025 1.48(n1 + n2)/n1n2

    0.01 1.63(n1 + n2)/n1n2

    0.005 1.73(n1 + n2)/n1n2

    0.001 1.95(n1 + n2)/n1n2

    BIBLIOGRFIA

    CONOVER, W. J. (1.971). Practical Non Parametric Statistic, Editorial John Wiley &Sons, INC. Estados Unidos.

    SIDNEY, Siegel. (1.956). Non Parametric Statitics for the Behavioral Sciences. EditorialMcGraw-Hill. Estados Unidos.

    16

    TALLER DEL MTODO NO PARAMTRICO:PRUEBA DE KOLMOGOROV-SMIRNOVGARCA, YelitzaRESUMENINTRODUCCINPorcentaje de errores totales en la primera mitad de la serieNmero de fotografa "identificada"Nmero de fotografa "identificada"

    CONCLUSIONES

    NBIBLIOGRFIA