Prueba de Smirnov

9
Prueba de Smirnov - Kolmogorov (S-K) En esta prueba también se está interesado en el grado de concordancia entre la distribución de frecuencia muestral y la distribución de frecuencia teórica, bajo la hipótesis nula de que la distribución de la muestra es f0(x,q) e interesa probar que no existe diferencia significativa. La prueba trabaja con la función de distribución ( distribución de frecuencia acumulativa). Esta prueba pertenece al campo de la Estadística No Paramétrica. Sea F0(x) la función de distribución teórica para la variable aleatoria X, y representa la probabilidad de que la variable aleatoria X tome un valor menor o igual a x (también se interpreta como la proporción esperada de observaciones que tengan un valor menor o igual a x). Es decir: Sea Sn (x) la función de distribución empírica, calculada con base en los valores observados de la muestra n observaciones. Sn (x) representa la proporción de valores observados que son menores o iguales a x, y está definida como: Sn (x) = P ( X £ x/ dados los resultados muestrales) = m/n donde m es el número de valores observados que son menores o iguales a x. En la prueba de Smirnov-Kolmogorov se está interesado en la mayor desviación entre la función de distribución teórica y la empírica, es decir entre F0 (x) y Sn(x), para todo el rango de valores de x. Bajo la hipótesis nula se espera que estas desviaciones sean pequeñas y estén dentro de los límites de errores aleatorios. Por lo tanto, en la prueba S-K se calcula la mayor desviación existente entre F0 (x) y Sn(x), denotada por Dmax(x) y está dada por: Dmax(x) = Max | FX (x) - Sn (x) | La distribución de Dmax(x) es conocida y depende del número de observaciones n. Se acepta la hipótesis nula de que no existe diferencia significativa entre las distribuciones teóricas y empíricas si el valor de Dmax(x) es menor o igual que el valor crítico Dmaxp(a,n). (Ver tabla adjunta para valores críticos). Esta prueba se puede realizar para valores agrupados en intervalos de clase y también para valores sin agrupar.

Transcript of Prueba de Smirnov

Page 1: Prueba de Smirnov

Prueba de Smirnov - Kolmogorov (S-K)En esta prueba también se está interesado en el grado de concordancia entre la distribución de frecuencia muestral y la distribución de frecuencia teórica, bajo la hipótesis nula de que la distribución de la muestra es f0(x,q) e interesa probar que no existe diferencia significativa. La prueba trabaja con la función de distribución ( distribución de frecuencia acumulativa). Esta prueba pertenece al campo de la Estadística No Paramétrica.

Sea F0(x) la función de distribución teórica para la variable aleatoria X, y representa la probabilidad de que la variable aleatoria X tome un valor menor o igual a x (también se interpreta como la proporción esperada de observaciones que tengan un valor menor o igual a x). Es decir:

Sea Sn (x) la función de distribución empírica, calculada con base en los valores observados de la muestra n observaciones. Sn (x) representa la proporción de valores observados que son menores o iguales a x, y está definida como:

Sn (x) = P ( X £ x/ dados los resultados muestrales) = m/n

donde m es el número de valores observados que son menores o iguales a x.

En la prueba de Smirnov-Kolmogorov se está interesado en la mayor desviación entre la función de distribución teórica y la empírica, es decir entre F0 (x) y Sn(x), para todo el rango de valores de x. Bajo la hipótesis nula se espera que estas desviaciones sean pequeñas y estén dentro de los límites de errores aleatorios. Por lo tanto, en la prueba S-K se calcula la mayor desviación existente entre F0 (x) y Sn(x), denotada por Dmax(x) y está dada por:

Dmax(x) = Max | FX (x) - Sn (x) |

La distribución de Dmax(x) es conocida y depende del número de observaciones n. Se acepta la hipótesis nula de que no existe diferencia significativa entre las distribuciones teóricas y empíricas si el valor de Dmax(x) es menor o igual que el valor crítico Dmaxp(a,n). (Ver tabla adjunta para valores críticos).

Esta prueba se puede realizar para valores agrupados en intervalos de clase y también para valores sin agrupar.

Tabla tomada parcialmente del libro “Simulation and Analysis of Industrial Systems”, de Schmidt y Taylor.

El procedimiento general para realizar esta prueba para valores agrupados en intervalos de clase es el siguiente:

Page 2: Prueba de Smirnov

1) Especificar la distribución nula es f0(x,q), y estimar sus parámetros si es necesario.

2) Organizar la muestra en una distribución de frecuencia, en intervalos de clase.

3) Con base en la distribución observada de frecuencia, se calcula la distribución acumulativa Sn(Xi) = mi/n, siendo Xi el límite superior del intervalo de clase, y mi el número de valores de la muestra menores o iguales que Xi. Sn(Xi) corresponde simplemente a la frecuencia relativa acumulada hasta el intervalo i.

4) Se calcula la función de distribución teórica F 0 Xi).

5) Para cada intervalo de clase se calcula la diferencia entre F0 (Xi ) y Sn (Xi), y se busca la máxima Dmax = Max | FX (Xi) - Sn (Xi), i = 1, 2, …, k.

6) Se busca en la tabla el valor crítico Dmaxp(a,n) con el nivel de significancia a. Si el valor observado Dmax es menor o igual que el valor crítico, entonces se acepta la hipótesis nula de que no existen diferencias significativas entre la distribución teórica y la distribución dada por los resultados muestrales, es decir, que los valores generados siguen la distribución que se había supuesto.

Cuando la muestra es pequeña y/o los valores no se van a organizar en intervalos de clase el procedimiento es similar, sólo que el paso 2 se cambia por “ordenar los valores de la muestra” en forma ascendente, de menor a mayor”, y en los pasos 3 y 4 se calculan las funciones de distribución teórica y empírica para cada valor de la muestra.

Ejemplo. Considere de nuevo el ejemplo de la prueba de habilidad aplicada a un grupo de 80empleados. Mediante la prueba de Smirnov Kolomogorov. Con un nivel de significancia del 5%, pruebe la hipótesis de que los puntajes obtenidos siguen una distribución normal.

Solución. De la tabla construida para realizar la prueba chi cuadrado tomaremos la información pertinente y la complementaremos con la información faltante, relativa al cálculo de Sn(Xi). Los cálculos se muestran a continuación.

El valor crítico para n = 80 valores y un nivel de significancia del 5% es Dmaxp(0.05,80) = 1.36/ = 0.152. Como la diferencia máxima observada fue de 0.0236 no hay razón para dudar que los puntajes se puedan aproximar mediante una distribución normal.

Page 3: Prueba de Smirnov

Ejemplo: Prueba de Smirnov - Kolmogorov - Valores agrupados. En la tabla siguiente se presentan los cálculos para realizar la prueba S-K para la muestra de 100 números aleatorios generados mediante un generador congruencial multiplicativo con a = 899, C = 0 y M = 32768, usados para la prueba chi cuadrado.

La diferencia máxima observada es Dmax(x) = 0.09 y el valor crítico para un nivel de significancia del 1% es de 1.63/ = .163. Como Dmax(x) < D(0.01,100) no podemos rechazar la hipótesis nula y debemos concluir que la muestra tomada del generador de números aleatorios proviene de una distribución uniforme (0,1).

Ejemplo. Prueba de Smirnov - Kolmogorov - Valores individuales. Para realizar la prueba de S-K no se requiere que las observaciones estén distribuidas en intervalos de clase, sino que puede realizarse sin agrupar los valores en intervalos de clase, principalmente cuando el tamaño de la muestra es pequeño. En este caso es necesario ordenar los valores en forma ascendente, de menor a mayor, y calcular, para cada valor observado las distribuciones teóricas F0(Xi) y empíricas Sn(Xi) en la forma como se explicó anteriormente. En la tabla siguiente se presenta la prueba para los primeros 20 números aleatorios generados mediante el generador congruencial multiplicativo mencionado anteriormente. La diferencia máxima observada es 0.123 y la máxima permitida es 0.294 para 20 valores y un nivel de significancia del 5%, lo cual lleva a la conclusión de que no existe evidencia de que las observaciones no se distribuyan uniformemente en el intervalo (0,1).. Recordemos que F0(Xi) = Xi para la distribución uniforme (0,1)

Prueba de Smirnov - Kolmogorov - Valores individuales

Propiedades de la prueba de Smirnov Kolmogorov

• La prueba de Smirnov - Kolmogorov puede aplicarse para tamaños de muestra pequeños, lo que no sucede con la chi cuadrado.

• Además, la prueba S-K es más poderosa que la Ji dos, es decir, cuando se rechaza la hipótesis nula, se tiene una mayor confiabilidad en dicho resultado.

• La prueba S-K debe usarse cuando la variable de análisis es continua. Sin embargo, si la prueba se usa cuando la distribución de la población no es continua, el error que ocurre en la probabilidad resultante está en la dirección segura. Es decir, cuando se rechaza la hipótesis nula, tenemos verdadera confianza en la decisión.

Page 4: Prueba de Smirnov

Prueba De Anderson DarlingLa prueba de Anderson-Darling es usada para probar si una muestra viene de una distribución especifica. Esta prueba es una modificación de la prueba de Kolmogorov- Smirnov donde se le da más peso a las colas de la distribución que la prueba de Kolmogorov-Smirnov . 

En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de

una muestra provienen de una distribución específica. La fórmula para el estadístico determina si

los datos (observar que los datos se deben ordenar) vienen de una distribución con función

acumulativa  F .

Donde:

n es el número de datos

f(x): es la función de distribución de probabilidad teórica

FS(X): es la función de distribución empírica.

Para definir la regla de rechazo para esta prueba es necesario, también, obtener el estadístico ajustado para luego compararlo con los valores críticos de la tabla de Anderson- Darling

Page 5: Prueba de Smirnov

Una vez obtenido el estadístico ajustado, la regla de rechazo se realiza análogamente a la utilizada en la prueba de K-S.

El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que F se utiliza) para determinar el P- valor.

Prueba De Ryan - Joiner

La prueba de Ryan - Joiner es usada para probar si una muestra viene de unadistribución especifica. Esta prueba es una modificación de la prueba deKolmogorov-Smirnov donde se le da más peso a las colas de la distribuciónque la prueba de Kolmogorov-Smirnov .En estadística, la prueba de Ryan -

Joiner es una prueba no paramétrica sobresi los datos de una muestra provienen de una distribución específica. Lafórmula para el estadístico determina si los datos (observar que los datos sedeben ordenar) vienen de una distribución con función acumulativa

F.

Formulas:

A

2

= −

N

S

Donde:

Page 6: Prueba de Smirnov
Page 7: Prueba de Smirnov
Page 8: Prueba de Smirnov

Ejemplo:

En el método de Anderson Darling o Ryan Joiner, si el valor de probabilidad Pde la prueba es mayor a 0.05, se considera que los datos son normales. Seguir los siguientes pasos:Generar 100 datos aleatorios en

Minitab

con Media = 264.6 y Desviaciónestándar S = 32.02 con:1. Calc > Random data > Normal2. Generate 100 Store in columns C1 Mean 264.06 Estandar deviation 32.02OK.Nos aseguramos que los datos se distribuyan normalmente con la prueba deAnderson Darling o Ryanjoiner como sigue.1.Stat > Basic statistics > Normality Test2.Variable C1 Seleccionar Ryan Joiner test OK .El P value debe ser mayor a 0.05 para que los datos se distribuyannormalmente