1. Prueba No Param. Ji 2

20
EL USO DE LA PRUEBA ESTADISTICA EN LA INVESTIGACION. La revisión de las teorías pasadas, actuales, así como el avance de la ciencia son responsables del nacimiento de nuevas suposiciones en todos los campos, dichas suposiciones dan origen a hipótesis que deben ser probadas para comprobar su validez. Para determinar en que medida son aceptables las hipótesis, se recogen los datos empíricos que dan información directa acerca de la aceptabilidad de esa hipótesis. La decisión acerca del significado de los datos puede conducir a la confirmación, revisión o rechazo de la hipótesis y con ella, la teoría que la origino. Como es de dominio general, la estadística se divide en dos grandes ramas: La Estadística Descriptiva y La Estadística Inferencial. Esta última, La Estadística Inferencial nos proporciona herramientas que formalizan y uniforman nuestros procedimientos para sacar conclusiones de un gran número de acontecimientos fundándose en las observaciones de parte de los mismos. En otras palabras, la estimación estadística es el proceso mediante el cual se aproxima el valor del parámetro de la población a partir de la información de una muestra. Dichos estadísticos (conocidos como estadígrafos) nos permiten reducir el nivel de incertidumbre en el proceso de toma de decisiones. Al estudiar una población, la variable aleatoria que la define, puede tener distribución conocida o no. La distribución de la población es conocida, si se conocen sus parámetros y su forma, es decir si se conoce su distribución de probabilidad. Si la distribución de la población es desconocida, la Estadística Inferencial puede ser utilizada para dos procedimientos: (a) Estimar el valor del parámetro desconocido . 1

description

tttt

Transcript of 1. Prueba No Param. Ji 2

Page 1: 1. Prueba No Param. Ji 2

EL USO DE LA PRUEBA ESTADISTICA EN LA INVESTIGACION.

La revisión de las teorías pasadas, actuales, así como el avance de la ciencia son responsables del nacimiento de nuevas suposiciones en todos los campos, dichas suposiciones dan origen a hipótesis que deben ser probadas para comprobar su validez.Para determinar en que medida son aceptables las hipótesis, se recogen los datos empíricos que dan información directa acerca de la aceptabilidad de esa hipótesis. La decisión acerca del significado de los datos puede conducir a la confirmación, revisión o rechazo de la hipótesis y con ella, la teoría que la origino.

Como es de dominio general, la estadística se divide en dos grandes ramas:

La Estadística Descriptiva y La Estadística Inferencial.

Esta última, La Estadística Inferencial nos proporciona herramientas que formalizan y uniforman nuestros procedimientos para sacar conclusiones de un gran número de acontecimientos fundándose en las observaciones de parte de los mismos. En otras palabras, la estimación estadística es el proceso mediante el cual se aproxima el valor del parámetro de la población a partir de la información de una muestra. Dichos estadísticos (conocidos como estadígrafos) nos permiten reducir el nivel de incertidumbre en el proceso de toma de decisiones. Al estudiar una población, la variable aleatoria que la define, puede tener distribución conocida o no.La distribución de la población es conocida, si se conocen sus parámetros y su forma, es decir si se conoce su distribución de probabilidad.

Si la distribución de la población es desconocida, la Estadística Inferencial puede ser utilizada para dos procedimientos:

(a) Estimar el valor del parámetro desconocido .

La estimación de un parámetro puede adoptar la forma de un solo punto, es decir la estimación de un sólo valor del parámetro de interés (llamada estimación puntual); o de un intervalo es decir la estimación de un rango de valores dentro del cual se espera el valor del parámetro (estimación por intervalo).

(b) Probar hipótesis. Ya sea acerca de un valor determinado o del parámetro, o probar la suposición acerca del tipo de distribución de probabilidades de la población.

Para decidir con objetividad si una hipótesis particular es confirmada por un conjunto de datos, necesitamos un procedimiento que nos lleve a un criterio objetivo para rechazar o aceptar esa hipótesis. Se insiste en la objetividad porque el método científico requiere que las conclusiones sean alcanzadas por métodos públicos susceptibles de ser repetidos por otros investigadores competentes.

1

Page 2: 1. Prueba No Param. Ji 2

Este procedimiento objetivo debe basarse tanto en la información obtenida al investigar como en el margen de riesgo que estamos dispuestos a captar si nuestro criterio con respecto a la investigación resulta incorrecto.

2

Page 3: 1. Prueba No Param. Ji 2

En particular, desarrollaremos una metodología paso a paso que nos permitirá hacer inferencias con respecto a la distribución de una población, mediante el análisis de diferencias entre los resultados que en realidad observamos (es decir nuestra estadística de muestra) y los resultados que esperaríamos obtener si alguna hipótesis subyacente fuera realmente verdadera:

1. Se establecen las Hipótesis Nula y AlternativaH0 : H1 :

2. Se selecciona el nivel de significancia y especifica el tamaño de muestra n.

3. Se escoge el Estadístico de Prueba (con su modelo estadístico asociado para probar H0).De las pruebas capaces de usarse con un diseño de investigación dado, hay que escoger aquella cuyo modelo se aproxime más a las condiciones de la investigación (en términos de los supuestos que califican el uso de la prueba) y cuyos requisitos de medición satisfacen las medidas usadas en la investigación.

4. Determinación del Valor Crítico.

5. Formulación de la Regla de Decisión: No Rechazo Ho si Valor Estad. Prueba < Valor Crítico

6. Cálculo del Estadístico de Prueba

7. Decisión Final y Conclusión

PRUEBAS ESTADISTICAS PARAMETRICAS Y NO PARAMETRICAS

Una PRUEBA ESTADÍSTICA PARAMÉTRICA específica ciertas condiciones estadísticas y dependencia hacia uno o más parámetros de la distribución de las respuestas de la población de la cual se ha obtenido la muestra investigada, estas condiciones no son evaluadas sino sólo supuestas.Además, supone medición en por lo menos un nivel de intervalo.

Una PRUEBA ESTADÍSTICA NO PARAMÉTRICA es aquella cuyo modelo no especifica las condiciones de los parámetros de la población de la cual se ha obtenido la muestra (sólo ciertas débiles suposiciones: observaciones independientes y variable de continuidad básica) Las técnicas no paramétricas para probar hipótesis, se acondicionan especialmente para tratar datos de las ciencias de la conducta, por:

Son Distribuciones libres: dado que su uso no necesita la suposición que los datos obtenidos (puntajes) y que son los que se están analizando se hayan sacado de una población distribuida por una determinada manera (por ejm de una población distrib. normalmente)

Son Pruebas de Rango: las técnicas no paramétricas pueden usarse con puntajes que no son exactos en sentido numérico, sino simples rangos.

Además son más sencillas de computar, son útiles con muestras pequeñas (por ejem personas con una rara enfermedad o muestra de culturas)

3

Luis Zapatel Arriaga, 18/06/04,
Extraído de Extraido de Sydney Siegel pag 52
Luis Zapatel Arriaga, 18/06/04,
Extraído de Extraido de Sydney Siegel pag 7
Page 4: 1. Prueba No Param. Ji 2

Elección de la prueba estadística adecuada

Podemos elegir entre las diversas pruebas estadísticas tomando los criterios:

Potencia de una Prueba Estadística; una Prueba Estadística es buena si es pequeña la probabilidad de Rechazar Ho siendo verdadera y grande la probabilidad de Rechazar Ho siendo falsa

Considerar la manera en que se obtuvo la muestra de puntajes.

La naturaleza de la población de la que se obtuvo la muestra.

La clase de medición o escala que se empleo en las definiciones operacionales de las variables usadas, es decir en los puntajes.

Nota: El concepto de potencia – eficiencia se refiere al incremento en el tamaño de la muestra necesario para hacer la prueba B tan poderosa como la A.ESTE CONCEPTO DE POTENCIA–EFICIENCIA ES IMPORTANTE Y ÚTIL PARA APLICARSE, CUANDO EN UNA SITUACIÓN DADA:Sí, a pesar de que todas las condiciones tales como (cumplimiento de todas las suposiciones de su modelo estadístico y que la medición de las variables se al menos de escala de intervalo) señalan que una prueba paramétrica es la que corresponde usarse (Ya que es más eficaz en ese caso), NOS SEÑALA que al aumentar apropiadamente el tamaño de la muestra podemos usar una prueba no paramétrica en lugar de una prueba paramétrica sin perder potencia para rechazar Ho.

….DENTRO DE LAS PRUEBAS ESTADISTICAS NO PARAMETRICAS QUE EXISTEN, TENEMOS….

EL CASO DE UNA MUESTRA

En el caso de una muestra, una técnica paramétrica común consiste en aplicar una prueba t a la diferencia entre la media observada “muestra” y la media esperada “población”; únicamente que el incumplimiento de diversas suposiciones como: que los puntajes u observaciones provienen de de una población distribuida normalmente, y que las observaciones sean en escala de por lo menos intervalo entre otras; muchas veces hace inaplicable la prueba t

Si deseamos probar una hipótesis que requiere solamente una muestra, generalmente las pruebas indican si la muestra particular proviene de una población específica.La prueba de una muestra es usualmente del tipo de bondad de ajuste, donde probamos la hipótesis de que su extracción proviene de una población con una distribución especificada. En tal caso, la prueba de una muestra puede responder a preguntas como éstas:

¿Existe una diferencia significativa de ubicación (tendencia central) entre la muestra y la población? ¿Existe una diferencia significativa entre las frecuencias observadas y las frecuencias supuestas apoyándonos en algún principio? ¿Existe una diferencia significativa entre las proporciones observadas y esperadas? ¿Es razonable creer que esta muestra fue sacada de una población de forma o aspecto especificado (por ejemplo, normal, rectangular)? ¿Es razonable creer que esta muestra es una muestra al azar de alguna población conocida?

4

Luis Zapatel Arriaga, 17/06/04,
Extraido de Sydney Siegel pag 38
Page 5: 1. Prueba No Param. Ji 2

En sucesos como el explicado anteriormente, donde es inaplicable las pruebas paramétricas, existen pruebas estadísticas no paramétricas que pueden usarse para probar una hipótesis que requiere solamente una muestra.

Existen cuatro pruebas para el caso de una muestra

LA PRUEBA BINOMIAL.LA PRUEBA X 2 CHI CUADRADO de una muestra.LA PRUEBA DE KOLMOGOROV SMIRNOV de una muestra.LA PRUEBA DE RACHAS de una muestra.

De todas las anteriores, revisaremos sólo la prueba Chi X 2 cuadrado

LA PRUEBA X 2 CHI CUADRADO DE UNA MUESTRA.

Frecuentemente, al emprender el investigador su tarea, se interesa en el número de sujetos, objetos o respuestas que se clasifican en diferentes categorías. Pero con la condición de que cada observación debe ser independiente de cualquier otra, así, no podemos hacer varias observaciones de la misma persona y contarlas como independiente.

El número de categorías puede ser de dos o más. La técnica como ya se dijo anteriormente es del tipo de Bondad de Ajuste, que puede usarse para probar la existencia de una diferencia significativa entre un número observado de objetos o respuestas de cada categoría y un número esperado, basado en la hipótesis de nulidad H0.

La técnica chi cuadrada proporciona la probabilidad que las frecuencias observadas pudieran haber sido muestreadas de una población con los valores esperados correspondientes.Se usará esta prueba siempre que se comparen frecuencias esperadas y observadas en categorías discretas, con escalas de medición nominal u ordinal.

La hipótesis nula H0 puede probarse mediante el estadístico:

Donde

y son las frecuencias observadas y esperadas respectivamente.K número de categoríasm representa el número de parámetros necesarios de ser estimados para calcular las frecuencias

esperadas.Gl = k – m – 1 son los grados de libertad.

5

Page 6: 1. Prueba No Param. Ji 2

FRECUENCIAS ESPERADAS IGUALES

En este caso en particular lo que se busca probar es que la población de la que proviene la muestra sigue una distribución que no es otra que la Distribución Uniforme, en la cuál las frecuencias esperadas son las mismas para cada distinta categoría.La hipótesis nula a probar, indica por defecto siempre, que no existe diferencia significativa entre las frecuencias observadas y las frecuencias esperadas (en este caso las que indica la distribución uniforme), de ser así, las frecuencias observadas, serían iguales o casi iguales. Por lo que las desviaciones entre las frecuencias observadas y las esperadas son debidas al azar.

H0 : No Existe diferencia entre y

H1 : Existe una diferencia entre y

ó lo que es lo mismo, para el caso de querer probar si la muestra proviene de una distribución uniforme:

H0 : Los datos de la muestra provienen de una población con Distribución Uniforme.

H1 : Los datos de la muestra no provienen de una población con Distribución Uniforme.

EJEMPLO:

Los siguientes datos de ausentismo se recolectaron en una planta manufacturera. Para .05 de nivel de confianza, realice una prueba para determinar si existe diferencia en la tasa de ausentismo por día de la semana.

DIA FRECUENCIALUNES 120

MARTES 45MIERCOLES 60

JUEVES 90VIERNES 130TOTAL 445

Desarrollando el procedimiento:

1. Se establecen las Hipótesis Nula y AlternativaH0 : Los datos de ausentismo de la planta manufacturera provienen de una población con

Distribución Uniforme.H1 : Los datos de ausentismo de la planta manufacturera no provienen de una población con

Distribución Uniforme.

Que es equivalente a decir:

H0 : No existe diferencia entre las frecuencias observadas y esperadas de ausencias.H1 : Existe una diferencia entre las frecuencias observadas y esperadas de ausencias.

2. El nivel de significancia = 0.05 y el tamaño de muestra n = 445

6

Page 7: 1. Prueba No Param. Ji 2

3. Se escoge el Estadístico de Prueba a utilizar:

Ya que estamos comparando los datos de una muestra con alguna presunta población, es apropiada una prueba de una muestra. Elegimos la prueba X 2 porque a la hipótesis bajo prueba le concierne una comparación de y en categorías discretas.

4. Determinación de el Valor Crítico: .

k = 5m = 0Gl = k – m – 1 = 5 – 0 – 1 = 4

Luego, = 9.488

5. Formulación de la Regla de Decisión:

Rechazo Ho si Valor Estad. Prueba > Valor Crítico = = 9.488

No Rechazo Ho si Valor Estad. Prueba < Valor Crítico = = 9.488

6. Cálculo del Estadístico de Prueba

En este caso en especial, donde se pone a prueba la Distribución Uniforme; para calcular el valor de cada debemos:

Sumar las y dividirlas entre el número de categorías k = 5

/ k = 445 / 5 = 89

120 89 31 961 10.7977528145 89 -44 1936 21.7528089960 89 -29 841 9.44943820290 89 1 1 0.011235955130 89 41 1681 18.88764045445 60.8988764

Luego, = 60.89

7. Decisión Final y Conclusión

El valor del Estadístico de Prueba = 60.89 > 9.488 = = Valor Crítico

Por lo que decidimos Rechazar Ho

Conclusión:

7

Page 8: 1. Prueba No Param. Ji 2

Los datos de ausentismo de la planta manufacturera no provienen de una población con Distribución Uniforme.Que es equivalente a decir:Existe una diferencia entre las frecuencias observadas y las esperadas de ausencias.

FRECUENCIAS ESPERADAS DESIGUALES

En este caso en particular lo que se busca probar es que la población de la que proviene la muestra es la misma que la que se supone inicialmente o que la población de la que proviene la muestra es otra Distribución diferente de la Uniforme, tales como la distribución Binomial, la distribución Poisson, o la distribución Normal; en las cuáles las frecuencias esperadas son distintas para cada distinta categoría.La hipótesis nula a probar, indica por defecto siempre, que no existe diferencia significativa entre las frecuencias observadas y las frecuencias esperadas (en este caso las que indica la distribución de turno a probar), de ser así, las frecuencias observadas, serían iguales o casi iguales. Por lo que las desviaciones entre las frecuencias observadas y las esperadas son debidas al azar.

H0 : No Existe diferencia entre y

H1 : Existe una diferencia entre y

Dependiendo de cada problema propuesto, se elaborarán las hipótesis

H0 : Los datos de la muestra provienen de una población con Distribución Binomial, Poisson o Normal.

H1 : Los datos de la muestra no provienen de una población con Distribución Binomial, Poisson o

Normal.

EJEMPLO:

El Instituto Nacional de Estadística e Informática de Perú, indica que 63.9% de la población está casada, 7.7% es viuda, 6.9% divorciada (y no vuelta a casar) y 21.5% soltera (nunca casada). Una muestra de 500 adultos del Dpto. de Piura indica que 310 personas estaban casadas, 40 viudas, 30 divorciadas y 120 solteras. Para .05 de nivel de significancia ¿se puede concluir que el Dpto. de Piura es diferente al de Perú como un todo?

ESTADO CIVILDPTO. PIURA

FRECUENCIA

CASADO 310VIUDO 40

DIVORCIADO 30SOLTERO 120

TOTAL 500

8

Page 9: 1. Prueba No Param. Ji 2

Desarrollando el procedimiento:

1. Se establecen las Hipótesis Nula y AlternativaH0 : Los datos del estado civil de la provincia de Piura provienen de la misma distribución

que la población de Perú.H1 : Los datos del estado civil de la provincia de Piura no provienen de la misma distribución

que la población de Perú.

Que es equivalente a decir:

H0 : No existe diferencia entre las frecuencias observadas y esperadas del estado civil.H1 : Existe una diferencia entre las frecuencias observadas y esperadas del estado civil.

2. El nivel de significancia = 0.05 y el tamaño de muestra n = 500

3. Se escoge el Estadístico de Prueba a utilizar:

Ya que estamos comparando los datos de una muestra con alguna presunta población, es apropiada una prueba de una muestra. Elegimos la prueba X 2 porque a la hipótesis bajo prueba le concierne una comparación de y en categorías discretas.

4. Determinación de el Valor Crítico: .

k = 4m = 0Gl = k – m – 1 = 4 – 0 – 1 = 3

Luego, = 7.815

5. Formulación de la Regla de Decisión:

Rechazo Ho si Valor Estad. Prueba > Valor Crítico = = 7.815

No Rechazo Ho si Valor Estad. Prueba < Valor Crítico = = 7.815

6. Cálculo del Estadístico de Prueba

En este caso, para calcular el valor de cada debemos:

Sumar las y multiplicarlas por la probabilidad de ocurrencia de cada frecuencia esperada , que no son otras que los porcentajes que nos señalan 63.9% de la población está casada, 7.7% es viuda, 6.9% divorciada (y no vuelta a casar) y 21.5% soltera (nunca casada).

9

Page 10: 1. Prueba No Param. Ji 2

Así,

1. = 500(63.9 % ) = 500(63.9/100) = 319.5

2. = 500(7.7 % ) = 500(7.7/100) = 38.5

3. = 500(6.9 % ) = 500(6.9/100) = 34.5

4. = 500(21.5 % ) = 500(21.5/100) = 107.5

310 319.5 -9.5 90.25 0.28247261340 38.5 1.5 2.25 0.05844155830 34.5 -4.5 20.25 0.586956522120 107.5 12.5 156.25 1.453488372500 2.381359066

Luego, = 2.3814

7. Decisión Final y Conclusión

El valor del Estadístico de Prueba = 2.3814 < 7.815 = = Valor Crítico

Por lo que decidimos No Rechazar Ho

Conclusión:

Los datos del estado civil de la provincia de Piura provienen de la misma distribución que la población de Perú.

Que es equivalente a decir:

No Existe una diferencia entre las frecuencias observadas y las esperadas del estado civil.

FRECUENCIAS MENORES QUE 5

Cuando k = 2, cada frecuencia esperada deberá ser por lo menos de 5.Cuando k > 2, X 2 no debe usarse si más del 20 % de las frecuencias esperadas son menores que 5 o cualquier frecuencia esperada es menor que 1. Lo que se sugiere cuando aparezcan casos de este tipo, es agrupar categorías adyacentes siempre que tenga sentido el hacerlo y se empiece con más de dos categorías al inicio del problema, de modo que se alcancen valores de frecuencias esperadas de al menos 5.

Si se empieza solamente con dos categorías y se tiene una frecuencia esperada menor que 5, o si después de combinar las categorías adyacentes se termina sólo con dos categorías y aún se tiene una frecuencia esperada menor que 5, entonces es indicado el uso de la prueba Binomial en lugar de la X 2 para determinar la probabilidad asociada con la ocurrencia de las frecuencias observadas conforme a Ho

10

Page 11: 1. Prueba No Param. Ji 2

PRUEBA DE NORMALIDAD

El propósito principal de este caso especial de prueba e bondad de ajuste, es probar si las frecuencias observadas en una distribución de frecuencias (muestra) se ajustan a la distribución normal teórica.

Procedimiento: Determinar la media y la desviación estándar de la distribución de frecuencias.Calcular el valor z para el límite inferior y superior de cada clase.Determinar la para cada categoría.

Usar la prueba de bondad de ajuste de chi-cuadrada para determinar si coincide con .

EJEMPLO:

Una muestra de 500 donativos a la FUNDACION COMPARTIR se presenta con la siguiente distribución de frecuencias.

Cantidad donada

<$6 20$6-8$ 60$8-10$ 140$10-12$ 120$12-14$ 90

>$14 70TOTAL 500

¿Es razonable concluir que se tiene una distribución normal con media de $10 y desviación estándar de $2? Use .05 de nivel de significancia.

1. Se establecen las Hipótesis Nula y AlternativaH0 : Los datos de los donativos provienen de una población con distribución normal.H1 : Los datos de los donativos no provienen de una población con distribución normal

2. El nivel de significancia = 0.05 y el tamaño de muestra n = 500

3. Se escoge el Estadístico de Prueba a utilizar:Ya que estamos comparando los datos de una muestra con alguna presunta población, es apropiada una prueba de una muestra. Elegimos la prueba X 2 porque a la hipótesis bajo prueba le concierne una comparación de y en categorías discretas.

4. Determinación de el Valor Crítico: .

k = 6m = 0Gl = k – m – 1 = 6 – 0 – 1 = 5

Luego, = 11.07

11

Page 12: 1. Prueba No Param. Ji 2

5. Formulación de la Regla de Decisión:

Rechazo Ho si Valor Estad. Prueba > Valor Crítico = = 11.070

No Rechazo Ho si Valor Estad. Prueba < Valor Crítico = = 11.070

6. Cálculo del Estadístico de Prueba

En este caso, para calcular el valor de cada debemos primero calcular la probabilidad de

ocurrencia de cada y luego multiplicarla por el tamaño de muestra. Así:

1. P( X < 6 ) = 0.5 - P [Z<(6-10)/2] = 0.5 – 0.4772 = 0.0228.Luego, es (0.0228)(500) = 11.4

2. P( 6< X < 8 ) = P [Z<(6-10)/2] - P [Z<(8-10)/2]= 0.4772 – 0.3413 = 0.1359.Luego, es (0.1359)(500) = 67.95

3. P( 8< X < 10 ) = P [Z<(8-10)/2] - P [Z<(10-10)/2]= 0.3413 – 0.0 = 0.3413.Luego, es (0.3413)(500) = 170.65

4. P( 10< X < 12 ) = P [Z<(12-10)/2] - P [Z<(10-10)/2]= 0.3413 – 0.0 = 0.3413.Luego, es (0.3413)(500) = 170.65

5. P( 12< X < 14 ) = P [Z<(14-10)/2] - P [Z<(12-10)/2]= 0.4772 – 0.3413 = 0.1359.Luego, es (0.1359)(500) = 67.95

6. P( X >14 ) = 0.5 - P [Z<(14-10)/2] = 0.5 – 0.4772 = 0.0228.Luego, es (0.0228)(500) = 11.4

Cantidad donada Area

<$6 20 0.02 11.4 6.49$6-8$ 60 0.14 67.95 0.93$8-10$ 140 0.34 170.65 5.5$10-12$ 120 0.34 170.65 15.03$12-14$ 90 0.14 67.95 7.16

>$14 70 0.02 11.40 301.22TOTAL 500 336.33

Luego, = 336.23

12

Page 13: 1. Prueba No Param. Ji 2

7. Decisión Final y Conclusión

El valor del Estadístico de Prueba = 336.23 > 11.070 = = Valor Crítico

Por lo que decidimos Rechazar Ho

Conclusión:

Los datos de los donativos no provienen de una población con distribución normal

13