prueba Ji Cuadrado
Embed Size (px)
description
Transcript of prueba Ji Cuadrado
-
SEMANA 11
-
Pruebas de Ji Cuadrada
-
Objetivos
Al trmino de este captulo podr usted:
Explicar la diferencia entre la prueba de independencia y la prueba de bondad de ajuste.
Calcular las frecuencias esperadas y el estadstico Ji Cuadrada.
Aplicar tablas de contingencia a un problema de toma de decisiones.
Aplicar la prueba de bondad de ajuste a un problema de toma de decisiones.
-
Introduccin
En los captulos anteriores, se construyeron pruebas de
hiptesis sobre medias o proporciones de una poblacin
para una o dos muestras. Se supuso para estas pruebas
que la poblacin que se muestrea sigue una distribucin
normal. Las pruebas manejaron datos de escalas de
intervalo, como alturas, edades e ingresos.
-
Existen algunas situaciones en las que los datos no se
miden en escalas de intervalos o de razn, sino son
nominales u ordinales. En estos casos, no se pueden
hacer suposiciones sobre la forma de la poblacin. Este
captulo introducir las pruebas de Ji Cuadrada que
cubren algunas de estas situaciones.
-
La prueba con tablas de contingencia est diseada para
determinar si dos variables categricas estn relacionadas. En
ocasiones se la denomina prueba de independencia, ya que la
hiptesis nula que se prueba establece que dos variables
categricas son independientes. Esta prueba es bastante til
porque con frecuencia el analista est interesado en averiguar si
una variable categrica se relaciona con otra.
Pruebas con Tablas de Contingencia
-
La prueba con tablas de contingencia
determina si dos variables categricas se
relacionan entre s.
-
Los datos necesarios para la prueba con tablas de
contingencia consisten en medidas muestrales sobre
dos variables categricas (con escala nominal u
ordinal). Estos datos se arreglan en una tabla, que
permite al analista ver una exposicin de los datos
recogidos. Algunas veces se hace referencia a este
tipo de tabla como una tabla de clasificacin
cruzada o simplemente tabla cruzada.
-
H1: las variables en las filas y las columnas son dependientes
Las hiptesis nula y alternativa entre las que el analista debe
elegir despus de examinar los datos de la muestra son:
H0: las variables en las filas y las columnas son
independientes
-
La prueba con tablas de contingencia se usa
frecuentemente para analizar aspectos
importantes de los datos investigados. En
general, las encuestas contienen preguntas
diseadas para medir cierto tipo de
caractersticas demogrficas de la muestra (por
ejemplo, categora de edad, sexo, nivel de
ingreso, estado civil y nivel educativo).
-
Otro tipo de pregunta que muchas veces se
encuentra en un instrumento de investigacin
resalta las actitudes y opiniones de los
encuestados.
-
Muchas pruebas con tablas de contingencia
comparan una variable demogrfica con una variable
de actitud. Por ejemplo, la variable hombre/mujer
puede ponerse en una tabla cruzada con la
jerarquizacin de los precios en algunas tiendas, o
bien, las categoras de edades se pueden tabular con
la respuesta a una afirmacin sobre un candidato
presidencial.
-
El propsito de tales pruebas es determinar si
distintos tipos poblaciones, definidos por las
preguntas demogrficas, tienen diferentes actitudes
respecto a los temas investigados.
-
Ejemplo
Un artculo publicado en una revista especializada acerca de
encuestas afirm: En temas sensibles, las personas tienden a
dar respuestas aceptables en lugar de respuestas honestas; sus
respuestas pueden depender del gnero o la raza del entrevistador.
-
Para sustentar dicha aseveracin una empresa
encuestadora proporcion los datos de una encuesta
en la cual se pregunt a hombres si estaban de
acuerdo con esta afirmacin: El aborto es un asunto
privado que la mujer debe decidir, sin intervencin
gubernamental. Analizaremos el efecto del gnero
slo en hombres que se encuestaron y la tabla que se
muestra a continuacin se basa en tales datos:
-
Gnero del entrevistador
Hombre Mujer Total
Hombres que estn de acuerdo 560 308 868
Hombres que estn en desacuerdo 240 92 332
Total 800 400 1200
-
Suponga que la encuesta se dise de manera que los
entrevistadores hombres recibieron instrucciones
para obtener 800 respuestas de sujetos hombres; en
tanto que las entrevistadoras mujeres recibieron
instrucciones para obtener 400 respuestas de sujetos
hombres. Utilice un nivel de significancia de 0.05 y
prueba la aseveracin de que las proporciones de las
respuestas de acuerdo/desacuerdo son las mismas
para los sujetos que entrevistaron hombres y los
sujetos que entrevistaron mujeres.
-
Solucin
H1: Las proporciones son diferentes.
Puesto que tenemos dos poblaciones separadas (sujetos que
entrevistaron hombres y sujetos que entrevistaron mujeres),
probamos la homogeneidad con estas hiptesis:
H0: Las proporciones de las respuestas acuerdo/desacuerdo son
iguales para los sujetos que entrevistaron hombres y los sujetos
que entrevistaron mujeres.
-
Hombres Mujeres Total
1 560 308 868
*578,67 289,33
0,602 1,204
2 240 92 332
221,33 110,67
1,574 3,149
Total 800 400 1200
Chi-Sq = 6,529. DF = 1. P-Value = 0,011
-
Valor crtico: = 3.84146
Por tanto rechazamos la hiptesis nula de proporciones
iguales (homogneas); puesto que el estadstico de prueba
(6.5239) es mayor que el punto crtico (3.84146). Hay
suficiente evidencia para sustentar el rechazo de la
aseveracin de que las proporciones son las mismas. Parece
que la respuesta y el gnero del entrevistador son
dependientes. Aunque tal anlisis estadstico no puede
utilizarse para justificar ninguna afirmacin acerca de la
causalidad, quiz a los hombres los influy el gnero del
entrevistador.
-
Clculo de las frecuencias esperadas
Para calcular las frecuencias esperadas para una celda en particular, se multiplica el total
de la fila por el total de la columna y luego se divide este producto entre el tamao total
de la muestra. Por ejemplo, para la celda con *:
-
Una regla muy comn que se usa
ampliamente para esta prueba establece que
cada frecuencia esperada en una tabla de
contingencia debe ser 5 o ms para que la
exactitud de la prueba sea buena.
-
Ahora se necesita un estadstico de prueba que
compare las frecuencias observadas con las
esperadas para cada celda de la tabla. Si las
frecuencias observadas son bastante cercanas a las
frecuencias esperadas, el estadstico debe indicar que
no se rechaza la hiptesis nula de independencia.
-
Esta es la conclusin apropiada, ya que las
frecuencias esperadas se calculan bajo la suposicin
de que las dos variables categricas son
independientes. Si las frecuencias esperadas y las
observadas son diferentes, el estadstico de prueba
conducir al rechazo de la hiptesis nula.
-
Si la hiptesis nula es cierta, la distribucin de
este valor calculado se aproxima a la distribucin
ji cuadrada. De hecho, la ji cuadrada es una
familia de distribuciones de probabilidad.
Estadstico Ji Cuadrada
-
Igual que en el caso de la distribucin t, la
distribucin de probabilidad ji cuadrada se
caracteriza por un solo parmetro, los grados de
libertad. La distribucin tiene sesgo positivo, pero
conforme los grados de libertad crecen, se acerca
a la forma de la distribucin normal. Se calcula
mediante la siguiente frmula:
-
donde:
f0 = frecuencia observada
fe = frecuencia esperada
-
Observe que la comparacin entre las
frecuencias esperadas y observadas para cada
celda se hace en el numerador. Si existe una
diferencia grande de una celda a otra, se obtiene
un estadstico grande; las diferencias pequeas
producen un estadstico pequeo. Entonces la
prueba de hiptesis con tablas de contingencia es
una prueba de una cola hacia la derecha.
-
Los grados de libertad, se obtiene utilizando la siguiente
frmula:
gl = (r 1) (c 1)
donde:
r = nmero de filas
c = nmero de columnas
Clculo de los grados de libertad
-
La tabla de contingencia mide el ajuste de las
frecuencias observadas a aquellas frecuencias
esperadas bajo la suposicin de que la hiptesis
nula es cierta.
Prueba de Bondad de Ajuste
-
Una aplicacin ms general de este procedimiento
es la prueba de bondad de ajuste, que determina si
las frecuencias observadas para alguna variable
categrica pudieron haber sido obtenidas de una
distribucin poblacional hipottica.
-
H1: la muestra no procede de la poblacin
especificada
Las hiptesis nula y alternativa entre las que debe
elegir el analista despus de examinar los datos
muestrales son:
H0: la muestra procede de la poblacin especificada
-
La prueba de bondad de ajuste determina
la probabilidad de que las frecuencias
observadas para una variable categrica
pudieran haberse obtenido de una
poblacin hipottica.
-
Al usar la tabla de ji cuadrada para encontrar el
valor crtico, deben determinarse los grados de
libertad. Para la prueba de bondad de ajuste, este
nmero se calcula mediante la siguiente ecuacin:
gl = k 1 c
-
donde:
k = nmero de categoras
c = nmero de parmetros poblacionales
desconocidos estimados por estadsticos
muestrales.
-
Observe que siempre se pierde un grado de libertad
debido a que las frecuencias esperadas deben sumar
el nmero total de frecuencias observadas. Otros
grados de libertad se pierden siempre que se usan
estadsticos muestrales para estimar parmetros.
-
El estadstico de prueba usado para comparar los tamaos
relativos de las frecuencias esperadas y observadas tiene una
distribucin aproximada a la ji cuadrada. La distribucin de
este estadstico de prueba es en realidad discreta, pero puede
aproximarse usando una distribucin ji cuadrada continua
cuando el tamao de la muestra n es grande. La distribucin
discreta del estadstico de prueba X2 se aproxima usando una
distribucin ji cuadrada continua.
Regla del Cinco
-
Para asegurar que n es suficientemente grande, la
regla conservadora es requerir que la frecuencia
esperada para cada celda sea al menos 5. Si la
frecuencia esperada de una celda es menor que 5, las
celdas deben combinarse de manera que resulten
categoras con mayores frecuencias esperadas.
-
Ejemplo
A un nivel de significancia de 0.01, es razonable suponer que la demanda horaria de un
servicio de cierto tipo en un gran banco est adecuadamente descrito por una
distribucin de Poisson con = 1, si en una muestra aleatoria de 1,000 horas hubo 355, 362, 190, 65, 22 y 6 horas con 0, 1, 2, 3, 4 y al menos 5 de estas demandas,
respectivamente?
-
Mediante la tabla de distribucin de Poisson, anotamos las
probabilidades correspondientes a cada clase y luego
calculamos las frecuencias esperadas:
Solucin
-
Demanda fo (horas) Probabilidad de
Poisson
fe
0 355 0.3679 0.3679*1000 = 367.9
1 362 0.3679 0.3679*1000 = 367.9
2 190 0.1839 0.1839*1000 = 183.9
3 65 0.0613 0.0613*1000 = 61.3
4 22 0.0153 0.0153*1000 = 15.3
5 a ms 6 1 - 0.9963 = 0.0037 0.0037*1000 = 3.7
n = 1000
-
Combinamos las dos ltimas clases que estn en la
tabla de modo que todas las frecuencias esperadas
sean mayores a 5, entonces reorganizando obtenemos
las siguientes categoras:
-
Categora fo (horas) fe
0 355 367.9
1 362 367.9
2 190 183.9
3 65 61.3
4 a ms 28 19.0
-
Grados de libertad: 5-1= 4
Planteamos las hiptesis:
H0: La poblacin sigue una distribucin de Poisson.
H1: La poblacin no sigue una distribucin de
Poisson.
El valor crtico de la prueba de ji cuadrada es:
-
X2=13.277
-
Regla de rechazo: rechazar H0 si X2 > 13.277
-
Entonces mediante la formula calculamos el valor de X2:
236.5
19
1928
3.61
3.6165
9.183
9.183190
9.367
9.367362
9.367
9.36735522222
2
2
2
X
f
ffX
e
eo
Por tanto no se puede rechazar H0, es decir los datos de la poblacin siguen una
distribucin de Poisson..