prueba Ji Cuadrado

of 47 /47
7/21/2019 prueba Ji Cuadrado http://slidepdf.com/reader/full/prueba-ji-cuadrado-56da68020af00 1/47 SEMANA 11

Embed Size (px)

description

prueba Ji Cuadrado

Transcript of prueba Ji Cuadrado

  • SEMANA 11

  • Pruebas de Ji Cuadrada

  • Objetivos

    Al trmino de este captulo podr usted:

    Explicar la diferencia entre la prueba de independencia y la prueba de bondad de ajuste.

    Calcular las frecuencias esperadas y el estadstico Ji Cuadrada.

    Aplicar tablas de contingencia a un problema de toma de decisiones.

    Aplicar la prueba de bondad de ajuste a un problema de toma de decisiones.

  • Introduccin

    En los captulos anteriores, se construyeron pruebas de

    hiptesis sobre medias o proporciones de una poblacin

    para una o dos muestras. Se supuso para estas pruebas

    que la poblacin que se muestrea sigue una distribucin

    normal. Las pruebas manejaron datos de escalas de

    intervalo, como alturas, edades e ingresos.

  • Existen algunas situaciones en las que los datos no se

    miden en escalas de intervalos o de razn, sino son

    nominales u ordinales. En estos casos, no se pueden

    hacer suposiciones sobre la forma de la poblacin. Este

    captulo introducir las pruebas de Ji Cuadrada que

    cubren algunas de estas situaciones.

  • La prueba con tablas de contingencia est diseada para

    determinar si dos variables categricas estn relacionadas. En

    ocasiones se la denomina prueba de independencia, ya que la

    hiptesis nula que se prueba establece que dos variables

    categricas son independientes. Esta prueba es bastante til

    porque con frecuencia el analista est interesado en averiguar si

    una variable categrica se relaciona con otra.

    Pruebas con Tablas de Contingencia

  • La prueba con tablas de contingencia

    determina si dos variables categricas se

    relacionan entre s.

  • Los datos necesarios para la prueba con tablas de

    contingencia consisten en medidas muestrales sobre

    dos variables categricas (con escala nominal u

    ordinal). Estos datos se arreglan en una tabla, que

    permite al analista ver una exposicin de los datos

    recogidos. Algunas veces se hace referencia a este

    tipo de tabla como una tabla de clasificacin

    cruzada o simplemente tabla cruzada.

  • H1: las variables en las filas y las columnas son dependientes

    Las hiptesis nula y alternativa entre las que el analista debe

    elegir despus de examinar los datos de la muestra son:

    H0: las variables en las filas y las columnas son

    independientes

  • La prueba con tablas de contingencia se usa

    frecuentemente para analizar aspectos

    importantes de los datos investigados. En

    general, las encuestas contienen preguntas

    diseadas para medir cierto tipo de

    caractersticas demogrficas de la muestra (por

    ejemplo, categora de edad, sexo, nivel de

    ingreso, estado civil y nivel educativo).

  • Otro tipo de pregunta que muchas veces se

    encuentra en un instrumento de investigacin

    resalta las actitudes y opiniones de los

    encuestados.

  • Muchas pruebas con tablas de contingencia

    comparan una variable demogrfica con una variable

    de actitud. Por ejemplo, la variable hombre/mujer

    puede ponerse en una tabla cruzada con la

    jerarquizacin de los precios en algunas tiendas, o

    bien, las categoras de edades se pueden tabular con

    la respuesta a una afirmacin sobre un candidato

    presidencial.

  • El propsito de tales pruebas es determinar si

    distintos tipos poblaciones, definidos por las

    preguntas demogrficas, tienen diferentes actitudes

    respecto a los temas investigados.

  • Ejemplo

    Un artculo publicado en una revista especializada acerca de

    encuestas afirm: En temas sensibles, las personas tienden a

    dar respuestas aceptables en lugar de respuestas honestas; sus

    respuestas pueden depender del gnero o la raza del entrevistador.

  • Para sustentar dicha aseveracin una empresa

    encuestadora proporcion los datos de una encuesta

    en la cual se pregunt a hombres si estaban de

    acuerdo con esta afirmacin: El aborto es un asunto

    privado que la mujer debe decidir, sin intervencin

    gubernamental. Analizaremos el efecto del gnero

    slo en hombres que se encuestaron y la tabla que se

    muestra a continuacin se basa en tales datos:

  • Gnero del entrevistador

    Hombre Mujer Total

    Hombres que estn de acuerdo 560 308 868

    Hombres que estn en desacuerdo 240 92 332

    Total 800 400 1200

  • Suponga que la encuesta se dise de manera que los

    entrevistadores hombres recibieron instrucciones

    para obtener 800 respuestas de sujetos hombres; en

    tanto que las entrevistadoras mujeres recibieron

    instrucciones para obtener 400 respuestas de sujetos

    hombres. Utilice un nivel de significancia de 0.05 y

    prueba la aseveracin de que las proporciones de las

    respuestas de acuerdo/desacuerdo son las mismas

    para los sujetos que entrevistaron hombres y los

    sujetos que entrevistaron mujeres.

  • Solucin

    H1: Las proporciones son diferentes.

    Puesto que tenemos dos poblaciones separadas (sujetos que

    entrevistaron hombres y sujetos que entrevistaron mujeres),

    probamos la homogeneidad con estas hiptesis:

    H0: Las proporciones de las respuestas acuerdo/desacuerdo son

    iguales para los sujetos que entrevistaron hombres y los sujetos

    que entrevistaron mujeres.

  • Hombres Mujeres Total

    1 560 308 868

    *578,67 289,33

    0,602 1,204

    2 240 92 332

    221,33 110,67

    1,574 3,149

    Total 800 400 1200

    Chi-Sq = 6,529. DF = 1. P-Value = 0,011

  • Valor crtico: = 3.84146

    Por tanto rechazamos la hiptesis nula de proporciones

    iguales (homogneas); puesto que el estadstico de prueba

    (6.5239) es mayor que el punto crtico (3.84146). Hay

    suficiente evidencia para sustentar el rechazo de la

    aseveracin de que las proporciones son las mismas. Parece

    que la respuesta y el gnero del entrevistador son

    dependientes. Aunque tal anlisis estadstico no puede

    utilizarse para justificar ninguna afirmacin acerca de la

    causalidad, quiz a los hombres los influy el gnero del

    entrevistador.

  • Clculo de las frecuencias esperadas

    Para calcular las frecuencias esperadas para una celda en particular, se multiplica el total

    de la fila por el total de la columna y luego se divide este producto entre el tamao total

    de la muestra. Por ejemplo, para la celda con *:

  • Una regla muy comn que se usa

    ampliamente para esta prueba establece que

    cada frecuencia esperada en una tabla de

    contingencia debe ser 5 o ms para que la

    exactitud de la prueba sea buena.

  • Ahora se necesita un estadstico de prueba que

    compare las frecuencias observadas con las

    esperadas para cada celda de la tabla. Si las

    frecuencias observadas son bastante cercanas a las

    frecuencias esperadas, el estadstico debe indicar que

    no se rechaza la hiptesis nula de independencia.

  • Esta es la conclusin apropiada, ya que las

    frecuencias esperadas se calculan bajo la suposicin

    de que las dos variables categricas son

    independientes. Si las frecuencias esperadas y las

    observadas son diferentes, el estadstico de prueba

    conducir al rechazo de la hiptesis nula.

  • Si la hiptesis nula es cierta, la distribucin de

    este valor calculado se aproxima a la distribucin

    ji cuadrada. De hecho, la ji cuadrada es una

    familia de distribuciones de probabilidad.

    Estadstico Ji Cuadrada

  • Igual que en el caso de la distribucin t, la

    distribucin de probabilidad ji cuadrada se

    caracteriza por un solo parmetro, los grados de

    libertad. La distribucin tiene sesgo positivo, pero

    conforme los grados de libertad crecen, se acerca

    a la forma de la distribucin normal. Se calcula

    mediante la siguiente frmula:

  • donde:

    f0 = frecuencia observada

    fe = frecuencia esperada

  • Observe que la comparacin entre las

    frecuencias esperadas y observadas para cada

    celda se hace en el numerador. Si existe una

    diferencia grande de una celda a otra, se obtiene

    un estadstico grande; las diferencias pequeas

    producen un estadstico pequeo. Entonces la

    prueba de hiptesis con tablas de contingencia es

    una prueba de una cola hacia la derecha.

  • Los grados de libertad, se obtiene utilizando la siguiente

    frmula:

    gl = (r 1) (c 1)

    donde:

    r = nmero de filas

    c = nmero de columnas

    Clculo de los grados de libertad

  • La tabla de contingencia mide el ajuste de las

    frecuencias observadas a aquellas frecuencias

    esperadas bajo la suposicin de que la hiptesis

    nula es cierta.

    Prueba de Bondad de Ajuste

  • Una aplicacin ms general de este procedimiento

    es la prueba de bondad de ajuste, que determina si

    las frecuencias observadas para alguna variable

    categrica pudieron haber sido obtenidas de una

    distribucin poblacional hipottica.

  • H1: la muestra no procede de la poblacin

    especificada

    Las hiptesis nula y alternativa entre las que debe

    elegir el analista despus de examinar los datos

    muestrales son:

    H0: la muestra procede de la poblacin especificada

  • La prueba de bondad de ajuste determina

    la probabilidad de que las frecuencias

    observadas para una variable categrica

    pudieran haberse obtenido de una

    poblacin hipottica.

  • Al usar la tabla de ji cuadrada para encontrar el

    valor crtico, deben determinarse los grados de

    libertad. Para la prueba de bondad de ajuste, este

    nmero se calcula mediante la siguiente ecuacin:

    gl = k 1 c

  • donde:

    k = nmero de categoras

    c = nmero de parmetros poblacionales

    desconocidos estimados por estadsticos

    muestrales.

  • Observe que siempre se pierde un grado de libertad

    debido a que las frecuencias esperadas deben sumar

    el nmero total de frecuencias observadas. Otros

    grados de libertad se pierden siempre que se usan

    estadsticos muestrales para estimar parmetros.

  • El estadstico de prueba usado para comparar los tamaos

    relativos de las frecuencias esperadas y observadas tiene una

    distribucin aproximada a la ji cuadrada. La distribucin de

    este estadstico de prueba es en realidad discreta, pero puede

    aproximarse usando una distribucin ji cuadrada continua

    cuando el tamao de la muestra n es grande. La distribucin

    discreta del estadstico de prueba X2 se aproxima usando una

    distribucin ji cuadrada continua.

    Regla del Cinco

  • Para asegurar que n es suficientemente grande, la

    regla conservadora es requerir que la frecuencia

    esperada para cada celda sea al menos 5. Si la

    frecuencia esperada de una celda es menor que 5, las

    celdas deben combinarse de manera que resulten

    categoras con mayores frecuencias esperadas.

  • Ejemplo

    A un nivel de significancia de 0.01, es razonable suponer que la demanda horaria de un

    servicio de cierto tipo en un gran banco est adecuadamente descrito por una

    distribucin de Poisson con = 1, si en una muestra aleatoria de 1,000 horas hubo 355, 362, 190, 65, 22 y 6 horas con 0, 1, 2, 3, 4 y al menos 5 de estas demandas,

    respectivamente?

  • Mediante la tabla de distribucin de Poisson, anotamos las

    probabilidades correspondientes a cada clase y luego

    calculamos las frecuencias esperadas:

    Solucin

  • Demanda fo (horas) Probabilidad de

    Poisson

    fe

    0 355 0.3679 0.3679*1000 = 367.9

    1 362 0.3679 0.3679*1000 = 367.9

    2 190 0.1839 0.1839*1000 = 183.9

    3 65 0.0613 0.0613*1000 = 61.3

    4 22 0.0153 0.0153*1000 = 15.3

    5 a ms 6 1 - 0.9963 = 0.0037 0.0037*1000 = 3.7

    n = 1000

  • Combinamos las dos ltimas clases que estn en la

    tabla de modo que todas las frecuencias esperadas

    sean mayores a 5, entonces reorganizando obtenemos

    las siguientes categoras:

  • Categora fo (horas) fe

    0 355 367.9

    1 362 367.9

    2 190 183.9

    3 65 61.3

    4 a ms 28 19.0

  • Grados de libertad: 5-1= 4

    Planteamos las hiptesis:

    H0: La poblacin sigue una distribucin de Poisson.

    H1: La poblacin no sigue una distribucin de

    Poisson.

    El valor crtico de la prueba de ji cuadrada es:

  • X2=13.277

  • Regla de rechazo: rechazar H0 si X2 > 13.277

  • Entonces mediante la formula calculamos el valor de X2:

    236.5

    19

    1928

    3.61

    3.6165

    9.183

    9.183190

    9.367

    9.367362

    9.367

    9.36735522222

    2

    2

    2

    X

    f

    ffX

    e

    eo

    Por tanto no se puede rechazar H0, es decir los datos de la poblacin siguen una

    distribucin de Poisson..