1. Distribución Chi Cuadrado

download 1. Distribución Chi Cuadrado

of 43

Transcript of 1. Distribución Chi Cuadrado

  • 8/18/2019 1. Distribución Chi Cuadrado

    1/43

    1

    Diseño Experimental

    TEMA 1:

     Aplicaciones de la prueba Chi-Cuadrado

    Prof. Bernardo Céspedes Panduro

  • 8/18/2019 1. Distribución Chi Cuadrado

    2/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    3/43

    3

    CONTRASTES DE HIPÓTESIS NO PARAMÉTRICAS

    1. Contrastes de Bondad de Ajuste

    2. Contraste de Independencia3. Contraste de Homogeneidad de Poblaciones

  • 8/18/2019 1. Distribución Chi Cuadrado

    4/43

    4

  • 8/18/2019 1. Distribución Chi Cuadrado

    5/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    6/43

    0 0

    1 0

    H : F(x) F (x)

    H : F(x) F (x)

    El objetivo es contrastar si los datos de la muestra proceden

    de una distribución particular (Poisson, Binomial). Es un

    contraste para la distribución de probabilidad de la

    población. Las hipótesis a contrastar son:

    0 0

    0 0

    H simple: F (x) especifica el valor de sus parámetros

    H compuesta: F (x) no especifica el valor de sus parámetros

  • 8/18/2019 1. Distribución Chi Cuadrado

    7/43

    El test X2 para bondad de ajuste, comparavalores observados y esperados.

    H0 : La muestra ha sido seleccionado de una

    población que tiene una distribución específica.

    H1 : La muestra no ha sido seleccionada de una

    población que tiene la distribución específica.

  • 8/18/2019 1. Distribución Chi Cuadrado

    8/43

      

      

    1i1)-(r 2

    -1X2Xsi

     0Hrechazary

    ijE

    2ij

    Eij

    O2X

    α

    Cuando H0 es verdadera, los ejemplos se obtienen por :

    Donde :

    Luego :

     pi·n

    r = nº de categorías.

    Ej =

  • 8/18/2019 1. Distribución Chi Cuadrado

    9/43

    Procedimiento para realizar la prueba

  • 8/18/2019 1. Distribución Chi Cuadrado

    10/43

    Procedimiento para realizar la prueba

  • 8/18/2019 1. Distribución Chi Cuadrado

    11/43

    Procedimiento para realizar la prueba

  • 8/18/2019 1. Distribución Chi Cuadrado

    12/43

    Ejemplo 1: Distribución Binomial

    2

  • 8/18/2019 1. Distribución Chi Cuadrado

    13/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    14/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    15/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    16/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    17/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    18/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    19/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    20/43

    Ejemplo 2: Distribución Poisson

    El número de defectos por unidad observada en una muestra de 100 radios

    dio la siguiente distribución de frecuencias:

    Número de defectos 0 1 2 3 4 5 6 7

    Número de radios 28 32 15 10 6 4 3 2

    Verificar si la distribución de estos datos se aproxima a la distribución

    Poisson con un nivel de significancia de 5%

  • 8/18/2019 1. Distribución Chi Cuadrado

    21/43

    SOLUCIÓN:

    1. Ho: La distribución de los datos es Poisson.

    2. H1: La distribución de los datos no es Poisson.3. Nivel de significancia: α = 0.05 4. Estadístico de prueba:

     

    Donde: Los esperados iij   nP  E  

    5. Regla de decisión: Rechazar H0 si: X2 > X2 k-p-1, α 

    Cálculos:

      Valor crítico: K = 5, p =1, luego: X2  k-p-1, α  = X2  5-1-1, 0.05 = X2  3, 0.05 =

    7.815

      Estadístico de Prueba:El parámetro de la distribución Poisson es la media, que es desconocida y

    debe estimarse a través de los datos:       = 1.68 

     

    i   i

    ii

     E 

     E O

    1

    22   )(

     

    TABLA DE PROBABILIDAD DE LA DISTRIBUCIÓN

  • 8/18/2019 1. Distribución Chi Cuadrado

    22/43

    TABLA DE PROBABILIDAD DE LA DISTRIBUCIÓNCHI CUADRADO

    Grados deLibertad:gl = 3

    Nivel de significancia: = 0.05

    χ2 = 7.8147

    χ2 = 7.8147

    Región de

    Rechazo de H0

  • 8/18/2019 1. Distribución Chi Cuadrado

    23/43

    SOLUCIÓN: CONTINUACIÓN …

    Número dedefectos: x

    pi = P[X = x] Ei = npi  Oi 

    i

    ii

     E 

     E O  2)(  

    0

    1234567

    0.18637

    0.31311

    0.26301

    0.147290.06186

    0.02079 0.08986

    0.00582

    0.00140

    18.6374

    31.31083

    26.3011

    14.72861

    8.986175

    28

    32151064 = 1532

    4.703356

    0.015169

    4.855872

    1.518119

    4.024636

    Total 15.11715

    Luego, el valor estadístico es:

    X2 = 15.11715

    = 7.815 15.117

    Conclusión: Se rechaza Ho, es decir, los datos no se ajustan a una distribución

    Poisson, con un nivel de significancia del 5%

  • 8/18/2019 1. Distribución Chi Cuadrado

    24/43

    EJEMPLO 3

    En una encuesta a una muestra aleatoria de 90 fumadores que

    manifestaron su intención de dejar de fumar, se les preguntó por el

    número de veces que hasta el momento lo habían intentado. Losresultados fueron los siguientes:

    ¿Se puede aceptar un modelo Poisson para la variable aleatoria “número

    de intentos para dejar de fumar”?

    nº de intentos fumadores

    0 12

    1 272 21

    ≥3 30

  • 8/18/2019 1. Distribución Chi Cuadrado

    25/43

    2. CONTRASTE DE INDEPENDENCIA

    Tabla de Contingencia

    A B   B1   B2   ....   BJ   ni.

    n11 n12 ... n1j n1.

    n21 n22 ... n2J n2. M  M nij  M  M

    nI1 nI2 ... nIJ nI.

    n.1 n.2 .... n.J nn.

    A1

    A2 M

    AI

    Sea una muestra grande de n individuos clasificados respecto a las

    categorías de 2 variables categóricas o criterios de clasificación: A y B.

    nij frecuencia observada conjunta. Nº de individuos de la muestraque están clasificados simultáneamente en las categorías Ai y Bj.

    ni. y n.j frecuencias marginales observadas.

    ni.: nº total de individuos clasificados en la categoría Ai

    n.j: nº total de individuos clasificados en la categoría Bj

  • 8/18/2019 1. Distribución Chi Cuadrado

    26/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    27/43

    La Prueba Chi-cuadrado de independencia

    Esta prueba se usa cuando el interés es determinar si

    dos variables están asociadas.Ejemplo:2764 residentes de Lima Metropolitana fueron clasificadosde acuerdo a sus ingresos y el tiempo transcurrido desde

    que ellos consultaron por última vez a un médico.

    Ingresos

    (en miles)

    Tiempo

    < 6 meses 7 -12 meses > 12 meses

    TOTAL

    801

    186 38 35

    227 54 45219 78 78

    355 112 140

    653 285 259

    259

    326375

    607

    1.197

    TOTAL 1.640 567 557 2.764

  • 8/18/2019 1. Distribución Chi Cuadrado

    28/43

    ¿Proporcionan estos datos evidencia suficiente paraindicar que existe una asociación entre el ingreso y el

    tiempo transcurrido desde la última consulta almédico?.

    Dos variables son independientes cuando ladistribución de una de ellas no depende de ladistribución de la otra.

    Si no existe asociación entre las dosvariables se dice que son independientes.

    Por ejemplo, dos variables son independientessi al conocer el valor de una de ellas para un sujetono ayuda para determinar el valor de la otra variablepara el mismo sujeto.

  • 8/18/2019 1. Distribución Chi Cuadrado

    29/43

    H0 : los dos criterios de clasificación son independientes.

    H1 : los dos criterios de clasificación no son independientes.

    Es de interés docimar :

    Para docimar H0 se comparan las celdas de frecuencias

    observadas con las celdas de frecuencias esperadas y se

    usa la estadística :

     

      

      

      f 

    li

    c

    1 j ijE

    2

    ijE

    ijO

    2x donde   1c1f 2x2x  

    y la decisión es rechazar H0 a un nivel de significación

    si el valor calculado de la estadística X2 excede el valor 

    de tabla :

     

    1c1f 

    2

    1

    x  

     

  • 8/18/2019 1. Distribución Chi Cuadrado

    30/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    31/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    32/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    33/43

    En el ejemplo:

    H0 : el ingreso y el tiempo transcurrido desde la última visita

    al médico son independientes.

    H1: las dos variables no son independientes.

    53,132764

    56725912

    E 153,68;27641640259

    11E  

    241,222764

    557119753

    E    

     

     

     

     

     

    celdas lastodas ij

    E

    2

    ijE

    ijO

    2xde donde

    (8)2x13152x2y x47.9

    241.22

    2241.22259

    153.68

    2153.68186

     

    15.507(8)

    2

    0.95X 

    luego se rechaza H0De la tabla

  • 8/18/2019 1. Distribución Chi Cuadrado

    34/43

    EJEMPLO 2

    Una encuesta efectuada a 120 consumidores de un producto,

    seleccionados al azar, ha permitido clasificarlos respecto a la

    marca que prefieren y respecto a la región en la que residen,obteniéndose la siguiente tabla:

    Región

    Marca

    ACME   35 20 10P2P   30 15 10

    1 2 3

    A partir de esta información, ¿se puede admitir, para un nivel de

    significación del 5%, que la preferencia por una determinada

    marca está influida por la región de residencia?Región

    Marca ni.

    ACME 35 20 10 65

    P2P 30 15 10 55

    n.j 65 35 20 120 = n

    1 2 3

  • 8/18/2019 1. Distribución Chi Cuadrado

    35/43

    EJEMPLO 3

    Una encuesta efectuada a 120 consumidores de un producto,

    seleccionados al azar, ha permitido clasificarlos respecto a la

    marca que prefieren y respecto a la región en la que residen,obteniéndose la siguiente tabla:

    Región

    Marca

    ACME   35 20 10P2P   30 15 10

    1 2 3

    A partir de esta información, ¿se puede admitir, para un nivel de

    significación del 5%, que la preferencia por una determinada

    marca está influida por la región de residencia?Región

    Marca ni.

    ACME 35 / 35,2 20 / 18,95 10 / 10,83 65

    P2P 30 / 29,79 15 / 16,04 10 / 9,16 55

    n.j 65 35 20 120 = n

    1 2 3

  • 8/18/2019 1. Distribución Chi Cuadrado

    36/43

    3. CONTRASTE DE HOMOGENEIDAD DE POBLACIONES

    mues

    tra

    A   A1   A2   ....   AJ   ni.

    n11 n12 ... n1j n1.

    n21 n22 ... n2J n2.

     M

     M

    nij  M

     M

    nI1 nI2 ... nIJ nI.

    n.1 n.2 .... n.J nn. j

    1

    2

     M

    I

    Sean I muestras grandes independientes de individuos clasificados

    respecto a las J categorías de 1 variable categórica: A.

    nij frecuencia observada. Nº de individuos de la muestra i que

    están clasificados en la categoría Aj.ni.: tamaño muestra i

    n.j: nº total de individuos del conjunto de todas las muestras

    clasificados en la categoría Aj

    n: suma de todos los tamaños muestrales.

  • 8/18/2019 1. Distribución Chi Cuadrado

    37/43

    Pobla

    ción

    A   A1   A2   ....   AJ

    p11 p12 ... p1j 1

    p21 p22 ... p2J 1

     M

     M

    pij  M

     M

    pI1 pI2 ... pIJ 1

    1

    2

     M

    I

    Podemos suponer que cada muestra proviene de una población con la

    siguiente distribución de probabilidad:

    pij     probabilidad en la población i de estar clasificado en la

    categoría AjTodas estas probabilidades son desconocidas y se pueden formular 

    hipótesis acerca de los valores que pueden tomar.

  • 8/18/2019 1. Distribución Chi Cuadrado

    38/43

    Prueba de homogeneidad

    Esta prueba se usa para comparar proporciones

    en dos o más muestras.

    H0 : las k poblaciones son "homogéneas" conrespecto a la proporción de sujetos queposeen la característica de interés.

    En general se selecciona una muestra de

    cada población en estudio y los sujetos seclasifican de acuerdo a una característica deinterés.

  • 8/18/2019 1. Distribución Chi Cuadrado

    39/43

  • 8/18/2019 1. Distribución Chi Cuadrado

    40/43

    La estadística que se usa en esta prueba es

    la misma que se usa para la prueba de

    independencia :

    rechaza sey

    )11)(c(r 21

    x2  xsiO

     

     

     

     

     

     

      f lic1 j ij

    E

    2

    ij

    E

    ij

    O

    2x

  • 8/18/2019 1. Distribución Chi Cuadrado

    41/43

    Para determinar la conciencia pública y preocupación por 

    la polución atmosférica, se entrevistó a una muestra de40 residentes en cada una de 3 áreas de Lima

    Metropolitana. La pregunta fue :

    Ejemplo:

     AREA NO SI DUDA NO SABE TOTAL

    NORTE 5 31 2 2 40

    SUR 10 21 4 5 40

    ORIENTE 11 20 7 2 40

    TOTAL 26 72 13 9 120

    ¿es la polución atmosférica un problema en su

    vecindario?.

  • 8/18/2019 1. Distribución Chi Cuadrado

    42/43

    H0 : las tres poblaciones de residentes sonhomogéneas con respecto al conocimiento de los

    problemas de la polución.

    10,391

    3

    232

    8,67

    28,67-53

    1i

    4

    1 j ijE

    2

    ijEijO2X  

     

          

    12,592(16)20.95

    X  

    0.05 

    ya que :

    no hay evidencia para rechazar H0 a un nivel

    H1 : las tres poblaciones no son homogéneas..

    EJEMPLO 2

  • 8/18/2019 1. Distribución Chi Cuadrado

    43/43

    La Comisión Europea está interesada en conocer el grado de apoyo de

    los ciudadanos a la Constitución Europea. Para ello, ha realizado

    encuestas en cada uno de los países miembros. En la siguiente tabla se

    muestran los resultados de las encuestas de España y de Reino Unido:

    EJEMPLO 2

    Opinión

    Constitución

    Europea

    A favor En contra No contesta Total

    encuestados

    España   70 10 20 100Reino Unido   60 70 20 150

    A partir de la tabla anterior, ¿puede decirse que la opinión de los

    ciudadanos respecto a la Constitución Europea es homogénea en los

    dos países o bien cabe hablar de diferencias significativas?

    Opinión

    Constitución

    Europea

    A favor En contra No contesta Total

    encuestados

    ni.

    España 70 / 52 10 32 20 / 16 100

    Reino Unido 60 / 78 70 / 48 20 / 24 150

    /