Contrastes basados en el estad´ıstico...

10
Cap´ ıtulo 10 Contrastes basados en el estad´ ıstico Ji–Cuadrado 10.1. Introducci´ on Existen multitud de situaciones en el ´ ambito de la salud en el que las variables de inter´ es, las cuales no pueden cuantificarse mediante cantida- des num´ ericas, entre las que el investigador est´ e interesado en determinar posibles relaciones. Ejemplos de este tipo de variables pueden ser las com- plicaciones tras una intervenci´ on quir´ urgica, el sexo, el nivel socio-cultural, etc. En este caso tendr´ ıamos, a lo sumo, las observaciones agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de las variables, por los que los m´ etodos estudiados en los cap´ ıtulos anteriores no ser´ ıan aplicables. El objetivo de este tema es el estudio de este tipo de cuestiones en re- laci´ on con las variables cualitativas (y tambi´ en v.a. discretas o continuas agrupadas en intervalo). Estos son los contrastes asociados con el estad´ ısti- co χ 2 . En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia significativa entre las frecuencias observadas y las especificadas por la ley te´ orica del modelo que se contrasta, tambi´ en denominadas “frecuencias esperadas”. Sin embargo, aunque ´ este sea el aspecto m´ as conocido, el uso del test 255

Transcript of Contrastes basados en el estad´ıstico...

Capıtulo 10

Contrastes basados en elestadıstico Ji–Cuadrado

10.1. Introduccion

Existen multitud de situaciones en el ambito de la salud en el que lasvariables de interes, las cuales no pueden cuantificarse mediante cantida-des numericas, entre las que el investigador este interesado en determinarposibles relaciones. Ejemplos de este tipo de variables pueden ser las com-plicaciones tras una intervencion quirurgica, el sexo, el nivel socio-cultural,etc. En este caso tendrıamos, a lo sumo, las observaciones agrupadas enforma de frecuencia, dependiendo de las modalidades que presente cadapaciente en cada una de las variables, por los que los metodos estudiadosen los capıtulos anteriores no serıan aplicables.

El objetivo de este tema es el estudio de este tipo de cuestiones en re-lacion con las variables cualitativas (y tambien v.a. discretas o continuasagrupadas en intervalo). Estos son los contrastes asociados con el estadısti-co χ2. En general este tipo de tests consisten en tomar una muestra yobservar si hay diferencia significativa entre las frecuencias observadas ylas especificadas por la ley teorica del modelo que se contrasta, tambiendenominadas “frecuencias esperadas”.

Sin embargo, aunque este sea el aspecto mas conocido, el uso del test

255

256 Bioestadıstica: Metodos y Aplicaciones

χ2 no se limita al estudio de variables cualitativas. Podrıamos decir queexisten tres aplicaciones basicas en el uso de este test, y cuyo desarrolloveremos en el transcurso de este capıtulo:

Tres son los temas que abordaremos de esta manera:

Test de ajuste de distribuciones: Es un contraste de significacion para saber si los datos de una muestrason conformes a una ley de distribucion teorica que sospechamos quees la correcta.

Test de homogeneidad de varias muestras cualitativas: Sirve para contrastar la igualdad de procedencia de un conjunto demuestras de tipo cualitativo.

Test para tablas de contingencia: Es un contraste para determinar la dependencia o independencia decaracteres cualitativos.

10.2. El estadıstico χ2 y su distribucion

Sea X una v.a. cuyo rango son los valores i = 1, 2, . . . , k, de modo quepi es la probabilidad de cada valor;

X;

1 → P[X = 1] = p1

2 → P[X = 2] = p2

. . .i → P[X = i] = pi

. . .k → P[X = k] = pk

Supongamos que el resultado de un experimento aleatorio es una clasec1, c2, . . . , ck (ci, i = 1, . . . , k), que puede representar valores cualitativos,discretos o bien intervalos para variables continuas. Sea pi la probabilidadde que el resultado del experimento sea la clase ci. Vamos a considerar con-trastes cuyo objetivo es comprobar si ciertos valores p0

i , propuestos para lascantidades pi son correctas o no, en funcion de los resultados experimentales

10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 257

H0 : Los p0

i son correctos

H1 : Alguno de los p0i es falso

⇐⇒

H0 :

∣∣∣∣∣∣∣∣∣p1 = p0

1 yp2 = p0

2 y. . .pk = p0

k

H1 :

∣∣∣∣∣∣∣∣∣p1 6= p0

1 o bienp2 6= p0

2 o bien. . .pk 6= p0

k.(10.1)

Mediante muestreo aleatorio simple, se toma una muestra de tamano ny se obtienen a partir de ella unas frecuencias observadas de cada clase querepresentamos mediante O1, O1, . . . , Ok

Clase Frec. Abs.ci Oi

c1 O1

c2 O2

. . . . . .ck Ok

k∑i=1

Oi = n

Supongamos que la hipotesis nula es cierta. Al ser pi = p0i la proporcion

de elementos de la clase ci en la poblacion, el numero de individuos deque presentan esta modalidad al tomar una muestra de tamano n, es unav.a. de distribucion binomial, B

(n, p0

i

). Por tanto la frecuencia esperada de

individuos de esa clase es

Ei = n · p0i ∀ i = 1, 2, . . . , k

k∑i=1

Ei = n ·k∑

i=1

p0i = n

258 Bioestadıstica: Metodos y Aplicaciones

Observese que a diferencia de las cantidades Oi, que son las frecuencias querealmente se obtienen en una muestra, las frecuencias esperadas no tienenpor que ser numeros enteros. De cualquier modo, bajo la suposicion de queH0 es cierta cabe esperar que las diferencias entre las cantidades Ei y Oi

sea pequena.

Pearson propuso el estadıstico

χ2 =k∑

i=1

(Oi − Ei)2

Ei

el cual, siguiendo la linea de razonamiento anterior debe tomar valorespequenos si H0 es cierta. Si al tomar una muestra, su valor es grandeeso pone en evidencia que la hipotesis inicial es probablemente falsa. Paradecidir cuando los valores de χ2 son grandes es necesario conocer su ley deprobabilidad. Se tiene entonces el siguiente resultado

Teorema

[Ley asintotica para χ2] Si la hipotesis H0 es cierta, entonces χ2 sedistribuye aproximadamente como:

χ2 =k∑

i=1

(Oi − Ei)2

Ei≈; χ2

k−p−h

donde el numero de grados de libertad depende de

El numero k, de clases usadas;

El numero p de parametros estimados a partir de la muestra paracalcular los Ei. Por ejemplo si todas las cantidades p0

i son especificadasentonces p = 0.

El numero de relaciones o condiciones impuestas a los Ei. Por ejemplo,si la unica condicion sobre los Ei es que

∑ki=1 Ei = n entonces h = 1.

10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 259

La aproximacion mejora cuando n es grande y los pi son cercanos a 12 .

Como solo son los valores grandes de χ2 los que nos llevan a rechazarH0, la region crıtica es

C = (χ2k−p−h,1−α,∞)

0 5 10 15 20 25

χn, 1−α2

Se rechaza H0No se rechaza H0

χn2 para n=10

Figura 10.1: Region crıtica (sombreada) para un contraste con el estadısticoχ2.

es decir,

sean

χ2

exp =k∑

i=1

(Oi − Ei)2

Ei

χ2teo = χ2

k−p−h,1−α

−→

Si χ2

exp ≤ χ2teo no rechazamos H0;

Si χ2exp > χ2

teo se rechaza H0 y se acepta H1.

Observacion

A pesar de que el contraste parece ser bilateral al ver la expresion dela relacion (10.1), la forma de C, nos indica que el contraste es unilateral:

260 Bioestadıstica: Metodos y Aplicaciones

Solo podemos saber si existe desajuste entre los esperado y lo observado,pero no podemos contrastar hipotesis alternativas del tipo “pi mayor quecierto valor”.

Observacion

Observese que en realidad χ2 no es una variable aleatoria continua: Losposibles resultados de la muestra se resumen en las cantidades O1, O2, . . . ,Ok, que unicamente toman valores discretos. Luego las cantidades

χ2exp(O1,O2, . . . ,Ok)

solo puede tomar un numero finito de valores distintos (aunque sean can-tidades con decimales). Por tanto su distribucion no es continua. Luego alrealizar la aproximacion mencionada hay que precisar en que condicionesel error cometido es pequeno. De modo aproximado podemos enunciarel siguiente criterio que recuerda al de la aproximacion binomial por ladistribucion normal:

1. n > 30;

2. Ei = n · pi > 5 para todo i = 1, . . . , k.

Sin embargo esta regla resulta demasiado estricta a la hora de aplicarlaen la practica. Se utiliza entonces una regla mas flexible y que no sacrificademasiada precision con respecto a la anterior:

1. Para ninguna clase ocurre que Ei = n · pi < 1

2. Ei = n · pi > 5 para casi todos los i = 1, . . . , k, salvo a lo sumo un20 % de ellos.

Si a pesar de todo, estas condiciones no son verificadas, es necesario agruparlas clases que tengan menos elementos con sus adyacentes.

10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 261

Observacion

El lector puede considerar los contrastes con el estadıstico χ2 comouna generalizacion del contraste de proporciones. Para ello le invitamos aestudiar el siguiente ejemplo.

Ejemplo

Se desea saber si cierta enfermedad afecta del mismo modo a los hombresque a las mujeres. Para ello se considera una muestra de n = 618 individuosque padecen la enfermedad, y se observa que 341 son hombres y el restoson mujeres. ¿Que conclusiones se obtiene de ello?

Solucion:

El contraste a realizar se puede plantear de dos formas que despuesveremos que son equivalentes:

Contraste de una proporcion: Si p es el porcentaje de hombres en lapoblacion de enfermos, podemos considerar el contraste:

H0 : p = 1/2

H1 : p 6= 1/2

De la muestra obtenemos la siguiente estimacion puntual del porcen-taje de enfermos de sexo masculino:

p = 341/618 = 0, 55178

Para ver si esto es un valor “coherente” con la hipotesis nula, calcu-lemos la significatividad del contraste:

Zexp =p− p√p ∗ q/n

;N (0, 1).

Por otro lado,

262 Bioestadıstica: Metodos y Aplicaciones

Zexp =0, 55178− 0, 5√

0, 5× 0, 5/60= 2, 574

Como el contraste es de tipo bilateral, la significatividad del contrastees (buscando en la tabla de la distribucion normal):

P[|Z| > 2, 574] = 2 · P[Z > 2, 574] = 2 ∗ 0, 005 = 1 % < 5 %

Lo que nos indica que se ha de rechazar la hipotesis nula y aceptarla hipotesis alternativa, es decir, afirmamos que existe una evidenciasignificativa a favor de la hipotesis de que la enfermedad no afectapor igual a hombres y mujeres.

Contraste con el estadıstico χ2: En este caso planteamos el contraste:H0 :

∣∣∣∣∣ phombres = 1/2 ypmujeres = 1/2

H1 :

∣∣∣∣∣ phombres 6= 1/2 o bienpmujeres 6= 1/2

Para resolverlo escribimos en una tabla los frecuencias muestralesobservadas de hombres y mujeres, junto a los valores esperados en elcaso de que la hipotesis nula fuese cierta:

frecuencias frecuenciasobservadas esperadas diferenciaOi Ei Oi − Ei (Oi − Ei)2/Ei

Hombres 341 618× 1/2 = 309 9 322/309Mujeres 277 618× 1/2 = 309 -9 (−32)2/309

618 618 0 6,63

Consideremos entonces el estadıstico

χ2 =k∑

i=1

(Oi − Ei)2

Ei≈; χ2

k−p−h = χ22−0−1 = χ2

1

donde:

10.2. EL ESTADISTICO χ2 Y SU DISTRIBUCION 263

k = 2 es el numero de modalidades posibles que toma la variablesexo: hombres y mujeres;

p = 0 es el numero de parametros estimados;

h = 1 es el numeros de restricciones impuestas a los valoresesperados. Solo hay una (que es habitual), que consiste en queel numero esperado de enfermos entre hombres y mujeres es 60.

El estadıstico calculado sobre la muestra ofrece el valor experimental:

χ2exp = 6, 63

que es el percentil 99 de la distribucion χ21. De nuevo se obtiene que

la significatividad del contraste es del 1%<5 %.

En conclusion, con los dos metodos llegamos a que hay una fuerte evi-dencia en contra de que hay el mismo porcentaje de hobres y mujeres quepadecen la enfermedad. La ventaja de la ultima forma de plantear el con-traste (diferencia entre frecuencias observadas y esperadas) es que la tecnicase puede aplicar a casos mas generales que variables dicotomicas, como severa mas adelante.

Observacion

Hay una formula alternativa para el calculo de χ2 cuya expresion es masfacil de utilizar cuando realizamos calculos:

Proposicion

χ2 =k∑

i=1

O2i

Ei− n

Demostracion

264 Bioestadıstica: Metodos y Aplicaciones

χ2 =k∑

i=1

(Oi − Ei)2

Ei

=k∑

i=1

O2i − 2OiEi + E2

i

Ei

=k∑

i=1

O2i

Ei− 2

k∑i=1

Oi +k∑

i=1

Ei

=k∑

i=1

O2i

Ei− 2 n + n

=k∑

i=1

O2i

Ei− n

10.3. Contraste de bondad de ajuste para distri-buciones

Vamos a aplicar el contraste χ2 para determinar a traves de una muestrasi una v.a. X sigue o no cierta distribucion. Podemos encontrarnos entoncescon dos casos:

La ley de la v.a. X que deseamos contrastar esta completamente determi-nada.

La ley de la v.a. X no es totalmente conocida y es necesario estimaralgunos de sus parametros.