Cap´ıtulo 6 Contraste de hipótesis

21
Cap´ ıtulo 6 Contraste de hip´otesis Terminamos esta intrusi´ on en la inferencia estad´ ıstica con este tercer m´ etodo. Con frecuencia, el problema planteado no es simplemente la estimaci´ on de un par´ametro, sino el dise˜ no de una regla de decisi´on sobre la aceptaci´on o rechazo de cierta afirmaci´on realizada sobre la poblaci´ on estudiada. Estableceremos entonces un contraste, prueba o test de hip´otesis, cuyo objetivo ser´a decidir, con alguna medida sobre con qu´ e seguridad, la veracidad de la afirmaci´on, o hip´otesis marcada. De forma esquem´atica, el problema se plantea en las etapas siguientes: a) Se establece una hip´ otesis, que llamaremos hip´ otesis nula y denotaremos H 0 , y frente a ella otrahip´otesis H 1 ,o hip´ otesis alternativa. b) Se realiza un experimento aleatorio para el que se sabe que si H 0 es cierta, la probabilidad de que ocurra cierto suceso S es peque˜ na. c) Si al realizar el experimento ocurre S , se rechaza H 0 ; no ocurre S , se acepta H 0 . La justificaci´on est´ a en el hecho de que sabemos que de ser cierta H 0 , S es de probabilidad peque˜ na, luego si ha ocurrido S se ha dado un suceso bastante improbable, o bien H 0 es falsa. Los contrastesde hip´otesisse clasifican en param´ etricos y no param´ etricos. En los primeros ocurre que al determinar el valor de un par´ametro, la distribuci´on poblacional queda determinada. En otro caso, estaremos ante un contraste de hip´otesis no param´ etrico. En las primeras secciones nos dedicaremos a los contrastes param´ etricos, aunque parte del lenguaje es com´ un a ambos. 1. Conceptos b´ asicos Supongamos que se conoce que cierta poblaci´ on X sigue una distribuci´on dada por una funci´on de masa P θ (o funci´on de densidad f θ ), donde θ Θ. Sea (X 1 �...�X N ) una muestra aleatoria de X . Supongamos dada una partici´ on del espacio param´ etrico: Θ=Θ 0 Θ 1 en dos subconjuntos mutuamente excluyentes. 99

Transcript of Cap´ıtulo 6 Contraste de hipótesis

Capıtulo 6

Contraste de hipotesis

Terminamos esta intrusion en la inferencia estadıstica con este tercer metodo.Con frecuencia, el problema planteado no es simplemente la estimacion de un parametro, sino el

diseno de una regla de decision sobre la aceptacion o rechazo de cierta afirmacion realizada sobre lapoblacion estudiada. Estableceremos entonces un contraste, prueba o test de hipotesis, cuyo objetivosera decidir, con alguna medida sobre con que seguridad, la veracidad de la afirmacion, o hipotesismarcada. De forma esquematica, el problema se plantea en las etapas siguientes:

a) Se establece una hipotesis, que llamaremos hipotesis nula y denotaremos H0, y frente a ellaotra hipotesis H1, o hipotesis alternativa.

b) Se realiza un experimento aleatorio para el que se sabe que si H0 es cierta, la probabilidad deque ocurra cierto suceso S es pequena.

c) Si al realizar el experimento

�ocurre S, se rechaza H0;

no ocurre S, se acepta H0.

La justificacion esta en el hecho de que sabemos que de ser cierta H0, S es de probabilidad pequena,luego si ha ocurrido S se ha dado un suceso bastante improbable, o bien H0 es falsa.

Los contrastes de hipotesis se clasifican en parametricos y no parametricos. En los primeros ocurreque al determinar el valor de un parametro, la distribucion poblacional queda determinada. En otrocaso, estaremos ante un contraste de hipotesis no parametrico.

En las primeras secciones nos dedicaremos a los contrastes parametricos, aunque parte del lenguajees comun a ambos.

1. Conceptos basicos

Supongamos que se conoce que cierta poblacion X sigue una distribucion dada por una funcionde masa Pθ (o funcion de densidad fθ), donde θ ∈ Θ. Sea (X1� . . . � XN) una muestra aleatoria de X.Supongamos dada una particion del espacio parametrico:

Θ = Θ0 ∪Θ1

en dos subconjuntos mutuamente excluyentes.

99

100 CAPITULO 6. CONTRASTE DE HIPOTESIS

Definicion 1.1. Un test para contrastar la hipotesis nula H0 : θ ∈ Θ0 frente a la hipotesis alternativaH1 : θ ∈ Θ1, consiste en decidir, para cada posible muestra, si aceptamos o rechazamos H0. Por lotanto, un test consistira en dividir el espacio muestral (conjunto de todas las posibles muestras) endos regiones: una region crıtica R, o de rechazo de H0; y una region A, de aceptacion de H0.

El problema esta en como tomar esta decision de la manera menos erronea posible. Observeseque con un test se pueden cometer, basicamente, dos tipos de errores:

Error de tipo I : rechazar H0 cuando no se debe (H0 es cierta)

Error de tipo II: aceptar H0 cuando no se debe (H0 es falsa).

La siguiente funcion nos da una medida de cada uno de estos errores:

Definicion 1.2. La funcion de potencia de un test con region crıtica R, para contrastar H0 :θ ∈ Θ0 frente a H1 : θ ∈ Θ1, es la funcion que a cada θ ∈ Θ le hace corresponder el valor

Pθ(R) = Pθ( rechazar H0 ) .

Con este nuevo concepto, es claro que nos interesara que la funcion de potencia tome valores:

proximos a 0 siempre que θ ∈ Θ0: pequena probabilidad de error tipo I;

proximos a 1 siempre que θ ∈ Θ1: pequena probabilidad de error tipo II.

Lo que se suele hacer es exigir que la funcion de potencia no supere cierto valor, pequeno, cuandoθ ∈ Θ0; y procurar, despues, que sea lo mayor posible cuando θ ∈ Θ1.

Definicion 1.3. El nivel de significacion (o tamano) de un test con region crıtica R, paracontrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1, es el valor

α = maxθ∈Θ0

Pθ(R) .

(Es decir, la maxima probabilidad de cometer el error de tipo I).

Ası, se fija cierto nivel de significacion α, pequeno, y se exige al test que no lo supere. De estamanera, se esta acotando la maxima probabilidad de error tipo I. Con esta manera de proceder, vemosque los papeles de las hipotesis nula y alternativa, no son simetricos. El hecho de que acotemos lamaxima probabilidad de error tipo I, por un valor proximo a cero, hace que difıcilmente rechacemosH0 cuando no se debe. Como consecuencia, los tests de hipotesis que usamos habitualmente, tiendena ser muy conservadores con la hipotesis nula. Por supuesto, la decision se toma a partir de unamuestra, y por tanto, este tipo de tests necesitan que la evidencia muestral en contra de H0 seasuficientemente fuerte para rechazarla.

1. CONCEPTOS BASICOS 101

1.1. Test de razon de verosimilitudes

El metodo mas utilizado para la construccion de tests razonables para contrastar H0 frente a H1

es el metodo de razon de verosimilitudes. Exponemos a continuacion la idea, que es muy sencillae intuitiva, en el caso discreto (para el continuo, basta sustituir la funcion de masa por funcion dedensidad).

Supongamos que X es una poblacion con funcion de masa Pθ. Para cada posible muestra,(x1� . . . � xn), se considera el siguiente cociente:

maxθ∈Θ0

Pθ(x1� . . . � xn)

maxθ∈Θ

Pθ(x1� . . . � xn)(cociente de verosimilitudes) .

Si este cociente es pequeno, se considera poco plausible (a la vista de la muestra obtenida) que elverdadero valor de θ este en Θ0. En este caso, lo mas razonable es rechazar H0. Si, por el contrario, elcociente es grande, lo mas razonable es aceptar H0. La eleccion del punto crıtico que separe la regionde rechazo de H0 (cocientes pequenos), de la de aceptacion (cocientes grandes), se realiza fijando undeterminado nivel de significacion α.

Definicion 1.4. El test de razon de verosimilitudes para contrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1,al nivel de significacion α, es el que tiene como region crıtica:

R =

(x1� . . . � xn) :maxθ∈Θ0

Pθ(x1� . . . � xn)

maxθ∈Θ

Pθ(x1� . . . � xn)≤ c

donde c se obtiene de la condicion: α = maxθ∈Θ0Pθ(R) .

Ejercicio 1 Escribir la definicion correspondiente al caso de una poblacion continua.

El uso extendido de estos tests se debe al hecho de que, para poblaciones normales, quedanreducidos a reglas muy sencillas (y muy relacionadas con los intervalos de confianza), como muestrael siguiente ejemplo.

Ejemplo 42 Supongamos que (X1� . . . � XN) es una muestra aleatoria de una poblacion con distribu-cion N(µ ; σ), donde los dos parametros son desconocidos. Se quiere realizar un contraste de hipotesissobre el posible valor de la media poblacional, µ. Concretamente, vamos a realizar el test de razon deverosimilitudes para contrastar:

H0 : µ = µ0 frente a H1 : µ �= µ0 al nivel de significacion α.

Primeramente, observese como se divide el espacio parametrico al realizar estas hipotesis:

Θ = {θ =(µ� σ) : µ ∈ � � σ > 0}

Θ0 = {(µ� σ) ; µ = µ0}

Θ1 = {(µ� σ) ; µ �= µ0}

En segundo lugar queremos estudiar el cociente entre dos verosimilitudes maximas: con θ ∈ Θ0,para el numerador; y en todo el espacio parametrico, Θ, para el denominador. La verosimilitud quecada muestra, (x1� . . . � xn), tiene en esta poblacion, X ∼ N(µ ; σ), es:

fθ(x1� . . . � xn) =1

(√2π )n (σ)n

exp

−1

2σ2

�(xi − µ)2

.

102 CAPITULO 6. CONTRASTE DE HIPOTESIS

Ahora bien, los maximos de estas verosimilitudes se alcanzan en los valores correspondientes alos estimadores de maxima verosimilitud. Concretamente, tenemos:

• el valor maxθ∈Θ

fθ(x1� . . . � xn) se alcanza en el estimador de maxima verosimilitud

�µ = x � �σ2 =1

n

n�

i=1

(xi − x)2

es decir:

maxθ∈Θ

fθ(x1� . . . � xn) =1

(√2π )n [ 1

n

�(xi − x)2]n/2

exp

−n

2�

(xi − x)2

�(xi − x)2

=1

��2πn

�n

[�

(xi − x)2]n/2exp

−n

2

• el valor maxθ∈Θ0

fθ(x1� . . . � xn) se alcanza en el estimador de maxima verosimilitud

�σ2 =1

n

n�

i=1

(xi − µ0)2

y por tanto:

maxθ∈Θ0

fθ(x1� . . . � xn) =1

(√2π )n [ 1

n

�(xi − µ0)2]n/2

exp

−n

2�

(xi − µ0)2

�(xi − µ0)

2

=1

��2πn

�n

[�

(xi − µ0)2]n/2exp

−n

2

Ası el cociente de maximas verosimilitudes serıa:

maxθ∈Θ0

fθ(x1� . . . � xn)

maxθ∈Θ

fθ(x1� . . . � xn)=

� �(xi − x)2

�(xi − µ0)2

�n/2

=

� �(xi − x)2

�(xi − x+ x− µ0)2

�n/2

=

� �(xi − x)2

�(xi − x)2 + n(x− µ0)2

�n/2

=

�1

1 + n�x−µ0)2�

�xi−x)2

�n/2

Unas ultimas manipulaciones a esta expresion nos llevan a la igualdad:

maxθ∈Θ0

fθ(x1� . . . � xn)

maxθ∈Θ

fθ(x1� . . . � xn)=

�1

1 + n�x−µ0)2�

�xi−x)2

�n/2

=

�1

1 + 1n−1

�x−µ0)2

s2/n

�n/2

=

�1

1 + 1n−1

�x−µ0

s/√

n

�2

�n/2

para el cociente de verosimilitudes maximas, donde s2 es la cuasi–varianza muestral.De esta manera, la region crıtica serıa de la forma:

R =

(x1� . . . � xn) :maxθ∈Θ0

fθ(x1� . . . � xn)

maxθ∈Θ

fθ(x1� . . . � xn)≤ c

=

(x1� . . . � xn) :

�1

1 + 1n−1

�x−µ0

s/√

n

�2

�n/2

≤ c

=

(x1� . . . � xn) :� x− µ0

s/√n

�2

≥ c1

=

(x1� . . . � xn) :���x− µ0

s/√n

��� ≥ c2

1. CONCEPTOS BASICOS 103

El valor de c2 se obtiene imponiendo que el test tenga nivel de significacion α:

α = maxθ∈Θ0

Pθ(R) = maxµ=µ0

Pθ(R) = maxµ=µ0

�����x− µ0

s/√n

���� ≥ c2

Ahora bien, en este caso sabemos que

x− µ0

s/√n∼ tn−1 y ası: c2 = tn−1 ; α/2

En definitiva, hemos obtenido que la region crıtica para contrastar la hipotesis nula H0 : µ = µ0

frente a la hipotesis alternativa, H1 : µ �= µ0, al nivel de significacion α es:

R =

(x1� . . . � xn) : |x− µ0| ≥ tn−1 ; α/2s√n

Observaciones. Un par de consideraciones respecto a este test.

a) Esta muy ligado a la estimacion por intervalos de confianza.

En efecto, la region de aceptacion de este test es:

A =

(x1� . . . � xn) : |x− µ0| < tn−1 ; α/2s√n

=

(x1� . . . � xn) : x− tn−1 ; α/2s√n< µ0 < x+ tn−1 ; α/2

s√n

.

Podemos decir, entonces, que este test para contrastar H0 : µ = µ0 frente a H1 : µ �= µ0, alnivel de significacion α, acepta la hipotesis nula siempre que, realizada una muestra, µ0 seaun valor en el intervalo �

x± tn−1 ; α/2

�.

Por otra parte, este es un intervalo de confianza, a nivel 1−α, para estimar la media poblacional,µ, de una poblacion X ∼ N(µ ; σ), con σ desconocida.

En definitiva, nuestro test de razon de verosimilitudes, con nivel de significacion α, rechaza lahipotesis nula, H0 : µ = µ0, siempre que µ0 no este en el correspondiente intervalo de confianza(al nivel de confianza 1− α) para µ.

b) El funcionamiento del test es muy razonable.

Se quiere estimar µ, y tomamos su estimador de maxima verosimilitud, la media muestral x.La hipotesis nula afirma la igualdad µ = µ0, de manera que es razonable esperar que x este proxi-ma a µ0. El alejamiento permitido para seguir aceptando la hipotesis nula dependera del tamanomuestral y del nivel de significacion α. El test de razon de verosimilitudes nos fija el maximoalejamiento permitido, y ası:

rechazaremos H0 si |x− µ0| ≥ tn−1 ; α/2s√n.

104 CAPITULO 6. CONTRASTE DE HIPOTESIS

Con desarrollos analogos al del ejemplo, se obtienen los test de razon de verosimilitudes paraotros contrastes, que presentamos en la seccion 2. Su aplicacion a situaciones reales pasa por decidir,en primer lugar, que test se ajustara mejor al problema, ası como el nivel de significacion a fijar pararechazar la hipotesis nula. Es importante, por tanto, observar ciertas consideraciones sobre comohacer estas elecciones.

Eleccion de hipotesis nulaComo ya se ha indicado, los tests son bastante conservadores con la hipotesis nula, siendo, en

particular, asimetrico el papel de esta y la hipotesis alternativa. En las situaciones mas frecuentes,nos encontraremos ante uno de los dos siguientes problemas:

a) Se quiere contrastar θ = θ0 y θ �= θ0. En este caso, tenemos una clara asimetrıa en la particiondel espacio parametrico, y siempre se toma como hipotesis nula H0 : θ = θ0.

b) Mas problematica es la eleccion de hipotesis nula cuando se quiere contrastar θ < θ0 frente aθ > θ0. Debido a la tendencia conservadora del test para la hipotesis nula, tomaremos comohipotesis alternativa aquella para la que necesitemos que la evidencia muestral sea suficientecomo para aceptarla. En otras palabras, tomaremos como hipotesis alternativa aquella quedeseemos “probar” estadısticamente. Esto no resuelve todas las situaciones posibles, pues nosiempre estara claro que es lo que se quiere probar estadısticamente.

Eleccion del nivel de significacionEl nivel se elige en base a lo serias que se consideren las consecuencias de rechazar equivoca-

damente H0 (o, lo que es lo mismo, de aceptar equivocadamente H1). Cuanto mas desastrosas seconsideren las consecuencias de esta posible equivocacion, mas pequeno se debera tomar el nivel designificacion. Los niveles de significacion mas extendidos son:

0.10 ; 0.05 ; o 0.01 .

El p–valorEl p–valor de una muestra para contrastar H0 frente a H1 se puede definir como:

la probabilidad �evaluada bajo H0) de obtener un resultado menoscompatible con la hipotesis nula que el proporcionado por la muestraobtenida.

De esta manera podemos interpretar el p–valor de una muestra como el apoyo que los datosaportan a H0. Si este p–valor se encuentra por debajo del nivel de significacion elegido, se tendra unescaso apoyo a H0, y deberemos rechazar la hipotesis nula. Si, por el contrario, el p–valor de unamuestra esta por encima del nivel de significacion elegido, hay suficiente apoyo a la hipotesis nula yesta puede ser aceptada.

El calculo del p–valor de una muestra no es sencillo, y se sale del cometido de este curso. Hayprogramas informaticos que lo realizan, pero aquı nos limitaremos a saber interpretarlo si, de algunamanera, nos lo hacen saber.

2. TEST DE HIPOTESIS MAS FRECUENTES 105

2. Test de hipotesis mas frecuentes

• α = nivel de significacion del contraste. • H0 = hipotesis nula.• n = tamano de la muestra. • R = region crıtica o de rechazo de H0.

1.- X ∼ N(µ� σ)

H0 : µ = µ0 �σ conocida) R =�|x− µ0| > zα/2

σ√n

H0 : µ = µ0 �σ desconocida) R =�|x− µ0| > tn−1;α/2

s√n

H0 : µ ≤ µ0 �σ conocida) R =�x− µ0 > zα

σ√n

H0 : µ ≤ µ0 �σ desconocida) R =�x− µ0 > tn−1;α

s√n

H0 : µ ≥ µ0 �σ conocida) R =�x− µ0 < z1−α

σ√n

H0 : µ ≥ µ0 �σ desconocida) R =�x− µ0 < tn−1;1−α

s√n

H0 : σ = σ0 R =�

n−1σ2

0

s2 /∈�χ2

n−1;1−α/2 � χ2n−1;α/2

��

H0 : σ ≤ σ0 R =�

n−1σ2

0

s2 > χ2n−1;α

H0 : σ ≥ σ0 R =�

n−1σ2

0

s2 < χ2n−1;1−α

2.- X ∼ B(1� p) (muestras grandes)

H0 : p = p0 R =

|x− p0| > zα/2

�p0�1−p0)

n

H0 : p ≤ p0 R =

x− p0 > zα

�p0�1−p0)

n

H0 : p ≥ p0 R =

x− p0 < z1−α

�p0�1−p0)

n

3.- X ∼ P (λ) (muestras grandes)

H0 : λ = λ0 R =�|x− λ0| > zα/2

�λ0/n

H0 : λ ≤ λ0 R =�x− λ0 > zα

�λ0/n

H0 : λ ≥ λ0 R =�x− λ0 < z1−α

�λ0/n

106 CAPITULO 6. CONTRASTE DE HIPOTESIS

4.- Dos poblaciones Normales independientes

�s2p y f calculados como en los intervalos de confianza)

H0 : µ1 = µ2 �σ1� σ2 conocidas) R =

|x− y| > zα/2

�σ2

1

n1

+σ2

2

n2

H0 : µ1 = µ2 �σ1 = σ2) R =�|x− y| > tn1+n2−2;α/2 sp

�1n1

+ 1n2

H0 : µ1 = µ2 �σ1 �= σ2) R =

|x− y| > tf ;α/2

�s2

1

n1

+s2

2

n2

H0 : µ1 ≤ µ2 �σ1� σ2 conocidas) R =

x− y > zα

�σ2

1

n1

+σ2

2

n2

H0 : µ1 ≤ µ2 �σ1 = σ2) R =�x− y > tn1+n2−2;α sp

�1n1

+ 1n2

H0 : µ1 ≤ µ2 �σ1 �= σ2) R =

x− y > tf ;α

�s2

1

n1

+s2

2

n2

H0 : µ1 ≥ µ2 �σ1� σ2 conocidas) R =

x− y < z1−α

�σ2

1

n1

+σ2

2

n2

H0 : µ1 ≥ µ2 �σ1 = σ2) R =�x− y < tn1+n2−2;1−α sp

�1n1

+ 1n2

H0 : µ1 ≥ µ2 �σ1 �= σ2) R =

x− y < tf ;1−α

�s2

1

n1

+s2

2

n2

H0 : σ1 = σ2 R =�s21/s

22 /∈

�Fn1−1;n2−1;1−α/2 � Fn1−1;n2−1;α/2

��

H0 : σ1 ≤ σ2 R = {s21/s

22 > Fn1−1;n2−1;α}

H0 : σ1 ≥ σ2 R = {s21/s

22 < Fn1−1;n2−1;1−α}

5.- Comparacion de proporciones (muestras grandes e independientes)

X ∼ B(1� p1), (X1� . . . Xn1) m.a.s. de X

Y ∼ B(1� p2), (Y1� . . . Yn2) m.a.s. de Y

� p =

�i xi +

�i yi

n1 + n2

=n1 x+ n2 y

n1 + n2

H0 : p1 = p2 R =

|x− y| > zα/2

p (1− p)�

1n1

+ 1n2

��

H0 : p1 ≤ p2 R =

x− y > zα

p (1− p)�

1n1

+ 1n2

��

H0 : p1 ≥ p2 R =

x− y < z1−α

p (1− p)�

1n1

+ 1n2

��

3. CONTRASTES χ2107

Ejemplo 43 Una fabrica viene utilizando un proceso A en la elaboracion de un artıculo a base decaucho. Se acaba de descubrir un nuevo proceso B de fabricacion del mismo artıculo que parece querequiere menos caucho. Para decidir si es cierto se selecciona una muestra de nA = 15 artıculosfabricados por proceso A y otra de nB = 17 fabricados por el proceso B. La cantidad de cauchoutilizada para cada muestra, en gramos, dio como resultado xA = 400, sA = 9, xB = 385, sB = 10.5.Supongase que la cantidad de caucho utilizada sigue, en ambos casos, una distribucion normal conla misma varianza. A la vista de estas muestras, ¿que decision se tomara con nivel de significacionα = 0.05?Solucion: Puesto que el interes esta en probar que la cantidad de caucho utilizada por el procesoB es menor que la utilizada por el A, se contrastaran las siguientes hipotesis:

H0 : µA ≤ µB ; H1 : µA > µB

siendo XA ∼ N(µA; σ) y XB ∼ N(µB; σ), con σ desconocida. En este caso la region de rechazo es:

R =

xA − xB > tn�+nB−2;α sp

�1

nA

+1

nB

Calculos:

nA + nB − 2 = 15 + 17− 2 = 30

t30;0.05 = 1.701

s2p =

(nA − 1) s2A + (nB − 1) s2

B

nA + nB − 2=

14 · 81 + 16 · 110.25

30

=1134 + 1764

30=

2898

30= 96.6

sp ≈ 9.83�

1

15+

1

17=

�32

255≈ 0.3542

t30;0.05 sp

�1

15+

1

17≈ 5.9224

xA − xB = 400− 385 = 15

Podemos decir, entonces, que se tiene la suficiente evidencia muestral para aceptar que el nuevoproceso B requiere menos caucho para la misma produccion.

3. Contrastes χ2

Hasta ahora siempre hemos supuesto que la muestra aleatoria, (X1� . . . � Xn), procedıa de unapoblacion X con cierto modelo de probabilidad, del que desconocıamos el valor del parametro θ.Nos podemos, por contra, encontrar ante el problema de desconocer el tipo de modelo que sigue lapoblacion. Cuando las hipotesis se realizan sobre el modelo, y no solo sobre algun parametro, nosencontramos con los contrastes de validacion del modelo, que son contrastes no parametricos.

En los 3 tipos de problemas que vamos a analizar, realizaremos contrastes de hipotesis. En ladescripcion de la region crıtica apareceran ciertos estadısticos que seguiran, aproximadamente, unadistribucion χ2 de Pearson (de aquı el tıtulo de la seccion).

108 CAPITULO 6. CONTRASTE DE HIPOTESIS

3.1. Contrastes de la bondad del ajuste

Supongamos que X es una variable aleatoria de la que suponemos sigue cierta distribucion deter-minada por P . Dada una muestra aleatoria, (X1� . . . � Xn), de la misma, queremos ver si, a la vistade la muestra, es razonable admitir que la distribucion de X es la enunciada. Por tanto, se quierencontrastar las hipotesis:

H0 : “el modelo de probabilidad de X es P”

H1 : “el modelo de probabilidad de X no es P”

Para realizar el contraste se toma una particion (arbitraria) del espacio muestral de la poblacion(posibles valores de X) en k clases, A1, . . . , Ak. Para cada Ai (i = 1� . . . � k) se consideran lassiguientes frecuencias (absolutas):

Oi = “frecuencia observada en Ai” = “numero de elementos de la muestra que se han situado en Ai”

ei = “frecuencia esperada en la clase Ai si la hipotesis nula es cierta”

De estas, las primeras, al ser frecuencias observadas, se obtienen de la muestra. Para las frecuenciasesperadas, ei, observese que cada Ai ocurrira con probabilidad P (Ai) si suponemos cierta la hipotesisnula. Ahora bien, el suceso Ai solo puede ocurrir, o no ocurrir, de manera que

P (Ai) = “la probabilidad de que ocurra Ai, en cada observacion, si H0 es cierta”

y ası, en las n observaciones, esta frecuencia esperada, ei, es la esperanza de una B(n;P (Ai)):

ei = nP (Ai) .

La idea de este tipo de contraste (debida a Pearson), es evaluar las diferencias existentes entrefrecuencias observadas y esperadas, y establecer un valor a partir del cual se considera que las mismasson suficientemente significativas para rechazar el modelo.

El estadıstico que se utiliza para realizar el contraste es:

k�

i=1

(Oi − ei)2

ei

Si la hipotesis nula es cierta (el modelo es el adecuado), este estadıstico (para n suficientementegrande), sigue una χ2

t de Pearson con t, igual a

k − 1� grados de libertad si el modelo especifica completamente

las probabilidades de cada Ai antes de elegir la muestra

k − r − 1� grados de libertad si es preciso estimar r parametros

para obtener las probabilidades de cada Ai.

En caso de tener que realizarse, se usan los estimadores de maxima verosimilitud para los parametros.Denotaremos por χ2

0 a este estadıstico. Fijado el nivel de significacion, α, se obtiene el valor χ2t; α

(t = k − 1 o k − r − 1) tal que P (χ2t > χ2

t;α) = α, y se adopta la siguiente regla de decision:

si χ20 =

k�

i=1

(Oi − ei)2

ei

> χ2t; α se rechaza el modelo.

3. CONTRASTES χ2109

Formula para el calculo del estadıstico. Para el calculo de χ20 se suele utilizar la siguiente

identidad:

χ20 =

k�

i=1

(Oi − ei)2

ei

=

k�

i=1

O2i

ei

− n .

Ejercicio 2 Demostrar la formula anterior.Solucion:

χ20 =

k�

i=1

(Oi − ei)2

ei

=

k�

i=1

O2i − 2Oiei + e2

i

ei

=

k�

i=1

O2i

ei

− 2

k�

i=1

Oi +

k�

i=1

ei

=

k�

i=1

O2i

ei

− 2n+ n

k�

i=1

P (Ai) =

k�

i=1

O2i

ei

− n �

pues es evidente quek�

i=1

Oi = n, y quek�

i=1

P (Ai) = 1.

Ejemplo 44 �Caso 1) Para estudiar si un dado es simetrico se ha lanzado 120 veces, obteniendoel 1, 20 veces; el 2, 30 veces; el 3, 15 veces; el 4, 25 veces; el 5, 22 veces y el 6, 8 veces. Contrastesela hipotesis de simetrıa al nivel de significacion α = 0.05.Solucion: La hipotesis de simetrıa afirmarıa que el modelo de probabilidad que sigue la variableX =“resultado al lanzar el dado”, viene dado por la funcion de masa P con

P (X = 1) = P (X = 2) = P (X = 3) = P (X = 4) = P (X = 5) = P (X = 6) =1

6.

Contrastaremos, pues, las siguientes hipotesis:

H0 : el dado es simetrico (P (1) = P (2) = P (3) = P (4) = P (5) = P (6) = 1/6)

H1 : el dado no es simetrico.

Utilizamos el contraste χ2, calculando el valor del estadıstico

χ20 =

6�

i=1

(Oi − ei)2

ei

que seguira una distribucion χ2 con 6 − 1 = 5 grados de libertad. La siguiente tabla nos ayuda aevaluar el estadıstico:

xi Oi ei Oi − ei (Oi − ei)2 �Oi−ei)

2

ei

1 20 20 0 0 02 30 20 10 100 53 15 20 -5 25 1.254 25 20 5 25 1.255 22 20 2 4 0.26 8 20 -12 144 7.2

χ20 = 14.9

Observese que ei = nP (X = xi) = 120 · 16= 20 para todos los resultados.

Por otra parte, χ25;0.05 = 11.070, y como 14.9 > 11.070, la muestra obtenida nos permite concluir

que el dado no es simetrico, al nivel de significacion 0.05 .

110 CAPITULO 6. CONTRASTE DE HIPOTESIS

Ejemplo 45 �Caso 2) El numero X de llamadas telefonicas recibidas por minuto en una centralitaes una variable aleatoria cuya distribucion puede ser una Poisson. Se realizan 80 experiencias de unminuto, obteniendose los siguientes resultados:

xi = numero de llamadas 0 1 2 3 4 5ni = frecuencia 17 31 18 8 4 2

Calculese la media muestral x y utilıcese un contraste χ2 para estudiar al nivel 0.05 si es aceptablela hipotesis de que la variable X sigue una distribucion de Poisson de parametro λ = x.Solucion:

x =1

80

�(ni · xi) =

0 + 31 + 36 + 24 + 16 + 10

80=

117

80= 1.4625 .

Se quiere, ahora, realizar un contraste con hipotesis nula

H0 : X ∼ Poisson (1.4625)

de manera que las frecuencias esperadas seran:

ei = 80 ·e−1.4625 (1.4625)xi

xi�.

En la siguiente tabla recogemos, con dos decimales, los datos que nos llevan al calculo del es-

tadıstico χ20 =

�Oi−ei)2

ei.

xi Oi ei Oi − ei (Oi − ei)2 �Oi−ei)

2

ei

0 17 18.53 -1.53 2.34 0.131 31 27.10 3.9 15.21 0.562 18 19.82 -1.82 3.31 0.173 8 9.66 -1.66 2.76 0.294 4 3.53 0.47 0.22 0.065 2 1.03 0.97 0.94 0.91

χ20 = 2.12

Para determinar la regla de decision, se considera una χ2 con 6 − 1 − 1 = 4 grados de libertad,pues se ha estimado 1 parametro. Al nivel de significacion marcado, α = 0.05, se tiene χ2

4;0.05 = 9.488.Puesto que 2.12 < 9.488 se acepta la hipotesis de que el modelo de Poisson es apropiado para describirla variable X, al nivel 0.05 de significacion.

3.2. Contraste de homogeneidad de poblaciones

Supongamos que estamos interesados en estudiar si cierta caracterıstica X, se comporta de igualmanera en r poblaciones. Tomarıamos muestras de la misma, de manera independiente, en las rpoblaciones. Tendrıamos, pues, r muestras independientes, con sus correspondientes tamanos mues-trales, digamos n1� n2� . . . � nr, que podemos presentar como:

(X1�1� . . . � X1�n1) � . . . � (Xr�1� . . . � Xr�nr

) .

Para decidir sobre esta cuestion se contrastan las hipotesis:

H0 :X se distribuye homogeneamente en las r poblaciones: X ∼ P

H1 :X no se distribuye homogeneamente en las r poblaciones.

3. CONTRASTES χ2111

En la realizacion de este contraste, tomamos una particion (arbitraria) del espacio muestral comuna las r poblaciones en k clases A1� . . . � Ak. Para cada clase Ai (i = 1� . . . � k) se consideran

Oi�j = “frecuencia observada en Ai en la muestra j–esima”

ei�j = “frecuencia esperada en la clase Ai con la muestra j–esima, si la hipotesis nula es cierta”

= njP (Aj) .

Ası las cosas, para la muestra j–esima

χ20�j =

k�

i=1

(Oi�j − ei�j)2

ei�j

∼ χ2k−1

aproximadamente para nj grande, como vimos en el contraste anterior.Si sumamos los r estadısticos, χ2

0�1� . . . � χ20�r, obtenidos de las r muestras independientes, tenemos:

χ20�0 =

r�

j=1

χ20�j =

r�

j=1

k�

i=1

(Oi�j − ei�j)2

ei�j

∼ χ2r�k−1) .

Sin embargo, nos queda un problema por resolver: no conocemos la distribucion P que sigue X.Normalmente, solo se quiere contrastar si el comportamiento de X es homogeneo en todas las

poblaciones, pero no cual es ese comportamiento (que distribucion concreta sigue). Por tanto, tenemosque estimar P (Ai) (i = 1� . . . � k), y lo hacemos a partir de las observaciones mediante:

�P (Ai) =

�rj=1 Oi�j

n1 + · · ·+ nr

(i = 1� . . . � k)

Denotemos por n la suma de todos los tamanos muestrales: n = n1 + · · · + nr. Con la estimacionadoptada para cada P (Ai), las frecuencias esperadas seran:

ei�j = nj�P (Ai) = nj

�rj=1 Oi�j

n

Una formula mas simetrica, y quiza mas facil de recordar, para el calculo de las frecuencias ei�j,se obtiene observando que: la suma de todas las frecuencias observadas en una misma poblacion,�k

i=1 Oi�j, debe coincidir con el tamano muestral de esa poblacion, nj. Ası, podemos calcular ei�j conla expresion:

ei�j = nj

�rj=1 Oi�j

n=

(�k

i=1 Oi�j)(�r

j=1 Oi�j)

nEn definitiva, el estadıstico utilizado es:

χ20�0 =

r�

j=1

k�

i=1

(Oi�j − ei�j)2

ei�j

que sigue, cuando H0 es cierta, aproximadamente (para n grande) una distribucion

χ2r�k−1)−�k−1) = χ2

�r−1)�k−1) .

Observese que, aunque se han estimado las k probabilidades P (Ai), i = 1� . . . � k, no hace falta estimaruna de ellas, pues entre todas han de sumar 1. De aquı que el numero de grados de libertad de la χ2

baje solo k − 1 unidades.

112 CAPITULO 6. CONTRASTE DE HIPOTESIS

Ası, rechazaremos la hipotesis nula H0 :“X se distribuye homogeneamente en las r poblaciones”,al nivel de significacion α, si:

χ20�0 =

r�

j=1

k�

i=1

(Oi�j − ei�j)2

ei�j

> χ2�r−1)�k−1);α .

Formula para el calculo del estadıstico. Como en el caso anterior, se suele utilizar la siguienteidentidad para el calculo del estadıstico:

χ20�0 =

r�

j=1

k�

i=1

(Oi�j − ei�j)2

ei�j

=

r�

j=1

k�

i=1

O2i�j

ei�j

− n .

Ejercicio 3 Demostrar la formula anterior.

Ejemplo 46 Se ha dividido una poblacion en dos grupos, solteros y casados, y se han seleccionadomuestras de 40 solteros y 50 casados. Se les ha pedido opinion sobre determinada ley, resultando losdatos de la tabla

A favor En contra Abstencion TotalesSolteros 15 10 15 40Casados 21 20 9 50Totales: 36 30 24 90

Contrastese al nivel 0.05 si los resultados son homogeneos para los dos grupos.Solucion: La hipotesis de homogeneidad es:

H0 : la opinion sobre esa ley se distribuye homogeneamente entre solteros y casados.

Adoptamos la siguiente notacion:

O1�1 = 15; O1�2 = 10; O1�3 = 15; O2�1 = 21; O2�2 = 20; O2�3 = 9

n1 =

3�

j=1

O1�j = O1�1 +O1�2 +O1�3 = 15 + 10 + 15 = 40 = numero de solteros encuestados

n2 =

3�

j=1

O2�j = O2�1 +O2�2 +O2�3 = 21 + 20 + 9 = 50 = numero de casados encuestados

n = n1 + n2 = 40 + 50 = 90 = total de encuestados

F = a favor, C = en contra, A = abstencion

�P (F ) =

�2i=1 Oi�1

n=

O1�1 +O2�1

90=

15 + 21

90=

36

90

�P (C) =

�2i=1 Oi�2

n=

O1�2 +O2�2

90=

10 + 20

90=

30

90

�P (A) =

�2i=1 Oi�3

n=

O1�3 +O2�3

90=

15 + 9

90=

24

90�o tambien: �P (A) = 1− �P (F )− �P (C) = 1−

36

90−

30

90=

90− 66

90=

24

90

3. CONTRASTES χ2113

Ası, se obtienen las siguientes frecuencias esperadas:

e1�1 = n1 · �P (F ) = 4036

90= 16 e2�1 = n2 · �P (F ) = 50

36

90= 20

e1�2 = n1 · �P (C) = 4030

90=

40

3e2�2 = n2 · �P (C) = 50

30

90=

50

3

e1�3 = n1 · �P (A) = 4024

90=

32

3e2�3 = n2 · �P (A) = 50

24

90=

40

3Podemos ahora calcular el valor del estadıstico, y usaremos la formula

χ20�0 =

r�

j=1

k�

i=1

O2i�j

ei�j

− n �

donde k = 2 (hay 2 tipos de poblaciones), y r = 3 (tres opiniones). En definitiva:

χ20�0 =

3�

j=1

2�

i=1

O2i�j

ei�j

− n =

3�

j=1

�O21�j

e1�j

+O2

2�j

e2�j

�− 90

=O2

1�1

e1�1

+O2

2�1

e2�1

+O2

1�2

e1�2

+O2

2�2

e2�2

+O2

1�3

e1�3

+O2

2�3

e2�3

− 90

=225

16+

3 · 100

40+

3 · 225

32+

441

20+

3 · 400

50+

3 · 81

40− 90

= 94.78125− 90 = 4.78125

Ahora bien, para una χ2 con (3−1)(2−1) = 2 grados de libertad y α = 0.05 resulta que χ22;0.05 = 5.991.

Como el valor del estadıstico, 4.78125, es menor que 5.991 = χ22;0.05, aceptamos (al nivel 0.05)

la hipotesis nula, es decir, que la opinion sobre la ley citada se distribuye homogeneamente entresolteros y casados.

3.3. Contraste de independencia

Supongamos ahora que se quiere estudiar si dos caracterısticas,X e Y , de una poblacion estan o norelacionadas. Para este estudio, se recogen datos muestrales de ambas caracterısticas conjuntamente,obteniendo una muestra de datos agrupados:

(X1� Y1)� . . . � (Xn� Yn) .

Lo que se pretende es ver si, a la vista de la muestra, tiene sentido admitir que X e Y son indepen-dientes. Contrastaremos, pues, las hipotesis:

H0 : = X e Y son independientes

H1 : = X e Y no son independientes.

Como en casos anteriores, se toma una particion (arbitraria) del espacio muestral, en este caso,para la variable (X� Y ). Para ello, partimos el espacio muestral de X (posibles valores de X) enk clases, A1� . . . � Ak; y el de Y en r clases B1� . . . � Br. Estas particiones nos dan una particion delespacio muestral de (X� Y ) en k × r clases:

A1 × B1� . . . � A1 × Br� A2 × B1� . . . � A2 × Br� . . . � . . . � Ak × B1� . . . � Ak × Br .

114 CAPITULO 6. CONTRASTE DE HIPOTESIS

Sean, ahora:

Oi�j = frecuencia observada en la clase Ai × Bj

ei�j = frecuencia esperada en la clase Ai × Bj, si se supone independencia (H0 cierta)

= nP (Ai)P (Bj)

Las primeras se obtienen de la muestra, y para las segundas se usan las estimaciones:

�P (Ai) =

�rj=1 Oi�j

n; �P (Bj) =

�ki=1 Oi�j

n�

de manera que, las frecuencias esperadas si H0 fuera cierta, tomando estas estimaciones, serıan:

ei�j = n�P (Ai)�P (Bj) = n

�rj=1 Oi�j

n

�ki=1 Oi�j

n=

� �rj=1 Oi�j

� � �ki=1 Oi�j

n.

Se toma el estadıstico:

χ20�0 =

r�

j=1

k�

i=1

(Oi�j − ei�j)2

ei�j

que sigue, cuando H0 es cierta, aproximadamente (para n grande) una distribucion χ2 con

rk − 1− (k − 1)− (r − 1) = (r − 1)(k − 1) grados de libertad.

Como se puede observar, el estadıstico anterior coincide con el utilizado para el contraste de homoge-neidad, aunque tiene un origen distinto. En este caso, se han estimado k− 1 de las k probabilidadesP (Ai), para i = 1 . . . � k, y r − 1 de las r probabilidades P (Bj), para j = 1� . . . � r.

Finalmente, se rechazara la hipotesis de independencia (H0), al nivel de significacion α si:

χ20�0 =

r�

j=1

k�

i=1

(Oi�j − ei�j)2

ei�j

> χ2�r−1)�k−1);α .

Ejemplo 47 Para estudiar la dependencia entre el habito de fumar y la hipertension, se tomaronlos siguientes datos sobre 200 individuos

No fumadores Fumadores TotalesHipertensos 23 74 97No hipertensos 54 49 103Totales: 77 123 200

Realıcese el contraste adecuado al 5� de significacion.

Solucion: Se trata de un contraste de independencia sobre las caracterısticas X =“ser fumador”,e Y =“sufrir hipertension”. Tomamos como hipotesis nula:

H0 : sufrir hipertension no depende de ser fumador.

Los datos aportados nos dicen que se han dividido los espacios muestrales en las siguientes clases:

A1 =NF = no fumador, A2 = F = fumador, para la caracterıstica X;

B1 = H = hipertenso, B2 = NH = no hipertenso, para la caracterıstica Y .

La muestra, para (X� Y ), es de n = 200 individuos.

3. CONTRASTES χ2115

Para realizar el contraste utilizaremos el estadıstico:

χ20�0 =

2�

j=1

2�

i=1

(Oi�j − ei�j)2

ei�j

siendo:O1�1 = 23 ; O1�2 = 74 ; O2�1 = 54 ; O2�2 = 49

�P (NF ) =77

200�P (F ) =

123

200

�P (H) =97

200�P (NH) =

103

200

e1�1 = n �P (NF )�P (H) =77 · 97

200e2�1 = n �P (F )�P (H) =

123 · 97

200

e1�2 = n �P (NF ) �P (NH) =77 · 103

200e2�2 = n �P (F ) �P (NH) =

123 · 103

200

Utilizando la formula de la seccion precedente para el estadıstico, se obtiene:

χ20�0 =

2�

j=1

2�

i=1

O2i�j

ei�j

− n =O2

1�1

e1�1

+O2

2�1

e2�1

+O2

1�2

e1�2

+O2

2�2

e2�2

− 200

=200 · 232

77 · 97+

200 · 542

123 · 97+

200 · 742

77 · 103+

200 · 492

123 · 103− 200

≈ 239.041− 200 = 39.041

Para decidir, a nivel de significacion 0.05, comparamos este valor con χ2t; 0.05 para una χ2 con

t=(2−1)(2−1)=1 grado de libertad: χ21; 0.05 = 3.841. Como el estadıstico toma un valor superior, hemos

de rechazar H0, y se concluye (al 0.05 de significacion) que hay dependencia entre la hipertension yel habito de fumar.

Problemas

Contrastes parametricos

1. Se sabe que una vacuna es efectiva contra cierta enfermedad en el 25% de los casos. Para decidirsi una nueva vacuna es mas efectiva, se administra a 10 personas y se adopta la siguiente reglade decision:

si el numero de personas protegidas es mayor que 4� se admite la nueva

vacuna.

a) ¿Que tipo de contraste se debe utilizar? Indıquense las hipotesis apropiadas.

b) Describir las regiones de aceptacion y de rechazo.

c) Calculense las probabilidades de error tipo I y tipo II para el caso en que la nueva vacunasea efectiva en un 50% de los casos.

2. Dada una muestra aleatoria de tamano 5 de una poblacion N(µ ; � 1), se decide que µ < 5siempre que x ≤ c (para cierta constante c).

116 CAPITULO 6. CONTRASTE DE HIPOTESIS

a) Especificar que contraste de hipotesis realizarıamos.

b) Para un nivel de significacion α = 0.05:

b.1 Obtengase c.

b.2 Determınese la potencia del test para µ = 4.

b.3 Calcular P�aceptar H0 |µ = 5.5

�.

3. Una empresa fabrica cuerdas cuya resistencia media a la rotura es de 300 kg., con desviaciontıpica 24 kg. Una muestra de 64 cuerdas fabricadas mediante un nuevo proceso dio una re-sistencia media de 310 kg. La companıa desea estudiar si, efectivamente, el nuevo proceso damejores resultados que el antiguo. Realizar dicho estudio, con niveles de significacion 0.10, 0.05y 0.01.

4. La longitud media de los ejes fabricados por una companıa es 7.05 mm con desviacion tıpica0.15 mm. Una muestra de tamano 36, seleccionada como control del proceso, dio una media de6.95 mm. ¿Cabe esperar, a partir de este dato, que hay algun fallo en el proceso de produccion?(Tomese nivel de significacion α = 0.05.)

5. Se ha aplicado un test de memoria a un gran numero de estudiantes, encontrandose desviacionestıpicas de 33.5 para los alumnos y de 38.2 para las alumnas. Aplicando el test a 38 alumnosy 45 alumnas se obtuvieron puntuaciones medias de 165.4 y 176.6 respectivamente. ¿Se puedeasegurar, al nivel de confianza α = 0.05, que el resultado del test de memoria es independientedel sexo?

6. Una muestra de 200 bombillas de la marca A dio una vida media de funcionamiento de 2280horas con desviacion tıpica de 80 horas. Otra muestra de 180 bombillas de la marca B diovida media 2320 horas con desviacion tıpica 100 horas. ¿Se puede afirmar, al nivel 0.01, que esmayor la vida media para la marca B?

7. Un laboratorio de farmacia afirma que un producto que elabora es efectivo para aliviar ciertamolestia en no menos del 90% de los casos en 12 horas. Ese medicamento recetado a unamuestra aleatoria de 300 personas enfermas dio buen resultado, al cabo de 12 horas, en 240casos. ¿Se puede aceptar al nivel de significacion 0.01 que la afirmacion del laboratorio escorrecta?

8. Se sabe que cierto medicamento es efectivo en el alivio de cierta dolencia en el 60% de loscasos. Los resultados experimentales sobre un medicamento nuevo administrado a una muestrade 144 personas que sufrıan esa dolencia, muestran 100 casos con alivio. Se puede concluir, alnivel 0.05, que el nuevo medicamento es mas efectivo que el antiguo.

9. Un fabricante de cierto artıculo produce dos marcas del mismo. En una muestra de 200 consumi-dores, 64 habıan consumido la primera marca, y en otra muestra de 120, 22 habıan consumido lasegunda. ¿Se puede afirmar que existe preferencia significativa por la primer marca? Nivel 0.01 .

10. Una fabrica dispone de una seccion dedicada a empaquetar los artıculos producidos, trabajandoen turnos de manana y tarde. La experiencia ha demostrado que la distribucion del tiempo deempaquetado de un artıculo es aproximadamente normal en los dos turnos. Una muestra de20 tiempos de empaquetado del turno de manana (M) dio cuasivarianza 5.2 minutos y otra de

3. CONTRASTES χ2117

16 tiempos del turno de tarde (T) dio cuasivarianza 6.4 minutos. Contrastese la hipotesis nulaσ2

M ≤ σ2T frente a la alternativa σ2

M > σ2T , al nivel 0.01 .

11. Un fabricante de pilas electricas afirma que la vida de la pilas que fabrica esta distribuida deforma normal con desviacion tıpica 0.8 meses. Se selecciona una muestra de 16 pilas resultandouna desviacion tıpica muestral de 0.85.

a) ¿Se puede asegurar al nivel 0.05 que σ > 0.8?

b) Una muestra de 10 pilas de otro fabricante dio cuasivarianza 0.70. ¿Se puede concluir alnivel 0.02 que la varianza para las dos marcas es la misma?

12. Se considera buena la edicion de un libro si el numero medio de erratas por pagina no superael 0.1 (H0). Dadas las pruebas de imprenta, se eligen 10 paginas al azar, y se rechazan laspruebas si se observan 2 o mas erratas. Se supone que el numero de erratas por pagina sigueuna Poisson.

¿Que nivel de significacion tiene el contraste? ¿Con que probabilidad aceptaremos un libro sirealmente tiene una media de 0.2 erratas por pagina?

13. En una piscifactorıa se desea contrastar la hipotesis (H0) de que el porcentaje de peces adultosque miden menos de 20 cm. es, como maximo, del 10%. Para ello, se va a tomar una muestrade 6 peces, y rechazaremos H0 si encontramos mas de un pez con longitud inferior a 20 cm.

a) ¿Cual es el nivel de significacion de este contraste?

b) Calcular la potencia del contraste si en realidad hay un 20% de peces que miden menosde 20 cm.

14. La concentracion media de dioxido de carbono en el aire en una cierta zona no es habitualmentemayor que 355 p.p.m.v. (partes por millon en volumen). Se sospecha que esta concentracion esmayor en la capa de aire mas proxima a la superficie. Para contrastar esta hipotesis se analizael aire en 20 puntos elegidos aleatoriamente a una misma altura cerca del suelo. Resulto unamedia muestral de 580 p.p.m.v y una cuasi–desviacion tıpica muestral de 180. Suponiendonormalidad para las mediciones, ¿proporcionan estos datos suficiente evidencia estadıstica, alnivel 0.01, a favor de la hipotesis de que la concentracion es mayor cerca del suelo? Indicarrazonadamente si el p–valor es mayor o menor que 0.01 .

15. Se van a probar dos medicamentos, A y B, contra una enfermedad. Para esto, tratamos 100ratones enfermos con A y otros 100 con B. El numero medio de horas que sobreviven con A esx = 1 200, y el numero medio con B es y = 1400. Suponiendo normalidad en ambos casos, sepide:

a) Para α = 0.10, ¿se puede aceptar igualdad de varianzas si sabemos que�

(xi−x)2=900 000

y�

(yi − y)2 = 950 000?

b) ¿Es mas efectivo el medicamento B? Plantear el contraste adecuado para estudiar estocon un nivel de confianza del 95%.

118 CAPITULO 6. CONTRASTE DE HIPOTESIS

16. Con objeto de estudiar si las pulsaciones en los hombres pueden considerarse menores que en lasmujeres, se tomaron muestras de 16 hombres y 16 mujeres, obteniendose los siguientes datos:

Hombres (X): 74 77 71 76 79 74 83 79 83 72 79 77 81 79 84 80Mujeres (Y): 81 84 80 73 78 80 82 84 80 84 75 82 79 82 79 85

¿Que se puede decir al respecto?

17. Se tienen algunos indicios de que el consumo de tabaco tiende a provocar problemas de trombo-sis debidos a un aumento en la capacidad de coagulacion. Para estudiar esta hipotesis, Levine(1973) extrajo muestras de sangre de 11 individuos antes y despues de que fumasen un ci-garrillo y midio la capacidad de agregacion de las plaquetas, obteniendo los datos siguientes(correspondientes al maximo porcentaje de plaquetas que se agregaron despues de haber sidosometidas a un estımulo adecuado):

Antes: 25 25 27 44 30 67 53 53 52 60 28Despues: 27 29 37 56 46 82 57 80 61 59 43

¿Hay suficiente evidencia estadıstica (al nivel de significacion 0.01) a favor de la hipotesis de quelos fumadores presentan mayor tendencia a la formacion de coagulos? Indicar las condicionesque se requieren para que el test utilizado sea valido.

Contrastes χ�

18. Se sabe que en cierta provincia durante un ano dado han nacido 7423 ninos y 7043 ninas.¿Es aceptable la hipotesis de igualdad de probabilidad de nacimiento de nino y nina en esaprovincia? Utilıcese el nivel de significacion 0.05 .

19. Una muestra aleatoria de 3839 observaciones de una poblacion en la que se ha clasificado a losindividuos en cuatro tipos A, B, C y D ha dado las siguiente composicion:

Tipo A Tipo B Tipo C Tipo D1997 906 904 32

Contrastese si es aceptable, al nivel del 1%, la hipotesis:

H0 : P (A) = 9/16� P (B) = P (C) = 3/16� P (D) = 1/16 .

20. Los datos siguientes corresponden al numero de libros entregados en prestamo por una biblio-teca durante los distintos dıas de una cierta semana. Utilizando el nivel de significacion 0.05,contrastese la hipotesis de que el numero de libros prestados no depende del dıa de la semana.

Lunes Martes Miercoles Jueves ViernesLibros prestados 105 89 102 92 132

21. Con objeto de contrastar la hipotesis de igual probabilidad de nacimiento de hijo que de hija,se estudiaron 200 familias de cuatro hijos con los siguientes resultados:

numero de hijos varones 4 3 2 1 0numero de familias 13 52 90 39 6

Contrastese la hipotesis al nivel de significacion α = 0.05.

3. CONTRASTES χ2119

22. Ajustese a los datos siguientes una distribucion normal y estudiese la bondad del ajuste (al 5%).

Clases Frecuencia60–70 570–80 1880–90 4290–100 27100–110 8

23. En Espana, los tantos por ciento de personas de los grupos sanguıneos O, A, B y AB son,respectivamente, 39, 44, 13 y 4. Se selecciona una muestra de 200 individuos de una poblacionsituada en una zona montanosa con malos accesos, resultando 71 personas del grupo O, 69 delA, 41 del B y 19 del AB. Contrastese, al nivel 0.01, si estos resultados concuerdan con los dadospara Espana.

24. Se han aplicado a tres grupos de pacientes tratamientos distintos A, B y C, obteniendose losresultados de la tabla para el numero de pacientes con recaıda.

Con recaıda (R) Sin recaıda (NR)A 100 200B 60 140C 40 60

Contrastese al nivel del 5% si pueden considerarse homogeneos los resultados obtenidos paralos tres tratamientos.

25. Despues de lanzar un dado 500 veces, se ha obtenido la siguiente tabla de frecuencias:

xi 1 2 3 4 5 6ni 76 83 90 78 99 74

Al nivel se significacion 0.05, ¿se puede afirmar que el dado es regular?

26. Se clasificaron 1000 individuos de una poblacion segun el sexo y segun fueran daltonicos o no.La tabla de frecuencias obtenida fue:

Masculino FemeninoDaltonico 38 6No daltonico 442 514

Segun un modelo genetico, las probabilidades deberıan ser:12q 1

2q2

12p 1

2p2 + pq

siendo q = 1− p = la proporcion en la poblacion de genes que provocan el daltonismo.

A partir de la muestra, se ha estimado que �q = 0.087. ¿Concuerdan los datos con el modelo?

27. Una fabrica de automoviles quiere averiguar si la preferencia de modelo tiene relacion conel sexo de los clientes. Se toman dos muestras aleatorias de 1000 hombres y 1000 mujeres,observandose las siguientes preferencias:

ModeloSexo A B C

Mujer 340 400 260Hombre 350 270 380

¿Son homogeneas las preferencias entre hombres ymujeres, al nivel de significacion 0.01?