Capitulo10 probabilitat

30
Cap´ ıtulo 10 Contraste de Hip ´ otesis 10.1. Contraste de hip ´ otesis, conceptos b ´ asicos Como ya hemos adelantado en el cap´ ıtulo 9, en muchos problemas de estad´ ısti- ca suponemos, o sospechamos, que una determinada poblaci´ on est´ a descrita por una determinada densidad de probabilidad, cuyos par´ ametros podemos o no cono- cer total o parcialmente. En general se denomina hip´ otesis a una conjetura sobre la poblaci ´ on, a menudo un modelo sobre la distribuci´ on de probabilidad que sigue dicha poblaci ´ on. Si la conjetura es sobre los valores de los par´ ametros de la distri- buci´ on se la llama hip´ otesis param´ etrica. Si los par´ ametros est´ an especificados la hip´ otesis se denomina simple. Si por el contrario no lo est´ an se la llama com- puesta. El contraste de hip´ otesis es un procedimiento para, a partir de una o varias muestras, concluir sobre la validez o invalidez de una hip´ otesis. Es importante no confundir hip´ otesis v´ alida con hip´ otesis cierta. Estrictamen- te nunca podemos probar que una hip ´ otesis cient´ ıfica es cierta. Lo que si podemos es falsearla, es decir, probar que es falsa. Cuando aceptamos una hip´ otesis como alida est´ a impl´ ıcito que lo que queremos decir es que es consistente con todas las observaciones hasta el momento, donde la palabra consistente debe ser lo m´ as cuantitativa posible. Esto se logra especificando claramente el procedimiento uti- lizado para establecer la consistencia o falta de ella. Por eso es muy importante dar no solamente una respuesta, hip´ otesis aceptada o rechazada, sino tambi´ en el omo, con qu´ e procedimiento, la hemos elaborado. Cuando nos planteamos un problema de contraste de hip´ otesis, generalmente existe una hip´ otesis de partida, basada en la evidencia disponible hasta entonces o simplemente en las creencias del investigador. A tal hip´ otesis se la denomina hip´ otesis nula y se la suele denotar por H 0 . A las hip´ otesis alternativas, a aque- 195

description

probabilitat

Transcript of Capitulo10 probabilitat

Page 1: Capitulo10 probabilitat

Capıtulo 10

Contraste de Hipotesis

10.1. Contraste de hipotesis, conceptos basicosComo ya hemos adelantado en el capıtulo 9, en muchos problemas de estadısti-

ca suponemos, o sospechamos, que una determinada poblacion esta descrita poruna determinada densidad de probabilidad, cuyos parametros podemos o no cono-cer total o parcialmente. En general se denomina hipotesis a una conjetura sobrela poblacion, a menudo un modelo sobre la distribucion de probabilidad que siguedicha poblacion. Si la conjetura es sobre los valores de los parametros de la distri-bucion se la llama hipotesis parametrica. Si los parametros estan especificadosla hipotesis se denomina simple. Si por el contrario no lo estan se la llama com-puesta. El contraste de hipotesis es un procedimiento para, a partir de una ovarias muestras, concluir sobre la validez o invalidez de una hipotesis.

Es importante no confundir hipotesis valida con hipotesis cierta. Estrictamen-te nunca podemos probar que una hipotesis cientıfica es cierta. Lo que si podemoses falsearla, es decir, probar que es falsa. Cuando aceptamos una hipotesis comovalida esta implıcito que lo que queremos decir es que es consistente con todaslas observaciones hasta el momento, donde la palabra consistente debe ser lo mascuantitativa posible. Esto se logra especificando claramente el procedimiento uti-lizado para establecer la consistencia o falta de ella. Por eso es muy importantedar no solamente una respuesta, hipotesis aceptada o rechazada, sino tambien elcomo, con que procedimiento, la hemos elaborado.

Cuando nos planteamos un problema de contraste de hipotesis, generalmenteexiste una hipotesis de partida, basada en la evidencia disponible hasta entonceso simplemente en las creencias del investigador. A tal hipotesis se la denominahipotesis nula y se la suele denotar por H0. A las hipotesis alternativas, a aque-

195

Page 2: Capitulo10 probabilitat

llas que queremos investigar, se las denomina H1, H2, etc. En general la hipotesisnula es la que se supone valida en principio, a menos que haya una evidencia es-tadıstica de lo contrario. Es decir, lo que se quiere es ver si la hipotesis nula debeser reemplazada por una hipotesis alternativa, a la vista de los datos de la muestra.Si los datos no indican de manera significativa que la hipotesis nula es incorrecta,dicha hipotesis se da generalmente por valida. Para rechazar la hipotesis nula re-querimos en general estar bastante seguros de que no es cierta. Veremos que estaseguridad se plasma en el nivel de significacion, definido como la probabilidadde rechazar la hipotesis nula cuando esta es correcta (ver mas abajo). En ge-neral se requiere que dicho nivel sea bajo, por ejemplo del 0.05, 0.01 o 0.001.

Para poner un ejemplo sigamos con uno que ya hemos utilizado en la seccion9.6 del capıtulo 9, referente a la altura media de los individuos de una pobla-cion. Supongamos que en una estimacion previa, hecha algun tiempo atras, seencontro que la altura media era de 170cm con una desviacion tıpica de 10cm.Supongamos ahora que en una muestra de 100 individuos, hecha en la actualidad,nos encontramos con que la altura media muestral es de 171,5cm. En este caso loque queremos investigar es si el hecho de que 171,5cm sea mayor que 170cm esdebido a que la altura media de la poblacion ha aumentado o bien que se trata deuna fluctuacion de dicha cantidad en la muestra que hemos elegido. En este caso lahipotesis nula es que la altura de la poblacion no ha aumentado significativamen-te. La hipotesis alternativa, H1, la que queremos investigar, es que la diferencia de1,5cm es significativa y que por lo tanto la altura media ha aumentado. Veremosmas abajo como plantear este problema.

Para cada hipotesis H tendremos una densidad de probabilidad de la variablex (cuyos valores constituyen la poblacion) que podrıamos denotar por f(x|H). Sihacemos un muestreo (x1, .., xn) podemos formar un estadıstico t(xi, . . . , xn) elcual tendra una densidad de probabilidad g(t(x))|H). El contraste de hipotesis serealizara en general a partir de dicho estadıstico, llamado estadıstico de test (deahı la notacion) o estadıstico de contraste. Lo ideal serıa disponer de un t de mane-ra que las densidades de probabilidad para las distintas hipotesis g(t|H0), g(t|H1),etc, fuesen lo mas distintas posibles, tal como se ilustra en la Figura 10.1. La no-tacion de probabilidad condicional se debe a que g(t(x)|H) depende en generalde la densidad supuesta para las x, es decir de H .

Tanto x como t pueden ser multidimensionales, con lo que tendrıamos unafuncion ~t(~x). Para simplificar la discusion vamos a considerar por el momentoque ~t consiste en una sola variable numerica t. Mas adelante trataremos el casomultidimensional.

196

Page 3: Capitulo10 probabilitat

Figura 10.1: La densidad de probabilidad del estadıstico t para la hipotesis nula, H0, y para unahipotesis alternativa, H1. La region crıtica es el intervalo (tc,∞). Si el valor de t pertenece a eseintervalo entonces se rechaza la hipotesis nula.

En nuestro ejemplo el estadıstico de contraste va a ser la variable estandarizada

t = z =µ− µσ/√n, (10.1)

que sabemos esta distribuida de manera normal N(0, 1).

10.1.1. Region Crıtica y Nivel de SignificacionLa aceptacion o rechazo de la hipotesis nula se basa en el valor de t para la

muestra. En general se define una region crıtica de t de manera que si t tieneun valor dentro de la region crıtica la hipotesis H0 se rechaza, de lo contrario seacepta. El nivel de significacion o nivel de significancia (significance level, eningles) es la probabilidad asociada a la region crıtica. En la figura 10.1 la regioncrıtica es el intervalo (tc,∞), y el nivel de significancion viene dado por la integral

α =

∫ ∞tc

g(t|H0)dt (10.2)

El significado de α es por lo tanto la probabilidad de rechazar H0 cuandoH0 es verdadera. Tambien se habla de α como el tamano de la region crıtica. Sise rechaza H0 cuando es verdadera se dice que se comete un error de tipo I. Untermino apropiado para α en muchas situaciones es el de ineficiencia, es decir,α es el porcentaje de errores de tipo I, el porcentaje de rechazos de la hipotesis

197

Page 4: Capitulo10 probabilitat

correcta. En general para esta cantidad se elige un valor pequeno, tal como el 5 %,el 1 % o el 0.1 %. En este ejemplo aceptarıamos la hipotesis H0 si t < tc.

A la region de t fuera de la crıtica se la denomina region de aceptancia. Al sert una funcion de x, t = t(xi|H), la region crıtica en t tambien define una corres-pondiente region crıtica en el espacio de las x de manera implıcita por la formula10.2. La probabilidad asociada a la region de aceptancia recibe el nombre de ni-vel de confianza (NC), ya que efectivamente coincide con el nivel de confianzautilizado en el contexto de la estimacion de parametros, como hemos visto en laseccion 9.5. El nivel de confianza es la probabilidad asociada a la region de con-fianza, y por lo tantoNC = 1−α. Esta es la justificacion de la notacion empleadaen el capıtulo 9, formulas 9.50 y 9.51. Es importante recalcar que α, y por lo tantoel NC, son cantidades que deben ser elegidas a priori, independientemente de lamuestra o muestras que utilicemos para calcular el valor de t.

Continuando con el ejemplo anterior supongamos que para aceptar la hipotesisexigimos un nivel de significacion del 5 % (o equivalentemente un nivel de con-fianza del 95 %). Por lo que ya sabemos del ejemplo 2 de la seccion 9.6 (formula9.52), tc = 1,96. Como 1,5 < 1,96, es decir, t < tc, t esta fuera de la regioncrıtica lo que nos lleva a la conclusion de que no debemos rechazar la hipotesisnula, o que no hay evidencia estadıstica significativa para aceptar la hipotesisalternativa al nivel de significacion del 5 %.

Otro ejemploOtro ejemplo de un test de hipotesis serıa el siguiente: para evaluar la eficacia

de un entrenamiento se selecciona a un grupo de 10 atletas que tengan una puntua-cion de 5 puntos en un test (basado en multiples parametros fisiologicos) disenadopara medir la forma fısica. Despues del entrenamiento se avalua de nuevo el esta-do fısico de los 10 atletas y se encuentra que la puntuacion ha cambiado y tienelos valores {6, 7, 4, 5, 7, 8, 7, 3, 8, 5}. ¿Se puede aceptar que han mejorado? Pa-ra aplicar el test vamos a utilizar la media del estado de forma caracterizado porlos valores numericos anteriores, cuyo promedio es x = 6. A partir de la muestratambien podemos calcular la varianza muestral que en este caso nos da σ = 1,792.Por el capıtulo 2 sabemos que la variable

t =(x− µ)

σ/√n, (10.3)

sigue una distribucion t de Student con 9 grados de libertad. La hipotesis nulava a tener como distribucion de probabilidad g(t) la distribucion de Student conµ = 5 en la formula anterior. El estadıstico de contraste es simplemente la variablet definida en dicha formula. Como hipotesis alternativa vamos a suponer que los

198

Page 5: Capitulo10 probabilitat

atletas han mejorado su forma, es decir que µ > 5 con un nivel de significaciondel 5 %. (Consideramos solamente una hipotesis alternativa, la de que los atletashan mejorado su forma. No consideramos la posibilidad de que ocurriese lo con-trario).

La region crıtica para aceptar H0 es en este caso la region de t mayor que elvalor tc tal que

α = 0,05 =

∫ ∞tc

fstudent(x;µ = 5, nd = 9)dx (10.4)

A partir de unas tablas o de un programa se llega a que tc = 1,715. Por otra parteel valor de t en la formula 10.3 es en nuestro caso 1,764. Ello implica que t esta enla region crıtica de aceptacion de H0, por lo tanto debemos rechazar la hipotesisnula, es decir, podemos decir que los atletas han mejorado su forma.

10.1.2. Errores de tipo II y potencia del testCuando se contrasta una hipotesis puede ocurrir que se acepte H0 cuando es

falsa y en este caso se dice que se comete un error de tipo II. La probabilidad deque esto ocurra depende de la distribucion de probabilidad de la hipotesis alterna-tiva H1 y vendra dada por la integral (ver figura 10.1)

β =

∫ tc

−∞g(t|H1)dt. (10.5)

La cantidad β es por lo tanto la probabilidad de cometer un error de tipo II, esdecir, de aceptar la hipotesis H0 cuando es falsa, lo cual depende, como vemos,de la hipotesis alternativa. A la cantidad 1 − β se la llama potencia del test pararechazar H1.

La tabla 10.1 resume las situaciones posibles, junto con las probabilidadesasociadas

Decision / Situacion H0 cierta H0 falsaAceptar H0 correcto Error tipo II

Prob. 1− α Prob. βRechazar H0 Error tipo I correcto

Prob. α Prob. 1− β

199

Page 6: Capitulo10 probabilitat

Volviendo de nuevo al ejemplo, la hipotesis alternativa es que la media µ des-pues del entrenamiento sea mayor que 5. En este caso β es simplemente 1−α, esdecir, la distribucion del estadıstico es la misma, independientemente de cual seala media pues en ambos casos es la distribucion de Student con el mismo numerode grados de libertad. Los casos de contraste de medias de poblaciones utilizandola distribucion de Student estan explicados en mas detalle en la seccion 10.4.

Hay que destacar que la interpretacion de α como la probabilidad de rechazarH0 cuando H0 es verdadera tiene sentido solamente en la interpretacion frecuen-tista de probabilidad. Es decir, si hiciesemos el experimento muchas veces (o loque es lo mismo, si hiciesemos muchas muestras) α nos da el porcentaje de vecesque obtendrıamos un resultado menos probable que el implicado por el valor detc si la hipotesis H0 es correcta. Esta probabilidad no nos dice nada acerca de lavalidez de las hipotesis H0 y H1. Por eso, tal como ya se ha dicho, es importanteestablecer claramente los procedimientos que llevan a una afirmacion sobre lashipotesis utilizadas. Tanto estas como el valor de α deben de elegirse antes derealizar el test.

10.1.3. Tipos de ContrasteUn caso bastante comun donde se plantea el problema del contraste de hipote-

sis es en el de clasificacion de un fenomeno, observado repetidamente, en cla-ses. La clasificacion se realiza en base a una cantidad, t, construida a partir delas senales producidas en nuestro instrumento de observacion. Por ejemplo po-demos estar observando las senales que deja una partıcula elemental al pasar porun detector y, a partir de ellas, clasificar la partıcula como perteneciente a un tipodeterminado. O podemos estar examinando imagenes de un conjunto de galaxiasobtenidas con un telescopio y, a partir de las mismas, identificar cuales de ellasson en realidad galaxias y no otros objetos tales como estrellas. H0 podrıa ser lahipotesis de que lo que estamos observando es una senal y H1 la hipotesis de quepor el contrario se trata de ruido de fondo. Hagamos H0 ≡ S y H1 ≡ B. Ladistribucion g(t|S) es la distribucion de la cantidad medida (o construida en basea varias medidas) para la senal y g(t|B) la distribucion de dicha cantidad para elruido.

La region de aceptancia en t no fija de manera unıvoca la region de aceptanciaen x definida implıcitamente por la ecuacion 10.2. Distintas regiones de x puedentener el mismo nivel de significacion (ver mas abajo el contraste de una cola ydos colas, por ejemplo). En este caso el criterio a seguir serıa elegir aquella regionde x de manera que la la probabilidad asociada a la hipotesis alternativa, β, fuesemınima. O en otras palabras: elegir la region de x para la cual el test de la hipotesis

200

Page 7: Capitulo10 probabilitat

alternativa tuviese la maxima potencia. Cuando se tiene una sola variable, t, α yβ estan totalmente correlacionadas, una vez especificadas H0 y H1 y tc. Aumen-tar el nivel de significacion α significa aumentar la region crıtica y por lo tantola probabilidad de cometer un error de tipo I, disminuyendo al mismo tiempo laprobabilidad de cometer un error de tipo II.

Cuando por el contrario el estadıstico t es multidimensional, ~t, la relacion en-tre α y β no es tan sencilla. Una vez fijada α puede ser que no podamos especificarde manera unıvoca ni la region de ~x ni la del espacio de las ~t que nos produzca talvalor α. Existe sin embargo un teorema, al que se conoce como lema de Neyman-Pearson, que nos da un criterio para optimizar la eleccion de la region ~t en base auna sola variable numerica, en el sentido de que, para un nivel de significacion de-terminado, α, la potencia del test con respecto a la hipotesis alternativa H1, dadapor 1− β, sea maxima, es decir, que β sea mınima. Al contraste con esta propie-dad se le denomina contraste mas robusto. Un contraste con la propiedad de serel mas robusto para todas las hipotesis alternativas se le denomina uniformemen-te mas robusto. El Lema de Neyman-Pearson esta explicado mas adelante en laseccion 10.6.

Figura 10.2: La region crıtica en un test de dos colas.

Un contraste de hipotesis se dice que es unilateral o contraste de una co-la, cuando la region crıtica esta definida en una de las colas de la distribucion deg(t|H0), como en la figura 10.1. Por el contrario se denomina bilateral, o con-traste de dos colas cuando la region crıtica se refiere a las dos colas de g(t|H0),como en la figura 10.2. En este caso tc (para una distribucion simetrica) se elige

201

Page 8: Capitulo10 probabilitat

de manera que ∫ ∞tc

g(t|H0)dt =α

2(10.6)

Tambien se habla a veces de contraste de una o varias muestras. Varias mues-tras se refiere en general a casos donde lo que nos interesa es comparar si la dife-rencia entre las medias de dos poblaciones es o no significativa. Este es un casocomun en aplicaciones clınicas, donde por ejemplo queremos comparar la eficaciade un nuevo medicamento suministrandolo a un grupo de pacientes y compararlocon otro grupo al que se le suministra un placebo, o, de manera mas general a ungrupo determinado y a otro grupo de control.

10.2. El test de Kolmogorov-SmirnovUn ejemplo de test de hipotesis no parametrico es el de Kolmogorov-Smirnov

(KS). Los usos mas frecuentes de este test consisten en contrastar si una muestraha sido extraıda de una poblacion descrita por la hipotesis H0 o bien si dos mues-tras distintas provienen de la misma distribucion. La hipotesis nula es la que nosresponde positivamente a estas preguntas. El primer caso es esencialmente un testde bondad de ajuste, que se trata de manera general mas adelante en la seccion10.3. En ambos casos el test de KS se basa en determinar una distancia entre lamuestra obtenida experimentalmente y la muestra esperada si la hipotesis nula escorrecta.

10.2.1. El test de Kolmogorov-Smirnov como test de bondad deajuste

Empecemos por el primer caso, es decir supongamos que la muestra consisteen una serie de datos x1, x2, . . . xn, los cuales han sido ordenados de menor amayor. Para cada uno de ellos se calcula la probabilidad de observar un valormenor o igual a xi, la cual viene dada por F0(xi), donde F0 es la funcion dedistribucion acumulativa deH0 que suponemos conocida y dada por una funcioncontinua. Para cada xi tambien se calcula, de la manera explicada mas abajo, unestimador de esta misma cantidad al que denotamos por Fn(xi). A las F0(xi) selas llama frecuencias esperadas mientras que a las Fn(xi) se las llama frecuenciasobservadas. Como estadıstico de contraste se toma la cantidad

Dn = sup1≤i≤n

| Fn(xi)− F0(xi) | (10.7)

202

Page 9: Capitulo10 probabilitat

es decir, D es la mayor de las diferencias absolutas entre cada una de las frecuen-cias acumuladas observadas y esperadas de los n puntos de la muestra (ver figura10.3). Si los valores observados y esperados son similares, D sera pequena mien-tras que si hay discrepancias D aumentara. La bondad del ajuste se plasmara enelegir un nivel de significacion α de manera que si Dn < tα la hipotesis de quela muestra proviene de la distribucion H0 se da por valida y en caso contrario serechaza. Aquı tα estara escogida de manera que la probabilidad de que Dn seamayor que tα sea menor que α, es decir

P (Dn > tα) < α. (10.8)

Figura 10.3: El estadıstico para el test de Kolmogorov-Smirnov.

La funcion empırica Fn(x) viene dada por

Fn(x) =1

n

n∑i=1

I(xi ≤ x) (10.9)

donde I(x), es la llamada funcion indicadora, definida por

I(xi < x) =

{1 si xi ≤ x0 en caso contrario, (10.10)

es decir, esta funcion cuenta el numero de xi por debajo de un valor dado. Lafuncion empırica (observada) en un punto xk, Fn(xk), nos da la fraccion deelementos de la muestra cuyo valor es menor que xk.

203

Page 10: Capitulo10 probabilitat

A la hora de calcular Dn hay una cierta ambiguedad entre si tomar las dife-rencias Fn(x)− F0(x) en la derecha o la izquierda de los intervalos (xj, xj+1) yaque F es necesariamente discontinua (ver figura 10.4). Por eso se suelen tomar lasdiferencias por separado

D+n = max

1≤i≤n{ in− F0(xi)} (10.11)

y

D−n = max1≤i≤n

{F0(xi)−i− 1

n} (10.12)

y despues

Dn = max{D+n , D

−n } (10.13)

Figura 10.4: Diferencias por la izquierda y por la derecha para calcular el estadıstico Dn (vertexto).

La dificultad del test de Kolmogorov-Smirnov esta en la eleccion de tα, o masprecisamente en que significa un valor dado de Dn en terminos de probabilidades.Para responder a esta pregunta es necesario en principio saber cual es la distribu-cion de probabilidad de Dn. Una ventaja del test de Kolmogorov-Smirnov es que,para distribuciones continuas, que es el caso que estamos considerando, la distri-bucion del supremo de las diferencias, Dn, es independiente de la funcion F0(x),siempre que la muestra provenga realmente de la distribucion H0. En el apendiceII se dan argumentos para demostrar esta propiedad.

Tal como se argumenta en el Apendice II, la distribucion de probabilidad delas distancias Dn es tal que

P (√nD ≤ t)→ KS(t) = 1− 2

∞∑j=1

(−1)j−1e−2j2t2 (10.14)

204

Page 11: Capitulo10 probabilitat

donde KS(t) a la funcion de distribucion acumulativa de la distribucion de pro-babilidad de Kolmogorov-Smirnov.

Por lo dicho la cantidad Dn ≡√nD tiende a cero cuando la hipotesis H0 es

correcta. En caso contrarioD no converge hacia cero yDn tendera a infinito como√n. Por eso podemos utilizar Dn como estadıstico en el cual cortar. Si el nivel de

significacion que queremos es α tendremos que encontrar, bajo la hipotesis nula,la cantidad tα de manera que

α = P (Dn ≥ tα) (10.15)

con lo cual la hipotesis H0 se da por valida si Dn ≤ tα.

La probabilidad

P (Dn ≥ t) (10.16)

puede calcularse de varias maneras. Una es implementar una simulacion MonteCarlo para hacerse una tabla de la distribucion Dn. Si n es grande esta cantidadpuede ser evaluada utilizando la funcion de distribucion de Kolmogorov-Smirnovescrita antes, ya que por la formula 15.95

P (Dn ≥ t) = 1−KS(t) (10.17)

Por supuesto hoy en dıa hay maneras de calcular todo esto llamando a algun pa-quete de programas.

10.2.2. El test de Kolmogorov-Smirnov para comparar mues-tras

Al comienzo de esta seccion dijimos que el test de Kolmogorov-Smirnov tam-bien es popular para evaluar si dos muestras provienen de la misma poblacion,es decir, para comparar muestras. Supongamos en concreto dos muestras xi detamano m e yi de tamano n. La hipotesis nula consiste en suponer que ambasmuestras provienen de la misma distribucion H0 con funcion de distribucion acu-mulativa F0. La hipotesis alternativaH1 consiste en suponer que la primera vienende laH0 pero la segunda viene deH1, con funcion de distribucion acumulativa F1.En este caso lo que se calcula es el supremo de la diferencia entre las funcionesde distribucion acumulativas empıricas F0 y F1 para formar el estadıstico

Dmn = (mn

m+ n) supx,y∈R

| F0(x)− F1(y) | (10.18)

Esta cantidad tiene las mismas propiedades que la Dn considerada antes. El pro-cedimiento a seguir una vez formada Dmn es identico al del caso de una solamuestra.

205

Page 12: Capitulo10 probabilitat

10.3. Test de bondad de ajuste. El valor-pEn este tipo de problemas lo que queremos es ver si un modelo estadıstico se

ajusta a un conjunto de observaciones, es decir, a una muestra. Lo que se quierees pues comparar directamente la distribucion (supuesta) de la poblacion con lainferida a partir de la muestra, sin especificar ninguna hipotesis alternativa. Enestos casos en general se construye un estadıstico, t, a partir de la muestra, cuyovalor refleje la concordancia con la hipotesis H0. El procedimiento exacto puedeser complicado. Un ejemplo es el test de Kolmogorov-Smirnov explicado en laseccion anterior, cuando se quiere contrastar si una muestra han sido extraıda deuna poblacion determinada. Otro caso que veremos mas abajo es el test de Pear-son, o test del χ2, en el cual se persigue de nuevo el objetivo anterior. La bondadde ajuste suele darse a traves del llamado valor-p que se introduce a continuacioncomenzando con un ejemplo sencillo.

Tenemos una moneda que arrojamos 20 veces y que suponemos no trucada(esta es la hipotesis H0 en este caso). El resultado es que nos sale cara 15 veces.¿Es este resultado compatible con la hipotesis de que la moneda no este trucada?La estadıstica a utilizar en este caso es el numero de caras mismo, el cual sabemosque sigue una distribucion binomial de la forma

f(nc;n) =n!

nc!(n− nc)!

(1

2

)nc (1

2

)n−nc(10.19)

Calculemos la probabilidad de obtener una discrepancia igual o mayor que ladiferencia entre nc = 15 y el valor esperado de caras para una moneda no trucada,el cual es igual a 10. Dicha probabilidad es la suma de los valores de la expre-sion anterior para nc ∈ [15, 20]) y nc ∈ [0, 5], con n = 20. Haciendo numeros seobtiene que dicha probabilidad es 0,041. Si nuestro nivel de significacion es 0,05rechazarıamos la hipotesis, es decir, dirıamos que la moneda esta trucada.

A la probabilidad anterior se la conoce como el valor-p. La definicion devalor−p es por lo tanto la probabilidad, siendoH0 cierta, de obtener un resul-tado igual o menos compatible con la hipotesis que el observado. Al valor− ptambien se la conoce como nivel de significacion observado. Si p < α se rechazala hipotesis nula, en caso contrario se la da por valida. Es importante darse cuentade que el valor− p es una cantidad distinta al nivel de significacion del test, α. Elnivel de significacion α es un numero fijado a priori, mientras que el valor− p esuna variable aleatoria, ya que su valor depende de la muestra. Es decir, si hiciese-mos otra muestra seguramente obtendrıamos un numero distinto de caras y por lo

206

Page 13: Capitulo10 probabilitat

tanto otro valor-p.

Por lo que acabamos de decir, el valor − p podrıa ser muy cercano a α parauna muestra determinada. En este caso es posible, y generalmente deseable, modi-ficar el procedimiento anterior. Ademas de calcular p a partir de la propia muestrase recurre a la simulacion, por ejemplo con el metodo de Monte Carlo. Lo quese hace entonces es generar una muestra, mucho mayor que la disponible experi-mentalmente, con la distribucion de probabilidad dada por H0, y a partir de ella,calcular el valor − p a partir de tal muestra simulada, tal como esta definido enlos parrafos anteriores. A este valor− p se le denomina el valor− p esperado. Siel valor− p medido es menor que el esperado, ello podrıa ser un indicio de que lahipotesis nula es invalida. Es decir, el resultado observado indica una probabilidadde discrepancia con la hipotesis nula mayor de la esperada.

Los comentarios sobre el nivel de significacion siguen siendo validos aquı. Lainterpretacion frecuentista es que p es la fraccion de las veces que obtendrıamosun resultado igual o menos compatible con H0 que el dado (en el ejemplo anterioruna diferencia de 5 o mas con respecto al valor esperado, 10, si repitiesemos elexperimento de la misma manera muchas veces). Pero no es la probabilidad deque H0 sea falsa. Desde un punto de vista frecuentista no tiene sentido hablarde dicha probabilidad, H0 es verdadera o falsa. Para poder opinar sobre H0 hayque recurrir a la interpretacion bayesiana. De esta manera podrıamos dar a H0 unvalor a priori y, utilizando el teorema de Bayes, modificar dicho valor a partir delos datos del experimento, es decir, de la muestra. Veremos este procedimientomas adelante, en el contexto de estimacion de parametros.

10.3.1. El test del χ2 o de PearsonEste test suele emplearse cuando tenemos una variable discreta. Un contexto

tıpico es el de una variable x para la cual construimos un histograma tal como enla figura 10.5.

Supongamos N casillas en el histograma de x y llamemos ni al numero desucesos en el la casilla i. Supongamos tambien que sabemos el numero de sucesosesperado para cada bin, al que llamamos νi. Esta cantidad νi es la que nos da elmodelo que estamos suponiendo valido, es decir, la distribucion H0. El test con-siste en decidir si los valores observados de x son compatibles con proceder deuna tal distribucion, o por el contrario son significativamente distintos, de nuevoun problema de bondad de ajuste.

207

Page 14: Capitulo10 probabilitat

Figura 10.5: El histograma de la variable x.

La estadıstica que vamos a utilizar es la cantidad t calculara a partir de lamuestra, dada por

t =N∑i=1

(ni − νi)2

νi. (10.20)

Puede demostrarse que esta cantidad sigue una distribucion de tipo chi-cuadradocon N grados de libertad siempre que las ni sean grandes y esten distribuidas deacuerdo con la distribucion de Poisson (capıtulo 2). De ahı que sea usual la nota-cion t ≡ χ2. En la practica grande suele tomarse como 5 o mayor. Lo importantees que esta distribucion es de tipo χ2 independientemente de cual es la distribu-cion que sigue la variable x. Podrıa ser que no conociesemos algun parametro dela distribucion H0. Lo que se hace en este caso es utilizar, si ello es posible, el es-timador del mismo a partir de la muestra. Si tenemos k parametros desconocidosentonces la cantidad t seguira una distribucion de tipo χ2, pero con N − k gradosde libertad.

El valor-p de este test viene dado por

p =

∫ ∞t

f(z;N)dz, (10.21)

donde f(z;N) es la distribucion χ2 para N grados de libertad y t es el valor obteni-do con la formula 10.20 a partir de la muestra. En lo que sigue llamaremos χ2 ala variable t como es habitual. Una cantidad usada frecuentemente es el cocienteχ2/N (el chi − cuadrado por grado de libertad). El valor esperado de esta can-tidad es 1, pero es necesario calcular p en cada caso. Por ejemplo para χ2 = 15

208

Page 15: Capitulo10 probabilitat

y N = 10 ⇒ p = 0,13 (es decir la probabilidad de obtener un χ2 mayor o igualque 15 para 10 grados de libertad es del 13 %). Pero si χ2 = 150 y N = 100, elvalor-p correspondiente es muy pequeno, p = 9 · 10−4, aunque el valor de χ2/Nsea 1.5, como en el primer caso. Para aceptar o rechazar la hipotesis tendrıamosque ponernos de acuerdo, antes de realizar el test, de cual serıa el valor mınimode p que estarıamos dispuestos a aceptar para declarar que nuestra hipotesis essostenible.

Figura 10.6: Las curvas de 1− F (χ2;n) donde F es la funcion de distribucion para la funcionχ2, para distintos grados de libertad n. Esta cantidad nos da directamente el valor− p definido enel texto.

En el ejemplo anterior n =∑ni se supone que puede fluctuar en torno a∑

νi. Si este no es el caso, es decir, si n =∑ni es fijo, lo que se tiene es una

distribucion multinomial de manera que las probabilidades de los distintos binssean pi = νi

n. En este caso

χ2 =N∑i=1

(ni − pin)2

pin(10.22)

sigue una distribucion χ2 con N − 1 grados de libertad, como ya habıamos ade-lantado.

Ejemplo

209

Page 16: Capitulo10 probabilitat

Figura 10.7: Distribuciones χ2 reducidas (es decir, χ2 dividido por el numero de grados delibertad), como funcion de n. Las distintas curvas corresponden a los valores de la probabilidadindicados en la figura.

Una cadena de supermercados vende dos clases de pan: en barras o en panesredondos. Se sabe que en el conjunto de todas las muchas tiendas de la cadena sevenden el doble de barras que de panes redondos. Sin embargo en un supermerca-do determinado se encuentra que en un dıa determinado se vendieron 90 barras y60 panes redondos. Determinar el valor-p para la hipotesis no hay una diferenciasignificativa entre este supermercado y los demas.

Aquı tenemos un ejemplo de lo que acabamos de mencionar en el parrafoanterior. Podemos pensar en el histograma del numero de panes de cada clase (90y 60) cuando la suma es fija (150). Las dos casillas de tal histograma correspondena las dos posibilidades de un experimento binomial. Si formamos una cantidadcomo la de la formula 10.20 tendremos una cantidad distribuida como χ2 con2−1 = 1 grados de libertad. La ligadura viene de que el numero total de elementosde la muestra es fijo (150 en nuestro caso). Tendremos

ν1 = numero esperado de barras = 100, (10.23)ν2 = numero esperado de panesredondos = 50. (10.24)

mientras los numeros observados en este caso son 90 y 60. De acuerdo con 10.20

210

Page 17: Capitulo10 probabilitat

tendremos

t =2∑i=1

(ni − νi)2

νi=

(90− 100)2

100+

(60− 50)2

50= 1 + 2 = 3. (10.25)

El valor-p es la probabilidad, suponiendo H0 cierta, de obtener un resultadoigual o menos compatible con la hipotesis que el observado. En nuestro caso

p =

∫ ∞3

f(z; 1)dz = 1− Fχ2(3; 1). (10.26)

donde Fχ2(3; 1) es la funcion de distribucion acumulativa de la χ2 con 1 grado delibertad y evaluada en z = 3. A partir de una tabla o programa calculamos

p = 0,09 (10.27)

Como p es mayor que 0,05 la hipotesis nula se mantiene al 95 % del nivel deconfianza. Una manera de razonar este resultado es decir que la probabilidad deobtener un numero mas desfavorable de t que el obtenido, t = 3, es mayor del 5 %.No hay ninguna evidencia de que t = 3 sea anomalo y por lo tanto mantenemos lahipotesis nula: no hay una diferencia significativa entre este supermercado y losdemas.

10.3.2. Confirmacion de una senal en presencia de ruidoUn tema que aparece a menudo en una ciencia experimental es el siguiente.

Tenemos un experimento en el que se observan sucesos de senal, ns, y sucesos deruido, nb, los cuales se supone que siguen una distribucion de Poisson con mediasνs y νb, respectivamente, que suponemos conocidas a priori. El numero total desucesos observados, n = ns + nb, seguira una distribucion de Poisson con mediaνs + νb:

f(n; νs + νb) =(νs + νb)

n

n!e−(νs+νb) (10.28)

Supongamos que hacemos el experimento y observamos nobs sucesos. ¿Sera es-ta observacion significativa para decir que hemos encontrado una senal, es decir,que νs es distinto de cero? Para responder a esta pregunta calculemos la probabi-lidad de encontrar nobs o mas sucesos suponiendo que solo hay ruido:

211

Page 18: Capitulo10 probabilitat

P (n ≥ nobs) =∞∑

n=nobs

f(n; νs = 0, νb)

= 1−nobs−1∑n=0

f(n; νs = 0, νb)

= 1−nobs−1∑n=0

νnbn!e−νb (10.29)

Supongamos una situacion concreta en la que νb = 0,5 y en la que observe-mos nobs = 5. La probabilidad anterior (el valor-p) es en este caso p = 1,7 · 10−4.Es por lo tanto muy improbable que esta observacion sea debida al ruido. Si lahipotesis de que las observaciones son debidas al ruido es la correcta y repitiese-mos el experimento muchas veces, solamente en una fraccion de 1,7 · 10−4 de loscasos observarıamos 5 o mas sucesos.

Un error que debe ser evitado es el siguiente. Como la distribucion del numerode sucesos es la de Poisson, y la varianza de la misma es igual a la media, uno es-tarıa tentado a decir que el numero de sucesos observado es 5±

√5. Substrayendo

el ruido tendrıamos que el numero de sucesos de senal serıa ns = 4,5±√

5. Vis-to ası, este numero no parece ser muy incompatible con cero. El problema vienede que esta ultima cantidad es la probabilidad de que nobs fluctue a nb o menor,mientras que lo que realmente queremos es la probabilidad de que νb fluctue a unvalor nobs o mayor.

10.4. El test t de Student. Comparacion de mediasSe denomina test-t de Student a cualquier test de hipotesis donde la distribu-

cion del estadıstico de test sigue la distribucion t de Student (introducida en elcapıtulo 2) cuando la hipotesis nula es cierta.

Este test aparece en varias situaciones. La mas comun consiste en comprobarsi la media de una poblacion, que se supone distribuida de manera gausiana, esconsistente con el valor especificado en la hipotesis nula. Un ejemplo es el que vi-mos con algun detalle en la seccion 10.1 . El mismo tipo de test tambien apareceen la comparacion de la media de dos muestras distintas de la misma poblacion,que se suponen normales. Veamos estos casos en detalle.

212

Page 19: Capitulo10 probabilitat

A. Test si una muestra de n valores de una variable procede de una distribu-cion normal de media conocidaEste es el caso del ejemplo de la seccion 10.1, que utilizamos para introducir elconcepto de contraste de hipotesis. Si tenemos una muestra de tamano n, (x1, x2, ..., xn)extraıda de una distribucion gausiana sabemos que la media

xn =1

n

n∑i=1

xi (10.30)

esta distribuida de manera tambien gausiana con la misma media µ de la poblaciony con varianza σ2/n, donde σ2 es la varianza de la poblacion. Esta propiedad sesigue tanto de la propiedad aditiva de la distribucion gausiana como del teoremacentral del lımite cuando n es grande. Por lo tanto la variable

z =xn − µσ/√n

(10.31)

estara distribuida de manera normal. Pero en general no conocemos σ y comoestimador de la varianza de la poblacion utilizamos la varianza de la muestra

s2n =

1

n− 1

n∑i=1

(xi − xn)2. (10.32)

Sabemos (capıtulo 2) que la cantidad

t =xn − µsn/√n

(10.33)

sigue la distribucion de Student con n − 1 grados de libertad. La distribucion deprobabilidad de t es

f(t; r) =Γ(1

2(r + 1))

√rπΓ(1

2r)

(1 +t2

r)−

r+12 (10.34)

donde r ≡ n− 1 es el numero de grados de libertad. Es de destacar que esta dis-tribucion no depende ni de µ ni de σ y de ahı su importancia, como vamos a ver.La deduccion de la distribucion de la probabilidad anterior es laboriosa y utiliza elhecho que (n−1)s2

n sigue una distribucion de tipo χ2, con n−1 grados de libertad.

Esta curva es simetrica con respecto a cero. Para estimar los lımites ±tα co-rrespondientes a un cierto nivel de confianza α requerimos que∫ tα

−∞f(t; r)dt =

α

2. (10.35)

213

Page 20: Capitulo10 probabilitat

Lo que queremos para aceptar la hipotesis nula, es decir el que la media de lapoblacion es µ, a un nivel se significacion α, es que la diferencia

|t| = x− µs/√n. (10.36)

sea menor que tα donde tα es tal que la probabilidad asociada al intervalo [−tα, tα]es

P (tε[−tα, tα]) = 1− α (10.37)

Dicha probabilidad puede calcularse, encontrase en unas tablas o en algun progra-ma. Tambien puede calcularse a partir de la funcion de distribucion acumulativade la distribucion de Student, Fs, pues se cumple que

P (t < tα) = Fs[tα] =α

2(10.38)

B. Test de la diferencia entre medias de dos muestrasSupongamos dos muestras distintas 1 y 2 de tamanos n1 y n2 respectivamente. Su-ponemos que estas muestras provienen de dos poblaciones gausianas N(µ1, σ1) yN(µ2, σ2) y queremos contrastar si las medias muestrales son compatibles con lahipotesis de que µ1 y µ2 son iguales (la hipotesis tomada como nula).

La manera practica de aplicar el test depende de varios factores, tales comoel tamano de las muestras, el que σ1 y σ2 sean o no iguales o de si son o noconocidas a priori. Si las varianzas σ2

1 y σ22 son conocidas es facil probar, a partir

de la propiedad aditiva de la distribucion normal, que la cantidad

x1 − x2, (10.39)

esta distribuida de manera normal con media dicha diferencia y varianza

σ2 =σ2

1

n1

+σ2

2

n2

(10.40)

Puesto que conocemos la distribucion de la variable a contrastar procederıamoscalculando las probabilidades correspondientes y haciendo el corte apropiado pa-ra un nivel de significacion especificado.

Si las varianzas σ21 y σ2

2 no son conocidas pero las muestras son grandes, en-tonces calcularıamos las varianzas muestrales s2

1 y s22 y las utilizarıamos en vez de

214

Page 21: Capitulo10 probabilitat

las de la poblacion, con lo que la diferencia entre las medias serıa tambien apro-ximadamente gausiana con una varianza como en 10.40 con s1 y s2 en vez de σ1

y σ2.

El caso es mas complicado cuando las muestras son pequenas. Consideramosdos situaciones distintas:

(1) σ21 = σ2

2 = σ2. En este caso puede demostrarse que la variable

t =x1 − x2

s(10.41)

donde

s2 =n1 + n2

n1n2

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2(10.42)

s21 =

1

n1(n1 − 1)

n1∑i=1

(xi1 − x1)2 (10.43)

s22 =

1

n2(n2 − 1)

n2∑i=1

(xi2 − x2)2 (10.44)

sigue una distribucion de Student con n1 +n2−2 grados de libertad (ver problema10.1. La aplicacion del test de Student a t permite aceptar o rechazar la hipotesisde si ambas muestras tienen o no la misma media.

(2) σ21 6= σ2

2 . En este caso puede demostrarse (pero la demostracion es mas com-plicada que la anterior) que la variable

t =x1 − x2√

s21/n1 + s2

2/n2

(10.45)

esta distribuida aproximadamente como la distribucion de Student con un numerode grados de libertad dado por el entero mas cercano a la cantidad

n = { (s21/n1 + s2

2/n2)(s21/n1)2

n1−1+

(s22/n2)2

n2−1

− 2 (10.46)

10.5. El test-F de Fisher. Comparacion de varianzasEl test-F es un tipo de contraste de hipotesis en el que el estadıstico de test

sigue la llamada distribucion F de Fisher cuando la hipotesis nula es valida. El

215

Page 22: Capitulo10 probabilitat

uso mas comun se plantea cuando es necesario comparar las varianzas de dos po-blaciones con la misma media, tal como explicamos mas abajo. Pero es tambienimportante en otros tests relacionados con la varianza.

El analisis de varianzas en general es uno de los temas mas importantes dela estadıstica y aparece en muchas situaciones. La varianza es una medida de ladispersion con respecto a la media. Consideremos el caso particular en el que to-mamos dos muestras de distinto tamano de una misma poblacion, descrita por unadensidad de probabilidad con media y varianza dadas. A partir de las muestraspodemos calcular la media y varianza muestrales. Es posible que las medias queobtengamos sean las mismas pero no ası las varianzas. En este caso tenemos quehacernos la pregunta de si la diferencia entre las varianzas muestrales es consis-tente o no con el hecho de que las dos muestras tengan un tamano distinto y lapoblacion original tenga una cierta varianza.

Un ejemplo concreto es el que se nos plantea cuando medimos dos muestrascon instrumentos distintos. La varianza de las medidas con uno de los instru-mentos sera distinta de la obtenida con el otro. Lo que queremos saber es si ladiferencia es la esperada estadısticamente o si un instrumento es mejor que el otro(mejor, en el sentido de dar una varianza menor en las medidas). En lugar de lacalidad de un instrumento podrıamos estar evaluando la efectividad de un deter-minado medicamento en actuar contra una determinada enfermedad. Es inmediatoestablecer un paralelismo entre ambas situaciones.

Para simplificar el tratamiento, supongamos dos poblaciones distribuidas demanera gausiana y supongamos dos muestras de tamano n1 y n2 respectivamente.Para cada una de las dos muestras formamos las varianzas muestrales s2

1 y s22

definidas por

s2i =

1

ni − 1

n∑i=1

(xi − µi)2. (10.47)

donde µ1 y µ2 son las medias de las poblaciones 1 y 2. Como ya hemos vistoen el capıtulo 2 si las xi vienen de una distribucion gausiana con varianza σ2

i , lacantidad

χ2i =

(ni − 1)s2i

σ2i

(10.48)

sigue una distribucion χ2 con ni−1 grados de libertad. Para comparar las varianzasde las muestras calculemos su cociente, llamado F, es decir

216

Page 23: Capitulo10 probabilitat

F =s2

1

s22

=n2 − 1

n1 − 1

χ21

χ22

=m2

m1

χ21

χ22

(10.49)

donde mi = ni − 1.

Si las varianzas muestrales son parecidas, esta cantidad no deberıa ser muydistinta a 1. Lo que nos interesa es saber como esta distribuida F y calcular laprobabilidad de que su valor sea mayor o menor que el valor obtenido a partir delas muestras particulares 1 y 2. Tal como hemos visto en el capıtulo 5, si tenemosdos variables z1 y z2 las dos distribuidas de manera χ2 con grados de libertadr1 y r2, su cociente z = z1/z2 sigue la distribucion de Fisher con densidad deprobabilidad dada por

P (z) =Γ( r1+r2

2)

Γ(12r1)Γ(1

2r2)

∫ z

0

t12r1−1(t+ 1)−

12

(r1+r2)dt. (10.50)

Como lo que queremos es la distribucion de F = m2

m1z podemos hacer un

simple cambio de variables para obtener la densidad de probabilidad de F la cualviene dada por

P (F ) = P (z)J(z

F) = P (z)

m1

m2

(10.51)

P (F ) = (m1

m2

)m12

Γ(m1+m2

2)

Γ(m1

2)Γ(m2

2)

Fm12−1

(m1

m2F + 1)

(m1+m2)2

. (10.52)

Esta distribucion es parecida a una χ2 (Figura 2.11). Esta definida para valorespositivos de F y se extiende a +∞, es una funcion tabulada en muchos librosy disponible en librerıas de programas, al igual que su funcion de distribucionacumulativa. Una vez que la conozcamos podemos determinar la probabilidad deque F sea mayor que una cierta cantidad fα, de manera que la probabilidad

P (F > fα) = α. (10.53)

Si F > fα se dice que σ21 > σ2

2 al nivel de significacion α. En este ejem-plo el test es asimetrico, pero en otros casos estamos interesados en saber si Festa dentro de un intervalo (f1, f2), es decir si

P (F > f1) =1

2α y P (F < f2) =

1

2α. (10.54)

217

Page 24: Capitulo10 probabilitat

Si estas relaciones se cumplen se dice que σ1 = σ2 al nivel de sinificacion α.A menudo lo que se especifica es el nivel de significacion α y lo que se quierees determinar los lımites f1 y f2 correspondientes, que vendran dados por lasintegrales

∫ f1

0

F (t)dt = 1− 1

∫ f2

0

F (t)dt = α. (10.55)

10.6. El lema de Neyman-PearsonCuando el estadıstico de test es una sola variable α y β quedan fijados una vez

especificado tc y las hipotesis H0 y H1, tal como hemos mencionado en la seccion10.1. Lo que pretendemos en general es que, una vez fijada α (cuyo significado esen muchos casos la ineficiencia de observar una senal), la cantidad β (en muchoscasos el ruido) fuese mınima, o lo que es lo mismo que la potencia de H1 seamaxima. Si tc es multidimensional, ~t(~x), puede ser complicado elegir la regioncrıtica de las variables ~x que nos permita optimizar la distincion entre H0 y H1. Ellema de Neyman-Pearson facilita esta eleccion en terminos de una sola variablecomo vamos a ver.

Consideremos en concreto dos hipotesis simples H0 y H1 y supongamos queexisten dos regiones del espacio de la variable (en general multidimensional) ~x,R1c y R2

c con la misma probabilidad α asociada a la hipotesis H0 (nos limitamosa dos pero podrıan ser mas). El lema de Neyman-Pearson nos da un criterio paraelegir entre las dos, en el sentido de que para una de ellas la potencia del contrastede H1 sera maxima, o, equivalentemente, el parametro β asociado a la hipotesisalternativa H1 sera mınimo. Elegir tal region como la crıtica nos proporciona porlo tanto el test mas robusto para discriminar entre las hipotesis H0 y H1.

El lema de Neyman-Pearson establece que si existe una cantidad c tal que elcociente

rc =f(~x|H0)

f(~x|H1)=

{≤ c para ~x ∈ R1

c

≥ c para ~x 6∈ R1c ,

(10.56)

la region R1c es la que corresponde al test mas robusto. Las expresion f(~x|Hi) es

la llamada funcion de verosimilitud de la muestra calculada con la distribucion deprobabilidad de la hipotesis Hi que introduciremos en detalle en el capıtulo 11.Como veremos allı la funcion de verosimilitud es el producto de las probabilida-des a posteriori de obtener los elementos de la muestra. La fraccion anterior se

218

Page 25: Capitulo10 probabilitat

denomina cociente de verosimilitud. En la practica el cociente anterior puede cal-cularse directamente en funcion de las variables ~t(~x) obtenidas de la muestra. Eltest basado en el cociente de verosimilitud es similar al test para una sola variablet, donde en este caso la variable es tc = rc.

Figura 10.8: Representacion de las regiones crıticas R1c y R2

c del espacio de las ~x′s, asociadas aun mismo valor de α.

Para demostrar el teorema consideremos el esquema de la figura 10.8. R1c y

R2c son las regiones mostradas en la figura, las cuales tienen en comun la region I:

I = R1c ∩R2

c . (10.57)

Las regiones sombreadas A y B estan definidas por

A ∪ I = R1c (10.58)

B ∪ I = R2c . (10.59)

Puesto que las probabilidades asociadas a R1c y R2

c son iguales y la region I escomun se tendra que ∫

A

f(~x|H0)d~x =

∫B

f(~x|H0)d~x. (10.60)

Si I ⊂ R1c , la igualdad 10.56 nos dice que∫

A

f(~x|H0)d~x ≤ c

∫A

f(~x|H1)d~x. (10.61)

219

Page 26: Capitulo10 probabilitat

Pero al estar B fuera de R1c , B 6⊂ R1

c , la misma igualdad nos dice que∫B

f(~x|H0)d~x ≥ c

∫B

f(~x|H1)d~x. (10.62)

La potencia del test rc con respecto a H1, 1− β1 (donde β1 esta asociado a laregion R1

c), viene dada por

1− β1 =

∫R1c

f(~x|H1)d~x =

∫A

f(~x|H1)d~x+

∫I

f(~x|H1)d~x (10.63)

≥ 1

c

∫A

f(~x|H0)d~x+

∫I

f(~x|H1)d~x (10.64)

≥ 1

c

∫B

f(~x|H0)d~x+

∫I

f(~x|H1)d~x. (10.65)

Aplicando la desigualdad anterior se tiene

1− β1 ≥ c

c

∫B

f(~x|H1)d~x+

∫I

f(~x|H1)d~x =

∫R2c

f(~x|H1)d~x = 1− β2(10.66)

⇒ 1− β1 ≥ 1− β2, (10.67)

lo cual prueba el lema.

10.6.1. El metodo de FischerEl lema de Neyman-Pearson nos permite calcular una cantidad escalar, rc,

asociada a una region crıtica optima, en el sentido de proporcionarnos el contras-te mas robusto para discriminar entre las hipotesis H0 y H1. Pero el calculo derc puede ser laborioso. Las densidades de probabilidad del numerador y deno-minador de 10.56 son densidades de probabilidad conjuntas. Muy a menudo esnecesario simularlas (por ejemplo con el metodo de Monte Carlo) lo cual requiereun numero de sucesos generados que crece como una potencia de n, la dimensio-nalidad de ~x. Si por ejemplo simulamos las distribuciones en m intervalos y ~x esde n dimensiones, el numero de cantidades que hay que simular es mn, por lo queel numero de sucesos a generar crece enormemente con n. El metodo de la funciondiscriminante de Fisher reduce el problema, en el sentido de que solamente va aser necesario conocer la media y covarianzas de las distribuciones de probabilidadconjuntas f(~x|H0) y f(~x|H1).

El metodo de Fisher consiste en suponer que t(~x) es una funcion lineal de ~x,es decir

t(~x) =∑i

aixi = (~a)T (~x) (10.68)

220

Page 27: Capitulo10 probabilitat

donde (~a)T es un vector-fila, cuyas componentes queremos determinar, y ~x es unvector columna. Lo que queremos es que las ~a hagan maxima la separacion entreg(~x|H0) y g(~x|H1). En el metodo de Fisher la separacion va a estar caracterizadapor la diferencia de las medias de t para las dos hipotesis H0 y H1, dividida por lasuma de sus varianzas, como vamos a ver.

La media de x(k)i para la hipotesis k = 0, 1, que denotaremos por µ(k)

i , vienedada por

µ(k)i =

∫xif(~x|Hk)d~x k = 0, 1 (10.69)

y la matriz de covarianza

V(k)ij =

∫(x− µ(k)

i )i(x− µ(k)j )f(~x|Hk)d~x. (10.70)

En funcion de estas cantidades podemos calcular el valor esperado y la varianzade t:

τk =

∫tg(t|Hk)dt = (~a)T (~µ(k) (10.71)

V [t]k =

∫(t− τk)2g(t|Hk)dt = (~a)T (Vij)

(k)(~a). (10.72)

donde las igualdades de la derecha son debidas a la linearidad de t en las xi.

Es intuitivo ver que las distribuciones g(t|H0) y g(t|H1) estaran tanto masseparadas cuanto mayor sea la diferencia entre τ0 y τ1, es decir cuando la cantidad(τ0 − τ1)2 sea maxima. Otra propiedad deseada es que las distribuciones g(t|H0)y g(t|H1) tengan varianzas pequenas. Una medida de estos dos criterios nos la dala variable

J(~a) =(τ0 − τ1)2

V [t]0 + V [t]1. (10.73)

En esta expresion tanto el numerador como el denominador pueden ser expre-sados en funcion de ~a. Para el numerador tenemos

(τ0 − τ1)2 =n∑

i,j=1

aiaj(µ(0)i − µ

(1)i )(µ

(0)j − µ

(1)j ) (10.74)

=n∑

i,j=1

aiajBij = (~a)T (B)(~a) (10.75)

221

Page 28: Capitulo10 probabilitat

donde

Bij = (µ0 − µ1)i(µ0 − µ1)j, (10.76)

y para el denominador tenemos que

V [t]0 + V [t]1 =n∑i,j

aiajV(0)ij + V

(1)ij = (~a)T (Wij)~a (10.77)

donde

Wij = V(0)ij + V

(1)ij . (10.78)

Por lo tanto la expresion para J(~a) es de la forma

J(~a) =(~a)TB(~a)

(~a)TW (~a). (10.79)

Para hallar el maximo, tendrıamos que derivar con respecto a los coeficientesai e igualar a cero. El resultado es que los coeficientes ~a quedan determinadossalvo una constante multiplicativa arbitraria.

~a ∝ W−1(~µ)(0) − (~µ)(1). (10.80)

A la estadıstica t resultante se la denomina funcion discriminante lineal deFisher. Para calcular t solamente se necesitan las medias ~µ(k) y las varianzas,V

(k)ij , en vez de las funciones completas f(~x|H0) y f(~x|H1).

10.7. Problemas10.1 Probar que la variable t definida en la ecuacion 10.41 sigue una distribucionde Student con n1 + n2 − 2 grados de libertad.

10.2 Tenemos una muestra de 20 personas de una poblacion normal y obtenemosque la media y varianza muestrales son x = 25,5 y s2 = 60,5.(a) Encontrar el intervalo correspondiente a un nivel de confianza del 99 % para lamedia de la poblacion.(b) ¿Es aceptable la hipotesis de que la varianza de la poblacion es σ2 = 50?

10.3 En una poblacion el peso de las personas esta distribuido de manera estandarcon σ = 3.

222

Page 29: Capitulo10 probabilitat

(a) Encontrar un intervalo de confianza correspondiente a un nivel de confianzadel 95 % (ver seccion 9.5).(b) Como en (a) pero con un nivel de confianza de 90 %, suponiendo ademas queσ es desconocida.(c) Tomamos una muestra de 10 personas y encontramos que sus pesos son (enkg.) {75, 78, 82, 85, 70, 65, 75, 79, 78, 80}. Basados en esta muestra ¿podemossuponer que la media del peso de la poblacion es de 75 kg? La hipotesis alternati-va es que la media de la poblacion es mayor de 75kg. Calcular la potencia de estahipotesis alternativa.

10.4 Las varianzas muestrales de dos poblaciones estandar independientes sons2

1 = 20 para una muestra de tamano 50 de la primera poblacion y s2 = 25 parauna muestra de tamano 100 de la segunda poblacion. ¿Es admisible suponer quelas dos poblaciones tienen la misma varianza? Si este es el caso encontrar un in-tervalo de confianza al 95 % para dicha varianza.

10.5 El numero de coches por minuto que pasa por un determinado punto de unacarretera sigue una distribucion de Poisson. Para determinar el promedio de dichadistribucion se contabiliza el numero de coches que pasan por dicho punto du-rante una hora y se encuentra que es de 250. ¿Es admisible la hipotesis de que elnumero de coches por minuto es de 4 vehıculos o es mas razonable suponer queel promedio por minuto es mayor de 4?

10.6 Dos cronometros miden el tiempo con un error cercano a la decima de se-gundo. Se realiza una prueba de calibracion y se encuentra que los errores de loscronometros son

¿Es admisible suponer que los dos tienen la misma precision?

223

Page 30: Capitulo10 probabilitat

. . .

224