Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on...

253
Curso de Inferencia y Decisi´on Guadalupe G´omez y Pedro Delicado Departament d’Estad´ ıstica i Investigaci´o Operativa Universitat Polit` ecnica de Catalunya Enero de 2006

Transcript of Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on...

Page 1: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Curso de Inferencia y Decision

Guadalupe Gomez y Pedro Delicado

Departament d’Estadıstica i Investigacio Operativa

Universitat Politecnica de Catalunya

Enero de 2006

Page 2: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o
Page 3: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Indice abreviado

Capıtulo 1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Capıtulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25

Capıtulo 3. Estimacion puntual 1: Construccion de estimadores . 45

Capıtulo 4. Estimacion puntual 2: Evaluacion de estimadores . . . . 87

Capıtulo 5. Contrastes de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

Capıtulo 6. Estimacion por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183

Capıtulo 7. Introduccion a la Teorıa de la Decision . . . . . . . . . . . . . 215

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

i

Page 4: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o
Page 5: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Indice general

Indice abreviado I

Indice general II

Prologo VII

1. Introduccion 1

1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3

1.2.2. Distribucion de una variable aleatoria. Funciones de dis-tribucion, de probabilidad y de densidad . . . . . . . . . . 4

1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5

1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6

1.2.5. Modelo parametrico . . . . . . . . . . . . . . . . . . . . . 7

1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8

1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 12

1.3.1. Familias de localizacion y escala . . . . . . . . . . . . . . 12

1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 13

1.4. Muestreo de una distribucion normal . . . . . . . . . . . . . . . . 13

1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16

1.5. Leyes de los Grandes Numeros y Teorema Central del Lımite . . 18

1.5.1. Leyes de los grandes numeros . . . . . . . . . . . . . . . . 18

1.5.2. Teorema central del lımite . . . . . . . . . . . . . . . . . . 19

1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20

1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21

iii

Page 6: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

iv INDICE GENERAL

2. Principios para reducir los datos 25

2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.1. Estadısticos suficientes r-dimensionales . . . . . . . . . . 31

2.1.2. Estadısticos suficientes minimales . . . . . . . . . . . . . . 32

2.1.3. Estadısticos ancilares . . . . . . . . . . . . . . . . . . . . . 35

2.1.4. Estadısticos completos . . . . . . . . . . . . . . . . . . . . 36

2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 38

2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3. Estimacion puntual 1: Construccion de estimadores 45

3.1. La funcion de distribucion empırica y el metodo de los momentos 45

3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 47

3.1.2. Principio de sustitucion . . . . . . . . . . . . . . . . . . . 50

3.1.3. El metodo de los momentos . . . . . . . . . . . . . . . . . 51

3.2. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . . 53

3.2.1. Calculo del estimador maximo verosımil . . . . . . . . . . 56

3.2.2. Calculo numerico de los estimadores de maxima verosimi-litud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.2.3. Principio de invariancia del estimador maximo verosımil . 70

3.3. Estimacion Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 71

3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 71

3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 75

3.3.3. Funciones de perdida . . . . . . . . . . . . . . . . . . . . . 79

3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 80

3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4. Estimacion puntual 2: Evaluacion de estimadores 87

4.1. Error cuadratico medio . . . . . . . . . . . . . . . . . . . . . . . . 87

4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 91

4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 94

4.2.1. Teorema de Cramer-Rao. Informacion de Fisher . . . . . . 96

4.2.2. Version multivariante del teorema de Cramer-Rao. . . . . 105

4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffe 108

Page 7: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

INDICE GENERAL v

4.3. Comportamiento asintotico . . . . . . . . . . . . . . . . . . . . . 114

4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 114

4.3.2. Normalidad asintotica . . . . . . . . . . . . . . . . . . . . 116

4.3.3. Metodo delta . . . . . . . . . . . . . . . . . . . . . . . . . 119

4.3.4. Eficiencia relativa asintotica . . . . . . . . . . . . . . . . . 124

4.4. Teorıa asintotica para el estimador maximo verosımil . . . . . . . 125

4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5. Contrastes de hipotesis 141

5.1. Definiciones basicas. Contraste de hipotesis simples . . . . . . . . 141

5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142

5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144

5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148

5.2. Contrastes uniformemente mas potentes . . . . . . . . . . . . . . 149

5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150

5.2.2. Razon de verosimilitud monotona. Teorema de Karlin-Rubin152

5.3. Contrastes insesgados. Contrastes localmente mas potentes . . . 155

5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157

5.5. Test de la razon de verosimilitudes . . . . . . . . . . . . . . . . . 158

5.5.1. Relacion con el Lema de Neyman-Pearson. . . . . . . . . 159

5.5.2. Propiedades de los contrastes de razon de verosimilitudes 160

5.6. Contrastes relacionados con el de maxima verosimilitud . . . . . 163

5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 163

5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164

5.6.3. Contrastes en presencia de parametros secundarios. . . . . 166

5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170

5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171

5.7.2. Contraste de dos hipotesis simples. . . . . . . . . . . . . . 172

5.7.3. Contraste de dos hipotesis compuestas. . . . . . . . . . . 173

5.7.4. Contraste de hipotesis nula simple frente a alternativacompuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173

5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Page 8: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

vi INDICE GENERAL

6. Estimacion por intervalos 183

6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183

6.2. Metodos para construir intervalos de confianza . . . . . . . . . . 185

6.2.1. Inversion de un contraste de hipotesis . . . . . . . . . . . 185

6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189

6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193

6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195

6.3. Evaluacion de estimadores por intervalos . . . . . . . . . . . . . . 196

6.3.1. Intervalos de longitud mınima . . . . . . . . . . . . . . . . 197

6.3.2. Relacion con contrastes de hipotesis y optimalidad . . . . 200

6.4. Intervalos de confianza asintoticos . . . . . . . . . . . . . . . . . 202

6.4.1. Intervalos basados en el estimador de maxima verosimilitud203

6.4.2. Intervalos basados en la funcion score. . . . . . . . . . . . 205

6.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 210

7. Introduccion a la Teorıa de la Decision 215

7.1. Elementos basicos en un problema de decision . . . . . . . . . . . 215

7.1.1. Comparacion de reglas de decision. . . . . . . . . . . . . . 217

7.2. Teorıa de la decision e inferencia estadıstica . . . . . . . . . . . . 218

7.2.1. Estimacion puntual. . . . . . . . . . . . . . . . . . . . . . 218

7.2.2. Contrastes de hipotesis. . . . . . . . . . . . . . . . . . . . 221

7.2.3. Estimacion por intervalos. . . . . . . . . . . . . . . . . . . 223

7.3. El problema de decision bayesiano . . . . . . . . . . . . . . . . . 225

7.4. Admisibilidad de las reglas de decision . . . . . . . . . . . . . . . 229

7.4.1. Comparacion de reglas de decision. . . . . . . . . . . . . . 229

7.4.2. Busqueda de reglas admisibles y clases completas. . . . . 230

7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232

7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 238

Referencias 243

Page 9: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Prologo

Este documento es el fruto de nuestra experiencia como docentes de la asig-natura Inferencia y Decision (Licenciatura en Ciencias y Tecnicas Estadısticas,Universitat Politecnica de Catalunya) durante los cursos 99-03.

Cuando se preparo por primera vez la docencia de Inferencia y Decision sepenso en seguir lo mas fielmente posible algun libro de texto que por contenidosy profundidad se adaptase a los objetivos de esta asignatura. Ante la inexis-tencia de libros en castellano o catalan dirigidos especıficamente para alumnosde Inferencia y Decision, se opto por usar como texto de referencia el libro deCasella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasio-nes la necesidad de completarlo con otros libros. Ante esta situacion (ausenciade textos en castellano y cierta insatisfaccion con el libro elegido) consideramosconveniente escribir este documento. En el se recogen y amplıan los apuntes pre-parados para las clases teoricas y las listas de problemas resueltas en las clasespracticas.

El objetivo principal de la asignatura Inferencia y Decision es proporcionaruna solida base teorica de los fundamentos de la Inferencia Estadıstica y de laTeorıa de la Decision. Confiamos en que este Curso de Inferencia y Decisioncontribuya a lograrlo.

vii

Page 10: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o
Page 11: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 1

Introduccion

Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, capıtulo 3, 5.1, 5.2,

5.4.

En este curso de Inferencia y Decision se desarrollan ideas y herramientasmatematicas que la estadıstica utiliza para analizar datos. Se estudiaran tecnicaspara estimar parametros, contrastar hipotesis y tomar decisiones. Es importanteno perder de vista que en la aplicacion de la estadıstica se necesita mucho masque el conocimiento matematico. La recogida y la interpretacion de los datos esun arte. Requiere sentido comun y puede llegar a plantear cuestiones filosoficas.

Ejemplo 1Se desea estimar la proporcion de estudiantes universitarios que no se duchandesde hace dos dıas o mas. Supongamos que podemos entrevistar a 20 estudian-tes.

¿Que se entiende por estudiante?

¿Como se puede asegurar que la muestra sea aleatoria?

¿Querran contestar a la pregunta? Problema de falta de respuesta (missingdata).

¿Diran la verdad? Problema de error de medida (measurement error).

Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremossatisfechos con el estimador que obtengamos?

Supongamos que p = 5/20. ¿Que valores son plausibles para p?

En este caso el problema se plantea en terminos de la variable aleatoria

X = numero de personas que no se ducharon ayer ni hoy ∼ B(20, p)

1

Page 12: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2 CAPITULO 1. INTRODUCCION

y es un ejemplo de estimacion en un contexto de inferencia parametrica.. .

Ejemplo 2Estudio de la aspirina.Con el fin de determinar si la aspirina tiene algun efecto preventivo en los ataquescardıacos se desarrollo un estudio controlado entre medicos (aproximadamente22.000) entre 40 y 84 anos que tomaron bien una aspirina (325 mg.) bien unplacebo durante cinco anos. Los resultados del estudio fueron los siguientes:

Sufren ataques No sufren Ataques porcardıacos ataques cardıacos cada 1000 personas

Aspirina 104 10933 9.42Placebo 189 10845 17.13

¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataquede corazon? Se plantea aquı un problema de decision o el contraste de

una hipotesis.. .

1.1. Datos y modelos

Los datos que aparecen en los problemas estadısticos pueden suponerse pro-venientes de un experimento, es decir, son valores en un espacio muestral.

Experimento: Termino de acepcion muy amplia que incluye cualquier proce-dimiento que produce datos.

Espacio muestral: Conjunto de todos los posibles resultados de un experi-mento.

Ejemplo 3Se desea estudiar la proporcion de enfermos que responde positivamente a unanueva terapia.

Se podrıa pensar en administrar la medicina a todos los enfermos que lodeseen y utilizar como resultado del estudio las respuestas de los pacientes tra-tados con la nueva terapia, aunque esta muestra responde a un experimentono controlado y puede ser difıcil obtener resultados extrapolables a toda la po-blacion. Serıa mas aconsejable identificar la poblacion a la que esta dirigida la

Page 13: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.2. VARIABLE ALEATORIA 3

nueva terapia y tratar a un subconjunto aleatorio de tamano n de esa poblacionrelevante con la nueva medicina.

En los dos casos el espacio muestral es una secuencia de responde/no respon-de. En el primer caso el numero de pacientes es variable y el espacio muestraldeberıa incluir las secuencias de todas las posibles longitudes (tantas como posi-bles numeros de pacientes), mientras que en el segundo caso el espacio muestralconsistira en las secuencias de longitud n.. .

Definimos un modelo para un experimento como una coleccion de distribu-ciones de probabilidad sobre el espacio muestral.

Ejemplo 3, pagina 2. Continuacion. Sea p la proporcion de individuos queresponden positivamente a la nueva terapia. Hay una probabilidad p de observaruna respuesta positiva en cada caso muestreado. Si el tamano de la poblacionde referencia es mucho mas grande que el de la muestra, n, es razonable suponerque las respuestas de los individuos son independientes. Entonces el modelo es

P = P (X1 = x1, . . . , Xn = xn) =n∏

i=1

pxi(1− p)1−xi , 0 < p < 1.

Se trata de un modelo parametrico de dimension finita. El espacio parametricoes p : 0 < p < 1 ⊂ IR.

Los problemas de inferencia en este modelo consistiran en hacer afirmacio-nes (en forma de estimacion puntual, estimacion por intervalos o contrastes dehipotesis) sobre cuan verosımiles son los posibles valores del parametro p.. .

1.2. Variable aleatoria

1.2.1. Variables y vectores aleatorios

Consideramos un experimento aleatorio cuyos resultados pertenecen al es-pacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna(Ω,A,P), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω,A ⊆ P(Ω) es una σ-algebra, y P : A −→ [0, 1] es una medida de probabilidadque refleja las caracterısticas aleatorias del experimento realizado. A esa ternase le llama espacio de probabilidad.

Los resultados de un experimento aleatorio no son analizados en bruto, sinoque se les da una representacion numerica que facilita su tratamiento. Esto se

Page 14: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4 CAPITULO 1. INTRODUCCION

hace mediante la definicion de variables aleatorias. Dado un espacio deprobabilidad (Ω,A,P) y el espacio medible (IR,B), donde B es la σ-algebra deBorel definida sobre la recta real IR, una variable aleatoria es una funcion

X : Ω −→ IR

medible, es decir, X−1(B) ∈ A para todo B ∈ B.

Si el espacio muestral Ω es finito o numerable, diremos que es un espacio

discreto y las variables aleatorias asociadas al experimento normalmente es-taran definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos quees un espacio continuo y X : Ω −→ IR.

A partir de un mismo experimento se pueden definir diferentes variablesaleatorias. Por ejemplo, si lanzamos dos monedas simultaneamente, el espaciomuestral asociado a este experimento es Ω = CC,C+, +C, ++. Se puedendefinir diversas variables aleatorias:

X1 = numero de caras, X2 = numero de cruces,

X3 = cuadrado del numero de caras = X21 , etc.

Usualmente los datos estan modelizados por un vector de variables aleatoriasX˜ = (X1, . . . , Xn), donde las Xi toman valores en Z o en IR. A X˜ le llamare-

mos vector aleatorio o tambien variable aleatoria multidimensional.

1.2.2. Distribucion de una variable aleatoria. Funciones de

distribucion, de probabilidad y de densidad

La realizacion de un experimento aleatorio da lugar a un resultado ω ∈ Ωque es aleatorio. Por lo tanto X(ω) es un valor de IR tambien aleatorio. Es decir,la variable aleatoria X induce una medida de probabilidad en IR. A esa medidade probabilidad se le llama distribucion de X o ley de X. Una de las formasde caracterizar la distribucion de una variable aleatoria es dar su funcion de

distribucion FX , que esta definida ası:

FX(x) = P(X ≤ x) = P(ω ∈ Ω : X(ω) ≤ x) = P(X−1(−∞, x]).

En el caso de que X sea una variable aleatoria discreta, es decir, en elcaso de que X solo tome una cantidad finita o numerable de valores de IR, sudistribucion tambien puede caracterizarse por su funcion de probabilidad

(o funcion de masa de probabilidad) fX , definida como

fX : IR −→ [0, 1], fX(x) = P(X = x).

Esa funcion solo es no nula en un conjunto finito o numerable. Supondremos enadelante, sin perdida de generalidad, que ese conjunto esta contenido en Z. A

Page 15: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.2. VARIABLE ALEATORIA 5

partir de la funcion de masa de probabilidad se puede calcular la probabilidadde que la variable aleatoria X tome valores en cualquier elemento A de B:

P(X ∈ A) =∑

x∈A

fX(x).

La funcion de distribucion y la funcion de masa de probabilidad se relacionande la siguiente forma:

FX(x) =∑

u≤x

fX(u), fX(x) = FX(x)− FX(x−),

donde FX(x−) = lımh−→0+ F (x− h).

Una clase relevante de variables aleatorias no discretas son las que poseenfuncion de densidad, es decir, aquellas cuya distribucion de probabilidadpuede caracterizarse por una funcion fX(x) ≥ 0 que cumple que

P(X ∈ A) =∫

x∈A

fX(x)dx, para todo A ∈ B.

La relacion entre FX y fX es la siguiente:

FX(x) =∫ x

−∞fX(u)du, fX(x) =

d

dxFX(x)

salvo quizas en un numero finito de puntos x ∈ IR. Las variables aleatorias queposeen funcion de densidad se llaman variables aleatorias absolutamente

continuas. Abusando del lenguaje, aquı nos referiremos a ellas como variablesaleatorias continuas.

1.2.3. Esperanza y varianza

Si se desea describir totalmente la distribucion de probabilidad de una varia-ble aleatoria X acabamos de ver que podemos dar su funcion de distribucion osu funcion de masa o de densidad, segun el caso. Una descripcion parcial puedeefectuarse calculando algunas caracterısticas de la variable aleatoria X, comopor ejemplo medidas de posicion o de dispersion. Estudiaremos algunas de ellas.

Se define la esperanza de una variable aleatoria X como la integral deLebesgue de X:

E(X) =∫

Ω

X(w)dP(w).

En el caso de variables aleatorias discretas la esperanza puede calcularse como

E(X) =∑

w∈Ω

X(ω)P(ω) =∑

k∈ZkP (X = k) =

k∈ZkfX(k).

Por otro lado, la esperanza de una variable aleatoria continua se puede calcularası:

E(X) =∫

IRxfX(x)dx.

Page 16: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6 CAPITULO 1. INTRODUCCION

La esperanza de una variable aleatoria X es una medida de posicion de X: esel centro de gravedad de la distribucion de probabilidad de X.

Si h es una funcion medible h : IR −→ IR, entonces Y = h(X) es tambienvariable aleatoria y su esperanza se puede calcular a partir de la distribucion deX:

E(h(X)) =∫

Ω

h(X(ω))dP(ω)

que en el caso de que X sea discreta puede reescribirse como

E(h(X)) =∑

k∈Zh(k)fX(k).

Si X es una variable aleatoria continua entonces

E(h(X)) =∫

IRh(x)fX(x)dx.

Si existe µ = E(X) y es finita puede definirse una medida de dispersion dela variable aleatoria X a partir de una transformacion h de X. Es lo que sedenomina varianza de X y se define ası:

V (X) = E((X − µ)2) = E(X2)− µ2 = E(X2)− (E(X)2).

1.2.4. Muestra aleatoria simple

Sea X˜ = (X1, . . . , Xn) un vector aleatorio. Se dice que sus componentes(X1, . . . , Xn) son independientes si

P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X1 ≤ x1) · · ·P (Xn ≤ xn)

para cualesquiera valores x1, . . . , xn. Si ademas la distribucion de las n variablesaleatorias Xi es la misma, se dice que X1, . . . , Xn son variables aleatorias

independientes e identicamente distribuidas, o bien que son v.a.i.i.d osimplemente i.i.d.

Si X˜ = (X1, . . . , Xn) y X1, . . . , Xn son i.i.d. con funcion de densidad (en sucaso, de masa) fX , la distribucion conjunta de X˜ viene dada por la funcion dedensidad (en su caso, de masa) conjunta

fX˜

( x˜ ) = f(X1,...,Xn)(x1, . . . , xn) = fX1(x1) · · · fXn(xn) =n∏

i=1

fX(xi).

A un vector X˜ = (X1, . . . , Xn) de v.a.i.i.d. con distribucion igual a la dela variable aleatoria X se le denomina tambien muestra aleatoria simple

de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se de-sea estudiar la caracterıstica X de los individuos de una poblacion de tamanoinfinito. Definimos el experimento consistente en elegir aleatoriamente un indi-viduo de la poblacion y llamamos X al valor de la caracterıstica de interes en

Page 17: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.2. VARIABLE ALEATORIA 7

ese individuo. X es una variable aleatoria. Si definimos un nuevo experimentoconsistente en elegir una muestra aleatoria de n individuos y se anota Xi, elvalor de la caracterıstica en el individuo i-esimo, entonces X˜ = (X1, . . . , Xn)es una coleccion de n v.a.i.i.d. con distribucion igual a la de la variable aleatoriaX, es decir, X1, . . . , Xn es una m.a.s. de X.

1.2.5. Modelo parametrico

Usualmente la ley de probabilidad de una variable aleatoria se supone pertene-ciente a un modelo matematico que depende solo de un numero finito de para-metros:

fX ∈ f(x|θ) : θ ∈ Θ ⊆ IRk.

Escribiremos alternativamente f(x; θ), f(x|θ) o fθ(x). El conjunto de distribu-ciones dadas por fθ(x), θ ∈ Θ se llama familia parametrica de distribucio-nes. Θ es el conjunto de parametros.

La correspondiente distribucion conjunta de una muestra aleatoria simple deX viene dada por la funcion de densidad (o funcion de masa de probabilidad,segun el caso)

fX˜

(x˜ |θ) =n∏

i=1

fθ(xi).

A esta funcion la llamaremos funcion de verosimilitud de la muestra X˜ .Utilizaremos este termino para referirnos indistintamente a la funcion de densi-dad conjunta (si las variables aleatorias son continuas) o a la funcion de masaconjunta (si son discretas).

Ejemplo 4Si X ∼ N(µ, σ2),

fX(x|µ, σ2) =1√

2πσ2e−

12σ2 (x−µ)2 .

La distribucion de X es conocida salvo por dos parametros, µ y σ2. En este casok = 2, θ = (µ, σ2)2 y Θ = IR× IR+ ⊂ IR2.

La distribucion conjunta de n v.a.i.i.d. con la misma distribucion es

fX˜

( x˜ |µ, σ2) =1

(2πσ2)ne−

12σ2

∑n

i=1(xi−µ)2 =

1(2πσ2)n

e− 1

(2πσ2)n ||x−1nµ||2

donde 1n = (1, . . . , 1)t ∈ IRn.. .

Page 18: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

8 CAPITULO 1. INTRODUCCION

1.2.6. Sumas de variables aleatorias

Cuando se obtiene una muestra aleatoria simple X1, . . . , Xn normalmente secalculan a partir de ellas cantidades que resumen los valores observados. Cual-quiera de estos resumenes se puede expresar como una funcion T (x1, . . . , xn) de-finida en el espacio Xn ⊆ IRn donde estan las imagenes del vector (X1, . . . , Xn).Esta funcion T puede devolver valores de IR, IR2 o, en general, IRk.

Ejemplo 5

T (X1, . . . , Xn) =n∑

i=1

Xi, X, X + 3, mınX1, . . . , Xn

T (X1, . . . , Xn) = (n∑

i=1

Xi,

n∑

i=1

(Xi −X)2)

T (X1, . . . , Xn) = (mınX1, . . . , Xn,n∑

i=1

Xi,

n∑

i=1

(Xi −X)2)

T (X1, . . . , Xn) = (X1, . . . , Xn)

. .

Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn

se llaman estadısticos. Dependen de los valores observados, pero no de losparametros desconocidos que determinan la distribucion de Xi. Cuando un es-tadıstico T es utilizado con el proposito de estimar un parametro θ diremos queT es un estimador de θ.

Ejemplo 6T (X1, . . . , Xn) = X es un estimador de µ = E(X).. .

En inferencia estadıstica interesa saber que estadısticos son suficientes pararecoger toda la informacion que la muestra aporta sobre la distribucion de lavariable aleatoria X muestreada. La respuesta depende de la distribucion de X.

Dado que X˜ = (X1, . . . , Xn) es una variable aleatoria, se tiene que Y =T (X1, . . . , Xn) sera tambien una variable aleatoria. La ley de probabilidad de Y

se denomina distribucion en el muestreo de Y (o distribucion muestral).

Los siguientes resultados dan informacion sobre algunas caracterısticas deestadısticos definidos a partir de sumas de variables aleatorias.

Page 19: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.2. VARIABLE ALEATORIA 9

Teorema 1 Sean x1, . . . , xn n numeros reales, sea x = 1n

∑ni=1 xi su media

aritmetica y sea S2 =∑n

i=1(xi − x)2/(n− 1) su varianza muestral.

(a) mına

∑ni=1(xi − a)2 =

∑ni=1(xi − x)2.

(b) (n− 1)S2 =∑n

i=1(xi − x)2 =∑n

i=1 x2i − nx2.

Demostracion:

(a)n∑

i=1

(xi − a)2 =n∑

i=1

(xi − x + x− a)2 =

n∑

i=1

(xi − x)2 +n∑

i=1

(x− a)2 + 2n∑

i=1

(xi − x)(x− a) =

n∑

i=1

(xi − x)2 +n∑

i=1

(x− a)2 + 2(x− a)n∑

i=1

(xi − x) =

(observar que∑n

i=1(xi − x) = 0)

n∑

i=1

(xi − x)2 +n∑

i=1

(x− a)2 ≥n∑

i=1

(xi − x)2.

Por lo tanto el mınimo se alcanza si a = x.

(b) Trivial.

2

Lema 1 Sea X1, . . . , Xn una muestra aleatoria simple de X y sea g(x) unafuncion tal que E(g(X)) y V (g(X)) existen. Entonces,

(a) E(∑n

i=1 g(Xi)) = nE(g(X)),

(b) V (∑n

i=1 g(Xi)) = nV (g(X)),

Demostracion: (a) Trivial, por propiedades basicas del operador esperanza.(b) Trivial, observando que las variables aleatorias g(Xi) son independientes yaplicando propiedades basicas del operador varianza. 2

Teorema 2 Sea X1, . . . , Xn una muestra aleatoria simple de una poblacion X

con esperanza µ y varianza σ2 < ∞. Sean

X =1n

n∑

i=1

Xi, S2 =1

n− 1

n∑

i=1

(Xi −X)2,

la media y la varianza muestrales, respectivamente. Entonces,

Page 20: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

10 CAPITULO 1. INTRODUCCION

(a) E(X) = µ,

(b) V (X) = σ2/n,

(c) E(S2) = σ2.

Demostracion: (a), (b) Triviales, por el lema anterior y las propiedades basicasde la esperanza y la varianza.(c)

(n− 1)S2 =n∑

i=1

X2i − nX

2=⇒ (n− 1)E(S2) = nE(X2)− nE(X

2) =

n(V (X) + E(X)2)− n(V (X) + E(X)2) = nσ2 + nµ2 − n1n

σ2 − nµ2 =

(n− 1)σ2 =⇒ E(S2) = σ2.

2

El siguiente resultado expresa la funcion generatriz de momentos (f.g.m.) dela media muestral en funcion de la f.g.m. de la variable aleatoria muestreada.Es muy util cuando esta ultima f.g.m. es conocida, porque permite determinarcompletamente la distribucion de la media muestral.

Teorema 3 Sea X1, . . . , Xn una muestra aleatoria simple de una poblacion X

con funcion generatriz de momentos MX(t). La funcion generatriz de momentosde X es

MX(t) = (MX(t/n))n.

Demostracion: La f.g.m. de X se define como MX(t) = E(etX) para los valoresde t para los que esa esperanza existe. Ası,

MX(t) = E(etX

)= E

(e

tn

∑n

i=1Xi

)= E

(n∏

i=1

etn Xi

)=

(independencia de las v.a. Xi)

n∏

i=1

E(e

tn Xi

)=

n∏

i=1

MXi(t/n) =

(las Xi son identicamente distribuidas)

n∏

i=1

MX(t/n) = (MX(t/n))n.

2

Page 21: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.2. VARIABLE ALEATORIA 11

Ejemplo 7X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2). Entonces,

MX(t) = exp(µt +σ2t2

2).

Ası,

MX(t) =(

exp(µt

n+

σ2(t/n)2

2))n

= exp(µt +σ2t2

2n)

y, por tanto, X ∼ N(µ, σ2/n).. .

Ejemplo 8X1, . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,

fX(x) =xα−1e−x/β

Γ(α)βα, x > 0, E(X) = αβ, V (X) = αβ2,

MX(t) =(

11− βt

, t <1β

.

Ası,

MX(t) =((

11− βt/n

)α)n

=(

11− (β/n)t

)αn

y, por lo tanto, X ∼ γ(nα, β/n).

Un caso particular de distribucion gamma es la distribucion exponencial.Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Ası que la media deexponenciales de media µ sera una γ(n, µ/n) que tendra

E(X) = nµ

n= µ, V (X)n

µ2

n2=

µ2

n.

. .

Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bienporque la f.g.m resultante no se corresponde con ninguna distribucion conocida,siempre es posible intentar alguna de las dos estrategias siguientes para tratarde determinar la distribucion de la media muestral. En primer lugar, se puedetrabajar con la funcion caracterıstica que siempre existe. En segundo lugar sepuede tratar de calcular directamente la funcion de densidad de la suma comola convolucion de las n funciones de densidad (ver el ejemplo de la distribucionde Cauchy, Casella-Berger, paginas 210-211).

Page 22: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

12 CAPITULO 1. INTRODUCCION

1.3. Dos familias de distribuciones importantes

1.3.1. Familias de localizacion y escala

Sea Z una variable aleatoria con distribucion conocida. A la coleccion dedistribuciones de probabilidad de las variables aleatorias X que se pueden definirde la forma

X = µ + σZ, µ, σ ∈ IR σ > 0

se la denomina familia de localizacion y escala construida a partir de ladistribucion de Z.

En particular, si Z es variable aleatoria absolutamente continua con funcionde densidad f(x), la familia de funciones de densidad

f(x|µ, σ) =

f

(x− µ

σ

): µ ∈ IR, σ > 0

forman la familia de localizacion y escala de f(x).

El parametro de escala dilata la distribucion si σ > 1 y la contrae si σ < 1.El parametro de posicion µ traslada la densidad |µ| unidades a la derecha (siµ > 0) o a la izquierda (si µ < 0).

Proposicion 1(a) Z ∼ f(x) ⇐⇒ X = σZ + µ ∼ f(x|µ, σ).(b) X ∼ f(x|µ, σ) ⇐⇒ X−µ

σ ∼ f(x).

Demostracion: Trivial, aplicando la formula de la funcion de densidad de latransformacion biyectiva de una variable aleatoria univariante. 2

Ejemplo 9Las siguientes son algunas de las familias de distribuciones usuales que son delocalizacion y escala y se parametrizan habitualmente como tales: normal, dobleexponencial, Cauchy. La distribucion uniforme U(a, b) tambien es una familiade localizacion y escala. En este caso µ = (a + b)/2 y σ = b− a podrıan servircomo parametros de posicion y escala.. .

Corolario 1 Sea Z1, . . . , Zn una m.a.s. de Z ∼ f(x) y sea X1, . . . , Xn unam.a.s. de X ∼ f(x|µ, σ). Si la ley de Z es g(z) entonces la ley de X es 1

σ g(

x−µσ

).

Demostracion: Observar que Xi ∼ σZi + µ, luego X ∼ σZ + µ. Aplicando laproposicion anterior se tiene el resultado. 2

Page 23: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.4. MUESTREO DE UNA DISTRIBUCION NORMAL 13

1.3.2. Familias exponenciales

X pertenece a la familia exponencial si su funcion de densidad o funcion demasa de probabilidad depende de un parametro θ ∈ Θ ⊆ IRp y puede escribirseası:

f(x|θ) = h(x)c(θ) exp

k∑

j=1

wj(θ)tj(x)

para ciertas funciones h, c, wj y tj . Si p = k y wj(θ) = θj , j = 1, . . . , p, entoncesdiremos que la familia exponencial esta parametrizada de forma natural. En esecaso, el espacio parametrico natural de esa familia es el conjunto

Θ = θ ∈ IRk :∫ ∞

−∞h(x) exp

k∑

j=1

θjtj(x)

dx < ∞.

Si X1, . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,entonces

f(x1, . . . , xn|θ) =

(n∏

i=1

h(xi)

)(c(θ))n exp

k∑

j=1

wj(θ)n∑

i=1

tj(xi)

.

Observar que si definimos Tj(X1, . . . , Xn) =∑n

i=1 tj(Xi), j = 1, . . . , p, en-tonces la distribucion de (T1, . . . , Tk) viene dada por

fT (u1, . . . , uk|θ) = H(u1, . . . , uk) (c(θ))n exp

k∑

j=1

wj(θ)uj

,

es decir, T tambien pertenece a la familia exponencial.

Ejemplo 10Ejemplos de familias exponenciales son estos: binomial, geometrica, Poisson, bi-nomial negativa, exponencial, normal, gamma, beta.. .

1.4. Muestreo de una distribucion normal

En el resto del tema supondremos que X1, . . . , Xn es una m.a.s. de unaN(µ, σ2).

Teorema 4 (Teorema de Fisher) (a) X y S2n son variables aleatorias in-

dependientes.

Page 24: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

14 CAPITULO 1. INTRODUCCION

(b) X ∼ N(µ, σ2/n).

(c) (n− 1)S2n/σ2 ∼ χ2

n−1.

Demostracion: Suponemos, sin perdida de generalidad, que µ = 0 y σ = 1,puesto que la familia normal es una familia de posicion y escala.

(b) Se ha demostrado en el ejemplo 7.

(a) Observese que

(n− 1)S2n =

n∑

i=1

(Xi −X)2 = (X1 −X)2 +n∑

i=2

(Xi −X)2 =

(como∑n

i=1(Xi −X) = 0)

(n∑

i=2

(Xi −X)

)2

+n∑

i=2

(Xi −X)2

de donde se deduce que S2n es funcion de (X2 − X, . . . , Xn − X). Probaremos

ahora que (X2−X, . . . , Xn−X) y X son independientes, lo cual implicara que(a) es cierto.

Hacemos el cambio de variable

y1 = x

y2 = x2 − x...yn = xn − x

=⇒

x1 = nx−∑ni=2 xi = x−∑n

i=2(xi − x) = y1 −∑n

i=2 yi

x2 = y2 + y1

...xn = yn + y1

El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variablealeatoria transformada es

fY (y1 . . . , yn) = fX(y1 −n∑

i=2

yi, y2 + y1, . . . , yn + y1)n =

(1√2π

)n

n exp

−1

2(y1 −

n∑

i=2

yi)2 − 12

n∑

i=2

(yi + y1)2

(∗)=

n

(√

2π)nexp

−1

2ny2

1

exp

−1

2

(n∑

i=2

y2i + (

n∑

i=2

yi)2)

.

Por lo tanto Y1 es independiente de (Y2, . . . , Yn) y de aquı se sigue que X esindependiente de S2

n.

(∗) Falta por justificar el paso marcado con un (∗):

(y1 −n∑

i=2

yi)2 +n∑

i=2

(yi + y1)2 =

Page 25: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.4. MUESTREO DE UNA DISTRIBUCION NORMAL 15

y21 + (

n∑

i=2

yi)2 − 2y1

n∑

i=2

yi +n∑

i=2

y2i + (n− 1)y2

1 + 2y1

n∑

i=2

yi =

ny21 + (

n∑

i=2

yi)2 +n∑

i=2

y2i .

(c) La demostracion de este apartado se seguira mejor despues del apartadosiguiente en el que se tratan las distribuciones de probabilidad asociadas a lanormal.

Denotaremos por Xn y por S2n, respectivamente, la media muestral y la

varianza muestral calculadas a partir de una muestra de tamano n.

En primer lugar probaremos que se verifica la siguiente formula recursiva:

(n− 1)S2n = (n− 2)S2

n−1 +n− 1

n(Xn −Xn−1)2.

En efecto,

(n− 1)S2n =

n∑

i=1

(Xi −Xn)2 =n−1∑

i=1

(Xi −Xn−1 + Xn−1 −Xn)2 + (Xn −Xn)2 =

(n− 2)S2n−1 + (n− 1)(Xn−1 −Xn)2 + (Xn −Xn)2 = (∗)

(teniendo en cuenta que (n− 1)Xn−1 = nXn −Xn =⇒ (n− 1)(Xn−1 −Xn) =n(Xn−Xn) y que (n−1)(Xn−1−Xn) = (Xn−Xn) = ((n−1)/n)(Xn−1−Xn))

(∗) = (n− 2)S2n−1 + (n− 1)

1n2

(Xn−1 −Xn)2 +(n− 1)2

n2(Xn−1 −Xn)2 =

(n− 2)S2n−1 +

n− 1n

(Xn −Xn−1)2.

Una vez probada la relacion entre S2n y S2

n−1 probaremos por induccion que(n− 1)S2

n/σ2 ∼ χ2n−1.

Para n = 2, la formula recursiva nos da

S22 =

12(X2 −X1)2.

Como X1 y X2 son N(0, 1) independientes, entonces (X2 −X1)/√

2 ∼ N(0, 1)y de ahı que

S22 = ((X2 −X1)/

√2)2 ∼ χ2

1,

con lo que queda probado el resultado para n = 2.

Supongamos que el resultado es cierto para n = k, es decir,

(k − 1)S2k/σ2 ∼ χ2

k−1.

Page 26: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

16 CAPITULO 1. INTRODUCCION

Probemos que es tambien cierto para n = k + 1. Observar que

kS2k+1 = (k − 1)S2

k︸ ︷︷ ︸∼χ2

k−1

+k

k + 1(Xk+1 −Xk)2.

Ası, el resultado quedara demostrado si se prueba que (k/(k+1))(Xk+1−Xk)2 esuna χ2

1, puesto que esta variable es independiente de S2k, al ser Xk independiente

de S2k (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.

Por esta misma razon, Xk+1 ∼ N(0, 1) es tambien independiente de Xk ∼N(0, 1/k). Ası que

Xk+1 −Xk ∼ N

(0,

k + 1k

)=⇒

(√k

k + 1(Xk+1 −Xk)

)2

∼ χ21

que es precisamente lo que querıamos probar. 2

Existen demostraciones alternativas de este teorema basadas en la funciongeneratriz de momentos o en la funcion caracterıstica.

1.4.1. Distribuciones asociadas a la normal

En esta seccion se recuerdan las definiciones de las leyes χ2, t de Studenty F de Fisher-Snedecor. Tambien se enuncian algunas de sus propiedades. Lasdemostraciones pueden encontrarse en la seccion 5.4 de Casella-Berger.

La ley χ2ν

Diremos que X tiene distribucion χ2 con ν grados de libertad y se denotaX ∼ χ2

ν si su funcion de densidad es

fν(x) =1

Γ(ν/2)2ν/2x(ν/2)−1e−x/2, 0 < x < ∞,

es decir, X ∼ γ(ν/2, 2).

Lema 2 (a) Si X ∼ N(µ, σ2) entonces

(X − µ)2

σ2∼ χ2

1.

(b) Si X1, . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi

entonces

Y =n∑

i=1

Xi ∼ χ2ν ,

donde ν =∑n

i=1 νi.

Page 27: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.4. MUESTREO DE UNA DISTRIBUCION NORMAL 17

(c) Sean X1, . . . , Xn variables aleatorias independientes e identicamente dis-tribuidas segun una N(0, 1). La variable aleatoria

Y =n∑

i=1

X2i ∼ χ2

n.

(Nota: esta propiedad se usa a veces como definicion de la distribucionχ2).

La ley tpDiremos que X sigue una distribucion t de Student con p grados de

libertad y lo denotaremos X ∼ tp, si su funcion de densidad es

fp(x) =Γ((p + 1)/2)

Γ(p/2)1√πp

1(1 + t2/p)(p+1)/2

, −∞ < x < ∞.

Si p = 1 se trata de la distribucion de Cauchy.

Lema 3 (a) Z ∼ N(0, 1), Y ∼ χ2p, Z e Y independientes, entonces,

X =Z√Y/p

∼ tp.

(Nota: esta propiedad se usa a veces como definicion de la distribucion t

de Student.)

(a) Sean X1, . . . , Xn una m.a.s. de una N(µ, σ2). Entonces

X − µ

S/√

n∼ tn−1.

La distribucion t de Student no tiene f.g.m. porque no tiene momentos detodos los ordenes. Si X ∼ tp entonces solo existen los momentos de ordenestrictamente inferior a p: existe E(Xα) para α < p.

Si X ∼ tp, entonces E(X) = 0 si p > 1 y V (X) = p/(p− 2) si p > 2.

La ley Fp,q

Diremos que X sigue una distribucion F con p y q grados de libertad ylo denotaremos X ∼ Fp,q, si su funcion de densidad es

fp,q(x) =Γ

(p+q2

)

Γ(

p2

(q2

)(

p

q

)p/2x(p/2)−1

(1 + p

q x) p+q

2

, 0 < x < ∞.

Lema 4 (a) Si U ∼ χ2p, V ∼ χ2

q y U y V son independientes, entonces

X =U/p

V/q∼ Fp,q.

(Nota: esta propiedad se usa a veces como definicion de la distribucionF .)

Page 28: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

18 CAPITULO 1. INTRODUCCION

(b) Sean X1, . . . , Xn m.a.s. de N(µX , σ2X), Y1, . . . , Ym m.a.s. de N(µY , σ2

Y ),dos muestras independientes. Entonces

S2X/σ2

X

S2Y /σ2

Y

∼ Fn−1,m−1.

(c) Si X ∼ Fp,q, entonces X−1 ∼ Fq,p.

(d) Si X ∼ tp,entonces X2 ∼ F1,p.

(e) Si X ∼ Fp,q, entonces

p

q

X

1 + pq X

∼ Beta(p

2,q

2

).

(f) Si X ∼ Fn−1,m−1, entonces

E(X) = E

(χ2

n−1/(n− 1)χ2

m−1/(m− 1)

)= E

(χ2

n−1

n− 1

)E

(m− 1χ2

m−1

)=

(n− 1n− 1

)(m− 1m− 3

)=

m− 1m− 3

.

(g) Si las distribuciones de partida tienen simetrıa esferica, entonces el cocien-te de las varianzas muestrales sigue una F (Casella-Berger, p. 227).

1.5. Leyes de los Grandes Numeros y Teorema

Central del Lımite

En esta seccion se enuncian dos resultados fundamentales en inferencia es-tadıstica: la Ley Fuerte de los Grandes Numeros y el Teorema Central del Lımite.

Dada una sucesion de variables aleatorias definidas sobre el mismo espaciomuestral, se llaman leyes de los grandes numeros a los resultados sobreconvergencia de las sucesiones de sus medias aritmeticas a una constante. Seconoce como problema del lımite central el estudio de la convergenciadebil de la sucesion de medias muestrales centradas y tipificadas a una distri-bucion no degenerada.

1.5.1. Leyes de los grandes numeros

Se enuncia a continuacion una version de ley debil de los grandes nume-

ros que establece la convergencia en media cuadratica (y por tanto, en probabili-dad) de la media aritmetica de una sucesion de variables aleatorias incorreladas.

Page 29: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.5. LEYES DE LOS GRANDES NUMEROS Y TEOREMA CENTRAL DEL LIMITE19

Teorema 5 (Ley debil de los grandes numeros) Sea Xnn∈IN una suce-sion de variables aleatorias incorreladas con momentos de segundo orden aco-tados por una constante C, independiente de n. Sea Sn =

∑ni=1 Xi. Entonces

E

(∣∣∣∣Sn − E(Sn)

n

∣∣∣∣2)≤ C

n

y, como consecuencia

lımn−→∞

Sn − E(Sn)n

= 0

en el sentido de la convergencia en media cuadratica.

La demostracion de este resultado puede verse, por ejemplo, en Sanz (1999).

Como caso particular del teorema anterior, se puede probar la convergenciaen probabilidad de la frecuencia relativa de un suceso a su probabilidad (verSanz 1999). Este resultado se conoce como ley debil de Bernoulli.

Los resultados que garantizan la convergencia casi segura de la media mues-tral se conocen como leyes fuertes de los grandes numeros. Se enunciaa continuacion una ley fuerte para variables con segundos momentos finitos eincorreladas.

Teorema 6 (Ley fuerte de los grandes numeros) Bajo las hipotesis del teo-rema 5 se tiene que

lımn−→∞

Sn − E(Sn)n

= 0

en el sentido de la convergencia casi segura.

En Sanz (1999) puede encontrarse la demostracion de este resultado. En esemismo texto se recoge una version mas general de la ley fuerte de los grandesnumeros, conocida como ley fuerte de los grandes numeros de Kolmo-

gorov: en el caso i.i.d. basta con que haya eseranza finita para que se de laconvergencia casi segura de la media muestral a la esperanza.

1.5.2. Teorema central del lımite

En esta seccion se presenta el teorema central del lımite de Levy-

Lindeberg, valido para sucesiones de variables aleatorias independientes eidenticamente distribuidas con momento de segundo orden finito.

Teorema 7 (Teorema central del lımite) Sea Xnn∈IN una sucesion devariables aleatorias independientes e identicamente distribuidas con momentode segundo orden finito. Sea µ la esperanza comun y σ2 la varianza comun, quesupondremos estrictamente positiva. Sea Sn =

∑ni=1 Xi. Se tiene que

Sn − nµ

σ√

n−→D Z,

donde Z ∼ N(0, 1) y −→D indica convergencia en distribucion.

Page 30: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

20 CAPITULO 1. INTRODUCCION

Este resultado puede demostrarse utilizando funciones generadoras de moe-mentos o funciones caracterısticas, como se hace en Casella-Berger. En Sanz(1999) se da una demostracion (mas laboriosa) que no requiere el uso de estastransformaciones. En Casella-Berger puede encontrarse una version mas fuertedel teorema central del lımite.

El Teorema de De Moivre-Laplace, que establece la convergencia debil de labinomial tipificada a la normal estandar, es una aplicacion directa del teoremacentral del lımite de Levy-Lindeberg. Ejemplos del uso habitual de la aproxi-macion de la binomial por la normal son la estimacion del error de aproximarla frecuencia relativa por la probabilidad y el calculo de tamanos muestrales enencuestas.

1.5.3. Versiones multivariantes

Se enuncian a continuacion versiones multivariantes de la ley de los griandesnumeros y del teorema central del lımite.

Teorema 8 Sea X˜ nn∈IN una sucesion de variables aleatorias p-dimensionales

independientes e identicamente distribuidas. Sea X˜ nel vector p-diemensional

media aritmetica de las n primeras variables:

X˜ n=

1n

n∑

i=1

X˜ i.

Se tiene lo siguiente:

1. Si existe E(X˜ i) = µ, entonces X˜ nconverge a µ casi seguramente.

2. Si, ademas, X˜ i tiene matriz de varianza y covarianzas finita Σ, entonces

√n(X˜ n

− µ) −→D Np(0,Σ).

La demostracion de este resultado puede encontrarse, por ejemplo, en Arnold(1990).

Como corolario se puede probar la convergencia de la distribucion multino-mial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).

Page 31: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.6. LISTA DE PROBLEMAS 21

1.6. Lista de problemas

Variables aleatorias. Muestras

1. (Casella-Berger, 5.2) Sean X1, X2 . . . v.a.i.i.d. cada una de ellas con den-sidad f(x). Supongamos que cada Xi mide la cantidad anual de precipita-ciones en un determinado emplazamiento. Da la distribucion del numerode anos que transcurren hasta que las lluvias del primer ano, X1, sonsuperadas por primera vez.

2. (Casella-Berger, 5.5) Sean X1, . . . , Xn v.a.i.i.d. con densidad fX(x). SeaX su media muestral. Prueba que

fX(x) = nfX1+···+Xn(nx).

3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1, . . . , Xn una muestraaleatoria simple de X, a partir de la que se calcula la media y la varianzamuestral de la forma usual:

X =1n

n∑

i=1

Xi, S2 =1

n− 1

n∑

i=1

(Xi −X)2.

a) Prueba que

S2 =1

2n(n− 1)

n∑

i=1

n∑

j=1

(Xi −Xj)2.

Supongamos que E(X4) < ∞. Sean θ1 = E(X) y θj = E((X − θ1)j),j = 2, 3, 4.

b) Prueba que

V (S2) =1n

(θ4 − n− 3

n− 1θ22

).

c) Da la expresion de Cov(X,S2) en terminos de θ1, . . . , θ4. ¿Bajo que con-diciones son X y S2 incorreladas?

d) Si la distribucion de X es simetrica respecto de θ1, ¿es posible que lacovarianza de esos estadısticos sea no nula?

e) Si la distribucion de X no es simetrica respecto de θ1, ¿es posible quela covarianza de esos estadısticos sea nula?

4. (Casella-Berger, 5.16) Llamemos Xn y S2n a la media y la varianza mues-

trales calculadas a partir de n observaciones X1, . . . , Xn. Supongamos quese observa un nuevo valor Xn+1. Demuestra las siguientes formulas recur-sivas.

a)

Xn+1 =1

n + 1(Xn+1 + nXn).

Page 32: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

22 CAPITULO 1. INTRODUCCION

b)nS2

n+1 = (n− 1)S2n +

n

n + 1(Xn+1 −Xn)2.

5. (Casella-Berger, 5.18) Sean X1 y X2 las medias muestrales calculadas apartir de dos muestras independientes de tamano n de una poblacion convarianza σ2. Halla el menor valor de n que garantiza que

P(|X1 −X2| < σ

5

)

es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychevcomo el Teorema Central del Lımite. Comenta los resultados obtenidos.

6. (Casella-Berger, 5.29) Sean Xi ∼ N(i, i2), i = 1, 2, 3, tres variables aleato-rias independientes. Construye a partir de estas variables aleatorias otrasque tengan las siguientes distribuciones.

a) χ23.

b) t2.

c) F1,2.

7. (Casella-Berger, 5.36) Sean Ui, i = 1, 2, . . . , variables aleatorias indepen-dientes con distribucion U(0, 1). Sea X una variable aleatoria con distri-bucion

P (X = x) =1

(e− 1)x!, x = 1, 2, 3, . . .

Da la distribucion de

Z = mınU1, . . . , UX.

Indicacion: Observar que Z|X = x es el primer estadıstico de orden deuna muestra de tamano x de una U(0, 1).

8. (Casella-Berger, 5.37) Sea X1, . . . , Xn una muestra aleatoria simple de unapoblacion con densidad

fX(x) =1θI(0,θ)(x).

Sean X(1), . . . , X(n) los estadısticos orden. Prueba que X(1)/X(n) y X(n)

son independientes.

9. Demuestra los lemas 2, 3 y 4.

Familias exponenciales

10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo-nenciales y describe el espacio parametrico natural de cada una de ellas.

a) Familia normal con alguno de los parametros µ o σ conocidos.

Page 33: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

1.6. LISTA DE PROBLEMAS 23

b) Familia gamma con alguno de los parametros α o β conocidos.

c) Familia beta con alguno de los parametros α o β conocidos.

d) Familia Poisson.

e) Binomial negativa con el parametro r conocido y 0 < p < 1.

11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en termi-nos de su espacio parametrico natural con densidad

f(x; η˜ ) = h(x)c( η˜ ) expk∑

i=1

ηiti(x).

Prueba que

Eη˜

(ti(X)) = − ∂

∂ηi

log(c( η˜ )).

Indicacion: Usa el hecho de que para una familia exponencial se tieneque

∂j

∂ηji

∫ ∞

−∞f

η˜(x)dx =

∫ ∞

−∞

∂j

∂ηji

fη˜

(x)dx.

12. Considera la familia de distribuciones normales con media θ y varianzaθ2, donde θ puede tomar cualquier valor real. Prueba que esta familia esuna familia exponencial y determina el espacio parametrico natural.

13. Sean X1, . . . , Xn v.a.i.i.d. con distribucion perteneciente a una familia ex-ponencial expresada en terminos del espacio parametrico natural. Pruebaque la distribucion conjunta de las n variables tambien pertenece a lafamilia exponencial.

14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1, . . . , Xn v.a. independientestales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribucionesconjuntas de las n variables es una familia exponencial.

15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1, . . . , Xn v.a. independientestales que Xi ∼ N(iθ, 1), θ ∈ R. Prueba que la familia de distribucionesconjuntas de las n variables es una familia exponencial.

16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1, . . . , Xn v.a. independientestales que Xi ∼ Exp(1/(iθ)), E(Xi) = iθ, θ > 0. Prueba que la familia dedistribuciones conjuntas de las n variables es una familia exponencial.

Familias de localizacion y escala

17. (Casella-Berger, 3.31) Considera la funcion de densidad

f(x) =634

(x6 − x8), −1 < x < 1.

Dibuja el grafico de1σ

f

(x− µ

σ

)

para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.

Page 34: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

24 CAPITULO 1. INTRODUCCION

a) µ = 0, σ = 1.

b) µ = 3, σ = 1.

c) µ = 3, σ = 2.

18. (Casella-Berger, 3.32) Muestra que si f(x) es una funcion de densidadsimetrica alrededor de 0, entonces la mediana de la densidad

f

(x− µ

σ

)

es µ.

19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f(z). Sedefine zα como un numero que satisface que

α = P (Z > zα) =∫ ∞

f(z)dz.

Sea X una variable aleatoria con densidad en la familia de localizacion yescala de f

f

(x− µ

σ

)

y sea xα = µ + σzα. Prueba que P (X > xα) = α. (Nota: Ası, los valo-res de xα se calculan facilmente para cualquier miembro de la familia delocalizacion y escala si se dispone de una tabla de valores zα.)

20. (Casella-Berger, 3.34) Considera la distribucion de Cauchy, con densidad

f(x) =1

π(1 + x2), x ∈ IR,

y la familia de localizacion y escala definida a partir de ella: X tienedistribucion de Cauchy con parametros µ y σ si su densidad es

f(x;µ, σ) =σ

π(σ2 + (x− µ)2), x ∈ IR.

No existen la esperanza ni la varianza de estas distribuciones, luego µ

y σ2 no son la media y la varianza. No obstante, tienen un importantesignificado.

a) Prueba que µ es la mediana de X.

b) Prueba que µ− σ y µ + σ son los cuartiles primero y tercero, respec-tivamente, de X.

21. (Casella-Berger, 3.35) Sea f(x) una funcion de densidad con media µ yvarianza σ2. Indica como crear una familia de localizacion y escala basadaen f(x) tal que la densidad estandar de la familia, f∗(x), tenga esperanza0 y varianza 1.

Page 35: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 2

Principios para reducir los

datos

Referencias: Casella-Berger, capıtulo 6. En algunos puntos se han

seguido tambien Cristobal (1992) (capıtulo 7), Schervish (1995)

(capıtulo 2) y Garcıa-Nogales (1998) (capıtulo 3).

El uso de cualquier estadıstico T ( X˜ ) implica una reduccion de los datosmuestrales. Sea X˜ = (X1, . . . , Xn) una muestra aleatoria simple (un vectoraleatorio) y sean x˜ = (x1, . . . , xn), y˜ = (y1, . . . , yn) muestras observadas (rea-lizaciones de X˜ ). Si decidimos usar el estadıstico T ( X˜ ) en vez de toda la mues-tra, seran tratadas igual dos muestras observadas cualesquiera x˜ , y˜ , siempreque T ( x˜ ) = T ( y˜ ). Es decir, al usar el estadıstico T , en lugar de toda la mues-tra, se pierde informacion. Se plantea ası el problema de buscar estadısticos T

tales que la informacion que se pierde al usarlos sea irrelevante para los finesque nos hayamos marcado.

Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorioX˜ , reducir los datos en terminos de un estadıstico T es equivalente a dar

una particion de X . En efecto, sea T = t : t = T (x), para algun x ∈ X, laimagen de X mediante el estadıstico T . Entonces At = T−1(t) : t ∈ T es unaparticion de X inducida por T . Al observar x˜ y limitarnos a registrar el valorde T (x˜ ), podremos saber que hemos observado un elemento de A

T ( x˜ ), pero

desconoceremos cual de ellos.

Ejemplo 11Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0si sale cruz. El espacio muestral es

X = x˜ = (x1, . . . , xn) : xi ∈ 0, 1.

25

Page 36: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

26 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Se define T (x˜ ) =∑n

i=1 xi. Entonces

T = 0, 1, 2, . . . , n.

El estadıstico T ha creado una particion en X de forma que todas aquellassecuencias de resultados con igual numero de unos estan en la misma clase:

At = x˜ = (x1, . . . , xn) ∈ T :n∑

i=1

xi = t.

No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.. .

En este tema estudiaremos dos principios para reducir los datos que garan-tizan que en el proceso de reduccion no se pierde informacion relevante sobrelos aspectos en estudio de la variable aleatoria de interes. Estos principios sonel principio de suficiencia y el principio de verosimilitud. A ellos puede anadirseel principio de invariancia, que no trataremos aquı (puede consultarse la seccion6.3 del Casella-Berger como material de lectura).

En adelante supondremos que la variable aleatoria X en estudio tiene dis-tribucion perteneciente a una familia parametrica:

X ∼ f(x|θ), θ ∈ Θ ⊆ IRk.

Se supondra ademas que se toma una muestra aleatoria simple de X y que apartir de ella se calculan estadısticos.

2.1. Principio de suficiencia

Un estadıstico T es suficiente para un parametro θ si captura toda la in-formacion que sobre θ contiene la muestra. Cualquier informacion adicional (esdecir, aparte del valor del estadıstico T ) que la muestra pueda aportar, no pro-porciona informacion relevante sobre θ. Estas consideraciones se concretan enel siguiente principio:

Principio de suficiencia:Si T es un estadıstico suficiente para θ, cualquier inferencia sobre θ ha de de-pender de la muestra X˜ = (X1, . . . , Xn) solo a traves del valor T (X˜ ). Es decir,si x˜ e y˜ son tales que T ( x˜ ) = T ( y˜ ), entonces la inferencia que se haga sobreθ sera la misma tanto si se observa x˜ como si se observa y˜ .

Formalmente, diremos que un estadıstico T es suficiente para θ si la dis-tribucion condicionada de X˜ dado el valor T ( X˜ ), no depende de θ.

Veamos, en el caso discreto, que la informacion que sobre un parametroaporta un estadıstico suficiente es toda la informacion que aportarıa la muestra

Page 37: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.1. PRINCIPIO DE SUFICIENCIA 27

completa. En primer lugar, si t es uno de los posibles valores de T ( X˜ ), es decir,si Pθ(T ( X˜ ) = t) > 0, entonces

Pθ(X˜ = x˜ |T (X˜ ) = t) =

Pθ( X˜ = x˜ |T (X˜ ) = T ( x˜ )) si T ( x˜ ) = t

0 si T ( x˜ ) 6= t

Ası que solo son de interes las probabilidades condicionadas Pθ( X˜ = x˜ |T ( X˜ ) =T ( x˜ )). Si T es suficiente estas probabilidades no dependen de θ, luego,

Pθ( X˜ = x˜ |T ( X˜ ) = T (x˜ )) = P (X˜ = x˜ |T (X˜ ) = T (x˜ ))

para todo θ. En este sentido entendemos que T captura toda la informacionsobre θ.

Supongamos que dos cientıficos se interesan por la variable aleatoria X cuyadistribucion depende del parametro desconocido θ. Supongamos ademas que elprimer cientıfico observa toda una muestra x˜ de X, mientras que el segundosolo puede estudiar el fenomeno a traves de una revista que publica el valor delestadıstico suficiente T ( x˜ ). La cuestion relevante entonces es saber si amboscientıficos tienen o no la misma informacion sobre θ. Veamos que ası es.

Como P (X˜ = x˜ |T (X˜ ) = T ( x˜ )) no depende de θ, esta distribucion con-dicional puede calcularse a partir del modelo que sigue X. Por lo tanto amboscientıficos conocen

P (X˜ = y˜ |T (X˜ ) = T (x˜ )), para todo y ∈ AT ( x˜ )

= y : T ( y˜ ) = T (x˜ ).

Si el segundo cientıfico quisiera, podrıa generar un vector aleatorio Y˜ siguiendoesa distribucion y se satisfarıa que

P (Y˜ = y˜ |T (X˜ ) = T (x˜ )) = P (X˜ = y˜ |T (X˜ ) = T (x˜ )), para todo y ∈ AT ( x˜ )

Por lo tanto X e Y tendrıan la misma distribucion condicionada a que T ( X˜ ) =T ( x˜ ). Ademas, ambas variables tienen la misma distribucion incondicional:

Pθ( X˜ = x˜ ) = Pθ( X˜ = x˜ , T ( X˜ ) = T (x˜ )) =

(porque X˜ = x˜ ⊆ T (X˜ ) = T ( x˜ ))

Pθ( X˜ = x˜ |T (X˜ ) = T ( x˜ ))Pθ(T ( X˜ ) = T (x˜ )) =

Pθ(Y˜ = x˜ |T ( X˜ ) = T (x˜ ))Pθ(T (X˜ ) = T (x˜ )) =

Pθ(Y˜ = x˜ , T (X˜ ) = T ( x˜ )) =

(teniendo en cuenta que Y˜ = x˜ ⊆ T (X˜ ) = T ( x˜ ))

Pθ(Y˜ = x˜ )

Page 38: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

28 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Por lo tanto el segundo cientıfico ha podido observar una variable aleatoriaY˜ que tiene la misma distribucion que la variable aleatoria X˜ que observo elprimer cientıfico, y ambos cientıficos obtienen el mismo valor del estadıstico T

a partir de sus respectivas observaciones. Por lo tanto, ambos cientıficos tienenla misma informacion.

Teorema 9 Si f( x˜ |θ) es la verosimilitud de un vector aleatorio X˜ y q(t|θ) esla verosimilitud (funcion de densidad o de masa) de un estadıstico T ( X˜ ), setiene la siguiente equivalencia. T ( X˜ ) es un estadıstico suficiente para θ si ysolo si para cada x˜ del espacio muestral X el cociente

f( x˜ |θ)q(T ( x˜ )|θ)

no depende de θ.

Demostracion: Haremos la prueba para el caso discreto. El caso continuo nopresenta dificultades adicionales.

Veamos primero que si f(x˜ |θ)/q(T (x˜ )|θ) no depende de θ entonces T essuficiente. Como ya se vio anteriormente,

Pθ( X˜ = x˜ |T (X˜ ) = t) =

Pθ( X˜ = x˜ |T ( X˜ ) = T (x˜ )) si T (x˜ ) = t

0 si T (x˜ ) 6= t

Luego si T (x˜ ) 6= t la funcion de masa de probabilidad condicionada vale 0 y,no depende de θ. En el otro caso,

Pθ( X˜ = x˜ |T ( X˜ ) = T (x˜ )) =Pθ( X˜ = x˜ , T ( X˜ ) = T (x˜ ))

Pθ(T (X˜ ) = T (x˜ ))=

Pθ( X˜ = x˜ )

Pθ(T (X˜ ) = T ( x˜ ))=

f(x˜ |θ)q(T (x˜ )|θ)

que tampoco depende de θ, de donde se sigue que T es suficiente.

Para probar el recıproco, basta con leer la igualdad anterior en orden inverso,

f(x˜ |θ)q(T (x˜ )|θ) = Pθ(X˜ = x˜ |T ( X˜ ) = T (x˜ )),

que no depende de θ si T es suficiente. 2

Ejemplo 12Sea X˜ = (X1, . . . , Xn) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. Elestadıstico T (X˜ ) = X1 + · · ·+ Xn ∼ B(n, θ) es suficiente para θ:

f(x˜ |θ)q(T (x˜ )|θ) =

∏ni=1 θxi(1− θ)1−xi

(nt

)θt(1− θ)n−t

=

Page 39: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.1. PRINCIPIO DE SUFICIENCIA 29

(donde se ha definido t =∑n

i=1 xi)

θt(1− θ)n−t

(nt

)θt(1− θ)n−t

=1(nt

)

que no depende de θ.. .

Ejemplo 13Sea X˜ = (X1, . . . , Xn) muestra aleatoria simple de X ∼ N(µ, σ2), σ2 conocido.El estadıstico T (X) = X ∼ N(µ, σ2/n) es suficiente para µ:

f(x˜ |θ)q(T (x˜ )|θ) =

(2πσ2)−n/2 exp− 1

2σ2

∑ni=1(xi − µ)2

n1/2(2πσ2)−1/2 exp− n

2σ2 (x− µ)2 =

(2πσ2)−n/2 exp− 1

2σ2

(∑ni=1(xi − x)2 + n(x− µ)2

)

n1/2(2πσ2)−1/2 exp− n

2σ2 (x− µ)2 =

(2πσ2)−n/2 exp− 1

2σ2

∑ni=1(xi − x)2

n1/2(2πσ2)−1/2=

(2πσ2)−(n−1)/2n−1/2 exp

− 1

2σ2

n∑

i=1

(xi − x)2

,

que no depende de µ.. .

El teorema 9 es util para comprobar si un estadıstico es suficiente, pero no loes para buscar estadısticos suficientes. El siguiente teorema sı podra usarse paraeste cometido: permite encontrar estadısticos suficientes mediante la inspeccionde la funcion de densidad o la funcion de masa de probabilidad, segun el caso.

Teorema 10 (Teorema de Factorizacion) Sea f(x˜ |θ) la verosimilitud deX˜ = (X1, . . . , Xn). El estadıstico T ( X˜ ) es suficiente para θ si y solo si existen

funciones g(t|θ) y h( x˜ ) tales que para cualquier x˜ ∈ X y cualquier θ ∈ Θ lafuncion f(x˜ |θ) puede factorizarse ası:

f( x˜ |θ) = g(T (x˜ )|θ)h( x˜ ).

Demostracion: (En el caso discreto). Supongamos primero que T es suficiente.Tomemos g(t|θ) = Pθ(T (X˜ ) = t) y h( x˜ ) = Pθ(X˜ = x˜ |T (X˜ ) = T (x˜ )), queno depende de θ al ser T suficiente. Con esta eleccion,

f(x˜ |θ) = Pθ(X˜ = x˜ ) = Pθ(X˜ = x˜ , T (X˜ ) = T (x˜ )) =

Page 40: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

30 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Pθ( X˜ = x˜ |T ( X˜ ) = T (x˜ ))Pθ(T (X˜ ) = t) = g(T (x˜ )|θ)h(x˜ ).

Veamos ahora el recıproco. Supongamos que f( x˜ |θ) = g(T (x˜ )|θ)h(x˜ ) y queq(t|θ) es la funcion de masa de probabilidad de T ( X˜ ). Entonces,

f( x˜ |θ)q(t|θ) =

f(x˜ |θ)∑y∈A

T ( x˜ )

f(y|θ) =

g(T (x˜ )|θ)h(x˜ )∑

y∈AT ( x˜ )

g(T ( y˜ )|θ)h( y˜ )=

g(T (x˜ )|θ)h(x˜ )∑

y∈AT ( x˜ )

g(T ( x˜ )|θ)h( y˜ )=

h(x˜ )∑

y∈AT ( x˜ )

h( y˜ ),

que es independiente de θ. Luego T es suficiente para θ. 2

(Nota: la demostracion para el caso continuo puede verse, por ejemplo, enLehmann 1986 o en Cristobal (1992), p. 173.)

Segun el Teorema 10, para encontrar un estadıstico suficiente se factoriza lafuncion de densidad (o la de masa) en dos partes: una, h( x˜ ), que no contenga alparametro θ, y la otra que dependa de la muestra solo a traves de una funcionsuya T (x˜ ). El estadıstico suficiente sera entonces T ( X˜ ).

Ejemplo 14Sea X ∼ U1, 2, . . . , θ y X1, . . . , Xn una m.a.s. de X. La funcion de masa deprobabilidad de X es

f(x|θ) =1θI1,2,...,θ(x)

donde IA(x) es la funcion indicatriz del conjunto A, que vale 1 si x ∈ A y 0 encaso contrario.

La verosimilitud de la muestra es

f(x1, . . . , xn|θ) =1θn

n∏

i=1

I1,2,...,θ(xi) =

1θn

(n∏

i=1

IIN−0(xi)

)(n∏

i=1

I(−∞,θ](xi)

)=

1θn

(n∏

i=1

IIN−0(xi)

)(n∏

i=1

I[xi,∞)(θ)

)=

1θn

I(maxxi:1≤i≤n,∞)(θ)︸ ︷︷ ︸

g(t|θ), donde t=maxi xi

(n∏

i=1

IIN−0(xi)

)

︸ ︷︷ ︸h( x˜ )

. .

Page 41: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.1. PRINCIPIO DE SUFICIENCIA 31

Ejemplo 15Sea X ∼ N(µ, σ2), σ2 conocida. Entonces la verosimilitud de una muestra es

f(x˜ |µ) = (2πσ2)−n/2 exp

− 1

2σ2

n∑

i=1

(xi − x)2

︸ ︷︷ ︸h( x˜ )

exp− n

2σ2(x− µ)2

︸ ︷︷ ︸g(t|µ), donde t=x

Por lo tanto T (X˜ ) = X es estadıstico suficiente para µ.

Observese que∑n

i=1 Xi = nX tambien es estadıstico suficiente: podrıa defi-nirse h( x˜ ) como antes y g(t|µ) = exp

−(n/(2σ2))(t/n− µ)2.

. .

En general, si T (X˜ ) es estadıstico suficiente para θ y τ : T −→ S es unatransformacion biyectiva del espacio donde toma valores T , se tiene que S( X˜ ) =τ(T (X˜ )) tambien es estadıstico suficiente para θ:

f(x˜ |θ) = g(T ( x˜ )|θ)h( x˜ ) = g(τ−1(S( x˜ ))|θ)h(x˜ ) = g∗(S(x˜ )|θ)h(x˜ ),

de donde se deduce que S( X˜ ) tambien es estadıstico suficiente. La funciong∗(s|θ) es g∗(s|θ) = g(τ−1(s)|θ).

2.1.1. Estadısticos suficientes r-dimensionales

Hasta ahora hemos visto unicamente estadısticos suficientes con valores rea-les, es decir, unidimensionales. Sin embargo, en la aplicacion del teorema defactorizacion puede ocurrir que la funcion g(t|θ) dependa de la muestra a travesde mas de una funcion suya. En ese caso la coleccion de esas funciones, digamosT ( X˜ ) = (T1( X˜ ), . . . , Tr(X˜ )), es un estadıstico suficiente r-dimensional. Lasdefiniciones y resultados referentes a la suficiencia ya vistos para el caso unidi-mensional tambien se aplican al caso r-dimensional. Usualmente, si el parametroθ es de dimension mayor que 1, entonces tambien lo sera el estadıstico suficiente.

Ejemplo 16X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parametros desconocidos: θ =

(µ, σ2). Ası,

f( x˜ |µ, σ2) = (2πσ2)−n/2 exp

− 1

2σ2

n∑

i=1

(xi − x)2

exp− n

2σ2(x− µ)2

.

Sean T1(x˜ ) = x y T2(x˜ ) = S2 = (∑n

i=1(xi − x)2)/(n− 1). Entonces,

f(x˜ |µ, σ2) = (2πσ2)−n/2 exp− (n− 1)

2σ2T2( x˜ )

exp

− n

2σ2(T1(x˜ )− µ)2

=

Page 42: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

32 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

g(T1(x˜ ), T2(x˜ )|µ, σ2)

y tomando h(x˜ ) = 1 se tiene la factorizacion de f( x˜ |µ, σ2) que implica queT (X˜ ) = (T1(X˜ ), T2(X˜ )) = (X,S2) es un estadıstico suficiente para (µ, σ2) enla distribucion normal. Es un estadıstico bivariante.

Observese que el hecho de que un estadıstico sea o no suficiente para unparametro depende del modelo que siguen las variables aleatorias implicadas.En el caso de muestrear una normal, podemos anotar unicamente la media y lavarianza muestral y estar seguros de que tenemos toda la informacion relevantesobre los parametros desconocidos (µ, σ2). Sin embargo, si no estamos segurosde la normalidad de los datos no deberıamos conformarnos con conocer unica-mente la media y la varianza muestral.. .

2.1.2. Estadısticos suficientes minimales

La factorizacion de la funcion de verosimilitud no es unica y como conse-cuencia de ello, tampoco es unico el estadıstico suficiente para un parametro.Ya vimos que cualquier transformacion biyectiva de un estadıstico suficiente dalugar a otro estadıstico suficiente. Pero aun hay muchos mas estadısticos sufi-cientes. Por ejemplo, la muestra completa X˜ tambien es estadıstico suficientepara el parametro:

f(x˜ |θ) = g(x˜ |θ)h( x˜ ),

donde h(x˜ ) = 1, T (x˜ ) = x˜ y g(x˜ |θ) = f(x˜ |θ).

Un estadıstico suficiente T ( X˜ ) se llama minimal si para cualquier otroestadıstico S(X˜ ) se tiene que T ( X˜ ) es funcion de S(X˜ ). Es decir, si ocurreque S( x˜ ) = S( y˜ ) entonces forzosamente se tiene que T (x˜ ) = T ( y˜ ). Otraforma de expresar esto es la siguiente: sea At : t ∈ T la particion del espaciomuestral inducida por el estadıstico T y sea Bs : s ∈ S la particion inducidapor S; para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At. La particion inducidapor cualquier estadıstico suficiente es mas fina que la inducida por el estadısticosuficiente minimal.

Ejemplo 17X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parametros desconocidos. Hemosvisto en el ejemplo 16 que (T1(X˜ ), T2( X˜ )) = (X, S2) es un estadıstico suficientepara (µ, σ2).

Suponemos ahora que σ2 es conocido. Vimos en el ejemplo 13 que T1( X˜ ) =X es estadıstico suficiente para µ. Pero tambien es cierto que (T1(X˜ ), T2(X˜ )) =(X, S2) es suficiente para µ. Claramente T1(X˜ ) consigue una mejor reduccion

Page 43: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.1. PRINCIPIO DE SUFICIENCIA 33

de los datos que (T1(X˜ ), T2( X˜ )). Podemos escribir T1(X˜ ) como funcion de(T1(X˜ ), T2(X˜ )): T1( X˜ ) = τ(T1(X˜ ), T2(X˜ )) donde τ(a, b) = a.

Dado que tanto T1(X˜ ) como (T1(X˜ ), T2( X˜ )) son suficientes para µ, am-bos contienen la misma informacion sobre µ. Por lo tanto, la varianza muestralS2 = T2(X˜ ) no aporta ninguna informacion sobre la media µ cuando σ2 esconocida.. .

El siguiente teorema proporciona un metodo para encontrar el estadısticosuficiente minimal.

Teorema 11 Sea fX˜

( x˜ |θ) la funcion de verosimilitud conjunta de X˜ (dis-

creta o continua). Supongamos que existe una funcion T (x˜ ) tal que para cual-quier par de elementos del espacio muestral x˜ , y˜ , el cociente

fX˜

(x˜ |θ)

fX˜

( y˜ |θ)

es constante como funcion de θ, si y solo si T ( x˜ ) = T ( y˜ ). Entonces T (x˜ ) esestadıstico suficiente minimal para θ.

Demostracion: Casella-Berger, p. 255 2

Ejemplo 18Sea X˜ = (X1, . . . , Xn) m.a.s. de X ∼ N(µ, σ2), ambos parametros des-

conocidos. Sean x˜ e y˜ dos muestras observadas y sean (x, S2x), (y, S2

y) lascorrespondientes medias y varianzas muestrales. Recordando la factorizacionde f(x˜ |µ, σ2) que vimos en el ejemplo 16, se tiene que

fX˜

(x˜ |θ)

fX˜

( y˜ |θ)=

(2πσ2)−n/2 exp− (n−1)

2σ2 S2x

exp

− n2σ2 (x− µ)2

(2πσ2)−n/2 exp− (n−1)

2σ2 S2y

exp

− n2σ2 (y − µ)2

=

exp

12σ2

(−n(x− µ)2 + n(y − µ)2 − (n− 1)(S2x − S2

y))

=

exp

12σ2

(−n(x2 − y2) + 2nµ(x− µ)− (n− 1)(S2x − S2

y))

Esta expresion es constante como funcion de (µ, σ2) si y solo si

−n(x2 − y2) + 2nµ(x− y)− (n− 1)(S2x − S2

y) = 0,

Page 44: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

34 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

y recordando que S2x =

∑ni=1 x2

i − nx2 eso ocurrira si y solo si

2nµ(x− y)−n∑

i=1

x2i +

n∑

i=1

y2i = 0, para todo µ,

pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior)es igual a 0 para todo µ si y solo si sus dos coeficientes son nulos, es decir, si ysolo si

x = y yn∑

i=1

x2i =

n∑

i=1

y2i ,

lo que equivale a decir, que

x = y y S2x = S2

y .

Concluimos pues que (X, S2) es estadıstico minimal suficiente para (µ, σ2) cuan-do muestreamos de una normal.. .

Ejemplo 19Sea X1, . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Ası,

f(x˜ |θ) =n∏

i=1

I[θ,θ+1](xi) = I[maxi xi−1,mıni xi](θ).

Por el teorema de factorizacion, (T1(X˜ ), T2( X˜ )) = (mıni Xi, maxi Xi) es unestadıstico suficiente para θ.

Para dos muestras x˜ e y, el numerador y el denominador de f(x˜ |θ)/f(y|θ)seran positivos para los mismo valores de θ si y solo si mıni xi = mıni yi ymaxi xi = maxi yi. En ese caso ademas el cociente valdra 1, independientementedel valor de θ. Ası que el cociente no dependera de θ si y solo si mıni xi = mıni yi

y maxi xi = maxi yi, luego (mıni Xi,maxi Xi) es un estadıstico suficiente mini-mal.. .

Observese que el estadıstico minimal no es unico: cualquier transformacionbiyectiva suya tambien es estadıstico minimal suficiente.

Se puede probar que siempre existen estadısticos suficientes minimales. Ver,por ejemplo, el problema 15 del capıtulo 2 de Schervish (1995), o el teorema7.2.7, p. 189, de Cristobal (1992).

Page 45: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.1. PRINCIPIO DE SUFICIENCIA 35

2.1.3. Estadısticos ancilares

Se define un estadıstico ancilar como aquel cuya distribucion no de-pende del parametro θ. Los estadısticos ancilares son los que resumen la partede informacion de la muestra que no recogen los estadısticos minimales sufi-cientes. A primera vista, parece que no deben aportar informacion relevante enla estimacion del parametro de interes θ. Sin embargo, hay ocasiones en queen combinacion con otros estadısticos sı son utiles en la estimacion de θ (verCasella-Berger, ejemplo 6.1.11).

Ejemplo 20Sean X˜ n observaciones i.i.d. de una distribucion uniforme en el intervalo (θ, θ+1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadısticos de orden de lamuestra.

El estadıstico Rango, definido como R = X(n)−X(1), sigue una distribucionBeta(n− 1, 2), sea cual sea el valor de θ, por lo que R es un estadıstico ancilar.

Esta propiedad se puede generalizar al rango de cualquier familia de locali-zacion:Sean X˜ observaciones i.i.d. de una familia de localizacion con funcion de distri-bucion F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadısticos de ordende la muestra. Entonces la distribucion del rango, definido como R = X(n)−X(1),no depende de θ por lo que es un estadıstico ancilar.. .

Ejemplo 21Sean X1 y X2 observaciones independientes de una distribucion discreta tal que:

Pθ(X = θ) = Pθ(X = θ + 1) = Pθ(X = θ + 2) =13

donde θ, el parametro desconocido, es un entero cualquiera.

Sean X(1) ≤ X(2) los estadısticos de orden de la muestra. Puede demostrarseque (R, M), con R = X(2) − X(1) y M = (X(1) + X(2))/2, es un estadısticominimal suficiente. Dado que es una familia de localizacion R es ancilar.

Sea un punto muestral (r,m), con m entero. Si consideramos solo m, paraque el punto tenga probabilidad positiva es preciso que θ tome uno de tresvalores posibles: θ = m, θ = m − 1 o θ = m − 2. Si solo se que M = m, los 3valores de θ son posibles. Supongase que sabemos ademas que R = 2. Entoncesforzosamente X(1) = m− 1 y X(2) = m + 1 y, por lo tanto, θ = m− 1.

El saber el valor del estadıstico ancilar ha aumentado nuestro conocimientosobre θ, a pesar de que solo con el valor de R no habrıamos tenido ninguna

Page 46: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

36 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

informacion sobre θ.. .

2.1.4. Estadısticos completos

Sea fT (t|θ) la funcion de densidad (o de masa de probabilidad) de un es-tadıstico T . Diremos que la familia de distribuciones fT (t|θ) : θ ∈ Θ es com-

pleta si se da la implicacion siguiente:

Eθ(g(T )) = 0 para todo θ =⇒ Pθ(g(T ) = 0) = 1 para todo θ.

En ese caso diremos que T es un estadıstico completo.

Ejemplo 22La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),0 < p < 1. Sea g una funcion tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,

0 = E(g(T )) =n∑

t=0

g(t)(

n

t

)pt(1− p)n−t = (1− p)n

n∑t=0

g(t)(

n

t

) (p

1− p

)t

.

Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0,∞) esidenticamente cero. Esto solo es posible si todos sus coeficientes son nulos:

g(t)(

n

t

)= 0, para todo t ∈ 0, 1, . . . , n

de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego

Pp(g(T ) = 0) = 1, para todo p,

y la familia de distribuciones de T es completa.. .

La definicion de completitud refuerza la de suficiencia en el sentido de quesi un estadıstico es suficiente y completo entonces, por una parte, es suficienteminimal (el recıproco no es cierto) y, por otra, ese estadıstico es independientede cualquier estadıstico ancilar. Es decir, en el caso de que exista un estadısticosuficiente y completo sı es cierta la idea intuitiva de que los estadıstico ancilaresno pueden aportar nada relevante a la estimacion del parametro. Esto no ocurresi solo se tienen estadısticos suficientes y minimales.

Los siguientes resultados reflejan formalmente estas ideas.

Teorema 12 Si T es un estadıstico suficiente y completo para θ, entonces T

es suficiente minimal.

Page 47: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.1. PRINCIPIO DE SUFICIENCIA 37

Demostracion: (Extraıda de Cristobal 1992, p. 200.)Sea S un estadıstico suficiente para θ. Entonces, por la ley de la esperanzaiterada,

Eθ(T − E(T/S)) = Eθ(T )− Eθ(T ) = 0, para todo θ ∈ Θ.

Por ser T completo, se tiene que

Pθ(T − E(T/S) = 0) = 1 =⇒ T = E(T/S) casi seguro,

luego T es funcion de cualquier estadıstico suficiente S y, por tanto, es minimal.2

El recıproco no es cierto, como pone de manifiesto el siguiente ejemplo(Cristobal 1992, p. 200).

Ejemplo 23Sean X ∼ N(µ, σ2

X) e Y ∼ N(µ, σ2Y ) variables aleatorias independientes. Del

teorema 11 se sigue que el estadıstico (X, Y , S2X , S2

Y ) es suficiente minimal paraθ = (µ, σ2

X , σ2Y ) ∈ IR× IR+ × IR+. Sin embargo no es completo, porque

Eθ(X − Y ) = 0 para todo θ

y sin embargo Pθ(X = Y ) = 0, para cualquier θ.. .

Teorema 13 (Basu) Si T es un estadıstico suficiente y completo, y S es unestadıstico ancilar, entonces T y S son independientes.

Demostracion: Ver Casella-Berger, p. 262, o Cristobal (1992), p. 201. 2

Acabaremos esta seccion dando un resultado que permite encontrar estadısti-cos suficientes y completos para las distribuciones que pertenecen a la familiaexponencial, bajo condiciones bastante generales.

Teorema 14 Sea X variable aleatoria cuya distribucion pertenece a la familiaexponencial y viene dada por la funcion de densidad (o de masa, segun el caso)

f(x|θ) = h(x)c(θ) exp

k∑

j=1

θjtj(x)

, θ = (θ1, . . . , θk) ∈ Θ ⊆ IRk,

parametrizada de forma natural.

Si el espacio parametrico natural Θ contiene un abierto no vacıo de IRk,entonces el estadıstico

T ( X˜ ) = (T1(X˜ ), . . . , Tk(X˜ )), donde Tj( X˜ ) =n∑

i=1

tj(Xi),

es estadıstico suficiente completo (y por lo tanto, minimal).

Page 48: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

38 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Demostracion: La prueba de este resultado requiere tecnicas de funcionesanalıticas complejas. Ver, por ejemplo, la demostracion del teorema 2.74 deSchervish 1995, o las de los teoremas 3.9 de Garcıa-Nogales 1998 o 7.3.7 deCristobal 1992. 2

2.2. Principio de verosimilitud

Sea una muestra aleatoria simple X˜ = (X1, . . . , Xn) de una variable alea-toria X y supongamos que se ha observado x˜ . Llamamos funcion de vero-

similitud de la muestra a la funcion de densidad conjunta o a la funcion demasa de probabilidad conjunta, segun sea X continua o discreta, entendida estacomo funcion del parametro:

L(·|x˜ ) : Θ −→ IR+

θ −→ L(θ|x˜ ) = f(x˜ |θ)

La funcion de verosimilitud ası definida puede entenderse como un estadıstico,es decir, como una funcion L de la muestra que no depende del parametro:a cada posible muestra observada x˜ , la funcion de verosimilitud le asocia unelemento del conjunto (IR+)Θ de todas las funciones de Θ en IR+, precisamenteL(·|x˜ ), la funcion de verosimilitud de esa muestra:

L : X −→ (IR+)Θ

x˜ −→ L(·|x˜ )

Ası, L( X˜ ) es una funcion aleatoria de Θ en IR. Por lo tanto, la funcion de vero-similitud es una forma mas de resumir la informacion que la muestra contieneacerca del parametro. La razon de escribir resumir en cursiva es que pasar de X˜(de dimension n) a L(X˜ ) (de dimension igual al cardinal de Θ, normalmenteinfinito) no siempre se puede entender como un resumen de la informacion.

En esta seccion se desarrollan argumentos que prueban lo siguiente: si seacepta el principio de suficiencia, entonces la inferencia se debe basar en la fun-cion de verosimilitud. Esta ultima afirmacion (la inferencia sobre el parametrose debe basar unica y exclusivamente en la funcion de verosimilitud) se expre-sa formalmente en el principio de verosimilitud, que especifica como debeusarse la verosimilitud en la reduccion de la informacion muestral.

Principio de verosimilitud:Si x˜ e y˜ son dos puntos muestrales tales que

L(θ|x˜ ) = C(x˜ , y˜ )L(θ| y˜ ), para todo θ,

donde C(x˜ , y˜ ) es una funcion que puede depender de x˜ e y˜ pero no de θ,entonces la inferencia que se haga sobre θ sera la misma tanto si se observa x˜como si se observa y˜ .

Page 49: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.2. PRINCIPIO DE VEROSIMILITUD 39

Observese que la verosimilitud de una muestra x˜ en el caso discreto es lacoleccion de las probabilidades de haber observado x˜ bajo los diferentes valoresde θ. Ası, el cociente de dos valores de la verosimilitud

L(θ1|x˜ )

L(θ2|x˜ )

indica cuantas veces mas probable es observar x˜ bajo θ1 que bajo θ2. En elcaso continuo esto es aproximadamente valido, si hablamos de la probabilidadde observar valores en un entorno de x˜ en lugar de la probabilidad de observarx˜ :

Pθ1( X˜ ∈ B(x˜ , ε))

Pθ2( X˜ ∈ B(x˜ , ε))≈

VolumenB( x˜ , ε)f( x˜ |θ1)

VolumenB( x˜ , ε)f( x˜ |θ2)=

f(x˜ |θ1)

f(x˜ |θ2).

Si, por ejemplo, f( x˜ |θ1)/f(x˜ |θ2) = 2 podemos decir que θ1 es mucho masplausible (mucho mas verosimil) que θ2. Ası, la verosimilitud indica como deplausible es un valor del parametro θ1 en terminos relativos (comparada esaplausibilidad con la de otro valor de θ2).

En este sentido el enunciado del principio de verosimilitud es esencialmenteequivalente a decir que la inferencia sobre el parametro se debe basar unicay exclusivamente en la funcion de verosimilitud: si dos valores muestrales danlugar a verosimilitudes proporcionales (aunque quizas no exactamente iguales),los cocientes de verosimilitudes seran iguales si se observa una u otra,

L(θ1|x˜ )

L(θ2|x˜ )=

C( x˜ , y˜ )L(θ1| y˜ )

C( x˜ , y˜ )L(θ2| y˜ )=

L(θ1| y˜ )

L(θ2| y˜ ),

y por lo tanto, los valores de θ mas verosımiles seran los mismos si se observax˜ o y˜ . Como consecuencia, x˜ e y˜ deben dar lugar a las mismas inferencias

sobre θ, como afirma el principio de verosimilitud.

El siguiente teorema afirma que el principio de suficiencia y el de verosimi-litud son equivalentes.

Teorema 15 El principio de suficiencia y el principio de verosimilitud son equi-valentes.

Demostracion: Suficiencia =⇒ Verosimilitud.Veamos que la funcion de verosimilitud, vista como estadıstico L( X˜ ), es unestadıstico suficiente. En efecto,

f(x˜ |θ) = g(L(x˜ )|θ)h(x˜ ),

donde h( x˜ ) = 1 y la funcion g(L(x˜ )|θ) es la que devuelve el valor de L(x˜ )en el punto θ. Por el teorema de factorizacion L(X˜ ) es estadıstico suficiente.Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de

Page 50: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

40 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

la muestra X˜ = (X1, . . . , Xn) solo a traves del valor L(X˜ ), lo cual implica elprincipio de verosimilitud.

Verosimilitud =⇒ Suficiencia.Consideremos un estadıstico suficiente T (X˜ ) y dos valores muestrales x˜ e y˜tales que T (x˜ ) = T ( y˜ ). Veamos que la inferencia sobre θ que se derive de x˜e y˜ ha de ser la misma (esta es otra forma de leer el principio de suficiencia).En efecto, se tiene que

L(x˜ |θ) = g(T (x˜ )|θ)h(x˜ ) = g(T ( y˜ )|θ)h(x˜ ) =

g(T ( y˜ )|θ)h( y˜ )h( x˜ )

h( y˜ )= C(x˜ , y˜ )L( y˜ |θ)

de donde se deduce por aplicacion del principio de verosimilitud que la inferenciaque se haga sobre θ sera la misma tanto si se observa x˜ como si se observa y˜ .

2

En Casella-Berger, seccion 6.2, puede encontrarse un desarrollo mas deta-llado sobre las implicaciones que existen entre estos y otros principios de re-duccion de los datos. Las conclusiones a las que allı se llega implican que elprincipio de verosimilitud es cierto tambien para inferencias hechas sobre unmismo parametro a partir de experimentos distintos: si se observan resultadostales que las correspondientes verosimilitudes son proporcionales, la inferenciasera la misma.

Page 51: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.3. LISTA DE PROBLEMAS 41

2.3. Lista de problemas

Suficiencia

1. (Casella-Berger, 6.1) Sea X una observacion de una N(0, σ2). ¿Es |X| unestadıstico suficiente?

2. (Casella-Berger, 6.3) Sea X ∼ (1/σ)f((x − µ)/σ), donde f(t) es la den-sidad de una exp(1). Sea X1, . . . , Xn una m.a.s. de X. Da un estadısticobidimensional suficiente para (µ, σ).

3. (Casella-Berger, 6.5) Sean X1, . . . , Xn variables aleatorias independen-dientes con densidades

fi(x) =1

2iθI(−i(θ−1),i(θ+1))(x), i = 1, . . . , n,

donde θ > 0.

a) Encontrar un estadıstico suficiente para θ de dimension 2.

b) Dar un estadıstico suficiente para θ de dimension 1.

4. (Casella-Berger, 6.6) Sea X1, . . . , Xn una m.a.s. de una γ(α, β). Da unestadıstico bidimensional suficiente para (α, β).

5. (Casella-Berger, 6.7) Sea X1, . . . , Xn una m.a.s. de una variable aleato-ria X con funcion de densidad o de probabilidad f(x; θ). Prueba que losestadısticos de orden X(1), . . . , X(n) son suficientes para θ.

6. (Casella-Berger, 6.9) Sea X1, . . . , Xn una m.a.s. de una variable aleato-ria X. Encontrar estadısticos minimales suficientes para el parametro delocalizacion θ (−∞ < θ < ∞) en los siguientes casos.

a) Exponencial: f(x; θ) = e−(x−θ), x > θ.

b) Logıstica: f(x; θ) = e−(x−θ)/(1 + e−(x−θ))2.

c) Cauchy: f(x; θ) = 1/(π(1 + (x− θ)2)).

d) Doble exponencial (o Laplace): f(x; θ) = (1/2)e−|x−θ|.

7. (Examen parcial 2001) Se considera el siguiente modelo de regresion:

Yi = α + βxi + εi, i = 1, . . . , n,

donde x1, . . . , xn son cantidades conocidas y ε1, . . . , εn son v.a.i.i.d. segununa N(0, σ2).

a) ¿Que distribucion tiene Yi? Escribe su funcion de densidad fYi(y).

b) Escribe la funcion de verosimilitud L(y1, . . . , yn; α, β, σ2).

c) Da un estadıstico tridimensional suficiente para (α, β, σ2).

Page 52: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

42 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

d) Prueba que la distribucion conjunta de (Y1, . . . , Yn) pertenece a lafamilia exponencial.

Completitud

8. (Casella-Berger, 6.10) Sea X1, . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejem-plo 19 se establece que el estadıstico T (X˜ ) = (X(1), X(n)) es estadısticominimal suficiente para θ. Prueba ahora que no es completo.

9. (Casella-Berger, 6.15) Sea X1, . . . , Xn una m.a.s. de una N(θ, aθ2), dondea > 0 es una constante conocida. Probar que T = (X, S2) es estadısticosuficiente para θ pero no es completo.

10. (Casella-Berger, 6.16) Sean X1, . . . , Xn v.a.i.i.d. con distribucion geometri-ca:

Pθ(X = x) = θ(1− θ)x−1, x = 1, 2, . . . , 0 < θ < 1.

a) Probar que T =∑n

i=1 Xi es suficiente para θ y encontrar la distribu-cion de T .

b) Prueba que T es completo sin usar el resultado general para familiasexponenciales.

11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1, . . . , Xn v.a.i.i.d.segun una ley Poisson(λ), λ ≥ 0.

a) Probar que el estadıstico T =∑n

i=1 Xi es suficiente pera λ.

b) Sin hacer uso del resultado general sobre completitud en familias ex-ponenciales, probar que la familia de distribuciones de T =

∑ni=1 Xi

es completa.

c) Consideremos la siguiente familia de distribuciones:

P = Pλ(X = x) : Pλ(X = x) = λxe−λ/x!; x = 0, 1, 2, . . . ;λ = 0 o λ = 1

(Nota: 00 = 1, 0! = 1.)Esta familia es una familia de distribuciones de Poisson con λ res-tringido a ser 0 o 1. Probar que la familia P no es completa.

d) Indicar si la siguiente afirmacion es cierta o falsa y decir por que:Si la familia de distribuciones P1 = f(x; θ) : θ ∈ Θ1 es completay Θ2 ⊂ Θ1, entonces la familia de distribuciones P2 = f(x; θ) : θ ∈Θ2 es completa.

12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2con probabilidades dadas por una de las siguientes distribuciones:

P (X = 0) P (X = 1) P (X = 2)Distribucion 1 p 3p 1− 4p 0 < p < 1/4Distribucion 2 p p2 1− p− p2 0 < p < 1/2

Page 53: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

2.3. LISTA DE PROBLEMAS 43

En cada caso, determina si la familia de distribuciones de X es completa.

13. Considera las variables aleatorias descritas en el problema 14 de la lista1.6. Encuentra el estadıstico minimal suficiente para θ. ¿Es completo?

14. Considera las variables aleatorias descritas en el problema 15 de la lista1.6. Encuentra el estadıstico minimal suficiente para θ. ¿Es completo?

15. Considera las variables aleatorias descritas en el problema 16 de la lista1.6. Encuentra el estadıstico minimal suficiente para θ. ¿Es completo?

Page 54: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

44 CAPITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Page 55: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 3

Estimacion puntual 1:

Construccion de

estimadores

Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general.

DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia

bayesiana. Garthwaite, Jollife y Jones (1995), seccion 3.4, presenta

metodos de estimadocion no incluidos aquı.

3.1. La funcion de distribucion empırica y el

metodo de los momentos

Sea la variable aleatoria X con funcion de distribucion F . Consideramos unamuestra aleatoria simple de tamano n de X, es decir, X1, . . . , Xn v.a.i.i.d. condistribucion dada por F . Sea x1, . . . , xn una realizacion de esa m.a.s.

Se llama funcion de distribucion empırica a la funcion

Fn(x) =1n

#xi ≤ x : i = 1 . . . n =1n

n∑

i=1

I(−∞,x](xi),

que a cada numero real x le asigna la proporcion de valores observados que sonmenores o iguales que x.

Es inmediato comprobar que la funcion Fn ası definida es una funcion dedistribucion:

1. Fn(x) ∈ [0, 1] para todo x ∈ IR.

2. Fn es continua por la derecha.

45

Page 56: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

46CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

3. Fn es no decreciente.

4. lımx−→−∞ Fn(x) = 0.

5. lımx−→∞ Fn(x) = 1.

Concretamente, Fn es la funcion de distribucion de una variable aleatoria dis-creta (que podemos llamar Xe) que pone masa 1/n en cada uno de los n puntosxi observados:

xi x1 x2 · · · xn

pi = P(Xe = xi) 1/n 1/n · · · 1/n

A la distribucion de Xe se le llama distribucion empırica asociada al conjuntode valores x1, . . . , xn.

Observese que si fijamos el valor de x y dejamos variar la muestra, lo queobtenemos es una variable aleatoria. En efecto, se tiene entonces que

Fn(x) =1n

n∑

i=1

I(−∞,x](Xi),

donde

I(−∞,x](Xi) =

1, si Xi ≤ x

0, si Xi > x

y, por lo tanto, cada termino I(−∞,x](Xi) es una variable aleatoria de Bernoullicon probabilidad de exito

p = P(I(−∞,x](Xi) = 1) = P(Xi ≤ x) = F (x).

De ahı se deduce que Fn es una variable aleatoria y que nFn(x) tiene distribucionbinomial con parametros n y p = F (x).

De lo anterior se sigue que la funcion de distribucion empırica es un proce-so estocastico: si consideramos un espacio probabilıstico (Ω,A, P ) donde estandefinidas las sucesiones de variables aleatorias Xnn≥1 a partir de las cualesdefiniremos la funcion de distribucion empırica, tenemos que

Fn : (Ω,A, P )× (IR,B) −→ [0, 1](ω, x) −→ Fn(x)(ω) = 1

n

∑ni=1 I(−∞,x](Xi(ω))

Fijado x, Fn(x)(·) : (Ω,A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω,Fn(·)(ω) : IR −→ [0, 1] es una funcion de distribucion (en la notacion usualse omite la dependencia de ω ∈ Ω). Por lo tanto, la funcion de distribucionempırica es una fucnion de distribucion aleatoria.

Page 57: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.1. LA FUNCION DE DISTRIBUCION EMPIRICA Y EL METODO DE LOS MOMENTOS47

3.1.1. Teorema de Glivenko-Cantelli

El siguiente teorema recoge algunas de las propiedades de la funcion dedistribucion empırica.

Teorema 16 Sea Xnn≥1, sucesion de variables aleatorias independientes eidenticamente distribuidas definidas en el espacio de probabilidad (Ω,A, P ) confuncion de distribucion comun F . Se denota por Fn la funcion de distribucionempırica obtenida de las n primeras variables aleatorias X1, . . . , Xn. Sea x ∈ IR.Se verifica lo siguiente:

(a) P(Fn(x) = jn ) =

(nj

)F (x)j(1− F (x))n−j, j = 0, . . . , n.

(b) E(Fn(x)) = F (x), Var (Fn(x)) = (1/n)F (x)(1− F (x)).

(c) Fn(x) −→ F (x) casi seguro.

(d) √n(Fn(x)− F (x))√F (x)(1− F (x))

−→D Z,

donde Z es una variable aleatoria con distribucion normal estandar y laconvergencia es convergencia en distribucion.

Demostracion: Los apartados (a) y (b) son consecuencia inmediata del hechode que nFn(x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x](Xi),se tiene que Fn(x) = Yn, la media aritmetica de las variables aleatorias Y1, . . . , Yn.Ası, el apartado (c) es una aplicacion inmediata de la ley fuerte de los grandesnumeros y el apartado (d) es consecuencia del teorema central de lımite. 2

El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma quela convergencia de Fn(x) a F (x) se da uniformemente.

Teorema 17 (Teorema de Glivenko-Cantelli) Sea Xnn≥1 una sucesionde variables aleatorias independientes e identicamente distribuidas definidas enel espacio de probabilidad (Ω,A, P ) con funcion de distribucion comun F . Sedenota por Fn la funcion de distribucion empırica obtenida de las n primerasvariables aleatorias X1, . . . , Xn. Entonces,

supx∈IR

|Fn(x)− F (x)| −→ 0 casi seguro.

Demostracion: Presentamos aquı la demostracion que hacen Velez y Garcıa(1993), p. 36. (otras demostraciones pueden encontrarse en Garcıa-Nogales 1998,p. 88, y en Cristobal 1992, p. 66). En el teorema 16 se probo que, por la leyfuerte de los grandes numeros, Fn(x) −→ F (x) casi seguro, es decir, para cadax ∈ IR existe Ax ∈ A tal que P(Ax) = 1 y lımn Fn(x)(ω) = F (x) si ω ∈ Ax.Se ha denotado por Fn(x)(ω) a la funcion de distribucion empırica obtenida

Page 58: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

48CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

al observar X1(ω), . . . , Xn(ω), siendo ω un elemento del espacio Ω. De la leyfuerte de los grandes numeros tambien se sigue (tomando ahora I(−∞,x) envez de I(−∞,x]) que para cada x ∈ IR, existe Bx ∈ A tal que P(Bx) = 1y lımn Fn(x−)(ω) = F (x−) si ω ∈ Bx, donde g(x−) denota el lımite por laizquierda de una funcion g en x.

Para cada numero natural k, y cada j = 1, . . . , k, se consideran los puntos

xjk = mın

x ∈ IR : F (x−) ≤ j

k≤ F (x)

y los sucesos de A siguientes:

Ajk = Axjk= w ∈ Ω : Fn(xjk) −→ F (xjk)

Bjk = Bxjk= w ∈ Ω : Fn(x−jk) −→ F (x−jk)

Dk =k⋂

j=1

(Ajk ∩Bjk), D =∞⋂

k=1

Dk.

Dk es el suceso definido por la condicion de que la funcion de distribucion empıri-ca converja a la teorica para todos los puntos xjk (y tambien para los lımites porla izquierda), para un k fijo. D es el suceso en que esto ocurre simultaneamentepara todo k. Segun la ley fuerte de los grandes numeros, P(Ajk) = P(Bjk) = 1para todo j y todo k, luego P(Dk) = 1 para todo k y, por tanto, P(D) = 1.

Observese que si x ∈ [xjk, x(j+1)k), por ser F y Fn funciones de distribucionse tiene que

F (xjk) ≤ F (x) ≤ F (x−(j+1)k), y Fn(xjk) ≤ Fn(x) ≤ Fn(x−(j+1)k).

Como ademas F (x−(j+1)k)− F (xjk) ≤ 1/k,

Fn(x)− F (x) ≤ Fn(x−(j+1)k)− F (xjk) ≤ Fn(x−(j+1)k)− F (x−(j+1)k) +1k

y

Fn(x)− F (x) ≥ Fn(xjk)− F (x−(j+1)k) ≥ Fn(xjk)− F (xjk)− 1k

con lo cual, si δ(k)n es la mayor entre todas las diferencias |Fn(xjk)− F (xjk)| y

|Fn(x−jk)− F (x−jk)| (para n y k fijos), se tiene que

Fn(x)− F (x) ≤ δ(k)n +

1k

y Fn(x)− F (x) ≥ −δ(k)n − 1

k

Ası, para cualquier k ∈ IN,

supx∈IR

|Fn(x)− F (x)| ≤ δ(k)n +

1k

.

Observese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0,se tiene que δ

(k)n < ε a partir de un cierto n, de forma que

supx∈IR

|Fn(x)− F (x)| < ε +1k

Page 59: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.1. LA FUNCION DE DISTRIBUCION EMPIRICA Y EL METODO DE LOS MOMENTOS49

a partir de cierto n. Por lo tanto,

supx∈IR

|Fn(x)− F (x)| −→n 0

siempre que se verifique D. Como P(D) = 1, se sigue que

supx∈IR

|Fn(x)− F (x)| −→n 0 casi seguro.

2

Observese que segun el apartado (c) del teorema 16, las distribuciones empıri-cas asociadas a muestras de tamano n convergen debilmente a la distribucion deprobabilidad teorica identificada por F , para casi todas las muestras de tamanoinfinito que se extraigan de F . Esta es una de las consecuencias mas importantesdel citado teorema:

la distribucion empırica converge debilmente con probabilidad 1 a lapoblacional cuando el tamano de la muestra tiende a infinito:

Fn −→D F, casi seguro.

Esto garantiza la posibilidad de realizar inferencia estadıstica: los aspectos pro-babilısticos de una caracterıstica X, medida en una poblacion, se resumen deforma estilizada en una distribucion de probabilidad F , la cual puede ser apro-ximada mediante las distribuciones empıricas Fn obtenidas por muestreo de lapoblacion en estudio. El teorema de Glivenko-Cantelli afirma que esas aproxi-maciones son uniformes en x. Por esta razon el teorema de Glivenko-Cantellise llama a veces Teorema Fundamental de la Estadıstica Matematica: da unafundamentacion de la inferencia estadıstica, cuyo objetivo principal consiste enextraer informacion sobre F a partir de las observaciones muestrales.

Ejemplo 24En la figura siguiente se muestra la funcion de distribucion de una variablealeatoria N(0, 1) y la funcion de distribucion empırica de dos muestras de esavariable aleatoria una de tamano n = 10 (la mas alejada de la teorica) y laotra de tamano n = 100. Se aprecia que cuando n crece la proximidad entre lafuncion de distribucion empırica y la teorica es cada vez mayor.

Page 60: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

50CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

−3 −2 −1 0 1 20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100

. .

3.1.2. Principio de sustitucion

En esta seccion presentamos una consecuencia importante de la convergenciade Fn a F , la definicion de estimadores mediante el principio de sustitucion.

La convergencia de Fn a F permite construir versiones factibles de carac-terısticas poblacionales desconocidas. Supongamos que estudiamos una carac-terıstica X en una poblacion y que el resultado de la observacion de X puede sermodelizado como una variable aleatoria con distribucion desconocida, digamosF . Muchas de las preguntas relevantes acerca de la caracterıstica X podrıan sercontestadas si su funcion de distribucion F fuese conocida (por ejemplo el valoresperado, el numero de modas de la distribucion o la probabilidad de que X seanegativa).

Para fijar ideas podemos pensar que nos interesa conocer cantidades nume-ricas (parametros) que dependen unicamente de la funcion de distribucion des-conocida F :

θ = ψ(F ).

Page 61: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.1. LA FUNCION DE DISTRIBUCION EMPIRICA Y EL METODO DE LOS MOMENTOS51

El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida queel tamano muestral crece. Ası, podemos esperar que tambien se verifique que

θn = ψ(Fn) −→ θ = ψ(F ),

es decir, esperamos que las cantidades numericas calculadas para la distribucionempırica (estimadores) se aproximen a las cantidades desconocidas a medidaque el tamano muestral crezca. Se puede probar que este resultado es ciertobajo hipotesis de regularidad bastante generales de las funciones ψ que asignannumeros a funciones de distribucion.

Esta forma de obtener estimadores de parametros poblacionales desconocidosse denomina principio de sustitucion (plug-in principle en ingles). Es unprocedimiento muy general de obtencion de estimadores.

Ejemplo 25Sea X ∼ U(0, θ). Se toma una m.a.s. de X de tamano n para estimar θ. Un

estimador razonable de θ es el maximo de las observaciones, que es estadısticominimal suficiente para θ:

θ2 = maxi

Xi.

Este es un estimador de θ basado en el principio de sustitucion. En efecto,

θ = supx ∈ IR : F (x) < 1,

yθ2 = max

iXi = supx ∈ IR : Fn(x) < 1.

. .

3.1.3. El metodo de los momentos

Una aplicacion del principio de sustitucion es la definicion de los estima-

dores basados en momentos. El momento no centrado de orden k de unavariable aleatoria X con distribucion F se define como

µk = EF (Xk) =∫

xkdF (x).

Si Xe es una variable aleatoria con funcion de distribucion igual a Fn, la funcionde distribucion empırica de una m.a.s. de tamano n de X, se tiene que susmomentos no centrados (a los que llamaremos mk,n) son de la forma

mk,n = EFn(Xke ) =

∫xkdFn(x) =

1n

n∑

i=1

Xki ,

Page 62: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

52CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

y se denominan momentos muestrales no centrados de orden k. Por ejemplo, µ1

es la esperanza poblacional y m1,n la media muestral.

La siguiente proposicion garantiza que los momentos muestrales convergena los poblacionales.

Proposicion 2 Sea X variable aleatoria con E(X2k) < ∞. Entonces se verificaque mk,n −→ µk casi seguro. Ademas,

√n(mk,n − µk)√

µ2k − µ2k

−→D Z,

con Z ∼ N(0, 1). Se tiene ademas la convergencia de la distribucion conjuntade los k primeros momentos muestrales:

√n

[(m1,n, . . . , mk,n)t − (µ1, . . . , µk)t

] −→D Nk( 0˜ ,Σ),

donde Σ es una matriz (k × k) con elemento (i, j) generico

σij = µi+j − µiµj .

Demostracion: La demostracion es inmediata. Se basa en la aplicacion de laley fuerte de los grandes numeros y el teorema central del lımite, dado que sidefinimos Yi = Xk

i entonces mk,n = Yn. La ultima parte se sigue del teoremacentral del lımite multivariante. 2

Muchas caracterısticas poblacionales de interes se pueden expresar comofuncion de los momentos no centrados de ordenes 1, . . . , k:

θ = h(µ1, . . . , µk).

Por ejemplo, la varianza de X se expresa como σ2 = h(µ1, µ2) = µ2 − µ21.

El estimador de θ basado en el principio de sustitucion se conoce comoestimador de los momentos de θ y sera

θn = h(m1,n, . . . , mk,n).

Observese que el estimador de los momentos de θ puede no ser unico, porquediferentes funciones h pueden conducir al mismo valor θ.

La siguiente proposicion establece el comportamiento asintotico del estima-dor de los momentos de θ.

Proposicion 3 Consideremos la variable aleatoria X con E(X2k) < ∞. Seaθ = h(µ1, . . . , µk). Si h es continua en (µ1, . . . , µk), entonces θn = h(m1,n, . . . , mk,n)converge a θ casi seguro. Ademas, si h es derivable en (µ1, . . . , µk), entonces ladistribucion lımite de θn es normal:

√n(θn − θ) −→D N(0, σ2

h,θ).

Page 63: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 53

Demostracion: La demostracion de la convergencia casi segura se sigue di-rectamente de la de continuidad de h y de la convergencia casi segura de losmomentos muestrales a los poblacionales.

La demostracion de la normalidad asintotica queda pospuesta hasta que sehaya introducido en la seccion 4.3 el metodo delta. 2

Ejemplo 25, pagina 51. Continuacion. Se toma una m.a.s. de X de tamanon de una U(0, θ) para estimar θ. El estimador de momentos θM de θ viene dadopor la sigiente relacion:

E(X) =θ

2=⇒ m1,n =

θM

2=⇒ θM = 2m1,n = 2X.

. .

Ejemplo 26Otros esimadores basados en el metodo de los momentos son los siguientes:

1. Para una variable aleatoria X con varianza finita, V (X) = (n− 1)S2n/n.

2. Si X ∼ Exp(λ) con E(X) = 1/λ, entonces λ = 1/X.

3. Si X ∼ B(n, p) entonces p = X y V (X) = p(1− p).

4. Si X ∼ Poisson(λ) entonces E(X) = λ. Por lo tanto λ1 = X es estimadorde momentos. Ademas, λ = V (X) = µ2 − µ2

1. Por tanto,

λ2 = m2,n −m21,n =

(n− 1)S2n

n

es tambien un estimador basado en momentos. Es preferible λ1 porque ensu definicion solo interviene el momento de orden 1.

. .

3.2. Estimadores de maxima verosimilitud

Sea X˜ = (X1, . . . , Xn) una muestra aleatoria simple de una variable alea-toria X con funcion de densidad (o de masa de probabilidad) f(x˜ |θ), conθ = (θ1, . . . , θk) ∈ Θ ⊆ IRk. Sea X el espacio muestral, es decir, el conjunto

Page 64: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

54CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

de todos los posibles valores de X˜ . Hemos definido la funcion de verosimi-

litud para x˜ = (x1, . . . , xn) ∈ X como

L(·|x˜ ) : Θ −→ IR+

θ −→ L(θ|x˜ ) = f(x˜ |θ) =∏n

i=1 f(xi|θ)

Para cada muestra x˜ ∈ X , el estimador de maxima verosimilitud θ de θ

es el valor de Θ que hace maxima la verosimilitud L(·|x˜ ):

L(θ|x˜ ) = maxθ∈Θ

L(θ|x˜ ).

Intuitivamente θ es el valor del parametro que hace mas verosımil la muestraobservada. Veremos mas adelante que los estimadores de maxima verosimilitudson muy buenos estimadores y que en general tienen propiedades de optimalidad.Ademas, en muchas ocasiones el estimador maximo verosımil es el que el sentidocomun nos llevarıa a proponer.

Ejemplo 27

X ∼ exp(λ) =⇒ f(x|λ) = λe−λxI[0,∞)(x), λ > 0.

Se toma una muestra de tamano n = 1 y se observa x = 3. Estudiamos lafuncion de verosimilitud L(λ|3) = λe−3λ y buscamos su maximo para λ > 0.

Buscamos los valores de λ que anulan la derivada de L(λ|3):

L′(λ|3) = e−3λ(1− 3λ); L′(λ|3) = 0 =⇒ λ =13

Como L(λ|3) ≥ 0 y

lımλ−→0

L(λ|3) = lımλ−→∞

L(λ|3) = 0

se sigue que el punto crıtico de L(λ|3) es un maximo. Ası,

λ =13.

. .

Ejemplo 28Nos regalan una bolsa de lacasitos. Nos dicen que la proporcion de caramelos

de cada color es la misma pero no nos dicen de cuantos colores distintos puedenser los caramelos. Se trata de estimar por maxima verosimilitud k, el numerode colores, a partir de la observacion de n caramelos.

Page 65: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 55

Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde.Anotamos x1 = V BV . Si k es el numero de colores, la probabilidad de observardos colores distintos en los tres caramelos es

P(x1|k) = L(k|x1) =

P(el segundo diferente al primero)P(el tercero es como el primero) =

k − 1k

1k

=k − 1k2

.

Esta funcion de k toma los valores siguientes, y tal como puede apreciarse esdecreciente:

k 2 3 4 · · ·(k − 1)/k2 1

4= 0,25

29

= 0,2222316

= 0,1875 (decrece en k)

Ası, el estimador maximo verosımil de k es

k(V BV ) = 2.

Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 =V BV N . La verosimilitud de la muestra es ahora

L(k|x2) = P(x2|k) =k − 1

k

1k

k − 2k

=(k − 1)(k − 2)

k3

cuyos primeros valores son los siguientes:

k 3 4 5 6 7

L(k|x2)227

= ,0741332

= ,093812125

= ,096554

= ,092630343

= ,0875

Para k ≥ 6 la funcion L(k|x2) es decreciente en k. Por tanto el estimador maximoverosımil de k es

k(V BV N) = 5.

Observese que, pese a haber observado solo cuatro caramelos y a haber vistounicamente tres colores distintos, el estimador maximo verosımil indica que haydos colores que aun no hemos visto.. .

El problema de hallar el estimador maximo verosımil es un problema de opti-mizacion. Por lo tanto, todas las tecnicas analıticas y numericas de optimizacionque conocemos pueden resultarnos utiles para estimar por maxima verosimili-tud. Tambien hay que tener la misma precaucion con lo resultados obtenidos:hay que comprobar las condiciones de segundo orden para asegurarnos de queun punto crıtico es efectivamente un maximo, puede haber mas de un maximo

Page 66: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

56CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

global, puede haber varios maximos locales, el optimo puede estar en la fronteradel espacio parametrico, podemos tener una funcion objetivo (la verosimilitud)que sea practicamente plana cerca del maximo y esto dificulta la busqueda pormetodos numericos.

Como norma general, si la dimension del espacio parametrico es 1 o 2, esconveniente hacer un grafico de la funcion de verosimilitud frente a los diferentesvalores de los parametros. Esto puede ayudar a detectar algunos de los problemasque mencionamos antes.

3.2.1. Calculo del estimador maximo verosımil

Si la funcion de verosimilitud L( θ˜ |x˜ ) es derivable en θi, las soluciones delas ecuaciones de primer orden,

∂θj

L( θ˜ |x) = 0, j = 1, . . . , k,

son candidatas a ser el estimador maximo verosımil. Los ceros de las primerasderivadas no son necesariamente maximos de la funcion de verosimilitud: puedenser maximos locales o globales, mınimos locales o globales o puntos de inflexion.Para asegurar que la solucion encontrada es un maximo (local o global) hay quecomprobar que las segundas derivadas sean definidas negativas.

Por otra parte, este procedimientos solo permite localizar extremos en elinterior del espacio parametrico Θ. Podrıa ser que L(θ|x˜ ) alcanzase su valormaximo en la frontera de Θ.

Ejemplo 29X1, . . . , Xn m.a.s. de X ∼ N(µ, 1), µ ∈ IR:

L(µ|x˜ ) = (2π)−n/2e−12

∑n

i=1(xi−µ)2

Calculamos la primera derivada de L respecto a µ:

d

dµL(µ|x˜ ) = −

n∑

i=1

(xi − µ)L(µ|x˜ );

luegod

dµL(µ|x˜ ) = 0 =⇒

n∑

i=1

(xi − µ) = 0 =⇒ µ = x.

Ası pues, µ = x es un candidato a ser el estimador maximo verosımil. Tenemosque comprobar que es un maximo global de L(µ|x˜ ).

En primer lugar, constatamos que x es el unico punto crıtico del interior delespacio parametrico Θ = IR. En segundo lugar, calculamos la derivada segunda:

d2

dµ2L(µ|x˜ )|µ=x =

[(−n + (

n∑

i=1

(xi − µ))2)

L(µ|x˜ )

]

µ=x

= −nL(x|x˜ ) < 0.

Page 67: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 57

Ası pues, x es un maximo y es el unico extremo del interior del espacio pa-rametrico.

Por ultimo, analizamos el comportamiento de L(µ|x˜ ) en la frontera: en estecaso ±∞. Vemos que

lımx−→±∞

L(µ|x˜ ) = 0.

Concluimos entonces que µ = x es el estimador maximo verosımil. La ultimacomprobacion (comportamiento de L(µ|x˜ ) en ±∞) no es estrictamente necesa-ria, porque si en +∞ o −∞ hubiese un maximo, forzosamente tendrıa que haberun mınimo relativo en el interior de Θ = IR (dado que x es maximo relativo) yeso no ocurre.. .

En ocasiones es posible buscar el maximo de L(θ, x˜ ) directamente, usandopropiedades especıficas de esa funcion de verosimilitud concreta. Esto puedeser util si las ecuaciones obtenidas al igualar a cero las derivadas de L resul-tan complicadas. No hay una metodologıa general que seguir y, por tanto, esteprocedimiento alternativo requiere mas habilidad que el basado en el calculo dederivadas. Por ejemplo, se puede probar que hay una cota superior de la vero-similitud y que esta se alcanza en un valor del parametro. Ello implica que esevalor es el estimador maximo verosımil.

Ejemplo 29, pagina 56. Continuacion. La verosimilitud es decreciente en∑ni=1(xi − µ)2, luego encontrar el estimador maximo verosımil es equivalente a

encontrar el mınimo de∑n

i=1(xi − µ)2. Observese que, por el Teorema 1,

n∑

i=1

(xi − µ)2 =n∑

i=1

(xi − x)2 + (x− µ)2 ≥n∑

i=1

(xi − x)2.

Ademas, la cota inferior∑n

i=1(xi−x)2 se alcanza si hacemos µ = x. Se concluyeque x es mınimo absoluto de

∑ni=1(xi−µ)2 y, por tanto, es tambien el estimador

maximo verosımil.. .

Muy a menudo es mas sencillo trabajar con el logaritmo de la verosimilitudque hacerlo con la propia funcion. Dado que el logaritmo es una funcion estric-tamente creciente, los extremos de la funcion de verosimilitud se alcanzan enlos mismos puntos (y tienen las mismas caracterısticas) en los que se alcancenlos extremos de su logaritmo.

Denotaremos por l (θ|x˜ ) al logaritmo de la funcion de verosimilitud:

l (θ|x˜ ) = log L(θ|x˜ ).

Page 68: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

58CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

Ejemplo 30X1, . . . , X˜ n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1].

L(p|x˜ ) = p∑n

i=1xi(1− p)n−

∑n

i=1xi =⇒

l (p|x˜ ) = (n∑

i=1

xi) log p + (n−n∑

i=1

xi) log(1− p) =⇒

d

dpl (p|x˜ ) =

∑ni=1 xi

p− n−∑n

i=1 xi

1− p.

Distinguiremos tres casos, segun sea el valor de∑n

i=1 xi. Si suponemos que0 <

∑ni=1 xi < n

d

dpl (p|x˜ ) = 0 =⇒ (1−p)(

n∑

i=1

xi) = (n−n∑

i=1

xi)p =⇒ p =∑n

i=1 xi

n= x ∈ (0, 1).

p =∑n

i=1xi

n = x es el unico extremo en el interior de Θ, es decir, en (0, 1). Conla segunda derivada comprobamos que se trata de un maximo:

d2

dp2l (p|x˜ )|p=p =

[−

∑ni=1 xi

p2− n−∑n

i=1 xi

(1− p)2

]

p=p

=

−np

p2− n(1− p)

(1− p)2= −n

1p(1− p)

< 0.

Concluimos que el unico valor posible del estimador maximo verosımil en (0, 1)es p, donde la verosimilitud valdrıa

L(p|x˜ ) =(

p

1− p

)np

(1− p)n > 0.

Estudiamos el valor de L(p|x˜ ) en la frontera, es decir, en p = 0 y p = 1:

L(0|x˜ ) = L(1|x˜ ) = 0 < L(p|x˜ ).

Concluimos que p es el estimador maximo verosımil de p, en el caso de que0 <

∑ni=1 xi < n.

En segundo lugar, si∑n

i=1 xi = 0,

L(p|x˜ ) = (1− p)n,

funcion decreciente en p, luego el estimador maximo verosımil de p es 0 = x = p.

Por ultimo, si∑n

i=1 xi = n,

L(p|x˜ ) = pn,

funcion creciente en p, luego el estimador maximo verosımil de p es 1 = x = p.

Page 69: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 59

En resumen, el estimador maximo verosımil de p es

p =∑n

i=1 xi

n.

. .

Es importante asegurarse que el estimador maximo verosımil propuesto perte-nece al espacio parametrico.

Ejemplo 31X1, . . . , Xn m.a.s. de X ∼ N(µ, 1), µ ≥ 0.Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador maximoverosımil de µ es µ = x. Por lo tanto este tambien sera el estimador maximoverosımil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediatoprobar que L(µ|x˜ ) es funcion decreciente en µ si µ > x. Por lo tanto, en estecaso el estimador maximo verosımil de µ es 0. Resumiendo, el estimador maximoverosımil de µ cuando θ = [0,∞) es

µ =

0 si x < 0x si x ≥ 0

. .

Un caso en el que no es posible realizar la optimizacion mediante la igualacionde las derivadas a cero es aquel en el que el espacio parametrico Θ es discreto.En este caso aun es posible analizar el problema de forma sistematica.

Si es posible considerar un espacio parametrico ΘA mas amplio en el que elparametro varıe de forma continua (por ejemplo, si Θ = IN, ΘA podrıa ser IR+

o IR) y buscar el estimador maximo verosımil cuando θ ∈ ΘA, ese valor puedeayudarnos a restringir la lista de puntos de Θ que pueden ser estimador maximoverosımil de θ ∈ Θ.

Ejemplo 32X1, . . . , Xn m.a.s. de X ∼ N(µ, 1), µ ∈ IN. Como el estimador maximo ve-rosımil de µ ∈ IR es x y L(µ|x˜ ) es creciente en (−∞, x) y decreciente en (x,∞),se deduce que los unicos puntos que pueden ser estimador maximo verosımil deµ ∈ IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a ∈ IR.. .

Page 70: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

60CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

Cuando razonamientos de este tipo no son posibles pero el espacio parametri-co discreto Θ es IN (o en general, si esta totalmente ordenado) es util analizarlos cocientes

L(k + 1|x˜ )

L(k|x˜ )

y estudiar para que valores de k estos son menores o mayores que 1. El siguienteejemplo responde a este modelo.

Ejemplo 33Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos

4 caras; ¿cuantas veces la hemos lanzado?

En este caso se tiene X1, . . . , Xn, una m.a.s. de X ∼ B(k, p), con p conocidoy k desconocido. La verosimilitud es

L(k|x˜ ) =n∏

i=1

(k

xi

)pxi(1− p)k−xi = pnx(1− p)n(k−x)

n∏

i=1

k!xi!(k − xi)!

.

El hecho, por un lado, de que el parametro k sea natural y, por otro, la presenciade k! y (k − xi)! en la funcion de verosimilitud, hace difıcil la maximizacion deL.

Si ordenamos los datos x(1) ≤ x(2) ≤ . . . ≤ x(n), es obvio que k ≥ x(n) porquelos valores de xi oscilan entre 0 y k. Ademas, el estimador maximo verosımil esun numero natural k que satisface

L(k|x˜ )

L(k − 1|x˜ )≥ 1 y

L(k + 1|x˜ )

L(k|x˜ )< 1

Desarrollando,

L(k|x˜ )

L(k − 1|x˜ )=

(1− p)nk∏n

i=1k!

(k−xi)!

(1− p)n(k−1)∏n

i=1(k−1)!

(k−1−xi)!

= (1− p)n

(n∏

i=1

k

k − xi

)=

(k(1− p))n

∏ni=1(k − xi)

≥ 1,

yL(k + 1|x˜ )

L(k|x˜ )=

((k + 1)(1− p))n

∏ni=1(k + 1− xi)

< 1.

Ası, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen apedir

(k(1− p))n ≥n∏

i=1

(k − xi) y ((k + 1)(1− p))n <

n∏

i=1

(k + 1− xi).

Page 71: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 61

Dividiendo por kn y (k + 1)n, son equivalentes a

(1− p)n ≥n∏

i=1

(1− (xi/k)) y (1− p)n <

n∏

i=1

(1− (xi/(k + 1)))

De hecho, queremos encontrar un valor z = 1/k tal que

(1− p)n =n∏

i=1

(1− zxi)

con 0 ≤ z ≤ 1/x(n), porque k ≥ x(n). La funcion g(z) =∏n

i=1(1 − zxi) esdecreciente en z, g(0) = 1, g(1/x(n)) = 0. Por lo tanto la ecuacion

g(z) = (1− p)n ∈ [0, 1],

tiene solucion unica z. Este valor z no tiene por que ser el inverso de un naturalk, pero sı nos permite calcular el estimador maximo verosımil k de k:

k = maxk ∈ IN : k ≤ 1/z.

Este analisis demuestra que el maximo de L(k|x˜ ) es unico.

Supongamos que p = 0,5, que n = 3 y que hemos observado x1 = 4, x2 = 2y x3 = 3. Hay que resolver la ecuacion

(1− 12)3 =

18

= 0,125 = g(z) = (1− 4z)(1− 3z)(1− 2z) = 1− 9z + 26z2 − 24z3

en z ∈ [0, 1/x(3)] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k yk ≥ 4:

k 4 5 6 7 8 9 10z = 1/k 0.25 0.2 0.1667 0.1429 0.125 0.1111 0.1

g(z) 0 0.048 0.1111 0.1749 0.2344 0.2881 0.336

Observese que g(1/6) < 0,125 < g(1/7). Por lo tanto, z ∈ (1/7, 1/6) y

k = maxk ∈ IN : k ≤ 1/z = 6.

. .

Si L(θ|x˜ ) no puede maximizarse analıticamente pueden usarse tecnicas nu-mericas de optimizacion. Nos referiremos mas adelante a algunas de estas tecni-cas.

En estos casos es importante comprobar la estabilidad numerica del estima-dor maximo verosımil encontrado. Es decir, es importante saber si la solucioncambia solo ligeramente cuando alteramos ligeramente los datos o si, por el

Page 72: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

62CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

contrario, cambios pequenos en los datos dan lugar a grandes cambios en lassoluciones. Si este es el caso, podemos deducir que quizas la funcion de verosi-militud sea practicamente plana en una zona alrededor del maximo y estamosobteniendo puntos distintos de esa zona. Tambien puede ocurrir que la fun-cion de verosimilitud tenga multiples maximos locales y al perturbar los datosestemos pasando de uno a otro.

Ejemplo 33, pagina 60. Continuacion. En el ejemplo anterior supongamosque p tambien fuese desconocido. El estimador maximo verosımil (k, p) ∈ IN ×[0, 1] puede encontrarse por optimizacion numerica. Supongamos que n = 5 yque se observa

x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 27.

Entonces el estimador maximo verosımil de k es k = 99. Se vuelve a realizar elexperimento y solo cambia la ultima observacion:

x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 28.

En este caso el maximo se encuentra en k = 190. Estamos en un caso de unestimador k muy inestable. (Vease Casella-Berger, p. 297.). .

Estimador maximo verosimil de un parametro multidimensionalLa forma de proceder en este caso sigue las pautas expuestas anteriormente.Veamos un ejemplo en el que el parametro θ es bidimensional.

Ejemplo 34X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parametros desconocidos: θ =

(µ, σ2).

L(µ, σ2|x˜ ) = (2πσ2)−n/2e−1

2σ2

∑n

i=1(xi−µ)2 =⇒

l (µ, σ2|x˜ ) = −n

2log 2π − n

2log σ2 − 1

2σ2

n∑

i=1

(xi − µ)2

∂∂µ l (µ, σ2|x˜ ) = 1

σ2

∑ni=1(xi − µ) = 0

∂∂(σ2) l (µ, σ2|x˜ ) = − n

2σ2 + 12σ4

∑ni=1(xi − µ)2 = 0

=⇒

µ = x

σ2 = 1n

∑ni=1(xi − x)2.

Podemos probar que la solucion θ = (x, σ2) es maximo global de dos formas.

En primer lugar, como para cualquier µ 6= x es∑n

i=1(xi − µ)2 >∑n

i=1(xi −x)2, se tiene que

l (x, σ2|x˜ ) > l (µ, σ2|x˜ ) para todo σ2.

Page 73: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 63

Ahora solo hay que probar que l (x, σ2|x˜ ) alcanza su maximo como funcion uni-variante de σ2 en σ2. De esta forma hemos reducido el problema bidimensionala uno unidimensional.

En segundo lugar, podemos probar que (x, σ2) es maximo de l medianteel calculo de las primeras y segundas derivadas parciales. Hay que comprobarque el punto anula las primeras derivadas y que la matriz hessiana es definidanegativa, es decir, se ha de verificar lo siguiente:

1.∂

∂θj

l ((θ1, θ2)|x˜ )

∣∣∣∣∣θ1=x,θ2=σ2

= 0, j = 1, 2.

2.∂2

∂θ2j

l ((θ1, θ2)|x˜ )

∣∣∣∣∣θ1=x,θ2=σ2

< 0,

al menos para j = 1 o j = 2.

3.

J (2) =

∣∣∣∣∣∂2

∂θ21l ((θ1, θ2)|x˜ ) ∂2

∂θ1∂θ2l ((θ1, θ2)|x˜ )

∂2

∂θ1∂θ22l ((θ1, θ2)|x˜ ) ∂2

∂θ22l ((θ1, θ2)|x˜ )

∣∣∣∣∣θ1=x,θ2=σ2

> 0

El primer punto ya se comprobo anteriormente, pues (x, σ2) fueron encon-trados precisamente como los valores que anulaban las primeras derivadas.

Calculemos las segundas derivadas:

∂2

∂µ2l ((µ, σ2)|x˜ ) = − n

σ2

∂2

∂(σ2)2l ((µ, σ2)|x˜ ) =

n

2σ4− 1

σ6

n∑

i=1

(xi − µ)2

∂2

∂µ∂(σ)l ((µ, σ2)|x˜ ) = − 1

σ4

n∑

i=1

(xi − µ).

Observad que cuando se particularizan estas derivadas segundas en θ se obtienelo siguiente:

∂2

∂µ2l ((µ, σ2)|x˜ )|x,σ2 = − n

σ2< 0

∂2

∂(σ2)2l ((µ, σ2)|x˜ )|x,σ2 =

n

2σ4− 1

σ6nσ2 = − n

2σ4< 0

∂2

∂µ∂(σ)l ((µ, σ2)|x˜ )|x,σ2 = 0

Page 74: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

64CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

Ası, se verifica tambien el segundo punto de la lista anterior. Veamos el tercero,sobre el signo del determinante de la matriz hessiana:

J (2) =∣∣∣∣− n

σ2 00 − n

2σ4

∣∣∣∣ =n2

2σ6> 0 para todo σ2

Se concluye que (x, σ2) es el maximo de la funcion de verosimilitud.

Para ser estrictos, aun se deberıa probar que (x, σ2) es el unico punto crıti-co del interior del espacio parametrico (esto es inmediato, porque es la unicasolucion de las condiciones de primer orden) y que el maximo no se alcanza enla frontera (cuando µ = ±∞, σ2 = 0 o σ2 = ∞). Esto ultimo obligarıa a laexistencia de otros puntos crıticos en el interior del espacio parametrico, lo cuales absurdo.

En general se intenta probar la condicion de maximo sin recurrir al calculode las segundas derivadas.. .

Estimador maximo verosimil con datos censuradosEl siguiente es un ejemplo de estimacion maximo verosımil que se aparta delmarco clasico de observaciones i.i.d.

Ejemplo 35Sean X1, . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto elestimador maximo verosımil de λ es λ = 1/x.

Supongamos que no observamos todas las variables, sino solo las m prime-ras, y que de las restantes (n − m) solo sabemos que toman valores mayoresque T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sidocensurados. En este caso, la verosimilitud es

L(λ|x˜ ) =m∏

i=1

f(xi|λ)n∏

i=m+1

(1− F (T |λ)) =

m∏

i=1

λe−λxi

n∏

i=,+1

e−λT = λme−λ∑m

i=1xie−λT (n−m) =⇒

l (λ|x˜ ) = m log λ− λ

m∑

i=1

xi − λT (n−m).

Derivando e igualando a 0:

d

dλl (λ|x˜ ) =

m

λ−

m∑

i=1

xi − T (n−m) = 0 =⇒

λ =m∑m

i=1 xi + (n−m)T.

Page 75: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 65

Comprobamos que es maximo:

d2

dλ2l (λ|x˜ ) = −m

λ2< 0 para todo λ.

Concluimos que λ es el estimador maximo verosımil de λ en el caso de datoscensurados.

La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos defuncionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es latasa de fallo, la cantidad de fallos por unidad de tiempo. Observese que tantoen el caso usual sin censura como en el caso con censura el inverso del estimadormaximo verosımil de λ es el cociente de la suma total de los tiempos de vida (oen funcionamiento) entre el numero de muertes (o fallos) observadas.. .

3.2.2. Calculo numerico de los estimadores de maxima ve-

rosimilitud

Como ya se dijo anteriormente, en la practica el calculo del estimador maxi-mo verosımil se reduce a resolver un problema de optimizacion de una funcion(en general no lineal) de k variables, posiblemente sujeto a restricciones. Re-cordaremos en esta seccion algunas tecnicas numericas para llevar a cabo esaoptimizacion. Lo expuesto aquı esta basado en Bertsekas (1999).

Buscaremos el maximo del logaritmo de la verosimilitud, dado que esta fun-cion es en general mas facil de tratar numericamente que la verosimilitud. Losalgoritmos presentados no contemplan la posibilidad de tener restricciones so-bre los parametros. Si los parametros estan sujetos a restricciones del tipo cotassimples (por ejemplo, α > 0 en una distribucion gamma) una transformacionlogarıtmica del parametro transforma el problema en otro sin restricciones en losparametros (por ejemplo, en la distribucion gamma se reparametriza medianteα∗ = log(α) y ası el nuevo parametro α∗ puede tomar cualquier valor real).

El problema es siempre maxθ∈IRk l (θ|x˜ ). Como la muestra x˜ esta fija en

todo el proceso, escribiremos l (θ) en lugar de l (θ|x˜ ). Llamaremos θ∗ al maximode l (θ).

Metodo de Newton-Raphson

Se trata (al igual que los metodos siguientes) de un procedimiento iterativoque proporciona una sucesion θnn≥1 que converge al optimo θ∗.

Consideremos una estimacion inicial θ0 de θ∗ que puede haber sido obtenida,por ejemplo, por el metodo de los momentos. El metodo de Newton-Raphsonaproxima la funcion l (θ) en un entorno de θ0 por la funcion cuadratica que enese punto θ0 tiene en comun con l (θ) el valor de la funcion y los valores de

Page 76: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

66CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

las dos primeras derivadas. Llamemos l 0(θ) a esa funcion cuadratica. De hecho,l 0(θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0.

Ejemplo 36Si k = 1, l 0(θ) = a + bθ + cθ2. Los valores de a, b y c se obtienen al resolver elsistema

l 0(θ0) = l (θ0)l 0

′(θ0) = l ′(θ0)l 0

′′(θ0) = l ′′(θ0)

El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :

l 0(θ) = l (θ0) + (θ − θ0)l ′(θ0) +12(θ − θ0)2l ′′(θ0).

. .

El primer punto en la sucesion, θ1, es el punto donde se alcanza el maximode la funcion cuadratica aproximadora. El proceso se itera y ası se construye lasucesion θnn≥1 que, bajo condiciones generales (por ejemplo, si la funcion deverosimilitud es concava), converge al optimo θ∗:

θ0 −→ l 0(θ) −→ θ1

l 1(θ) −→ θ2

l 2(θ) −→ θ3

...

......

l m−1(θ) −→ θm

...

......↓θ∗

Veamos que este algoritmo puede resumirse analıticamente dando la formulaque permite calcular cada punto de la sucesion en funcion del punto anterior.

Como hemos dicho, l m(θ) es el desarrollo en serie de Taylor de orden 2 del (θ) alrededor de θm:

l m(θ) = l (θm) +∇l (θm)t(θ − θm) +12(θ − θm)tH l (θm)(θ − θm)

Page 77: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 67

donde ∇l (θm) ∈ IRk es el vector gradiente de l en θm, que tiene por componentej-esima la derivada parcial de l respecto a la coordenada j-esima de θ calculadaen el punto θm, y H l (θm) es la matriz hessiana de l en θm, una matriz k×k cuyoelemento (i, j) es la segunda derivada de l respecto a las cordenadas i-esima yj-esima, calculadas en el punto θm.

La maximizacion de l m es factible analıticamente. Su gradiente es

∇l m(θ) = ∇l (θm) + H l (θm)(θ − θm).

Igualandolo a 0 se obtiene el punto θm+1:

∇l (θm) + H l (θm)(θ − θm) = 0 =⇒ θm+1 = θm − (H l (θm))−1∇l (θm).

Este punto θm+1 es maximo de l (θm) si H l (θm) es definida negativa, ya que

H l m(θ) = H l (θm).

Pero si θm esta suficientemente cerca de θ∗ y l (θ) es una funcion suave (segundasderivadas continuas) entonces H l (θm) sera definida negativa por serlo H l (θ∗).

Ası,θm+1 = θm − (H l (θm))−1∇l (θm)

es la formula recursiva que nos da θm+1 en funcion de θm, m ≥ 0. Aplicaremosla recursion hasta convergencia, es decir, hasta que

||θm+1 − θm|| < ε,

para un ε prefijado. Una condicion suficiente, aunque no necesaria, para que elalgoritmo converja es que l sea concava.

Metodo de los scores de FisherSe trata de una modificacion del metodo de Newton-Raphson. En la iteracion

θm+1 = θm − (H l (θm))−1∇l (θm)

se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lotanto, su gradiente y su matriz hessiana) depende de θ y tambien de la muestrax˜ observada. Podemos entonces tomar esperanzas:

D = Eθm(H l (θm|X˜ )),

que es la matriz de informacion de Fisher cambiada de signo.

La principal ventaja teorica que se deriva de esta sustitucion es que se garan-tiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad(que permiten intercambiar los signos de la derivada y de la integral; en laseccion 4.2 se volvera sobre esto) se puede probar que

Eθ(∇l (θ)) = 0, y Vθ(∇l (θ)) = Eθ(∇l (θ)∇l (θ)t) = −E(H l (θ|X˜ ))

Page 78: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

68CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

de donde se deduce que D = Eθm(H l (θm|X˜ )) es definida negativa, lo cual

garantiza la convergencia del algoritmo.

No obstante, es posible que la convergencia del algoritmo modificado seamas lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambosconverjan.

Una ventaja practica de este algoritmo es que en el calculo de D solo inter-vienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud)mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Porcontra, ahora hay que calcular una esperanza. En este sentido, sera preferibleuno u otro algoritmo segun sea la dificultad de calcular

dij = −E

(∂ l∂θi

∂ l∂θj

)

y

hij =∂2l

∂θi∂θj

.

Al vector gradiente, ∇l (θ), tambien se le llama vector de scores, lo cualjustifica el nombre del algoritmo.

Ejemplo 37Veamos que en el caso de familias exponenciales parametrizadas de forma na-tural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana nodepende de la muestra observada. La verosimilitud de una muestra es

L(θ|x˜ ) =

(n∏

i=1

h(xi)

)c(θ)n exp

k∑

j=1

θjTj(x˜ )

,

donde Tj( x˜ ) =∑n

i=1 tj(xi), y su logaritmo,

l (θ|x˜ ) = K + n log c(θ) +k∑

j=1

θjTj( x˜ ),

donde K es cierta constante. Ası,

∂ l (θ)∂θj

= n∂ log c(θ)

∂θj

+ Tj(x˜ )

y∂2l (θ)∂θi∂θj

= n∂2 log c(θ)

∂θi∂θj

que es constante en la muestra, por lo que es igual a su valor esperado. Se sigueque H l = E(H l ) = D.. .

Page 79: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.2. ESTIMADORES DE MAXIMA VEROSIMILITUD 69

Metodo de Nelder-MeadEs un metodo de busqueda directa que no requiere ni primeras ni segundasderivadas de la funcion objetivo, solo es necesario poder evaluar la funcion quequeremos maximizar.

En cada iteracion del algoritmo se parte de un conjunto de (k + 1) puntosde IRk, θ1, . . . , θk+1, θj ∈ IRk, tales que su envoltura convexa tenga interior novacıo: esos puntos forman un simplex en IRk.

El resultado de cada iteracion es otro simplex. Se espera que el volumen delsimplex vaya decreciendo de iteracion en iteracion y que el valor de la funcionobjetivo crezca al pasar de los puntos de un simplex a los del siguiente. Laiteracion tıpica del algoritmo de Nelder-Mead es como sigue:

Paso 0 Se parte de θ1, . . . , θk+1. Se definen

θmın = arg mıni=1...k

l (θi), θmax = arg maxi=1...k

l (θi),

θ =1k

(k+1∑

i=1

θi − θmın

)

El punto θ es el punto medio de la cara opuesta a θmın.

Paso 1 Definir θref = θ + (θ − θmın).

Si l (θref) > l (θmax) =⇒ Paso 2. (θref es mejor que los otros puntosdel simplex).

Si l (θmax) > l (θref) > mınl (θi) : θi 6= θmın =⇒ Paso 3.

Si l (θref) < mınl (θi) : θi 6= θmın =⇒ Paso 4.

Paso 2 Intentar expansion.

θexp = θref + (θref − θ)

θnew =

θexp si l (θexp) > l (θref)θref en otro caso

Sustituir θmın por θnew en el simplex. Volver al Paso 0 con el nuevosimplex.

Paso 3 Usar el punto reflejado.

θnew = θref

Sustituir θmın por θnew en el simplex. Volver al Paso 0 con el nuevosimplex.

Paso 4 Contraer el simplex.

θnew =

12 (θmın + θ) si l (θmın) ≥ l (θref)12 (θref + θ) si l (θmın) < l (θref)

Sustituir θmın por θnew en el simplex. Volver al Paso 0 con el nuevosimplex.

Page 80: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

70CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

En la practica funciona bien si la dimension del espacio parametrico es pe-quena (k ≤ 10), como suele ser el caso en problemas de estimacion por maximaversimilitud. No hay resultados teoricos sobre la convergencia de este algorit-mo. Si l (θ) es estrıctamente concava, el algoritmo mejora la verosimilitud encada iteracion. Esto se entiende en el sentido de que ocurre alguna de estas doscosas: en cada iteracion, o bien l (θmın) crece estrictamente, o bien, la cantidadde vertices del simplex θi en los que l (θi) = l (θmın) decrece en al menos unaunidad.

3.2.3. Principio de invariancia del estimador maximo ve-

rosımil

Sea X1, . . . , Xn muestra aleatoria simple de X ∼ f(x|θ) y sea θ el estimadormaximo verosımil de θ. Si estamos interesados en estimar una funcion τ(θ) delparametro, podemos hacerlo mediante τ(θ). Este es el resultado que garantizael siguiente teorema y se conoce como principio de invariancia.

Teorema 18 (Principio de invariancia) Si θ es el estimador maximo ve-rosımil de θ, entonces para cualquier funcion τ(θ) el estimador maximo verosımilde τ(θ) es τ(θ).

Demostracion: Supondremos primero que τ es biyectiva. Definimos

η = τ(θ) ⇐⇒ θ = τ−1(η)

y reparametrizamos la verosimilitud usando el nuevo parametro η en vez de θ:

L∗(η|x˜ ) =n∏

i=1

f(xi|τ−1(η)) = L(τ−1(η)|x˜ ) =⇒

L∗(η|x˜ ) = supη

L∗(η|x˜ ) = supη

L(τ−1(η)|x˜ ) =

supθ

L(θ|x˜ ) = L(θ|x˜ ) = L∗(τ(θ)|x˜ ).

Por lo tanto el maximo de L∗(η|x˜ ) se alcanza cuando η = τ(θ), luego el esti-

mador maximo verosımil de η = τ(θ) es τ(θ).

Consideramos ahora el caso en que τ no es biyectiva. En este caso no esposible definir la verosimilitud L∗(η|x˜ ) como L(τ−1(η)|x˜ ) porque τ−1(η) noesta definido unıvocamente. Se define L∗(η|x˜ ), la verosimilitud inducida

por τ , comoL∗(η|x˜ ) = sup

θ:τ(θ)=ηL(θ|x˜ ).

Con esta definicion se verifica que el estimador maximo verosımil de τ(θ), τ(θ),es τ(θ). Efectivamente, sea η el estimador maximo verosımil de η = τ(θ), es

Page 81: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.3. ESTIMACION BAYESIANA 71

decir, el valor que verifica

L∗(η|x˜ ) = supη

L∗(η|x˜ ).

Por definicion de L∗,

L∗(η|x˜ ) = supη

L∗(η|x˜ ) = supη

supθ:τ(θ)=η

L(θ|x˜ ) =

supθ

L(θ|x˜ ) = L(θ|x˜ ) = supθ:τ(θ)=τ(θ)

L(θ|x˜ ) = L∗(τ(θ)|x˜ ),

es decir,L∗(η|x˜ ) = L∗(τ(θ)|x˜ ),

luego el maximo de la verosimilitud en η se alcanza si η = τ(θ). 2

Ejemplo 38Si X ∼ N(µ, σ2), el estimador maximo verosımil de µ2 es x2.Si X ∼ B(n, p), el estimador maximo verosımil de p es p = X/n y el estimadormaximo verosımil de

√p(1− p) es

√p(1− p).

. .

3.3. Estimacion Bayesiana

3.3.1. Distribuciones a priori y a posteriori

Consideremos un problema de inferencia estadıstica en el que las observacio-nes se toman de una variable aleatoria X que sigue una distribucion con funcionde densidad (o funcion de masa de probabilidad) f(x|θ), con θ ∈ Θ. En ocasio-nes se dispone de informacion sobre el parametro θ antes de recoger los datos.Esta informacion puede ser de tipo historico (si se han realizado experimentossimilares con anterioridad) o bien de tipo subjetivo (el investigador puede creerque ciertos valores de θ ∈ Θ son mas plausibles que otros).

Una forma de recoger la informacion previa sobre θ es definir una distribucionde probabilidad sobre Θ, que se llama distribucion a priori de θ, de forma quelas regiones de Θ mas probables a priori sean aquellas que contienen los valoresde θ mas plausibles segun la informacion previa existente, antes de observarningun valor de X.

El concepto de distribucion a priori es muy controvertido. Algunos estadısti-cos defienden que en cualquier problema estadıstico se puede definir siempreuna ley a priori para θ. Esta distribucion representa la informacion (historica osubjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas

Page 82: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

72CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

de la probabilidad. Por tanto, el parametro θ es considerado una variable alea-toria como cualquier otra, con la unica peculiaridad de que no es observable. Loque sı se observa es la variable aleatoria X condicionada al valor concreto (noobservable) que toma θ. Ası pues, el estudio de las observaciones de X aportainformacion sobre el valor de θ, informacion que debe combinarse con la distri-bucion a priori del parametro para modificarla. El resultado de esa actualizacionde la informacion se plasma de nuevo en una distribucion de probabilidad sobreΘ: la distribucion a posteriori de θ, una vez observada la variable aleatoriaX. Estos son los planteamientos basicos que conforman el enfoque bayesiano

de la estadıstica.

Otros estadısticos creen que en ocasiones no es apropiado hablar de una dis-tribucion de probabilidad sobre Θ porque θ es una cantidad fija desconocidapara el investigador. Otro de los aspectos de la inferencia bayesiana que a me-nudo recibe crıticas es el grado de subjetividad a que esta expuesto por el hechode que es el experimentador quien define la distribucion a priori. En cualquiercaso, en lo que hay coincidencia es en que si hay informacion sobre θ esta tieneque ser utilizada en la inferencia.

Existen distribuciones a priori no informativas (por ejemplo con den-sidad o funcion de masa plana en todo Θ) que se construyen sin usar informaciona priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veceses necesario recurrir a distribuciones a priori impropias (distribuyen unaprobabilidad infinita sobre Θ). Pese a su caracter impropio permiten hacer in-ferencias correctas.

Supondremos aquı que existe informacion previa sobre θ y que esta se expresamediante una distribucion a priori sobre Θ, cuya funcion de densidad o funcionde masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoriasimple X1, . . . , Xn de X ∼ f(x|θ). El objetivo es actualizar la distribucion apriori π(θ) con la ayuda de las observaciones x˜ y teniendo en cuenta la formade f(x|θ), que indica como se distribuye x, condicionada por valores de θ. Porel momento, supondremos que tanto X|θ como θ tienen funcion de densidad.

La ley conjunta de X1, . . . , Xn se denomina distribucion muestral (overosimilitud de la muestra) dado el valor del parametro:

f(x˜ |θ) =n∏

i=1

f(xi|θ).

La densidad conjunta de X˜ y θ es

f(x˜ , θ) = f(x˜ |θ)π(θ).

Como consecuencia, la marginal de X˜ es

m(x˜ ) =∫

θ

f(x˜ |θ)π(θ)dθ.

Page 83: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.3. ESTIMACION BAYESIANA 73

Se define la distribucion a posteriori de θ como la ley condicional de θ

dadas las observaciones x˜ de X˜ , cuya densidad se puede calcular por simpleaplicacion del Teorema de Bayes:

π(θ|x˜ ) =f(x˜ |θ)π(θ)

m(x˜ ), θ ∈ Θ.

En inferencia bayesiana se usa esta distribucion para realizar inferencias sobreθ. Por ejemplo, un estimador puntual de θ podrıa ser E(θ|x˜ ).

La distribucion a posteriori nos informa sobre la verosimilitud relativa deque el verdadero valor de θ este en las distintas regiones del espacio parametricoΘ despues de haber observado X1, . . . , Xn.

Observese que π(θ|x˜ ) es proporcional al producto de la verosimilitud por laa priori:

π(θ|x˜ ) ∝ f(x˜ |θ)π(θ).

Esta relacion es suficiente para calcular π(θ|x˜ ) dado que la restriccion de quesu integral sea 1 permite calcular la constante 1/m(x˜ ).

Ejemplo 39Sea X el tiempo de vida en horas de un nuevo modelo de lampara fluorescente.Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La informacion historicaacumulada sobre tiempos de vida de lamparas similares indica que µ tiene mediaaproximadamente 5000 horas. De hecho, la distribucion que se propone como apriori para λ es igual a

λ ∼ γ(α0, β0),

con E(λ) = α0β0 = 1/5000 y V (λ) = α0β20 = 0,0001, de donde se sigue que

α0β0 = 0,0002 y α0β20 = 0,0001 =⇒ α0 = 4, β0 = 1/20000.

Ası, λ ∼ γ(4, 1/20000) y su funcion de densidad es

π(λ) =200004

(4− 1)!λ3e−20000λ, λ > 0.

Se hace una prueba de vida en la que se ponen a funcionar 25 lamparas delnuevo modelo hasta que se funden. Los resultados son estos:

X1 = x1, . . . , X25 = x25,

25∑

i=1

xi = 150000.

Ası, la verosimilitud es

f(x1, . . . , x25|λ) = λ25e−λ∑25

i=1xi ,

Page 84: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

74CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

y la densidad a posteriori de λ es

π(λ|x1, . . . , x25) =f(x1, . . . , x25|λ)π(λ)∫∞

of(x1, . . . , x25|λ)π(λ)dλ

.

El numerador es

f(x1, . . . , x25|λ)π(λ) = λ25 exp−λ

25∑

i=1

xi200004

3!λ3e−20000λ =

200004

6λ28 exp−λ(

25∑

i=1

xi + 20000),

y el denominador

m(x1, . . . , x25) =∫ ∞

o

200004

6λ28 exp−λ(

25∑

i=1

xi + 20000)dλ.

Si hacemos α = 29 y β = 1/(∑25

i=1 xi + 20000), podemos observar que esaintegral es, salvo constantes, la integral de la funcion de densidad de una variablealeatoria γ(α, β). Concretamente,

m(x1, . . . , x25) =200004

628!

(∑25

i=1 xi + 20000)29

∫ ∞

o

fγ(α,β)(λ)dλ =

200004

628!

(∑25

i=1 xi + 20000)29.

Ası,

π(λ|x1, . . . , x25) =200004

6 λ28e−λ(∑25

i=1xi+20000)

200004

628!

(∑25

i=1xi+20000)29

=

(∑25

i=1 xi + 20000)29

28!λ28e−λ(

∑25

i=1xi+20000)

de donde se deduce que

λ|x1, . . . , x25 ∼ γ(29, 1/(25∑

i=1

xi + 20000)).

Por lo tanto, un estimador de λ podrıa ser

λ = E(λ|x1, . . . , x25) =29∑25

i=1 xi + 20000=

29150000 + 20000

,

y, como consequencia, una estimacion de la vida media de las nuevas lamparases

µ =1

λ=

∑25i=1 xi + 20000

29=

150000 + 2000029

= 5862 horas.

Page 85: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.3. ESTIMACION BAYESIANA 75

Si usasemos x como estimador de µ, obtendrıamos un valor de

x =150000

25= 6000 horas.

Por lo tanto, la informacion a priori indica que no se debe ser tan optimistacomo se desprende del valor x = 6000: a pesar de que el nuevo diseno de lampa-ra tiene una vida media superior a las anteriores (la estimacion de µ es ahorade 5862 horas, superior a las 5000 horas iniciales) la informacion a priori rebajala vida media desde las 6000 horas observadas hasta las 5862.. .

Observaciones secuencialesEn muchos experimentos (en particular, en muchos ensayos clınicos) las observa-ciones X1, . . . , Xn se obtienen de forma secuencial. Esta secuenciacion permiteactualizar progresivamente la informacion que se tiene sobre el parametro θ.

En un principio la informacion a priori sobre θ es π(θ). Se observa X1 = x1.Entonces

π(θ|x1) ∝ f(x1|θ)π(θ)

recoge a partir de ese instante la informacion acumulada sobre θ. Por lo tantoπ(θ|x1) actua como distribucion a priori antes de obtener la segunda observacion.

Cuando se observa X2 = x2,

π(θ|x1, x2) ∝ f(x2|θ)π(θ|x1) ∝ f(x2|θ)f(x1|θ)π(θ).

Tras haber observado X1 = x1, . . . , Xn = xn,

π(θ|x1, x2, . . . , xn) ∝ f(xn|θ)π(θ|x1, x2, . . . , xn−1) ∝

f(xn|θ) · · · f(x2|θ)f(x1|θ)π(θ) = f(x˜ |θ)π(θ).

Se observa ası que la distribucion a posteriori tras haber tomado n observacionesde X es la misma tanto si se toman estas de forma secuencial como si se tomansimultaneamente.

3.3.2. Distribuciones conjugadas

Sea F la clase de las funciones de densidad (o de masa de probabilidad) deun modelo parametrico f(x|θ) indexadas por θ:

F = f(x|θ) : θ ∈ Θ.

Sea una clase Π de distribuciones sobre Θ. Se dice que Π es una familia de

distribuciones conjugadas para F si la distribucion a posteriori de θ dadala muestra x˜ pertenece a Π para toda muestra x˜ ∈ X , para toda a priori π ∈ Πy para toda verosimilitud f ∈ F .

Page 86: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

76CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

Teorema 19 Sea X1, . . . , Xn m.a.s. de X ∼ Bern(θ), 0 < θ < 1. Sea θ ∼Beta(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observacionesX1 = x1, . . . , Xn = xn es una

Beta

(α +

n∑

i=1

xi, β + n−n∑

i=1

xi

).

Nota: Recordar que U(0, 1) ≡ Beta(1, 1).

Demostracion:

π(θ) =Γ(α + β)Γ(α)Γ(β)

θα−1(1− θ)β−1

f(xi|θ) = θxi(1− θ)1−xi =⇒ f( x˜ |θ) = θ∑n

i=1xi(1− θ)n−

∑n

i=1xi = L(θ|x˜ )

Ası,

f( x˜ , θ) = θ∑n

i=1xi(1− θ)n−

∑n

i=1xi

Γ(α + β)Γ(α)Γ(β)

θα−1(1− θ)β−1 =

Γ(α + β)Γ(α)Γ(β)

θ∑n

i=1xi+α−1(1− θ)n−

∑n

i=1xi+β−1,

y

m(x˜ ) =∫ ∞

0

Γ(α + β)Γ(α)Γ(β)

θ∑n

i=1xi+α−1(1− θ)n−

∑n

i=1xi+β−1dθ =

Γ(α + β)Γ(α)Γ(β)

Γ(α +∑n

i=1 xi)Γ(n−∑ni=1 xi + β)

Γ(α + β + n)×

∫ ∞

0

Γ(α + β + n)Γ(α +

∑ni=1 xi)Γ(n−∑n

i=1 xi + β)θ∑n

i=1xi+α−1(1− θ)n−

∑n

i=1xi+β−1dθ

︸ ︷︷ ︸=1

=

Γ(α + β)Γ(α)Γ(β)

Γ(α +∑n

i=1 xi)Γ(n−∑ni=1 xi + β)

Γ(α + β + n)Calculamos ahora la densidad a posteriori:

π(θ|x˜ ) =Γ(α)Γ(β)Γ(α + β)

Γ(α + β + n)Γ(α +

∑ni=1 xi)Γ(n−∑n

i=1 xi + β)×

Γ(α + β)Γ(α)Γ(β)

θ∑n

i=1xi+α−1(1− θ)n−

∑n

i=1xi+β−1 =

Γ(α + β + n)Γ(α +

∑ni=1 xi)Γ(n−∑n

i=1 xi + β)θ∑n

i=1xi+α−1(1− θ)n−

∑n

i=1xi+β−1

y por lo tanto, θ|x˜ tiene distribucion Beta(α +∑n

i=1 xi, β + n−∑ni=1 xi). 2

Teorema 20 Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(θ), 0 < θ. Sea θ ∼γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 =x1, . . . , Xn = xn es una

γ

(α +

n∑

i=1

xi, (β−1 + n)−1

).

Page 87: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.3. ESTIMACION BAYESIANA 77

Demostracion: Para ciertas constantes K1, K2 y K3, se tiene que

π(θ) = K1θα−1e−θ/β , L(θ|x˜ ) = K2e

−nθθ∑n

i=1xi =⇒

π(θ|x˜ ) = K3e−nθθ

∑n

i=1xiθα−1e−θ/β = K3θ

α+∑n

i=1xi−1e−(β−1+n)θ

que corresponde con la densidad de una γ(α +

∑ni=1 xi, (β−1 + n)−1

). 2

Los valores de las constantes usadas en la demostracion son

K1 =1

(α− 1)!βαi, K2 =

1∏ni=1 xi!

, K3 =(α +

∑ni=1 xi − 1)!

(n + (1/β))α+∑n

i=1xi

,

aunque no es necesario conocerlos para probar el resultado.

Teorema 21 Sea X1, . . . , Xn m.a.s. de X ∼ N(θ, σ2), −∞ < θ < ∞, σ2 > 0conocido. Sea θ ∼ N(µ, ν2). La ley a posteriori de θ dadas las observacionesX1 = x1, . . . , Xn = xn es una N(µ1, ν

21) con

µ1 =σ2µ + nν2x

σ2 + nν2=

σ2

σ2 + nν2µ +

nν2

σ2 + nν2x,

ν21 =

σ2ν2

σ2 + nν2.

Demostracion: Ver DeGroot (1988), seccion 6.3. 2

Observese que si σ2 −→ ∞ entonces µ1 = µ, y que si nν2 −→ ∞ entoncesµ1 = x. Por su parte, la precision de la distribucion a posteriori es la suma dela precision a priori y la precision de X:

1ν21

=1ν2

+n

σ2.

Ejemplo 40Sea X1, . . . , Xn m.a.s. de X ∼ N(θ, 1) y sea π(θ) ∼ N(0, τ−2), para τ conocido.Notemos que en la notacion del teorema 21, tenemos µ = 0 y ν2 = τ−2. Calcu-laremos la distribucion a posteriori de θ y analizaremos para que valores de τ

serıa esta distribucion menos informativa.

Del teorema 21 se desprende que

θ|x˜ ∼ N

(∑ni=1 xi

n + τ2,

1n + τ2

).

Esta distribucion sera tanto menos informativa cuanta mayor varianza tenga,es decir, cuanto menor sea τ . El caso lımite serıa τ = 0, que corresponde auna distribucion a priori impropia (normal con varianza infinita) no informativa

Page 88: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

78CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

(π(θ) es constante en IR). En ese caso obtendrıamos el mismo resultado que sirealizasemos inferencia fiducial (ver Casella-Berger, seccion 6.2.1).

Al inverso de la varianza se le denomina precision de la distribucion. Eneste ejemplo, τ2 es la precision de la distribucion a priori. Si ponemos τ = 0estamos asumiendo que la precision de la informacion a priori es nula. Entoncesel procedimiento de inferencia no la tiene en cuenta.. .

Teorema 22 Sea X1, . . . , Xn m.a.s. de X ∼ exp(θ), θ = (E(X))−1 > 0. Seaθ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observacionesX1 = x1, . . . , Xn = xn es una

γ

α + n,

(1β

+n∑

i=1

xi

)−1 .

Demostracion: Ver DeGroot (1988), seccion 6.3. 2

Ejemplo 28, pagina 54. Continuacion. Consideremos de nuevo el problemade estimar el numero de colores diferente que tienen los caramelos de la bolsa.Supongamos que basandonos en nuestra experiencia pensamos que el numero decolores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado(V BV ).

k π(k) f(V BV |k) = (k − 1)/k2 f(V BV, k) π(k|V BV )5 0.1 0.160 0.016 0.1256 0.3 0.139 0.042 0.3287 0.3 0.122 0.037 0.2898 0.3 0.109 0.033 0.258∑

k f(V BV, k) = 0,128

Tomamos otro caramelo y es naranja. Repetimos el analisis:

k π(k) f(V BV N |k) = (k − 1)(k − 2)/k3 f(V BV N, k) π(k|V BV N)5 0.125 0.096 0.012 0.1356 0.328 0.093 0.031 0.3487 0.289 0.087 0.025 0.2818 0.258 0.082 0.021 0.236∑

k f(V BV N, k) = 0,089

Se observa que la distribucion de probabilidad sobre 5, 6, 7, 8 no se ha modi-ficado mucho desde π(k) hasta π(k|V BV N). Esto indica que la observacion de

Page 89: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.3. ESTIMACION BAYESIANA 79

solo cuatro caramelos es poco informativa sobre el numero k de colores. Si con-tinuasemos muestreando, la distribucion a posteriori se irıa concentrando cadavez mas en torno al verdadero valor del parametro k.. .

3.3.3. Funciones de perdida

Acabamos de ver como derivar la distribucion a posteriori del parametrodados los datos, a partir de la verosimilitud y la distribucion a priori. Nos plan-teamos ahora como usar la distribucion a posteriori para construir un estimadorpuntual del valor del parametro, es decir, como resumir toda la distribucion aposteriori del parametro en un solo punto de Θ.

Consideremos por un momento que no hemos observado la muestra y quesobre Θ hay definida una distribucion de probabilidad π. En este contexto que-remos elegir un punto a ∈ Θ como representante de toda la distribucion π sobreΘ. Una propiedad deseable es que ese valor a este cerca de los puntos θ ∈ Θ. Paramedir como de lejos esta a del valor θ del parametro definiremos una funcion

de perdida o funcion de coste:

C : Θ×A −→ R+

(θ, a) −→ C(θ, a),

donde A es el conjunto o espacio de acciones a posibles, y C(θ, a) es el coste dedar a como estimacion de un valor concreto θ ∈ Θ. Dado que θ es desconocidoy puede tomar los valores de Θ segun indica la distribucion π, para tener unaidea global del coste de a se considera la funcion de perdida esperada:

Eπ(θ)(C(θ, a)) =∫

Θ

C(θ, a)π(θ)dθ.

La eleccion de la funcion de perdida es a menudo arbitraria. Las tres mas usualesson estas:

Funcion de perdida cero-uno:

C(θ, θ) = αI(β,∞)(|θ − θ|)donde α > 0 y β ≥ 0 son constantes.

Funcion de perdida del error absoluto:

C(θ, θ) = α|θ − θ|donde α > 0 es constante.

Funcion de perdida cuadratica:

C(θ, θ) = α(θ − θ)2

donde α > 0 es constante.

Page 90: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

80CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

El parametro α podrıa tomarse igual a 1, sin perdida de generalidad. Estas tresfunciones son decrecientes en |θ − θ| y simetricas alrededor de θ = θ.

Se pueden definir funciones de perdida asimetricas que reflejen, por ejemplo,que las consecuencias de estimar un parametro por defecto sean peores que lasde estimarlo por exceso. Este serıa el caso de la estimacion del grosor de la capade hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el quesubestimar es preferible es el de la estimacion del precio futuro de una accioncuando se quiere decidir si se invierte o no en dicha accion.

3.3.4. Estimadores de Bayes

Supongamos que tenemos informacion a priori π(θ) sobre θ ∈ Θ y que obser-vamos una muestra aleatoria simple X1, . . . , Xn de X ∼ f(x|θ). La distribuciona posteriori vienen dada por π(θ|x˜ ) ∝ L(θ|x˜ )π(θ). Supongamos que el coste deestimar θ por a es C(θ, a). Ası, el coste esperado de estimar θ mediante a, dadoque hemos observado x˜ , sera

E(C(θ, a)|x˜ ) =∫

Θ

C(θ, a)π(θ|x˜ )dθ.

A esta cantidad se le llama perdida esperada a posteriori.

Se define un estimador de Bayes de θ como aquel valor a = a(x˜ ) ∈ Θque minimiza la perdida esperada a posteriori, es decir,

E(C(θ, a(x˜ ))|x˜ ) = mına∈Θ

E(C(θ, a)|x˜ ).

A ese valor a(x˜ ) se le suele denotar por θ∗(x˜ ). Observese que este estimadorde Bayes depende de la muestra a traves de la distribucion a posteriori.

Teorema 23 Si la funcion de perdida es cuadratica, entonces el estimador deBayes es la esperanza a posteriori:

θ∗(x˜ ) = E(θ|x˜ ).

Demostracion:

E(C(θ, a)|x˜ ) = E[(θ − a)2|x˜

]= E(θ2|x˜ ) + a2 − 2aE(θ|x˜ )

Derivando respecto a a e igualando a 0:

−2E(θ|x˜ ) + 2a = 0 =⇒ a = E(θ|x˜ ),

que es un mınimo porque la segunda derivada es 2 > 0. 2

Teorema 24 Si la funcion de perdida es el error absoluto, entonces el estima-dor de Bayes es la mediana de la distribucion a posteriori:

θ∗( x˜ ) = mediana(θ|x˜ ).

Page 91: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.3. ESTIMACION BAYESIANA 81

Demostracion: Ver DeGroot (1988), teorema 1 de la seccion 4.5. 2

Ejemplo 41Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1, . . . , Xn =xn. Suponemos que la distribucion a priori de θ es

θ ∼ Beta(α, β) =⇒ E(θ) =α

α + β.

Tal como vimos en el teorema 19,

θ|x˜ ∼ Beta

(α +

n∑

i=1

xi, β + n−n∑

i=1

xi

).

Por tanto, el estimador de Bayes basado en perdida cuadratica sera

θ1 = E(θ|x˜ ) =α +

∑ni=1 xi

α + β + n=

n

α + β + nx +

α + β

α + β + n

α

α + β.

Observese que θ1 es una media ponderada de la media a priori y de la mediamuestral. El peso de cada cantidad depende de los parametros en la distribuciona priori y del tamano muestral. A medida que n crece se tiene que θ1 tiendehacia x.

La estimacion de θ basada en la perdida del error absoluto requiere la de-terminacion por metodos numericos de la mediana de la distribucion Beta(α +∑n

i=1 xi, β + n−∑ni=1 xi).

. .

Ejemplo 42Se ha observado una m.a.s. de X ∼ N(θ, σ2): X1 = x1, . . . , Xn = xn. Partimosde una a priori N(µ, ν2) para θ. En el teorema 21 vimos que la distribucion aposteriori es θ|x˜ ∼ N(µ1, ν

21) con

µ1 =σ2µ + nν2x

σ2 + nν2, ν2

1 =σ2ν2

σ2 + nν2.

El estimador de Bayes con perdida cuadratica es

θ1( x˜ ) = E(θ|x˜ ) =σ2µ + nν2x

σ2 + nν2=

nν2

σ2 + nν2x +

σ2

σ2 + nν2µ.

Page 92: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

82CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

De nuevo el estimador de Bayes es una media ponderada de la media a prioriy de la media muestral. Si ponemos una a priori poco informativa, es decir, convarianza ν2 grande, se tendra que θ1( x˜ ) sera aproximadamente igual a la mediamuestral.

En este caso la eleccion de la funcion de perdida del error absoluto conduceal mismo estimador θ1( x˜ ) porque la mediana y la media a posteriori coinciden(dado que la distribucion a posteriori es simetrica).. .

Page 93: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.4. LISTA DE PROBLEMAS 83

3.4. Lista de problemas

Metodo de los momentos

1. Sea X1, . . . , Xn una m.a.s. de X ∼ f(x, µ) = (1/2)e−|x−µ|. Hallar el esti-mador de momentos de µ.

2. (Casella-Berger, 7.6) Sea X1, . . . , Xn una m.a.s. de X ∼ f(x, θ) = θx−2,0 < θ ≤ x < ∞.

a) Da un estadıstico suficiente para θ.

b) Halla el estimador de momentos de θ.

3. Sea X1, . . . , Xn una m.a.s. de X ∼ f(x, λ) = λe−λx+1, x > 1/λ. Hallar elestimador de momentos de λ.

4. Sea X1, . . . , Xn una m.a.s. de X ∼ B(k, p), k ∈ IN, 0 < p < 1. Encuentralos estimadores de momentos de (k, p).

5. En el ejemplo 26 se mencionan dos estimadores para la varianza de unaB(n, p): (n− 1)S2

n/n y p(1− p). ¿Que relacion hay entre ellos?

Maxima verosimilitud

6. (Casella-Berger, 7.13) Sea X1, . . . , Xn una m.a.s. de X ∼ f(x, µ) = (1/2)e−|x−µ|.Hallar el estimador maximo verosımil de µ.

7. (Casella-Berger, 7.6) Sea X1, . . . , Xn una m.a.s. de X ∼ f(x, θ) = θx−2,0 < θ ≤ x < ∞. Halla el estimador de maxima verosimilitud de θ.

8. (Casella-Berger, 7.7) Sea X1, . . . , Xn una m.a.s. de X, que sigue una delas dos distribuciones siguientes. Si θ = 0 entonces f(x; θ) = I(0,1)(x). Siθ = 1 entonces f(x; θ) = 1/(2

√x)I(0,1)(x). Encontrar el estimador maximo

verosımil de θ.

9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1, . . . , Xn

tiene funcion de distribucion comun

F (x; α, β) = P (X ≤ x|α, β) =

0 si x < 0(x/β)α si 0 ≤ x ≤ β

1 si x > β

,

donde α > 0, β > 0.

a) Encontrar un estadıstico suficiente para (α, β) de dimension 2.

b) Dar el estimador maximo verosımil de (α, β).

c) La longitud (en milımetros) de los huevos de gorrion puede modeli-zarse con esa distribucion. Para los siguientes datos de longitudes dehuevos, estima por maxima verosimilitud α y β:

Page 94: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

84CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,23.0, 23.0.

10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias indepen-dientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X eY no son directamente observables, sino que se observan Z y W definidascomo

Z = mınX, Y , W =

1 si Z = X

0 si Z = Y.

Se dice entonces que las variables X e Y estan censuradas.

a) Da la distribucion conjunta de Z y W .

b) Prueba que Z y W son independientes.

c) Se observa una m.a.s. de tamano n de (Z,W ). Calcula los estimadoresmaximo verosımiles de λ y θ.

11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 dela lista 1.6. Encuentra el estimador maximo verosımil de θ en cada caso.

12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicacionestransmite secuencias de longitud n de dıgitos binarios, 0 y 1. Se produceun error en la transmision cada vez que se transmite un 1, pero se recibe un0, o viceversa. Supongamos que la probabilidad de error de transmision encada dıgito transmitido es p, y que los errores en la transmision de dıgitosdiferentes se producen de forma independiente.

Como medida de seguridad, cada secuencia se transmite dos veces. Lla-maremos X a la cantidad de diferencias entre las dos cadenas de dıgitosleıdas por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarsecon las cadenas 00110000 y 00100001, y en este caso X valdrıa 2.

a) Calcula la probabilidad de que un dıgito concreto sea diferente enuna y otra cadena.

b) Encuentra el estimador de maxima verosimilitud de p cuando la lon-gitud de las cadenas es n y se observa X. ¿Es unico este estimadorde maxima verosimilitud?

c) Da la estimacion de p en el ejemplo anterior.

d) ¿Como se interpretarıa un valor de X mas grande que n/2?

13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraronlos siguientes nacimientos durante las semanas naturales del mes de febrerode un ano no bisiesto:

Semana Numero de nacimientos1 192 323 284 255 10

Page 95: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

3.4. LISTA DE PROBLEMAS 85

Como la primera semana de febrero puede empezar en un dia cualquierade lunes a domingo, de hecho constan 5 semanas, con la primera y laquinta incompletas. Definimos el espacio parametrico Θ = 1, 2, . . . , 7,donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que unnacimiento tiene la misma probabilidad de ocurrir cualquier dıa del mes.

Dar el estimador maximo verosımil del dıa de la setmana en que cayo elprimero de febrero de ese ano.

Estimadores bayesianos

14. Sean Xi ∼ Poisson(λi), i = 1, 2, independientes. ¿Que distribucion sigueX1 condicionada a que X1 + X2 = x?

15. Si X ∼ γ(α, β), α > 0, β > 0, entonces se dice que Y = X−1 tienedistribucion gamma invertida con parametros (α, β), y se denota comoIG(α, β).

a) Prueba que la densidad de Y es

f(y; α, β) =1

Γ(α)βα

1yα+1

e−1/(βy)I(0,∞)(y).

b) Calcula la esperanza y la varianza de Y .

16. (Casella-Berger, 7.24) Si S2 es la varianza muestral basada en una muestrade tamano n de una poblacion normal, sabemos que (n − 1)S2/σ2 sedistribuye como una χ2

n−1. Vamos a probar que la distribucion a prioriconjugada para σ2 es la gamma invertida.

a) Prueba que si la distribucion a priori de σ2 es IG(α, β), entonces laa posteriori es

IG

(α +

n− 12

,

[(n− 1)S2

2+

]−1)

.

b) Calcula el estimador de Bayes bajo perdida cuadratica de σ2.

17. (Ex. parcial 2000) Sea X una variable aleatoria con funcion de densidad

f(x|θ) =1θe−

xθ ,

donde θ es un parametro que puede tomar valores en el conjunto Θ =1, 2, . . . , 20. Con el objetivo de estimar θ se toma una m.a.s. X1, . . . , Xn

de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.

a) Calcula el estimador de maxima verosimilitud de θ y llamalo θ1.

Page 96: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

86CAPITULO 3. ESTIMACION PUNTUAL 1: CONSTRUCCION DE ESTIMADORES

b) Calcula el estimador Bayes de θ basado en la funcion de perdida

C(θ, a) = Iθ 6=a

(que vale 0 si θ = a y 1 en caso contrario), cuando la distribucion apriori de θ es uniforme en los numeros 1, 2, . . . , 20 y llamalo θ2.

c) ¿Que relacion hay entre θ1 y θ2? ¿Como cambiarıa esta relacion sicambia la funcion de verosimilitud? ¿Y si consideramos una distribu-cion a priori que no sea plana, es decir, que no sea constante en θ?¿Y si consideramos otra funcion de perdida?

18. (Ex. parcial 2001) Supongamos que el numero de minutos que una personatiene que esperar el autobus cada manana tiene una distribucion uniformeen el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos quela funcion de densidad a priori de θ viene dada por:

ξ(θ) =

192θ4 per θ ≥ 4,

0 altrament.

Los tiempos esperados en tres mananas sucesivas son de 5, 3, 8 minutos.

a) Calcular la funcion de densidad a posteriori de θ. Especificar el domi-nio de definicion de esta funcion y las constantes que en ella aparecen.

b) Si se quiere estimar el valor de θ usando como funcion de perdidael error cuadratico, ¿que forma tiene el estimador de Bayes de θ?Calcular el valor estimado de θ a partir de los tres tiempos esperadosdados.

Page 97: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 4

Estimacion puntual 2:

Evaluacion de estimadores

Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general.

Bickel y Doksum (1977), seccion 4.4, para eficiencia; Arnold 1990,

capıtulo 6, o Schervish 1995, seccion 7.1, para las propiedades

asintoticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2

y 3.3, Cristobal (1992), seccion 8.3; Arnold (1990), seccion 7.3;

Schervish (1995), seccion 7.3; Velez y Garcıa (1993), seccion 7.4., para

propiedades del estimador de maxima verosimilitud

Una vez se han presentado diferentes metodos de estimacion surge la nece-sidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estoscriterios. En este tema estudiaremos medidas de la calidad de un estimador. Loharemos primero para muestras finitas para pasar despues a proponer medidasasintoticas de calidad.

4.1. Error cuadratico medio

Se define el error cuadratico medio (ECM) de un estimador W de unparametro θ como

((W − θ)2

).

Esta es una medida intuitiva del comportamiento de un estimador: cuanto menorsea el error cuadratico medio mejor sera el estadıstico W . De hecho, para cual-quier funcion φ creciente con φ(0) = 0, Eθ (φ(|W − θ|)) es una medida razonablede lo alejadas que estaran, en promedio, las estimaciones de θ que proporcioneW .

En general, se prefiere el error cuadratico medio a otras medidas por ser mastratable analıticamente. Ademas el error cuadratico medio puede descomponerse

87

Page 98: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

88CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

de forma facilmente interpretable:

((W − θ)2

)= Eθ

((W − Eθ(W ))2

)+ Eθ

((Eθ(W )− θ)2

)=

Vθ(W ) + (Bθ(W ))2 .

El termino Bθ(W ) = Eθ(W ) − θ se llama sesgo (en inges bias) de W cuandose estima θ y es una medida de la desviacion sistematica que se tiene cuandose estima θ por W . Si un estimador tiene sesgo nulo para cualquier valor delparametro se dice que es un estimador insesgado. En tal caso, Eθ

((W − θ)2

)=

Vθ(W ).

Ası, el error cuadratico medio de un estimador es la suma de su varianza(una medida de su dispersion) mas el cuadrado de su sesgo (medida de la des-viacion sistematica o de la exactitud del estimador). Es una medida conjuntade precision y exactitud del estimador. Por lo tanto, parece sensato buscar es-timadores que tengan error cuadratico medio pequeno, porque de esta maneracontrolaremos tanto la dispersion como la exactitud de las estimaciones.

Ejemplo 43En el siguiente grafico se muestran cuatro situaciones en las que se combinanniveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menorvalor del error cuadratico medio.

D E

F G

Page 99: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.1. ERROR CUADRATICO MEDIO 89

. .

Ejemplo 44X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parametros desconocidos: θ =(µ, σ2). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ2:

X =1n

n∑

i=1

Xi, S2 =1

n− 1

n∑

i=1

(Xi −X)2.

Tambien hemos calculado sus esperanzas:

E(X) = µ, E(S2) = σ2.

Concluimos que X y S2 son estimadores insesgados de µ y σ2, respectivamente.Su error cuadratico medio coincide entonces con su varianza:

((X − µ)2

)= Vθ(X) =

σ2

n,

((S2 − σ2)2

)= Vθ(S2) =

2σ4

n− 1.

. .

Ejemplo 45A veces vale la pena permitir un poco de sesgo en un estimador para obteneruna reduccion importante de la varianza y, por lo tanto, del error cuadraticomedio. Este es uno de esos casos.

Sea X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2), ambos parametros desconocidos:θ = (µ, σ2). Sea

σ2 =n− 1

nS2,

el estimador maximo verosımil de σ2. Calculemos su error cuadratico medio:

E(σ2) =n− 1

nσ2 =

(1− 1

n

)σ2 =⇒ Bθ(σ2) = − 1

nσ2;

V (σ2) =(

n− 1n

)2

V (S2) =2(n− 1)

n2σ4.

Ası, el error cuadratico medio de σ2 es

E(σ2 − σ2) =2(n− 1)

n2σ4 +

1n2

σ4 =2n− 1

n2σ4 <

2n− 1

σ4.

Page 100: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

90CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Se concluye que σ2 tiene menor error cuadratico medio que S2.

La comparacion de los errores cuadraticos medios no nos debe conducir apensar que hay que usar siempre σ2 en vez de S2. Aunque es cierto que, enpromedio, σ2 ofrecera estimaciones mas cercanas a σ2 que S2, tambien lo es queen promedio σ2 estima el parametro por defecto.

Por otra parte, el criterio del error cuadratico medio es discutible cuando seestima una varianza porque el error cuadratico medio penaliza las desviacionesdel parametro de igual forma tanto si son por exceso como si son por defecto.Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandesporque el valor cero es una cota natural para los estimadores.. .

Ejemplo 46Sea X1, . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador maxi-mo verosımil de p y el estimador bayesiano derivado de suponer perdida cuadrati-ca y una beta como distribucion a priori de p:

p = X, pB =∑n

i=1 Xi + α

α + β + n.

Calculamos errores cuadraticos medios:

Ep

((X − p)2

)= V (X) =

p(1− p)n

,

Ep

((pB − p)2

)= V

(∑ni=1 Xi + α

α + β + n

)+

(Bp

(∑ni=1 Xi + α

α + β + n

))2

=

np(1− p)(α + β + n)2

+(

np + α

α + β + n− p

)2

=

np(1− p) + (α(1− p) + βp)2

(α + β + n)2.

Supongamos que no tenemos una informacion a priori suficientemente rica comopara determinar los valores de α y β y que, como consecuencia, decidimos elegirlos valores α y β tales que el error cuadratico medio de pB sea constante en p,si ello es posible: Ep

((pB − p)2

)= K(n). Busquemos esos valores:

si p = 0 =⇒ α2

(α + β + n)2= K(n),

si p = 1 =⇒ β2

(α + β + n)2= K(n),

de donde se sigue que α = β y

α2

(2α + n)2= K(n).

Page 101: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.1. ERROR CUADRATICO MEDIO 91

Si hacemos ahora p = 1/2:

p =12

=⇒ n 122 + α2(1− 1

2 − 12 )2

(2α + n)2=

n/4(2α + n)2

= K(n).

Por lo tanto

α = β =√

n

2Con esta eleccion,

pB =∑n

i=1 Xi +√

n2√

n + n

y su error cuadratico medio es

Ep

((pB − p)2

)= K(n) =

14(1 +

√n)2

para todo p ∈ (0, 1).

0 0.2 0.4 0.6 0.8 10

0.01

0.02

0.03

0.04

0.05

0.06

0.07n= 4

p

EC

M

0 0.2 0.4 0.6 0.8 10

1

2

3

4

5

6

7x 10

−4 n= 400

p

EC

M

K(4) =136

= 0,028, K(400) =1

4(21)2= 0,000567

Ep=1/2

((X − p)2

)=

1/44

=116

= 0,0625, Ep=1/2

((X − p)2

)=

1/4400

= 0,000625

Estas figuras ilustran el comportamiento de p y pB : si n es pequeno, el es-timador de Bayes es preferible a no ser que haya una fuerte evidencia de que p

esta en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimadorfrecuentista a menos que se sospeche fundadamente que p ≈ 0,5.. .

4.1.1. Eficiencia relativa

Un estimador W de θ se denomina inadmisible si existe otro estimador V

de θ tal que

((V − θ)2

) ≤ Eθ

((W − θ)2

)para todo θ ∈ Θ,

Page 102: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

92CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

y ademas existe algun θ0 ∈ Θ tal que

Eθ0

((V − θ0)2

)< Eθ0

((W − θ0)2

).

Es decir, un estimador W es inadmisible si existe otro estimador V que es almenos igual de bueno que W para todo posible valor del parametro θ y lo superacuando el valor concreto del parametro es θ0. Se dice tambien que V domina aW uniformemente en θ.

Un estimador es admisible cuando no es inadmisible, es decir, cuando noexiste otro que lo domine uniformemente en θ.

Ejemplo 47

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1T es inadmisible

θ

EC

M

S

T

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1S es admisible

θ

EC

M

S

T1

T2

T3 no existe

. .

Ejemplo 48Sea X1, . . . , Xn m.a.s. de X ∼ N(µ, 1), −∞ < µ < ∞. La media X y la medianamuestral Mn son estimadores insesgados de µ.

Para n = 21, se tiene que

Vµ(X) = 1/n = 0,048 < Vµ(Mn) ≈ ,075, para todo µ.

Por lo tanto, la mediana muestral es inadmisible como estimador de µ en elcaso de normalidad. (Nota: Se ha usado la expresion asintotica para calcular

Page 103: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.1. ERROR CUADRATICO MEDIO 93

la varianza de la mediana muestral; vease, por ejemplo, el teorema 7.25 deSchervish 1995 o el problema 10.10 en Rice 1995. Para la distribucion exacta dela mediana muestral, vease la seccion 5.5 de Casella-Berger).

Se puede probar (se vera en el tema 7, sobre teorıa de la decision) que la me-dia muestral es admisible. Esto no implica que no existan otros estimadores conmenor error cuadratico medio que X en ciertas regiones del espacio parametrico.

Por ejemplo, si definimos W ≡ 3 (el estimador que siempre estima µ como3, independientemente de la muestra observada), se tiene que

((W − µ)2

)= (3− µ)2.

Como Eµ

((X − µ)2

)= 1/n, para todo µ, se tiene que W es preferible a X para

los valores de µ que cumplen

(3− µ)2 <1n⇐⇒ 3− 1√

n< µ < 3 +

1√n

.

Fuera del intervalo [3 + (1/√

n), 3− (1/√

n)] es preferible X. Por lo tanto, nin-guno de estos dos estimadores domina uniformemente al otro.. .

Si W1 y W2 son dos estimadores insesgados de θ, se define la eficiencia

relativa de W1 respecto a W2 como

RE(θ, W1, W2) =Vθ(W2)Vθ(W1)

=1

Vθ(W1)

1Vθ(W2)

.

Ası, RE(θ,W1,W2) > 1 si y solo si Vθ(W2) > Vθ(W1), si y solo si W1 usa losdatos de modo mas eficiente que W2.

Ejemplo 49Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto ala media muestral X para estimar el parametro de centralidad µ de cuatrodistribuciones simetricas (el parametro de centralidad es la mediana poblacionaly coincide con la esperanza cuando esta existe).

Se ofrecen los resultados en funcion del tamano muestral n. Los valores de lavarianza de la mediana son aproximados y se han calculado mediante la formula

V (Mn) ≈ 14f2(µ)

.

V (X) V (Mn) RE(θ,Mn, X)Normal estandar 1/n π/(2n) 2/π = 0,64Logıstica (β = 1) π2/(3n) 4/n π2/12 = 0,82Doble exponencial (λ = 1) 2/n 1/n 2Cauchy estandar ∞ π2/(4n) ∞

Page 104: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

94CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Se concluye que la media muestral es mas eficiente que la mediana en las leyesnormal y logıstica, y lo es menos en la doble exponencial y la Cauchy.. .

4.2. Mejor estimador insesgado

Acabamos de ver que la comparacion de estimadores basada en error cuadrati-co medio puede llevar a conclusiones poco razonables (por ejemplo, no podemosdesechar el estimador constante W ≡ 3 porque ese es el mejor estimador enel caso de que el parametro sea igual a 3) o a la imposibilidad de elegir ununico estimador (el estimador W ≡ 3 es insuperable si θ = 3 pero tambien loes W ≡ 4 cuando θ = 4). Estos problemas surgen del hecho de que estamoscomparando todos los estimadores posibles de un parametro: hay estimadorescuya definicion esta alejada de toda logica pero que en determinadas situacionesmuy concretas dan resultados sensatos.

Por lo tanto, para que el criterio de comparacion de estimadores mediantesu error cuadratico medio de lugar a la recomendacion de un unico estimador,preferible a los demas, debemos limitar el conjunto de estimadores que se tie-nen en cuenta. Se debe exigir un mınimo de sensatez a un estimador antes deadmitirlo para ser comparado con los restantes estimadores.

Una forma de restringir la clase de estimadores es exigir que sean insesga-

dos. Veremos que si nos restringimos a esta clase de estimadores sı llegaremosa resultados satisfactorios a partir de la comparacion de su error cuadraticomedio, que para estos estimadores coincide con su varianza. Se trata de elegirel estimador insesgado del parametro θ que tenga la varianza mas pequena.Ademas, se caracterizara el mejor estimador insesgado (el de menor varianza).

Dada una transformacion τ del parametro θ, restringimos la clase de esti-madores considerados a

Cτ = W : Eθ(W ) = τ(θ),

la clase de estimadores insesgados de τ(θ). Dado W ∈ Cτ ,

((W − τ(θ))2

)= Vθ(W )

y la comparacion de estimadores con el criterio del error cuadratico medio sereduce a la comparacion de sus varianzas.

Diremos que un estimador W ∗ es el mejor estimador insesgado de τ(θ),o el UMVUE (estimador insesgado de τ(θ) uniformemente de mınima

varianza), si Eθ(W ∗) = τ(θ) para todo θ ∈ Θ y si para cualquier otro estimadorW , tal que Eθ(W ) = τ(θ) para todo θ ∈ Θ, se tiene que Vθ(W ∗) ≤ Vθ(W ), paratodo θ ∈ Θ.

Page 105: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 95

Ejemplo 50Sea X1, . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi) = V (Xi) =λ. Por lo tanto, X y S2 son ambos estimadores insesgados de λ. Determinaremoscual de ellos es mejor, en el sentido de tener menor varianza.

La varianza de X es

V (X) =V (X)

n=

λ

n.

Para determinar la varianza de S2 los calculos son algo mas tediosos. En general,si hacemos θ1 = E(X) y θj = E((X − θ1)j), para j = 2, 3, 4, se puede probarque (ver problema 3 del Capıtulo 1)

V (S2) =1n

(θ4 − n− 3

n− 1θ22

).

Concretaremos este resultado para el caso de la distribucion de Poisson. Se tieneque θ1 = θ2 = λ. Calculemos θ3 y θ4. En primer lugar,

E(X3) =∞∑

k=0

k3e−λ λk

k!=

∞∑

k=1

k2e−λ λk

(k − 1)!=

λ

∞∑

h=0

(h + 1)2e−λ λh

h!= λE((X + 1)2) = λ(E(X2) + 2E(X) + 1) =

λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ.

Ası,θ3 = E((X − λ)3) = E(X3 − 3X2λ + 3Xλ2 − λ3) =

λ3 + 3λ2 + λ− 3λ(λ + λ2) + 3λ3 − λ3 = λ.

Calculemos E(X4):

E(X4) =∞∑

k=0

k4e−λ λk

k!=

λ

∞∑

h=0

(h + 1)3e−λ λh

h!= λE((X + 1)3) = λ(E(X3) + 3E(X2) + 3E(X) + 1) =

λ(λ3 +3λ2 +λ+3(λ+λ2)+3λ+1) = λ(λ3 +6λ2 +7λ+1) = λ4 +6λ3 +7λ2 +λ

Ası,

θ4 = E((X − λ)4) = E(X4)− 4λE(X3) + 6λ2E(X2)− 4λ3E(X) + λ4 =

λ4 + 6λ3 + 7λ2 + λ− 4λ(λ3 + 3λ2 + λ) + 6λ2(λ + λ2)− 3λ4 =

3λ2 + λ.

Por tanto,

V (S2) =1n

(θ4 − n− 3

n− 1θ22

)=

1n

(3λ2 + λ− n− 3

n− 1λ2

)=

Page 106: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

96CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

λ

n+

2λ2

n− 1>

λ

n= V (X) si n ≥ 2.

Concluimos que S2 no puede ser el UMVUE para λ, dado que X es preferible aS2.. .

En el ejemplo anterior solo hemos comparado dos estimadores insesgadosentre sı. Ahora estudiaremos toda una clase de estimadores insesgados, aunqueesta familia no incluye a todos los estimadores insesgados.

Ejemplo 50, pagina 95. Continuacion. Consideremos la clase de estimado-res Wa = aX + (1− a)S2, con a ∈ IR. Se tiene que para toda a,

Eλ(Wa) = aλ + (1− a)λ = λ,

luego esta es una clase de estimadores insesgados para λ. Si buscamos el mejorde todos estos estimadores podrıamos llegar a la conclusion de que existe un a∗

tal que Wa∗ es el mejor estimador insesgado de λ entre aquellos que tienen laforma Wa. Las expresiones de Cov(X,S2) halladas en el problema 3 del Capıtulo1 resultan utiles para el calculo de Vλ(Wa).

Esto no proporcionara una respuesta global a la pregunta de cual de todoslos estimadores insesgados de λ es el que menor varianza tiene.. .

4.2.1. Teorema de Cramer-Rao. Informacion de Fisher

El ultimo ejemplo muestra que la busqueda del UMVUE no debe consistir enrepasar todos los estimadores insesgados posibles. El siguiente resultado abordael problema de un modo diferente: establece una cota inferior para la varianzade todos los estimadores insesgados de un parametro. Ası, si encontramos unestimador insesgado cuya varianza iguale esa cota podremos concluir que eseestimador es el UMVUE.

Teorema 25 (Teorema de Cramer-Rao.) Sea X˜ = (X1, . . . , Xn) una va-riable aleatoria n-dimensional con funcion de densidad conjunta f(x˜ |θ), θ ∈Θ ⊆ IR. Sea W ( X˜ ) un estimador insesgado para τ(θ), es decir, Eθ(W (X˜ )) =τ(θ) para todo θ, donde τ es una funcion de θ que cumple

H1: τ(θ) es diferenciable en θ.

Se supone ademas que la verosimilitud conjunta f(x˜ |θ) verifica

Page 107: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 97

H2: para cualquier funcion h(x˜ ) tal que Eθ|h(X˜ )| < ∞ se tiene que

d

∫· · ·

∫h( x˜ )f(x˜ |θ)dx1 . . . dxn =

∫· · ·

∫h(x˜ )

[∂

∂θf( x˜ |θ)

]dx1 . . . dxn.

Entonces,

Vθ(W (X˜ )) ≥(

ddθ τ(θ)

)2

[(∂∂θ log f( X˜ |θ)

)2] .

A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota

de Cramer-Rao.

Demostracion: Se basa en la desigualdad de Cauchy-Schwarz, que expresadaen terminos estadısticos establece que para cualquier par de variables aleatoriasX e Y definidas sobre el mismo espacio muestral, se tiene que

(Corr(X, Y ))2 ≤ 1,

o equivalentemente, que dada la variable aleatoria X,

V (X) ≥ (Cov(X, Y ))2

V (Y )

para toda variable aleatoria Y .

La demostracion del teorema es inmediata poniendo W ( X˜ ) en el papel dela variable aleatoria X anterior, haciendo

Y =∂

∂θlog f(X˜ |θ),

y viendo que se verifican A y B:

A.

V

(∂

∂θlog f( X˜ |θ)

)= Eθ

[(∂

∂θlog f(X˜ |θ)

)2]

.

B.

Cov(

W ( X˜ ),∂

∂θlog f( X˜ |θ)

)=

d

dθτ(θ).

Probemos A. Para ello hay que demostrar que

[∂

∂θlog f(X˜ |θ)

]= 0.

En efecto,

[∂

∂θlog f(X˜ |θ)

]= Eθ

[∂∂θ f(X˜ |θ)f(X˜ |θ)

]=

Page 108: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

98CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

∫· · ·

∫ ∂∂θ f( x˜ |θ)f( x˜ |θ)

f( x˜ |θ)dx1 . . . dxn =

∫· · ·

∫∂

∂θf(x˜ |θ)dx1 . . . dxn

(H2,h( x˜ )=1)

=

d

∫· · ·

∫f(x˜ |θ)dx1 . . . dxn

︸ ︷︷ ︸=1

=d

dθ1 = 0.

Veamos ahora que tambien es cierto B:

Cov(

W (X˜ ),∂

∂θlog f(X˜ |θ)

)= Eθ

[W ( X˜ )

∂θlog f(X˜ |θ)

]=

[W (X˜ )

∂∂θ f(X˜ |θ)f( X˜ |θ)

]=

∫· · ·

∫W ( x˜ )

∂θf( x˜ |θ)dx1 . . . dxn

H2,h( x˜ )=W ( x˜ )

=

d

∫· · ·

∫W (x˜ )f( x˜ |θ)dx1 . . . dxn

︸ ︷︷ ︸=Eθ(W ( X˜ ))=τ(θ)

=d

dθτ(θ).

2

Nota: El teorema de Cramer-Rao es igualmente valido en el caso discreto.En este caso la hipotesis H2 afirma que pueden intercambiarse el sumatorio yla diferenciacion.

Un estimador insesgado para τ(θ) se denomina eficiente si su varianza es lamınima posible, es decir, si es igual a la cota de Cramer-Rao. La eficiencia deun estimador insesgado se define como el cociente entre la cota de Cramer-Raoy su varianza. Es un valor menor o igual que 1 si se dan las hipotesis del teoremade Cramer-Rao. A esa cantidad tambien se la llama eficiencia de Bahadur

del estimador. La eficiencia relativa entre dos estimadores insesgados es elinverso del cociente de sus varianzas, como ya se definio anteriormente.

A la derivada parcial del logaritmo de la verosimilitad L(θ|x˜ ) = f(x˜ |θ)respecto al parametro se le llama tambien funcion score:

S(θ|x˜ ) =∂

∂θlog L(θ|x˜ ).

En la demostracion del teorema de Cramer-Rao se ha probado que

Eθ(S(θ|X˜ )) = 0.

Observese que para obtener el estimador maximo verosımil de θ lo que se hacees resolver la ecuacion

S(θ|x˜ ) = 0,

Page 109: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 99

lo que equivale a buscar el valor de θ para el cual el valor de S(θ|x˜ ) coincidecon su valor esperado.

Cuando se aplica a las familias exponenciales el resultado general que diceque la esperanza de la funcion score es cero, se obtiene el siguiente resultado(ver tambien el problema 11 del Capıtulo 1):

Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponen-cial parametrizada en forma natural con parametro η ∈ IR:

f(x|θ) = h(x)c(η) exp (ηt(x))

para ciertas funciones h, c y t. Entonces

Eη(t(X)) = − d

dηlog c(η).

Si X1, . . . , Xn es muestra aleatoria simple de X y se define el estadıstico

T (X1, . . . , Xn) =n∑

i=1

t(Xi)

entoncesEη(T (X˜ )) = −n

d

dηlog c(η).

Demostracion: El resultado sobre T ( X˜ ) es trivial a partir del resultado sobret(X). El logaritmo la verosimilitud de x es

l (θ|x) = log f(x|θ) = log h(x) + log c(η) + ηt(x)

y la funcion score

S(θ|x) =∂

∂ηl (θ|x) =

d

dηlog c(η) + t(x).

Como Eη(S(θ|X)) = 0, se sigue el resultado del corolario. 2

A la cantidad que aparece en el denominador de la cota de Cramer-Rao sele denomina cantidad de informacion de Fisher que sobre θ contiene elvector X˜ :

IX˜

(θ) = Eθ

[(∂

∂θlog f

X˜(X˜ |θ)

)2]

= V

(∂

∂θlog f

X˜( X˜ |θ)

)= V (S(θ|X˜ )).

Se denomina cantidad de informacion de Fisher que sobre θ contiene lavariable Xi a

IXi(θ) = Eθ

[(∂

∂θlog fXi(X|θ)

)2]

= V

(∂

∂θlog fXi(X|θ)

)= V (S(θ|Xi)).

Page 110: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

100CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Cuando X˜ = (X1, . . . , Xn) es una muestra aleatoria simple de X se verifica quela informacion de Fisher contenida en la muestra es la suma de las informacionescontenidas en cada una de las observaciones y, dado que estas son identicamentedistribuidas, se tiene que

IX˜

(θ) = nIX1(θ).

Este resultado es consecuencia del siguiente corolario del teorema de Cramer-Rao:

Corolario 3 Bajo las hipotesis del teorema de Cramer-Rao, si X˜ = (X1, . . . , Xn)es una muestra aleatoria simple de X con distribucion dada por f(x|θ) entonces

[(∂

∂θlog f

X˜(X˜ |θ)

)2]

= nEθ

[(∂

∂θlog fX(X|θ)

)2]

.

Demostracion: Por independencia, la verosimilitud de X˜ es el producto deverosimilitudes, luego

∂θlog f

X˜( x˜ |θ) =

∂θ

n∑

i=1

log fX(xi|θ) =n∑

i=1

∂θlog fXi(xi|θ).

Por lo tanto,

[(∂

∂θlog f

X˜( X˜ |θ)

)2]

= Eθ

(n∑

i=1

∂θlog fXi(Xi|θ)

)2 =

n∑

i=1

[(∂

∂θlog fXi(Xi|θ)

)2]+

i 6=j

[(∂

∂θlog fXi(Xi|θ) ∂

∂θlog fXj (Xj |θ)

)2]

.

Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi

y Xj y dado que las funciones score tienen esperanza 0, segun se vio en lademostracion del teorema de Cramer-Rao.

Una demostracion alternativa de este resultado se basa en la expresion de lainformacion de Fisher como varianza de los scores:

V

(∂

∂θlog f

X˜(X˜ |θ)

)= V

(n∑

i=1

∂θlog fXi(Xi|θ)

)

que por independencia es igual a la suma de las varianzas:

nV

(∂

∂θlog fX(X|θ)

).

2

El siguiente resultado facilita a veces el calculo de la cota de Cramer-Rao.

Lema 5 Si la funcion de verosimilitud satisface

Page 111: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 101

H3: para cualquier funcion h(x˜ ) tal que Eθ|h(X˜ )| < ∞ se tiene que

∂2

∂θ2

∫· · ·

∫h(x˜ )f(x˜ |θ)dx1 . . . dxn =

∫· · ·

∫h( x˜ )

[∂2

∂θ2f(x˜ |θ)

]dx1 . . . dxn.

Entonces,

IX(θ) = Eθ

[(∂

∂θlog fX(X|θ)

)2]

= −Eθ

[∂2

∂θ2log fX(X|θ)

].

Demostracion:

∂2

∂θ2log fX(x|θ) =

∂θ

[1

fX(x|θ)∂

∂θfX(x|θ)

]=

−1f2

X(x|θ)(

∂θfX(x|θ)

)2

+1

fX(x|θ)∂2

∂θ2fX(x|θ).

Por otro lado,

[1

fX(X|θ)∂2

∂θ2fX(X|θ)

]=

∫∂2

∂θ2fX(x|θ)dx =H3=

d2

dθ2

∫fX(x|θ)dx = 0.

Ası pues,

[∂2

∂θ2log fX(X|θ)

]= −Eθ

[1

f2X(X|θ)

(∂

∂θfX(X|θ)

)2]

=

−Eθ

[(∂

∂θlog fX(X|θ)

)2]

= −IX(θ)

2

Nota 1. Cuando este lema se aplica a la informacion de Fisher contenida enuna muestra, se tiene que

IX˜

(θ) = −Eθ

[∂2

∂θ2log fX( X˜ |θ)

]= −nEθ

[∂2

∂θ2log fX(X|θ)

]= nIX(θ).

Nota 2. Las familias exponenciales satisfacen la hipotesis H3.

Ejemplo 51Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(λ). Ası, E(X) = λ. Consideramos τ(λ) =λ, luego τ ′(λ) = 1. Por lo tanto,

(∂

∂λlog

n∏

i=1

f(Xi|λ)

)2 = −nEλ

[∂2

∂λ2log f(X|λ)

]=

Page 112: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

102CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

−nEλ

[∂2

∂λ2log

(e−λλX

X!

)]= −nEλ

[∂2

∂λ2(−λ + X log λ− log X!)

]=

−nEλ

[−X

λ2

]=

n

λ.

Por lo tanto, para cualquier W , estimador insesgado de λ, se tendra que

Vλ(W ) ≥ 1n/λ

n.

Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ(X) = λ/n.Se deduce de ahı que la media muestral es el mejor estimador insesgado (UM-VUE) de λ.. .

Ejemplo 52No siempre es posible intercambiar los signos de la integral y de la derivada.Veamos un ejemplo.

Sea X1, . . . , Xn m.a.s. de X ∼ U(0, θ). Ası, f(x|θ) = 1/θ, si 0 < x < θ, y deahı,

∂θlog f(x|θ) = −1

θ=⇒ Eθ

[(

∂θlog f(X|θ))2

]=

1θ2

.

Si la cota de Cramer-Rao es aplicable, esta dice que para cualquier W , estimadorinsesgado de θ, se cumple que Vθ(W ) ≥ θ2/n.

Sin embargo, es posible encontrar un estimador insesgado de θ con varian-za menor que θ2/n. En efecto, sea Y = maxi Xi. Su funcion de densidad esfY (y|θ) = (n/θn)yn−1, si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. Ası,W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza:

Vθ(W ) =(n + 1)2

n2Vθ(Y ) =

(n + 1)2

n2

[Eθ(Y 2)−

(n

n + 1θ

)2]

=

(n + 1)2

n2

[n

n + 2θ2 −

(n

n + 1

)2

θ2

]=

(n + 1)2

n2

n

n + 2θ2 − θ2 =

(n + 1)2 − n(n + 2)n(n + 2)

θ2 =1

n(n + 2)θ2 <

1n

θ2.

La contradiccion proviene de que

d

∫ θ

0

h(x)f(x|θ)dx 6=∫ θ

0

h(x)∂

∂θf(x|θ)dx.

y por lo tanto el teorema de Cramer-Rao no es aplicable.. .

Page 113: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 103

En general, el teorema de Cramer-Rao no es aplicable si el soporte de f(x|θ)depende del parametro θ debido a que la derivada y la integral no son inter-cambiables si los lımites de integracion dependen de θ. Vease, por ejemplo en laseccion 2.4 del Casella-Berger, la formula de Leibnitz que permite calcular deri-vadas de integrales en las que los lımites de integracion dependen de la variablerespecto a la cual se deriva. Ahı se dan tambien resultados sobre condicionesque permiten intercambiar los signos de integracion y derivacion.

Aunque el teorema de Cramer-Rao pueda ser aplicado y la cota de Cramer-Rao sea efectiva, no hay garantıas de que esta cota sea alcanzada por algunestimador insesgado del parametro. En los casos en los que no se encuentra unestimador insesgado que alcance la cota de Cramer-Rao, el problema es decidirsi dado un estimador insesgado este es ya el mejor posible.

Ejemplo 53Sea X˜ = (X1, . . . , Xn) una muestra aleatoria simple de X ∼ N(µ, σ2) con

ambos parametros desconocidos. Consideramos el problema de estimar σ2. Ladistribucion normal satisface las hipotesis del teorema de Cramer-Rao. Calcu-lamos la cota de Cramer-Rao:

IX(σ2) = −E

[∂2

∂(σ2)2log f(x|θ)

]=

−E

[∂2

∂(σ2)2log

(1

(2πσ2)1/2e−

(x−µ)2

2σ2

)]=

−E

[∂2

∂(σ2)2

(log K − 1

2log σ2 − (x− µ)2

2σ2

)]=

−E

[∂

∂σ2

(− 1

2σ2+

(x− µ)2

2σ4

)]=

−E

[1

2σ4− (x− µ)2

σ6

]=−12σ4

+σ2

σ6=

12σ4

.

Cualquier W (X˜ ), estimador insesgado de σ2, por ejemplo W (X˜ ) = S2 =∑ni=1(Xi −X)2/(n− 1), ha de verificar

V (W (X˜ )) ≥ 1nIX(σ2)

=2σ4

n.

En particular, S2 no alcanza la cota de Cramer-Rao:

V (S2) =2σ4

n− 1>

2σ4

n.

Surge la pregunta de si existe algun estimador insesgado de σ2 que alcance lacota de Cramer-Rao. Si esto no ocurre queda abierta otra pregunta: ¿es S2 elmejor estimador insesgado de σ2?. .

Page 114: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

104CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

El siguiente resultado ayuda a contestar la primera de las dos preguntassurgidas en el ejemplo anterior.

Corolario 4 Sea X˜ = (X1, . . . , Xn) una muestra aleatoria simple de X condistribucion dada por f(x|θ), θ ∈ IR, donde f satisface las hipotesis del teoremade Cramer-Rao. Sea L(θ|x˜ ) =

∏ni=1 f(xi|θ) la funcion de verosimilitud. Sea

W (X˜ ) = W (X1, . . . , Xn) un estimador insesgado de τ(θ).

Entonces W ( X˜ ) alcanza la cota de Cramer-Rao si y solo si existe una fun-cion a(θ) tal que se tiene la igualdad

a(θ)(W (x˜ )− τ(θ)) =∂

∂θlog L(θ|x˜ )

para todo θ.

Ademas, esto ocurre si y solo si existen funciones h(θ), k(θ) y u( x˜ ) talesque

L(θ|x˜ ) = u( x˜ )h(θ) exp(W (x˜ )k(θ)),

es decir, si y solo si la distribucion de partida pertenece a la familia exponencial.

Demostracion: En la demostracion del teorema de Cramer-Rao se usa el hechode que (

Corr(

W (X˜ ),∂

∂θlog L(θ|x˜ )

))2

≤ 1,

para probar la desigualdad de Cramer-Rao que se dara con igualdad si y solosi la correlacion anterior es igual a 1 o -1, lo que equivale a decir que existe unarelacion lineal perfecta entre las dos variables, es decir, existen constantes a y b

(que podrıan depender del valor de θ) tales que

∂θlog L(θ|x˜ ) = aW ( X˜ ) + b, con probabilidad 1,

luego,

0 = E

(∂

∂θlog L(θ|x˜ )

)= aE(W ( x˜ )) + b = aτ(θ) + b,

de donde se sigue que b = −aτ(θ). Ası,

∂θlog L(θ|x˜ ) = a

(W ( x˜ )− τ(θ)

), con probabilidad 1.

Para probar la ultima parte del corolario, resolvemos la ecuacion diferencial

∂θlog L(θ|x˜ ) = a(θ)(W (x˜ )− τ(θ)) = a(θ)W (x˜ ) + b(θ).

Existiran funciones A(θ) y B(θ) tales que A′(θ) = a(θ) y B′(θ) = b(θ) y por lotanto

log L(θ|x˜ ) = A(θ)W (x˜ )+B(θ)+C(x˜ ) =⇒ L(θ|x˜ ) = exp(A(θ)W (x˜ )+B(θ)+C(x˜ )),

Page 115: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 105

de donde se sigue el resultado buscado para h(θ) = exp(B(θ)), k(θ) = A(θ) yu(x˜ ) = exp(C(x˜ )). 2

Ejemplo 53, pagina 103. Continuacion. La funcion de verosimilitud es

L(µ, σ2|x˜ ) =1

(2πσ2)n/2e−(

∑n

i=1(xi−µ)2)/(2σ2)

y la derivada respecto a σ2 de su logaritmo es

∂σ2log

(L(µ, σ2|x˜ )

)=

n

2σ4

(∑ni=1(xi − µ)2

n− σ2

).

Tomando a(θ) = n2σ4 , se sigue que el estimador insesgado que alcanzarıa la cota

de Cramer-Rao serıa

W (X˜ ) =1n

n∑

i=1

(xi − µ)2

que es calculable si y solo si µ es conocido. Por lo tanto, si µ es desconocido lacota de Cramer-Rao en la estimacion de σ2 no es alcanzable. Como ya dijimosantes, queda abierta la cuestion de saber si S2 es el mejor estimador insesgadode σ2. A esto se dara respuesta mas adelante, en la seccion 4.2.3.. .

4.2.2. Version multivariante del teorema de Cramer-Rao.

Consideramos ahora el problema de estimacion en el caso de que la familiaparametrica de distribuciones venga dada por un parametro multidimensional

θ˜ = (θ1, . . . , θk). En este contexto, la extension natural de la informacionde Fisher es la matriz de informacion de Fisher, definida como la matrizI( θ˜ ) de dimension k × k cuyo elemento (i, j) es

Iij = E

[(∂ log f(x˜ | θ˜ )

∂θi

)(∂ log f(x˜ | θ˜ )

∂θj

)].

Si definimos S(X˜ , θ˜ ) = ∇θ˜

log f(x˜ | θ˜ ), el vector de scores, es decir, el

vector gradiente del logaritmo de la funcion de verosimilitud (el vector columnade derivadas parciales respecto a θ1, . . . , θk) se tiene que la matriz de informacionde Fisher es

I( θ˜ ) = E[S(X˜ , θ˜ )S( X˜ , θ˜ )t] = Cov(S( X˜ , θ˜ )).

Tambien es cierto que si se verifican las hipotesis de regularidad H2 y H3,entonces

I( θ˜ ) = −E(Hθ˜

log f(x˜ | θ˜ ))

Page 116: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

106CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

donde Hθ˜

log f(x˜ | θ˜ ) es la matriz hessiana de log f(x˜ | θ˜ ): la matriz k × k

cuyo elemento (i, j) es∂2

∂θiθ2j

log f(x˜ | θ˜ ).

Consideremos ahora una funcion univariante de θ˜ : τ = τ( θ˜ ) = τ(θ1, . . . , θk).Sea ∇τ( θ˜ ) el gradiente de τ :

∇τ(θ) =(

∂θ1

τ( θ˜ ), . . . ,∂

∂θk

τ( θ˜ ))t

.

El siguiente resultado es la version del teorema de Cramer-Rao aplicable en estecontexto.

Teorema 26 Sea W (X˜ ) un estimador insesgado de una transformacion uni-variante τ( θ˜ ) del parametro k-dimensional θ˜ . Si se dan las condiciones deregularidad H1, H2 y H3, entonces

V (W ( X˜ )) ≥ (∇τ(θ))tI( θ˜ )−1

(∇τ(θ)),

con igualdad si y solo si existe una funcion a( θ˜ ) univariante tal que

a( θ˜ )(W (X˜ )− τ( θ˜ )) = (∇τ( θ˜ ))t(I( θ˜ ))−1S(X˜ , θ˜ ).

Demostracion: Ver, por ejemplo, Arnold (1990), seccion 7.3.2, o Velez y Garcıa(1993), paginas 233 y siguientes, para una extension de este teorema en la quese estima una funcion τ r-dimensional. 2

Ejemplo 54Sea θi un estimador insesgado de θi, i ∈ 1, . . . , k. Sea τ( θ˜ ) = θi. Denotaremospor Iij al elemento (i, j) de (I( θ˜ ))−1. Segun el teorema anterior, sera

V (θi) ≥ Iii.

El teorema de Cramer-Rao univariante nos decıa que

V (θi) ≥ I−1ii .

Sabemos que en general se cumple que

Iii ≥ I−1ii ,

con igualdad si y solo si la matriz I( θ˜ ) es diagonal. (Vease, por ejemplo, Velezy Garcıa 1993, p. 235). Por lo tanto la version multivariante del teorema deCramer-Rao mejora la cota de Cramer-Rao univariante.

Se puede probar tambien que si θ˜ es un estimador insesgado de θ˜ entonces

Cov( θ˜ )− I( θ˜ )−1 es una matriz definida positiva.. .

Page 117: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 107

Ejemplo 55Sea (X1, X2, X3) ∼ Trinomial(n, θ1, θ2, θ3). Recordemos que X1 + X2 + X3 = n

y que θ1 + θ2 + θ3 = 1, luego hay dos parametros efectivos, θ1 y θ2 por ejemplo,pues θ3 = 1− θ1 − θ2. La funcion de verosimilitud es esta:

L = P (X1 = x1, X2 = x2, X3 = x3|θ1, θ2) =n!

x1!x2!x3!︸ ︷︷ ︸K

θx11 θx2

2 (1−θ1−θ2)n−x1−x2 .

Su logaritmo es

log L = log K + x1 log θ1 + x2 log θ2 + (n− x1 − x2) log(1− θ1 − θ2).

Calculamos el vector de scores y la matriz hessiana:

Sj =∂

∂θj

log L =xj

θj− n− x1 − x2

1− θ1 − θ2, j = 1, 2.

Hjj =∂2

∂θ2j

log L =−xj

θ2j

− n− x1 − x2

(1− θ1 − θ2)2, j = 1, 2.

H12 =∂2

∂θj

log L = − n− x1 − x2

(1− θ1 − θ2)2.

Ası, la matriz de informacion de Fisher es

I(θ1, θ2) = −E(H) = −E

( −X1θ21− n−X1−X2

(1−θ1−θ2)2− n−X1−X2

(1−θ1−θ2)2

− n−X1−X2(1−θ1−θ2)2

−X2θ22− n−X1−X2

(1−θ1−θ2)2

)=

(nθ1

+ n1−θ1−th2

n1−θ1−th2

n1−θ1−th2

nθ2

+ n1−θ1−th2

)

Ası,

I(θ1, θ2)−1 =

(θ1(1−θ1)

nθ1θ2

nθ1θ2

nθ2(1−θ2)

n

).

Por el teorema de Cramer-Rao multivariante, θ1(1 − θ1)/n es la cota para lavarianza de cualquier estimador insesgado de θ1. Si tomamos θ1 = X1/n, ten-dremos un estimador insesgado cuya varianza es V (θ1) = θ1(1 − θ2)/n. Por lotanto θ1 es eficiente.

Si hacemos solo el estudio univariante de la cota de Cramer-Rao para esti-madores de θ, tendremos que esa cota es I−1

11 :

I−111 =

1n

(1θ1

+1

1− θ1 − θ2

)−1

=θ1(1− θ1 − θ2)

(1− θ2)n≤ θ1(1− θ1)

n= I11.

La cota de Cramer-Rao multivariante es mas precisa que la cota de Cramer-Raounivariante, en el sentido de que es una cota inferior mayor.. .

Page 118: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

108CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-

Scheffe

En esta seccion veremos que papel juegan los estadısticos suficientes en labusqueda del mejor estimador insesgado de un parametro. En muchos casoslos resultados que veremos aquı permiten escoger un estimador insesgado ygarantizar que es el mejor posible aunque su varianza no alcance la cota deCramer-Rao.

Teorema 27 (Teorema de Rao-Blackwell) Sea X1, . . . , Xn una m.a.s. deX, con densidad (o masa de probabilidad) f(x|θ). Sea T (X˜ ) un estadısticosuficiente para θ y sea W (X˜ ) un estimador insesgado de τ(θ). Definimos

WT = Eθ(W |T ).

Entonces,

i. WT es funcion unicamente de T (X˜ ) (es decir, no depende de θ y dependede la muestra X˜ solo a traves del valor de T (X˜ )).

ii. Eθ(WT ) = τ(θ).

iii. Vθ(WT ) ≤ Vθ(W ) para todo θ ∈ Θ.

Demostracion:

i. Como T es suficiente para θ la distribucion de X˜ condicionada a T nodepende del parametro θ. Por lo tanto, la distribucion condicionada deW (X˜ ) dado T ( X˜ ) tampoco depende de θ. Por otra parte, E(W |T ) esfuncion de T .

ii. Por la ley de la esperanza iterada,

Eθ(WT ) = Eθ(E(W |T )) = Eθ(W ) = τ(θ).

iii. Por la ley de la esperanza iterada,

Vθ(W ) = Vθ(E(W |T ))+Eθ(Vθ(W |T )) = Vθ(WT )+Eθ(Vθ(W |T )) ≥ Vθ(WT ).

2

La consecuencia fundamental de este teorema es que en la busqueda delestimador UMVUE, basta con restringirnos a aquellos estimadores insesgadosque son funcion de un estadıstico suficiente: si trabajamos con un estadısticoinsesgado que no es funcion de uno suficiente, tomando esperanzas condicionadaspodemos conseguir otro que es al menos tan bueno como el anterior y es funciondel estadıstico suficiente. Este proceso se llama a veces Rao-Blackwellizacion.

Page 119: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 109

Ejemplo 56Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ(λ) = e−λ.

Sabemos que T (X˜ ) =∑n

i=1 Xi es estadıstico suficiente para λ. Observemosademas que P (X1 = 0) = e−λ y por tanto el estimador W ( X˜ ) = IX1 = 0 esun estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo

θ = E(W (X˜ )|T (X˜ ) = t) = P (X1 = 0|n∑

i=1

Xi = t) =P (X1 = 0,

∑ni=1 Xi = t)

P (∑n

i=1 Xi = t)=

P (X1 = 0,∑n

i=2 Xi = t)P (

∑ni=1 Xi = t)

=P (X1 = 0)P (

∑ni=2 Xi = t)

P (∑n

i=1 Xi = t)=

(recordar que∑n

i=1 Xi ∼ Poisson(nλ))

e−λe−(n−1)λ [(n−1)λ]t

t!

e−nλ [nλ]t

t!

=(

n− 1n

)t

.

Por lo tanto

θ =(

n− 1n

)∑n

i=1Xi

es un estimador insesgado de θ mejor que W (X˜ ) = IX1=0.. .

El siguiente resultado es consecuencia del teorema de Rao-Blackwell y ga-rantiza la unicidad del estimador UMVUE en caso de que este exista.

Teorema 28 Si W es el mejor estimador insesgado de τ(θ) (es el UMVUE) ysu varianza es finita, entonces W es unico.

Demostracion: Supongamos que existe otro estimador W0 insesgado que tienetambien varianza mınima. Entonces ha de ser igual a la de W :

Vθ(W ) = Vθ(W0), para todo θ

(observar que esta varianza mınima no tiene por que coincidir con la cota deCramer-Rao). Definimos W ∗ = (W+W0)/2, que es tambien estimador insesgadode τ(θ). Calculemos su varianza:

V (W ∗) =14V (W ) +

14V (W0) +

12Cov(W,W0) ≤

14V (W ) +

14V (W0) +

12

√V (W )V (W0) =

(14

+14

+12

)V (W ) = V (W ).

La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.Pero la igualdad se da si y solo si Corr(W,W0) = 1, o lo que es lo mismo, si ysolo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso,

E(W0) = a(θ)τ(θ) + b(θ) = τ(θ)

Page 120: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

110CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Por otra parte,

V (W ) =√

V (W )V (W0) = Cov(W,W0) =

Cov(W,a(θ)W + b(θ)) = Cov(W,a(θ)W ) = a(θ)V (W ),

de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, queb(θ) = 0, luego W = W0. 2

Nos planteamos ahora estudiar cuando es posible mejorar un estimador queya es insesgado. Ello nos ayudara a saber si un estimador insesgado es el mejor:como mınimo debemos estar seguros de que no puede ser mejorado.

Sea U un estadıstico tal que Eθ(U) = 0 para todo θ. Diremos que U es unestimador insesgado de 0, o que U es un ruido blanco. Consideremosademas W un estimador insesgado de τ(θ). Definimos ahora WU = W + aU ,que es tambien un estimador insesgado de τ(θ). Calculemos su varianza:

Vθ(WU ) = Vθ(W + aU) = Vθ(W ) + a2Vθ(U) + 2aCovθ(W,U).

Intentaremos elegir a de forma que WU sea mejor que W al menos para algunvalor del parametro. Si para θ = θ0, Covθ0(W,U) < 0 podemos elegir

0 < a < −2Covθ0(W,U)Vθ0(U)

.

De esta maneraVθ0(WU ) < Vθ0(W )

lo cual implica que W no puede ser el mejor estimador insesgado (UMVUE) deτ(θ). Del mismo modo puede procederse si Covθ0(W,U) > 0 para algun valorθ0 del parametro.

El siguiente resultado establece que las covarianzas de los estimadores inses-gado con los estimadores insesgados de 0 caracterizan los mejores estimadoresinsesgados.

Teorema 29 Sea W estimador insesgado de τ(θ) para todo θ. W es el mejorestimador insesgado de τ(θ) (UMVUE) si y solo si W esta incorrelacionado contodos los estimadores insesgados de 0, para todo θ.

Demostracion: Sea W1 estimador insesgado de τ(θ) incorrelacionado con losestimadores insesgados de 0. Sea W2 otro estimador insesgado de τ(θ). EntoncesW2 −W1 es estimador insesgado de 0. Escribimos W2 = W1 + (W2 −W1). Ası,

Vθ(W2) = Vθ(W1) + 2 Covθ(W1,W2 −W1)︸ ︷︷ ︸=0

+Vθ(W2 −W1) ≥ Vθ(W1).

Por lo tanto W1 es UMVUE.

Page 121: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 111

El recıproco se prueba por reduccion al absurdo siguiendo el argumentodesarrollado antes del enunciado del teorema: si W es UMVUE y existiese U ,un estimador insesgado del 0 con Covθ0(W,U) 6= 0 entonces serıa posible mejorara W en θ0, lo cual contradice el hecho de que W1 es UMVUE. 2

Los estimadores insesgados de 0 son simplemente ruidos que no aportaninformacion alguna sobre el parametro. Es razonable pensar que un buen esti-mador de τ(θ) no pueda ser mejorado anadiendole uno de estos ruidos.

En la definicion de estadısticos completos aparece tambien el concepto deestimador insesgado de 0. Se dice que la familia de distribuciones fT (t|θ), θ ∈Θ de un estadıstico T es completa si se verifica la siguiente implicacion:

si Eθ(g(T )) = 0 para todo θ ∈ Θ entonces Pθ(g(T ) = 0) = 1 para todo θ ∈ Θ.

Es decir, el estadıstico T es completo si la unica funcion suya que es estimadorinsesgado de 0 es precisamente la funcion identicamente 0.

El teorema de Rao-Blackwell establece que basta con buscar el estimadorUMVUE entre aquellos estimadores que son funcion de un estadıstico suficien-te. Si este estadıstico suficiente es ademas completo se tiene que no habra esti-madores de 0 que sean funcion suya y, por tanto, no debemos esperar que unestimador sea mejorado al sumarle un estimador insesgado de 0 (pues este nosera funcion del estadıstico suficiente). Bajo ciertas condiciones (existencia deestadısticos suficientes y completos y de estimadores insesgados), esta combina-cion de los conceptos de estadıstico completo y de estadıstico suficiente garantizala existencia de estimadores UMVUE de una funcion τ(θ) del parametro y da unmetodo para construirlos. El siguiente teorema establece este resultado. Pode-mos decir que este teorema resuelve teoricamente el problema de la estimacionpuntual, entendida esta como la busqueda del UMVUE.

Teorema 30 (Teorema de Lehmann-Scheffe) Si T (X˜ ) es un estadısticosuficiente y completo para θ y W ( X˜ ) es un estimador insesgado cualquiera deτ(θ), entonces

WT (X˜ ) = Eθ(W |T )

es el mejor estimador insesgado (UMVUE) de τ(θ). Si, ademas, V (WT ) < ∞para todo θ, entonces WT es unico.

Demostracion: Como ya se vio anteriormente, WT (X˜ ) es insesgado: por laley de la esperanza iterada,

Eθ(WT (X˜ )) = Eθ(Eθ(W |T )) = Eθ(W ) = τ(θ).

Veamos ahora que sea cual sea el estimador insesgado W que se use en ladefinicion de WT (X˜ ), se obtiene siempre el mismo estimador WT ( X˜ ). Sea W ′

otro estimador insesgado de τ(θ) y sea W ′T = Eθ(W ′|T ). Definimos g(T ) =

Eθ(W |T ) − Eθ(W ′|T ). Ası, Eθ(g(T )) = τ(θ) − τ(θ) = 0 y por ser T completo

Page 122: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

112CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = W ′T con

probabilidad 1.

Concluimos que existe un unico estimador insesgado de τ(θ) funcion delestadıstico suficiente y completo. Veamos que este estimador es el UMVUE. SeaW ′ un estimador insesgado de τ(θ) cualquiera. Por el teorema de Rao-Blackwell,

Vθ(E(W ′|T )) ≤ Vθ(W ′), para todo θ,

pero acabamos de ver que WT = E(W ′|T ), luego

Vθ(WT ) ≤ Vθ(W ′), para todo θ,

y WT es UMVUE.

La unicidad de WT esta garantizada por el teorema 28. 2

La demostracion del teorema de Lehmann-Scheffe se basa en el hecho de que,si existen estimadores insesgados, esencialmente solo existe uno que sea funciondel estadıstico suficiente y completo, pues condicionando cualquiera de los inses-gados al estadıstico suficiente y completo se obtiene siempre el mismo resultado.El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadasse ha reducido la varianza, llegando ası al UMVUE.

La principal conclusion del teorema de Lehmann-Scheffe es que si existeun estimador insesgado de τ(θ) que sea funcion de un estadıstico suficiente ycompleto, entonces es el unico UMVUE de τ(θ).

El siguiente resultado se deriva trivialmente del teorema de Lehmann-Scheffe:

Corolario 5 Si T (X˜ ) es un estadıstico suficiente y completo, cualquier funcionsuya que tenga esperanza finita es el UMVUE de su esperanza.

Ejemplo 56, pagina 109. Continuacion. Sea X1, . . . , Xn m.a.s. de X ∼Poisson(λ). Queremos estimar θ = τ(λ) = e−λ. Sabemos que T (X˜ ) =

∑ni=1 Xi

es estadıstico suficiente para λ y ademas es completo, por ser la Poisson unafamilia exponencial. Hemos visto que

θ =(

n− 1n

)∑n

i=1Xi

es un estimador insesgado de θ. Como es una funcion del estadıstico suficiente ycompleto, es el UMVUE de θ = e−λ. Veamos que no alcanza la cota de Cramer-Rao, es decir, no es eficiente para tamanos de muestra finitos. El corolario 4nos permite probarlo. Puesto que X es eficiente para λ (ver ejemplo 50) porel corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puedeescribirse ası:

∂λlog L(λ|x˜ ) = a(λ)(X − λ)

Page 123: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.2. MEJOR ESTIMADOR INSESGADO 113

para todo λ y cierta funcion a(λ). Podemos transformar esa expresion ası:

∂λlog L(λ|x˜ ) = (a(λ)λeλ)

(e−λ

λX − e−λ

)

de donde se deduce que no existe ningun estimador eficiente de e−λ puesto quede haberlo tendrıa que ser e−λ

λ X y esa cantidad no es un estadıstico al dependerdel parametro desconocido λ. Concluimos que θ no alcanza la cota de Cramer-Rao.. .

Ejemplo 57Sea X1, . . . , Xn una m.a.s. de X ∼ B(k, θ). Se desea estimar la probabilidad deobtener exactamente un exito, es decir,

τ(θ) = Pθ(X = 1) = kθ(1− θ)k−1.

El estadıstico

T =n∑

i=1

Xi ∼ B(nk, θ)

es suficiente y completo para θ. El estimador

W = IX1=1

es insesgado para τ(θ). Por lo tanto, el estimador

WT = E

[IX1=1|

n∑

i=1

Xi

]= φ

(n∑

i=1

Xi

)

es el mejor estimador insesgado de τ(θ) = P (X = 1). Calculemos WT :

φ(t) = E

[IX1=1|

n∑

i=1

Xi = t

]= P

(X1 = 1|

n∑

i=1

Xi = t

)=

P (X1 = 1)P (∑n

i=2 Xi = t− 1)P (

∑ni=1 Xi = t)

=kθ(1− θ)k−1

(k(n−1)

t−1

)θt−1(1− θ)k(n−1)−(t−1)

(knt

)θt(1− θ)kn−t

=

k(k(n−1)

t−1

)(knt

) =⇒ WT =k

(k(n− 1)∑ni=1 Xi − 1

)

(kn∑ni=1 Xi

) .

. .

Page 124: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

114CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

El teorema de Lehmann-Scheffe resuelve el problema de la busqueda del UM-VUE cuando existen simultaneamente un estimador insesgado y un estadısticosuficiente y completo. Sin embargo estas dos condiciones no siempre se cumplen.Es posible encontrar ejemplos en los que no existen estimadores insesgados delparametro de interes (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995,donde se prueba que no existe estimador insesgado del cociente p/(1−p) –odds eningles; podrıa traducirse como ventajas, aunque no existe una traduccion unani-memente aceptada– en un experimento binomial). Ademas, no esta garantizadala existencia de estadısticos suficientes completos (ver el ejemplo 6.9 de Velez yGarcıa 1993, donde se prueba la imposibilidad de encontrar un estimador UM-VUE en el muestreo de la U(θ, θ + 1), donde no existe un estadıstico suficientecompleto). En el caso de familias exponenciales el teorema 14 sı garantiza laexistencia de estadısticos suficientes y completos.

Incluso en el caso de que exista un estimador insesgado y un estadısticosuficiente y completo, la aplicacion del teorema de Lehmann-Scheffe puede darlugar a un estimador UMVUE poco sensato. Ası, Cristobal (1992) (p. 202) citael siguiente ejemplo. En el muestreo de la N(µ, 1), el UMVUE de µ2 es (X)2 −(1/n), que no es un estimador recomendable pues puede tomar valores negativos.Ademas el estimador max0, (X)2− (1/n) tiene menor error cuadratico medio,lo cual hace inadmisible al estimador UMVUE. Veanse tambien los ejemplos2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995).

La existencia de estos ejemplos patologicos se debe a que la condicion deinsesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar unica-mente estimadores con propiedades poco deseables. Pagar el precio de ciertosesgo puede permitir considerar otros estimadores con mejores propiedades (enterminos de error cuadratico medio, por ejemplo, o en comportamiento asintoti-co).

4.3. Comportamiento asintotico

4.3.1. Consistencia

Una sucesion de estimadores Wn = Wn(X1, . . . , Xn) es una sucesion de

estimadores consistentes para el parametro θ si para cada ε > 0 ypara cada θ ∈ Θ, se tiene que

lımn−→∞

Pθ(|Wn − θ| < ε) = 1,

o equivalentemente, si

lımn−→∞

Wn = θ en probabilidad para todo θ ∈ Θ.

Observese que en esta definicion las distribuciones de probabilidad de las suce-siones de variables aleatorias Wnn varıan con θ.

Page 125: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.3. COMPORTAMIENTO ASINTOTICO 115

La propiedad de consistencia es un requerimiento mınimo que debe verificarcualquier sucesion de estimadores, puesto que equivale a pedir que el parame-tro pueda estimarse con una precision prefijada a base de aumentar el tamanomuestral tanto como sea necesario.

El siguiente resultado establece una condicion suficiente para que una su-cesion de estimadores sea consistente. Denotamos por B(W ) el sesgo de unestimador W de θ: B(W ) = E(W )− θ.

Teorema 31 Si la sucesion Wn de estimadores de θ verifica que

a) lımn−→∞ Vθ(Wn) = 0 para todo θ,

b) lımn−→∞Bθ(Wn) = 0 para todo θ,

entonces Wn es una sucesion de estimadores consistentes de θ.

Demostracion: Observese que

Eθ((Wn − θ)2) = Vθ(Wn) + B2θ (Wn).

Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0y todo θ ∈ Θ,

Pθ(|Wn − θ| ≥ ε) = Pθ((Wn − θ)2 ≥ ε2) ≤ Eθ((Wn − θ)2)ε2

=

1ε2

(Vθ(Wn) + B2θ (Wn)) −→n 0,

lo que equivale a decir que

lımn−→∞

Pθ(|Wn − θ| < ε) = 1.

2

Los siguientes resultados se derivan de propiedades de la convergencia enprobabilidad de variables aleatorias y son utiles para determinar la consistenciade transformaciones de estimadores consistentes.

Teorema 32 Sea Wnn una sucesion consistente para θ.

1. Si ann y bnn son sucesiones de numeros reales tales que lımn an = 1y lımn bn = 0, entonces, anWn + bnn es consistente para θ.

2. Si g es una funcion continua definida en Θ, entonces g(Wn)n es unasucesion consistente para g(θ).

3. Si Vnn es una sucesion de estimadores consistentes para δ y g(θ, δ)es una funcion continua para todo (θ, δ), entonces g(Wn, Vn)n es unasucesion consistente para g(θ, δ).

Page 126: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

116CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Demostracion: Los dos primeros apartados se deducen del tercero. La pruebade este, basada en las definiciones de convergencia en probabilidad y de con-tinuidad de una funcion, puede verse, por ejemplo, en Arnold (1990) (teorema6-8). 2

Ejemplo 58Sean Xj ∼ B(nj , pj), j = 1, 2, dos variables aleatorias independientes. Se

define el odds ratio (podrıa traducirse como tasa de ventajas, aunque no existeuna traduccion unanimemente aceptada)

ψ = ψ(p1, p2) =p2

1−p2p1

1−p1

=p2

1− p2

1− p1

p1.

Podemos estimar pj mediante pj = Xj/nj , que por la ley debil de los grandesnumeros es estimador consistente de pj , j = 1, 2. Usando entonces el estimadorbasado en el principio de sustitucion, tenemos el siguiente estimador de ψ:

ψ = ψ(p1, p2) =X2/n2(1−X1/n1)(1−X2/n2)X1/n1

=X2(n1 −X1)(n2 −X2)X1

.

Si n1 y n2 tienden simultaneamente a ∞ (es decir, si lımnj/(n1 +n2) = aj > 0,j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ:

ψ = ψ(p1, p2) −→ ψ(p1, p2) = ψ en probabilidad,

es decir, ψ es estimador consistente de ψ.. .

4.3.2. Normalidad asintotica

El estudio de la distribucion de un estimador para un tamano muestraln finito es a menudo complejo y en ocasiones involucra calculos practicamenteimposibles de llevar a cabo. Por otra parte, la comparacion de medias y varianzasde estimadores para n finito puede ser poco adecuada (por ejemplo, el estimadorde pj/(1−pj) visto en el ejemplo 58 no estara definido con probabilidad positiva,puesto que P (Xj = nj) > 0).

En muchas ocasiones solo es posible realizar estudios del comportamientoasintotico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiadouna propiedad asintotica: la consistencia. Veremos ahora que es posible medir lavelocidad de convergencia de estimadores consistentes y ası seleccionar los queconvergen al verdadero valor del parametro mas rapidamente.

Ejemplo 59Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = λ : 0 < λ < ∞. En este

Page 127: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.3. COMPORTAMIENTO ASINTOTICO 117

modelo, el estimador de momentos de λ coincide con el maximo verosımil: λn =Xn. La distribucion exacta de λ es conocida: es la de una Poisson(nλ) divididapor n. Sin embargo esta es poco manejable y resulta mucho mas util aproximarlapor una distribucion mas sencilla a la que se acerca asintoticamente.

La version del teorema central del lımite para variables aleatorias indepen-dientes e identicamente distribuidas puede aplicarse porque V (X) = λ < ∞.Ası, √

n(λn − λ)√λ

−→ N(0, 1) debilmente,

es decir, para todo λ ∈ Θ y para todo w ∈ IR,

Pλ(λ ≤ w) ≈ φ

(√n(w − λ)√

λ

)

donde φ es la funcion de distribucion de la normal estandar. La aproximaciones tanto mejor cuanto mayores son n o λ.

Observese que λn es consistente pues, por las leyes de los grandes numeros,λn = Xn −→P E(X) = λ. Ası, λn − λ −→ 0 en probabilidad y tambien endistribucion. Esta convergencia a la distribucion degenerada en 0 no nos informade la velocidad a la que λn se acerca a λ ni de como lo hace (¿se distribuyen lasobservaciones de λn simetricamente alrededor de λ?, por ejemplo).

El hecho de que V (√

n(λn − λ)) = λ para todo n indica que la velocidad ala que λn se acerca a λ es la misma con la que 1/

√n se acerca a 0: multiplicar

por√

n es la forma de estabilizar las diferencias (λn − λ), es la estandarizacionadecuada.

El resultado derivado del teorema central del lımite, la distribucion asintoti-ca de

√n(λn−λ) es N(0, λ), responde a la pregunta de como es la aproximacion

λn a λ: los valores del estimador se distribuyen alrededor del verdadero valor delparametro igual que los valores de una variable aleatoria N(0, λ) se distribuyenalrededor de 0.. .

Ejemplo 60En la estimacion del parametro θ de una U(0, θ), los siguientes son estima-

dores consistentes: Tn = 2Xn, Wn = maxi=1...n Xi. De ellos, el primero con-verge a θ mas lentamente que el segundo: por el teorema central del lımiteT ′n =

√n(Tn − θ) converge debilmente a una distribucion no degenerada (con-

cretamente a una N(0, θ2/3)), mientras que W ′n =

√n(Wn − θ) converge en

probabilidad a la distribucion degenerada en 0 (la varianza de W ′n y su sesgo

como estimador de 0 tienden a 0, luego el teorema 31 garantiza que W ′n es

estimador consistente de 0). Podemos decir entonces que Tn converge a θ a lamisma velocidad que 1/

√n converge a 0, mientras que Wn converge a θ a mayor

Page 128: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

118CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

velocidad.. .

A menudo sera posible tambien comparar estimadores que convergen a lamisma velocidad mediante lo que llamaremos varianza asintotica.

Ejemplo 60, pagina 117. Continuacion. El estadıstico basado en la me-diana, Sn = 2 ·medianaX1, . . . , Xn, tambien es estimador consistente de θ yademas se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que

S′n =√

n(Sn − θ) −→ N(0, θ2) debilmente.

Por lo tanto, Tn y Sn convergen a θ a la misma velocidad (como 1/√

n va a 0),pero la varianza de la distribucion a la que converge T ′n (la version centrada ynormalizada de Tn) es menor que la varianza de la distribucion lımite de S′n.Se dira entonces que Tn tiene menor varianza asintotica que Sn y, por lo tanto,sera Tn sera preferible a Sn.. .

En la practica la gran mayorıa de los estimadores usuales, convenientementecentrados y normalizados, tienen distribucion asintotica normal. Se dice quepresentan normalidad asintotica y se denota

θn ∼ AN(θ, vn)

cuando1√vn

(θn − θ) −→D N(0, 1).

A la cantidad vn se la llama varianza asintotica de θn. El teorema centraldel lımite es el responsable de la normalidad asintotica de muchos estimadores.

La normalidad asintotica no solo aparece en estimadores univariantes, sinotambien en estimadores multivariantes, como muestra el siguiente ejemplo.

Ejemplo 61Sean (Xn, Yn)tn∈IN una sucesion de variables aleatorias bivariantes indepen-dientes y distribuidas como la variable aleatoria bivariante (X,Y )t, la cual sesupone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t =(E(X), E(Y ))t. Utilizaremos como estimador (Xn, Y n)t, el par formado porlas medias muestrales de los primeros n pares de variables aleatorias (Xi, Yi)t,i = 1, . . . , n.

La distribucion de una variable aleatoria bivariante esta caracterizada porlas distribuciones de las combinaciones lineales arbitrarias de sus componentes

Page 129: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.3. COMPORTAMIENTO ASINTOTICO 119

(esto se debe a que el calculo de la funcion generatriz de momentos bivariante de(X,Y )t en el punto (s, t)t equivale a calcular la funcion generatriz de momentosde sX + tY en el punto 1). Del mismo modo, para encontrar la distribucionasintotica de una sucesion de variables aleatorias bivariantes solo es necesarioencontrar la distribucion asintotica de combinaciones lineales arbitrarias de suscomponentes. Ası se reduce el problema bivariante a problemas univariantes.

Calculemos la distribucion asintotica de

√n

((Xn

Y n

)−

(µX

µY

)).

Sean a, b numeros reales arbitrarios. Las variables aleatorias aXi + bYi, i =1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , ypor el teorema central del lımite

√n

(1n

n∑

i=1

(aXi + bYi)− E(aX + bY )

)−→D N(0, V (aX + bY )),

que puede reescribirse ası:(a√

n(Xn − µX) + b√

n((Y )n − µY ))−→D

N(0, a2V (X) + b2V (Y ) + 2abCov(X, Y ))

Consideremos la variable aleatoria normal bivariante(

U

V

)∼ N2

((00

),

(V (X) Cov(X,Y )

Cov(X,Y ) V (Y )

)).

La distribucion de aU + bV es la misma que la distribucion lımite de a√

n(Xn−µX) + b

√n(Y n − µY ), de donde se sigue que

a√

n(Xn − µX) + b√

n(Y n − µY ) −→D aU + bV,

y como a y b son arbitrarios se sigue que

√n

((Xn

Y n

)−

(µX

µY

))−→D

(U

V

),

normal bivariante.. .

4.3.3. Metodo delta

En muchos casos, solo sera de interes el comportamiento del estimador alre-dedor del verdadero valor del parametro. Si ademas el estimador es una funcion

Page 130: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

120CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

suave de un estadıstico cuyo comportamiento asintotico es conocido, esa fun-cion podra linealizarse en un entorno del verdadero valor del parametro, lo cualfacilitara enormemente el estudio asintotico del estimador.

Ejemplo 59, pagina 116. Continuacion. Queremos estimar θ = P (X =0) = e−λ. Por el principio de invariancia, el estimador maximo verosımil de θ esθn = e−Xn , dado que Xn es el estimador maximo verosımil de λ.

El teorema 32 garantiza la consistencia de θn, porque Xn es consistente paraλ y g(λ) = e−λ es una funcion continua. Estamos interesados ahora en encontrarla distribucion asintotica de

√n(θn − θ) =

√n(e−Xn − e−λ).

La herramienta en la que nos basaremos para hallar esa distribucion asintoticaes el metodo delta.. .

Presentaremos en primer lugar el metodo delta univariante y, mas ade-lante, se generalizara al caso multivariante. En ambos casos, el fundamentoteorico que sustenta el metodo delta es el desarrollo en serie de Taylor de unafuncion.

Sea f una funcion con derivada en el punto a ∈ IR. El desarrollo de primerorden en serie de Taylor de f alrededor del punto a es

f(x) ≈ f(a) + f ′(a)(x− a),

es decir, la recta tangente a f(x) en x = a. Si existe f ′′(a), el desarrollo de orden2 en serie de Taylor de f alrededor de a es

f(x) ≈ f(a) + f ′(a)(x− a) +12f ′′(a)(x− a)2,

aproximacion cuadratica de f(x). El siguiente teorema justifica la aproximacionde una funcion mediante sus desarrollos de Taylor.

Teorema 33 (Formula de Taylor) Si f(x) es una funcion con r + 1 deri-vadas en un intervalo I de IR, para cada par de puntos x, a en I, se tieneque

f(x) = f(a) + f ′(a)(x− a) +12f ′′(a)(x− a)2 + . . . +

1r!

f (r)(a)(x− a)r +1

(r + 1)!f (r+1)(α(x, a))(x− a)r+1,

donde α(x, a) es un punto de I situado entre x y a, luego |α(x, a)−a| ≤ |x−a|.

Page 131: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.3. COMPORTAMIENTO ASINTOTICO 121

Demostracion: Vease, por ejemplo, Spivak (1970), teorema 19.4. 2

El uso que haremos de este teorema sera para desarrollos de primer y segundoorden.

El siguiente resultado sera util a la hora de establecer la distribucion asintoti-ca de algunos estimadores. En particular, se usa en la demostracion del metododelta.

Teorema 34 (Teorema de Slutzky) Sean Xnn e Ynn sucesiones de va-riables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn −→D X

e Yn −→P a, entonces

Xn + Yn −→D X + a,

XnYn −→D aX,

si g(x, y) es una funcion de IR2 en IR continua en (x, a) para todo x delsoporte de X, entonces

g(Xn, Yn) −→D g(x, y).

Demostracion: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue delteorema de la aplicacion continua para variables aleatorias definidas en espaciosmetricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, ladefinicion de convergencia en distribucion (ver, por ejemplo, Schervish 1995,definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usacuando se tratan variables aleatorias definidas en IR.

En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostracionde los apartados 1 y 2 en la que se usa la definicion de convergencia en distri-bucion basada en la convergencia de las funciones de distribucion. 2

Pasamos ahora a enunciar y probar el resultado conocido como metodo delta.

Teorema 35 (Metodo delta) Sea ann una sucesion de numeros reales ta-les que an −→n ∞ y con an 6= 0 para todo n. Sea θn una sucesion de estimadoresde θ tales que

an(θn − θ) −→D N(0, σ2θ)

y sea g(x) una funcion con primera derivada continua en un intervalo que con-tiene a θ. Entonces

an(g(θn)− g(θ)) −→D N(0, (g′(θ))2σ2θ).

Demostracion: Por el desarrollo de Taylor de primer orden,

g(θn) = g(θ)+g′(α(θ, θn))(θn−θ) =⇒ an(g(θn)−g(θ)) = g′(α(θ, θn))an(θn−θ),

Page 132: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

122CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

donde |α(θ, θn)− θ| ≤ |θn − θ|. Observese que θn −→P θ. En efecto,

θn − θ =1an

an(θn − θ) −→D 0 ·N(0, σ2θ) ≡ 0 =⇒

θn − θ −→P 0 =⇒ α(θ, θn) −→P θ.

Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an −→P 0 yXn = an(θn − θ). Ahora, aplicando el teorema 32, por ser g′ continua en θ setiene que g′(α(θ, θn)) −→P g′(θ). Aplicando de nuevo el teorema de Slutzky seobtiene el resultado deseado:

an(g(θn)− g(θ)) =g′(α(θ, θn))

g′(θ)︸ ︷︷ ︸−→P 1

g′(θ)an(θn − θ) −→D

g′(θ)N(0, σ2θ) =D N(0, (g′(θ))2σ2

θ).

2

La sucesion an que habitualmente aparece es an =√

n.

Ejemplo 59, pagina 116. Continuacion. Estimamos θ = P (X = 0) = e−λ

mediante θn = e−Xn . Por otra parte,√

n(λn−λ) −→D N(0, λ). Ademas g(λ) =e−λ es derivable con derivada continua: g′(λ) = −e−λ.

Aplicamos el metodo delta para determinar la distribucion asintotica de θn:√

n(θn − θ) =√

n(e−Xn − e−λ) −→D N(0, e−2λλ).

. .

Veremos ahora el metodo delta multivariante, aplicable cuando el es-pacio parametrico es multidimensional y se desea estimar una funcion real delparametro.

Sea f : IRk −→ IR una funcion con segundas derivadas parciales en el puntoa˜ = (a1, a2, . . . , ak). La version multivariante del teorema de Taylor garanti-

za que esa funcion puede aproximarse por su desarrollo en serie de Taylor desegundo orden alrededor de a˜ :

f(x1, . . . , xk) ≈ f( a˜ ) +k∑

i=1

∂f( a˜ )

∂xi

(xi − ai) +12

∂2f( a˜ )

∂xixj

(xi − ai)(xj − aj)

si x˜ = (x1, . . . , xk)t esta en un entorno de a˜ . La aproximacion anterior se puedeescribir en forma vectorial y matricial:

f( x˜ ) ≈ f( a˜ ) + ( x˜ − a˜ )t∇f( a˜ ) + ( x˜ − a˜ )tHf( a˜ )( x˜ − a˜ ),

Page 133: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.3. COMPORTAMIENTO ASINTOTICO 123

donde ∇f( a˜ ) es el gradiente de f en a˜ , el vector de derivadas parciales

∇f( a˜ ) =

(∂f( a˜ )

∂x1

, . . . ,∂f( a˜ )

∂xk

)t

,

y Hf( a˜ ) es la matriz hessiana de f en a˜ :

Hf( a˜ ) =

(∂2f( a˜ )

∂xixj

)

1≤i≤k, 1≤j≤k

La aproximacion de primer orden se expresa ası,

f(x˜ ) ≈ f( a˜ ) + ( x˜ − a˜ )t∇f( a˜ ),

y es util para probar el siguiente resultado.

Teorema 36 (Metodo delta multivariante) Sea ann una sucesion de nume-

ros reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea θ˜ n= (θn1, . . . , θnk)

una sucesion de estimadores de θ˜ tales que

an( θ˜ n− θ˜ ) −→D Nk( 0˜ , V ),

y sea g(x˜ ) una funcion con primeras derivadas parciales continuas en una bolaabierta que contiene a θ. Entonces

an(g( θ˜ n)− g( θ˜ )) −→D Nk( 0˜ , (∇g(θ))tV (∇g(θ))).

Demostracion: Ver, por ejemplo, Arnold (1990), teorema 6-16. 2

Lo mas usual es que la sucesion an sea an =√

n.

Ejemplo 58, pagina 116. Continuacion. Buscaremos la distribucion asintoti-ca del estimador del odds-ratio ψ = ψ(p1, p2) = (p2/(1− p2))((1− p1)/p1):

ψn = ψ

(X1

n1,X2

n2

)=

X2(n1 −X1)(n2 −X2)X1

.

En primer lugar, de lo visto en el ejemplo 61 se sigue que

√n

(X1

n1− p1,

X2

n2− p2

)−→D N2

((00

),

(p1(1−p1)

γ10

0 p2(1−p2)γ2

)),

donde γj = lım(nj/(n1 + n2)) > 0, j = 1, 2.

El gradiente de la funcion ψ(x, y) = (y(1− x))/(x(1− y)) tiene por compo-nentes

∂ψ(x, y)∂x

=−y

(1− y)x2,

∂ψ(x, y)∂y

=1− x

(1− y)2x.

Page 134: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

124CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Ası, √n(ψn − ψ) −→D N(0, σ2),

donde la varianza σ2 es

σ2 =( −p2

(1− p2)p21

,1− p1

(1− p2)2p1

) (p1(1−p1)

γ10

0 p2(1−p2)γ2

)( −p2(1−p2)p2

11−p1

(1−p2)2p1

)=

( −p2

(1− p2)p21

)2p1(1− p1)

γ1+

(1− p1

(1− p2)2p1

)2p2(1− p2)

γ2=

(p2(1− p1)(1− p2)p1

)2 (1

p1(1− p1)γ1+

1p2(1− p2)γ2

)=

ψ2

(1

p1(1− p1)γ1+

1p2(1− p2)γ2

).

Por lo tanto, la varianza asintotica de ψn es

σ2

n≈ ψ2

(1

p1(1− p1)n1+

1p2(1− p2)n2

).

. .

4.3.4. Eficiencia relativa asintotica

Sea Tn( X˜ ) = Tn(X1, . . . , Xn) una sucesion de estimadores de una funcionτ(θ) que verifica lo siguiente:

√n(Tn( X˜ )− τ(θ)) −→D N(b(θ), σ2(θ)).

Si b(θ) = 0 diremos que Tn(X˜ ) es asintoticamente insesgado (en econometrıase dice que Tn es

√n-consistente). En caso contrario, diremos que Tn(X˜ ) es

asintoticamente sesgado.

Ejemplo 62Sea X1, . . . , Xn, . . . son variables aleatorias independientes e identicamente dis-tribuidas con esperanza µ y varianza 1, y sea Tn(X˜ ) = Xn + a/

√n para una

constante a 6= 0. Se tiene que√

n(Tn(X˜ )− µ) =√

n(Xn − µ) + a −→D N(a, 1),

luego Tn es asintoticamente sesgado: la diferencia entre la esperanza del esti-mador y el parametro estimado, multiplicada por

√n, no tiende a 0. Observese

que, no obstante, Tn es un estimador consistente de µ:

Tn( X˜ ) = Xn + a/√

n −→P µ + 0 = µ.

. .

Page 135: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.4. TEORIA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROSIMIL125

Sean dos sucesiones Tn( X˜ ) y Sn(X˜ ) de estimadores de τ(θ) asintoticamentenormales: √

n(Tn( X˜ )− τ(θ)

)−→D N(0, σ2

T (θ)),

√n

(Sn(X˜ )− τ(θ)

)−→D N(0, σ2

S(θ)).

Se define la eficiencia relativa asintotica de Sn respecto a Tn como

ARE(θ, Sn, Tn) =1/σ2

S(θ)1/σ2

T (θ)=

σ2T (θ)

σ2S(θ)

.

El valor de la eficiencia relativa asintotica puede interpretarse como el cocien-te de los tamanos de muestra necesarios para obtener la misma precision asintoti-ca (o la misma varianza asintotica) mediante los dos estimadores en la estima-cion de τ(θ). En efecto, si elegimos tamano muestral m para T y n para S, lasvarianzas asintoticas son, respectivamente, σ2

T (θ)/m y σ2S(θ)/n. Si forzamos a

que ambas sean iguales, se tiene que

σ2T (θ)m

=σ2

S(θ)n

⇐⇒ m

n=

σ2T (θ)

σ2S(θ)

= ARE(θ, Sn, Tn).

Es decir, si ARE(θ, Sn, Tn) = 0,5 entonces S es menos eficiente que T asintotica-mente: para tener la misma precision con el estimador S hace falta una muestrael doble de grande que si utilizasemos T (ARE = 0,5 = m/n =⇒ n = 2m).

4.4. Teorıa asintotica para el estimador maximo

verosımil

Sea X una variable aleatoria con funcion de densidad (o de masa) f(x|θ),θ ∈ Θ. Sea L(θ|x˜ n) =

∏ni=1 f(xi|θ) la funcion de verosimilitud de una muestra

de tamano n de X: X1, . . . , Xn.

Teorema 37 Supongamos que se verifican las siguientes condiciones:

C1: El parametro θ es identificable, en el sentido de que distintos valores de θ

dan lugar a distintas distribuciones de probabilidad para X.

C2: El conjunto x : f(x|θ) > 0 es el mismo para todo θ ∈ Θ.

C3: La cantidad

e(θ0, θ) = Eθ0

[log

(f(X|θ)f(X|θ0)

)]

existe para todo par θ, θ0 en Θ.

Entonces, para todo θ 6= θ0 se verifica que

Page 136: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

126CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

a)

Eθ0

[log

(L(θ|X˜ n)

L(θ0|X˜ n)

)]< 0.

b)lım

n−→∞Pθ0L(θ0|X˜ n) > L(θ|X˜ n) = 1.

Demostracion: Probemos a). Si f(x|θ) es una funcion de densidad, se tieneque

Eθ0

[f(X|θ)f(X|θ0)

]=

∫f(x|θ)f(x|θ0)

f(x|θ0)dx = 1.

Analogo resultado se obtiene si f(x|θ) es funcion de masa.

Como log u < u− 1, para todo u ∈ IR− 1, se tiene que

log(

f(x|θ)f(x|θ0)

)<

(f(x|θ)f(x|θ0)

− 1)

salvo si f(x|θ) = f(x|θ0). Por la hipotesis C1 eso no puede ocurrir en un conjuntode x’s de medida 1, luego

Eθ0

[log

(L(θ|X˜ n)

L(θ0|X˜ n)

)]= nEθ0

[log

(f(x|θ)f(x|θ0)

)]< nEθ0

[f(x|θ)f(x|θ0)

− 1]

= 0,

y a) queda probado.

Veamos ahora b). Por la ley debil de los grandes numeros,

1n

log

(L(θ|X˜ n)

L(θ0|X˜ n)

)=

1n

n∑

i=1

log(

f(Xi|θ)f(Xi|θ0)

)−→n e(θ0, θ) en probabilidad.

Por a), el lımite e(θ0, θ) es estrictamente menor que 0. Por tanto, si se toma ε,con 0 < ε < −e(θ0, θ), se tiene que

Pθ0

1n

log

(L(θ|X˜ n)

L(θ0|X˜ n)

)> 0

< Pθ0

∣∣∣∣∣1n

log

(L(θ|X˜ n)

L(θ0|X˜ n)

)− e(θ0, θ)

∣∣∣∣∣ > ε

−→n 0,

porque si x > 0, e < 0 y ε < −e, entonces |x− e| = x− e > −e > ε. Pero

Pθ0L(θ0|X˜ n) > L(θ|X˜ n) = 1− Pθ0

L(θ|X˜ n)

L(θ0|X˜ n)> 1

=

1− Pθ0

1n

log

(L(θ|X˜ n)

L(θ0|X˜ n)

)> 0

−→n 1,

lo que completa la prueba. 2

Observar que el apartado b) del teorema puede interpretarse ası: la vero-similitud es maxima en el verdadero valor θ0 del parametro, si la muestra essuficientemente grande.

Page 137: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.4. TEORIA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROSIMIL127

Teorema 38 Supongamos que ademas de C1, C2 y C3, se verifican tambien

C4: Θ es un conjunto abierto.

C5: ∂f(x|θ)/∂θ es continua en θ.

Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe unasucesion θnn de raıces de la ecuacion del score

∂θlog L(θ|X˜ n) = 0

(la que se resuelve para hallar el estimador de maxima verosimilitud de θ) queconverge al verdadero valor del parametro θ0 en probabilidad.

Demostracion: Por C4, existe ε > 0 tal que (θ0 − ε, θ0 + ε) ⊂ Θ. Se definenlos conjuntos

Sn = x˜ n ∈ X : L(θ0|x˜ n) > L(θ0 − ε|x˜ n) y L(θ0|x˜ n) > L(θ0 + ε|x˜ n).

Por el teorema 37,Pθ0(X˜ n ∈ Sn) −→n 1.

La condicion C5 implica la continuidad de L(θ|x˜ n) y de su derivada parcialrespecto a θ. Ası, para todo x˜ n ∈ Sn, debe existir θn = θn(x˜ n) ∈ (θ0−ε, θ0+ε),maximo local de L(θ|x˜ n). Ese maximo local ha de satisfacer

∂θlog L(θ|X˜ n)

∣∣∣∣θ=θn

= 0.

Puede haber mas de un maximo local en (θ0 − ε, θ0 + ε) y, por lo tanto, masde una solucion de la ecuacion del score (tambien puede haber mınimos localesentre las soluciones). Llamemos θn = θn(x˜ n) a la solucion mas cercana a θ0 que

sea maximo local. Entonces |θn − θ0| < ε y esto es cierto para todo x˜ n ∈ Sn.Por lo tanto

Pθ0Xn : |θn( X˜ n)− θ0| < ε ≥ Pθ0Xn ∈ Sn −→ 1

de donde se sigue queθn −→P θ.

2

El teorema 38 demuestra que siempre existe una raız de la ecuacion de score(que ademas es maximo local) que es consistente. Sin embargo, cuando la raız noes unica (cuando no es el unico maximo local) la determinacion de θn dependedel verdadero valor θ0, lo cual hace que θn no sea un estimador del parametro.

El teorema 38 es realmente interesante cuando la ecuacion del score tiene raızunica, porque en este caso esa raız es el estimador maximo verosımil de θ y el

Page 138: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

128CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

teorema garantiza su consistencia. Si la funcion de verosimilitud es estrictamenteconcava, entonces se tiene la unicidad, y como consecuencia la consistencia delestimador maximo verosımil.

El siguiente teorema establece la normalidad asintotica de las sucesiones con-sistentes de raıces de la ecuacion del score, cuya existencia garantiza el teorema38.

Teorema 39 Supongamos que ademas de verificarse C1, C2, C3, C4 y C5, severifican tambien las hipotesis H1 y H2 del teorema de Cramer-Rao (teorema25) y la siguiente hipotesis:

C6: Existe ∂3

∂θ3 log fθ(x), cuyo valor absoluto esta acotado por una funcionK(x) tal que Eθ[K(X)] ≤ k.

Sea θnn una sucesion consistente de raıces de la ecuacion del score: θn −→P

θ0, si θ0 es el verdadero valor del parametro. Entonces

√n(θn − θ0) −→D N

(0,

1I(θ0)

),

dondeI(θ0) = lım

n−→∞1n

IX˜ n

(θ0) = IX(θ0).

Demostracion: Hacemos el desarrollo de Taylor de segundo orden de la funcionscore

S(θ|X˜ n) =∂

∂θlog L(θ|X˜ n)

en torno a θ0 y la evaluamos en θn:

0 = S(θn|X˜ n) = S(θ0|X˜ n)+

(θn − θ0)∂

∂θS(θ0|X˜ n) +

12(θn − θ0)2

∂2

∂θ2S(θ∗(θn, θ0)|X˜ n)

donde |θ∗(θn, θ0) − θ0| ≤ |θn − θ0|. Dividiendo la expresion anterior por√

n seobtiene la siguiente:

0 =1√n

S(θ0|X˜ n)+

√n(θn − θ0)

[1n

∂θS(θ0|X˜ n) +

12n

∂2

∂θ2S(θ∗(θn, θ0)|X˜ n)(θn − θ0)

].

Por otra parte, el teorema central del lımite implica que

1√n

S(θ0|X˜ n) =1√n

n∑

i=1

∂ log f(Xi|θ)∂θ

∣∣∣∣θ=θ0

−→D N(0, IX(θ0)),

puesto que ∂ log f(Xi|θ)/∂θ son variables aleatorias independientes e identica-mente distribuidas con esperanza 0 y varianza IX(θ0) < ∞.

Page 139: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.4. TEORIA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROSIMIL129

Ademas, por la ley debil de los grandes numeros,

− 1n

∂θS(θ0|X˜ n) = − 1

n

n∑

i=1

∂2 log f(Xi|θ)∂θ2

∣∣∣∣θ=θ0

−→P

IX(θ0) = E

[−∂2 log f(X|θ)

∂θ2

∣∣∣∣θ=θ0

].

Usando de nuevo la ley de los grandes numeros, se tiene que

1n| ∂2

∂θ2S(θ∗(θn, θ0)|X˜ n)| ≤ 1

n

n∑

i=1

∣∣∣∣∂3 log f(Xi|θ)

∂θ3

∣∣∣∣θ=θ∗

1n

n∑

i=1

K(Xi) −→P E(K(X)) ≤ k,

de donde se sigue que 1n | ∂2

∂θ2 S(θ∗(θn, θ0)|X˜ n)| esta acotado en probabilidad pork: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε

tiende a 1. En definitiva, y dado que θn −→P θ0, se tiene que

12n

∂2

∂θ2S(θ∗(θn, θ0)|X˜ n)(θn − θ0) −→P 0.

Combinado los resultados anteriores, podemos escribir√

n(θn − θ0) =−

1n

∂θS(θ0|X˜ n)

︸ ︷︷ ︸−→P IX(θ0)

− 12n

∂2

∂θ2S(θ∗(θn, θ0)|X˜ n)(θn − θ0)

︸ ︷︷ ︸−→P 0

−1

1√n

S(θ0|X˜ n)︸ ︷︷ ︸−→DN(0,IX(θ0))

y, por el teorema de Slutzky, concluir que

√n(θn − θ0) −→D N

(0,

1IX(θ0)

).

2

El enunciado del teorema 39 puede generalizarse al caso de variables alea-torias no identicamente distribuidas. Por eso se expresa la varianza lımite delestimador maximo verosımil en terminos de I(θ0) en lugar de hacerlo directa-mente en terminos de la informacion de Fisher de X.

El resultado del teorema 39 puede expresarse diciendo que el estimador maxi-mo verosımil θn de θ0 es asintoticamente normal:

θn ∼ AN(θ0, (nIX(θ0))−1).

Observese que el estimador maximo verosımil es asintoticamente insesgado yasintoticamente eficiente, puesto que su varianza lımite coincide con lacota de Cramer-Rao.

Page 140: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

130CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Para basar la inferencia sobre el parametro θ en ese resultado es precisoestimar la informacion de Fisher I

X˜(θ0) = nIX(θ0). El siguiente resultado

proporciona dos estimadores de esa cantidad.

Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los es-tadısticos On y En definidos como

On = −∂2 log L(θ|X˜ n)

∂θ2

∣∣∣∣∣θ=θn

,

En = IX˜ n

(θn),

divididos por n son estimadores consistentes de IX(θ0). Es decir, tanto On, lainformacion observada evaluada en el maximo, como En, la informacion

esperada evaluada en el maximo, estiman consistentemente la informacion deFisher contenida en la muestra acerca del parametro.

Demostracion:On

n= − 1

n

∂2 log L(θ|X˜ n)

∂θ2

∣∣∣∣∣θ=θn

=

− 1n

∂2 log L(θ|X˜ n)

∂θ2

∣∣∣∣∣θ=θ0

− 1n

∂3 log L(θ|X˜ n)

∂θ3

∣∣∣∣∣θ=θ∗(θ0,θn)

(θn − θ0)

donde |θ∗(θn, θ0) − θ0| ≤ |θn − θ0|. El termino de las derivadas terceras tiendea 0 en probabilidad mientras que el primer termino converge en probabilidad aIX(θ0), por la ley de los grandes numeros (ver la demostracion del teorema 39).

Por otra parte,

En

n=

1n

IX˜ n

(θn) = IX(θn) −→P IX(θ0)

por la consistencia de θn y la continuidad de IX(θ), (garantizada por la condicionC6). 2

Podemos escribir entonces que el estimador maximo verosımil θn de θ es

θn ∼ AN(

θ0,1

On

)o θn ∼ AN

(θ0,

1En

).

En general, si se esta estimando una transformacion suave del parametroτ(θ) por maxima verosimilitud se tiene que

√n(τ(θn)− τ(θ0)) −→D N

(0,

(τ ′(θ0))2

IX(θ0)

).

Page 141: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.4. TEORIA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROSIMIL131

Ejemplo 63Estimacion maximo verosımil de un parametro de la distribucion deWeibull.Sea X1, . . . , Xn m.a.s. de X ∼ W (2, β):

f(x, β) =2β

xe−x2/β , 0 ≤ x ≤ ∞, β > 0.

L(β|x˜ n) =2n

βn

(n∏

i=1

xi

)e−(

∑n

i=1X2

i )/β

l (β|x˜ n) = K − n log β − 1β

n∑

i=1

X2i

S(β|x˜ n) =∂

∂βl (β|x˜ n) = −n

β+

1β2

n∑

i=1

X2i

S(β|X˜ n) = 0 =⇒ βn =1n

n∑

i=1

X2i

S′(β|X˜ n)∣∣∣β=βn

=

(n

β2− 2

β3

n∑

i=1

X2i

)∣∣∣∣∣β=βn

= − n

β2n

< 0

Por lo tanto la verosimilitud es estrictamente concava y βn es la unica solucion dela ecuacion del score, ası que es un maximo (es el estimador maximo verosımil)y es estimador consistente de β.

La informacion observada es

−∂2l (β|Xn)∂β2

= −S′(β|X˜ n) = − n

β2+

2β3

n∑

i=1

X2i

que evaluada en el estimador maximo verosımil vale

On = −S′(β|X˜ n)∣∣∣β=βn

=

(− n

β2+

2β3

n∑

i=1

X2i

)∣∣∣∣∣β=βn

=n

β2n

=n3

∑ni=1 X2

i

.

Por su parte, la informacion esperada (la informacion de Fisher, de hecho) es

IX˜ n

(β) = −E(S′(β|X˜ n)) = − n

β2+

2n

β3E(X2) = − n

β2+

2n

β3β =

n

β2,

que evaluada en el estimador maximo verosımil vale

En = IX˜ n

(βn) =n

β2n

=n3

∑ni=1 X2

i

= On.

Ası pues, en este ejemplo, tanto la informacion observada como la esperada valenlo mismo al ser evaluadas en el estimador maximo verosımil y, por lo tanto, solotenemos un estimador consistente de la informacion de Fisher.

Page 142: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

132CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

Volvamos a la expresion del logaritmo de la verosimilitud para deducir (porel corolario 4) que el estimador maximo verosımil tambien es el UMVUE en esteproblema:

l (β|x˜ n) = K − n log β − 1β

n∑

i=1

X2i =⇒ ∂

∂βl (β|x˜ n) =

−n

β+

1β2

n∑

i=1

X2i =

n

β2

(∑ni=1 X2

i

n− β

).

Por otra parte,

1n

l (β|X˜ n) −→P − log β − β0

β= Eβ0 [log f(X|β)]

y si derivamos respecto a β,

∂βEβ0 [log f(X|β)] =

β0 − β

β2

de donde se sigue que Eβ0 [log f(X|β)] alcanza su maximo en β = β0.

Tenemos ası que l (β|X˜ n)/n se maximiza en βn y que Eβ0 [log f(X|β)] semaximiza en β0. Ademas, la diferencia entre l (β|X˜ n)/n y Eβ0 [log f(X|β)] espequena y va a 0 cuando n crece, y las dos funciones varıan suavemente en β.De ello se desprende que la diferencia entre los puntos que las maximizan, β0 yβn, han de ser tambien pequenas y deben ir a 0 cuando n crece, por lo tantoβn −→P β0.

Eβ(log f(X|β))

βββ

l(β|Xn,2)/n

β

l(β|Xn,1)/n

. .

Page 143: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.4. TEORIA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROSIMIL133

Ejemplo 64En este ejemplo extendemos los resultados uniparametricos al caso multipa-rametrico.

Sean Y1, . . . , Yn variables aleatorias independientes tales que Yi ∼ Bern(pi),i = 1, . . . , n, que siguen el modelo de regresion logıstico, es decir, existen cova-riantes Z1, . . . , Zn y parametros desconocidos α y β tales que

log(

pi

1− pi

)= α + βZi, i = 1, . . . , n.

Es posible despejar pi:

pi =exp(α + βZi)

1 + exp(α + βZi).

Ello permite escribir la verosimilitud de la muestra:

L(α, β) =n∏

i=1

pyi

i (1− pi)1−yi =n∏

i=1

(pi

1− pi

)yi

(1− pi).

El logaritmo de la verosimilitud es

l (α, β) =n∑

i=1

(yi log

(pi

1− pi

)+ log(1− pi)

)=

n∑

i=1

(yi(α + βZi) + log

(1

1 + exp(α + βZi)

))

Las ecuaciones de los scores son estas:

∂ l (α, β)∂α

=n∑

i=1

(Yi − exp(α + βZi)

1 + exp(α + βZi)

)=

n∑

i=1

(Yi − pi),

∂ l (α, β)∂β

=n∑

i=1

(YiZi − Zi exp(α + βZi)

1 + exp(α + βZi)

)=

n∑

i=1

Zi(Yi − pi).

Estas ecuaciones se resuelven por metodos numericos genericos o bien aplicandoalgoritmos especıficos para este problema que consisten en la iteracion de es-timaciones por mınimos cuadrados ponderados. Sobre este tema pueden verse,por ejemplo, la seccion 10.3 de Garthwaite, Jollife y Jones (1995), o la seccion14.5.2 de Pena (1995).

Las componentes de la matriz de informacion observada son

−∂2l (α, β)∂α2

=n∑

i=1

pi(1− pi),

−∂2l (α, β)∂αβ

=n∑

i=1

Zipi(1− pi),

Page 144: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

134CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

−∂2l (α, β)∂β2

=n∑

i=1

Z2i pi(1− pi).

Como la matriz de informacion observada no depende de las variables aleatoriasYi, esta matriz coincide con su esperanza: la matriz de informacion de Fisher.

La matriz de informacion asintotica tiene por componente (l, m), l = 1, 2,m = 1, 2,

Ilm(α, β) = n lımn−→∞

1n

n∑

i=1

Zl+m−2i pi(1− pi)

y son necesarias condiciones sobre la sucesion de covariantes Zi que garantizenla existencia de estos lımites. Una posibilidad es suponer que las Zi son variablesaleatorias independientes e identicamente distribuidas, con lo cual el problemase convierte en uno de variables aleatorias independientes e identicamente dis-tribuidas puro.. .

Ejemplo 56, pagina 109. Continuacion. Veremos ahora que el metodo demaxima verosimilitud no es el unico que da lugar a estimadores asintoticamenteeficientes.

Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ(λ) =e−λ. Sabemos que

θn =(

n− 1n

)∑n

i=1Xi

es el UMVUE de θ = e−λ. Sabemos tambien que no alcanza la cota de Cramer-Rao, es decir, no es eficiente para tamanos de muestra finitos.

Estudiaremos su distribucion asintotica tomando logaritmos y usando elmetodo delta:

log(θn) =n∑

i=1

Xi logn− 1

n= Xn (n log(1− 1/n)) .

Sabemos que√

n(Xn − λ) −→D N(0, λ) y que, como veremos al final de esteejemplo,

n log(1− 1/n) −→n −1 y√

n [1 + n log(1− 1/n)] −→n 0.

Ası,

√n(log θn − log θ) =

√n(log θn + λ) =

√n

(Xnn log(1− 1/n) + λ

)=

[n log(1− 1/n)]√

n(Xn − λ) + λ√

n [1 + n log(1− 1/n)] −→D N(0, λ).

Page 145: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.4. TEORIA ASINTOTICA PARA EL ESTIMADOR MAXIMO VEROSIMIL135

Por lo tanto, aplicando el metodo delta para τ(λ) = e−λ,

√n(θn − e−λ) −→D N(0, e−2λλ).

Ya habıamos visto que la cota de Cramer-Rao es

(τ ′(λ))2

I(λ)= λe−2λ,

Luego se tiene que θn es asintoticamente eficiente, al igual que lo era el estimadorde maxima verosimilitud e−Xn tal como se vio en el ejemplo 59, pagina 116.

Falta por comprobar que se da la convergencia√

n [1 + n log(1− 1/n)] −→n

0. Para probarlo, llamemos l al lımite y observemos que

l = lımx−→∞

1 + log(1− 1

x

)x

1/√

x.

Aplicando la regla de l’Hopital y operando se llega a que

l = 2

[− lım

x−→∞1 + log

(1− 1

x

)x

1/√

x− lım

x−→∞1− x

x−1

1/√

x

]= −2l − 2 · 0 = −2l,

de donde se sigue que l = 0.. .

Page 146: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

136CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

4.5. Lista de problemas

Error cuadratico medio. Estimadores insesgados. Opti-malidad

1. Sea X ∼ N(0, σ2). Se toma una m.a.s. de X de tamano n.

a) Construye a partir de ella dos estimadores insesgados de σ, uno de-pendiente de la suma de los cuadrados de las observaciones y otro dela suma de sus valores absolutos.

b) Compara sus varianzas.

2. Considera los tres estimadores maximo verosımiles de θ correspondientes alos problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema11 de la lista 3.4). Prueba que cada estimador es insesgado en cada unade las tres situaciones descritas en esos problemas y calcula la varianza decada estimador en cada situacion.

3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y1, . . . , Yn variables aleatoriasindependientes que satisfacen

Yi = βxi + εi, i = 1, . . . , n,

donde x1, . . . , xn son constantes conocidas, ε1, . . . , εn son v.a.i.i.d. segunN(0, σ2), σ2 desconocido.

a) Da un estadıstico bidimensional suficiente para (β, σ2).

b) Halla el estadıstico maximo verosımil de β (llamalo β1), prueba quees centrado y da su distribucion.

c) Comprueba que

β2 =∑n

i=1 Yi∑ni=1 xi

es estimador insesgado de β.

d) Comprueba que

β3 =1n

n∑

i=1

Yi

xi

es estimador insesgado de β.

e) Compara las varianzas de los tres estimadores de β.

4. (Casella-Berger, 7.39) Sea X1, . . . , Xn una muestra de una poblacion conesperanza µ ∈ IR y varianza σ2 > 0.

a) Prueba que un estimador de la forma∑n

i=1 aiXi es insesgado para µ

si y solo si∑n

i=1 ai = 1.

b) Entre todos los estimadores de esta forma (llamados estimadores li-neales insesgados) encuentra aquel que tenga varianza mınima.

Page 147: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.5. LISTA DE PROBLEMAS 137

5. (Casella-Berger, 7.40) Sean W1, . . . , Wk estimadores insesgados de un parame-tro θ con varianzas V (Wi) = σ2

i , y Cov(Wi,Wj) = 0 si i 6= j.

a) Prueba que entre todos los estimadores de θ de la forma∑

aiWi cona1, . . . , ak constantes y E(

∑aiWi) = θ, el que menor varianza tiene

es

W ∗ =∑

Wi/σ2i∑

1/σ2i

.

b) Calcula la varianza de W ∗.

6. (Casella-Berger, 7.41) Sea X1, . . . , Xn una muestra de X ∼ N(θ, σ2 = 1).

a) Comprueba que la cota de Cramer-Rao para la estimacion de θ2 es4θ2/n.

b) Muestra que el mejor estimador insesgado de θ2 es X2 − (1/n).

c) Calcula su varianza (Indicacion: Usa la identidad de Stein, que pue-des encontrar en Casella-Berger, seccion 4.7).

d) Comprueba que este estimador no alcanza la cota de Cramer-Raopara la estimacion de θ2.

7. (Casella-Berger, 7.42) Sean X1, X2 y X3 una m.a.s. de una U(θ, 2θ), θ > 0.

a) Dar el estimador de los momentos de θ y llamalo θ1.

b) Dar el estimador maximo verosımil de θ, al que llamaremos θ2, yencontrar una constante k tal que kθ2 sea insesgado para θ.

c) ¿Cual de esos dos estimadores puede ser mejorado mediante el usode un estadıstico suficiente? ¿Como se mejora? Llama θ3 al etimadormejorado.

d) Se han observado los valores 1.29, 0.86, 1.33, procedentes de unaU(θ, 2θ). Utiliza los tres estimadores propuestos en los apartados an-teriores para estimar θ a partir de esos datos.

8. (Casella-Berger, 7.43) Se mide el radio de un cırculo con un error aleatoriodistribuido como una N(0, σ2). Se toman n medidas independientes delradio.

a) Proponer un estimador insesgado del area del cırculo.

b) ¿Es el mejor estimador insesgado?

c) ¿Alcanza la cota de Cramer-Rao?

9. En cada una de las tres situaciones descritas en los problemas 14, 15 y16 de la lista 1.6, ¿alcanza el estimador maximo verosımil correspondientela cota de Cramer-Rao? (Nota: los estimadores fueron calculados en elproblema 11 de la lista 3.4.)

10. (Casella-Berger, 7.51) Sean X1, . . . , Xn v.a.i.i.d. segun una Bern(p).

Page 148: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

138CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

a) Muestra que el estimador maximo verosımil de p es insesgado y al-canza la cota de Cramer-Rao.

b) Para n ≥ 4, prueba que el producto X1X2X3X4 es un estimadorinsesgado de p4.

c) Utiliza el apartado anterior para encontrar el mejor estimador inses-gado de p4.

11. (Casella-Berger, 7.44) Sean X1, . . . , Xn v.a.i.i.d. con funcion de distribu-cion F (x; θ) y sean Y1, . . . , Ym v.a.i.i.d. con funcion de distribucion G(x; µ).Se supone que ambos grupos de variables son independientes. Se suponeque los estadısticos T = T (X1, . . . , Xn) y W = W (X1, . . . , Xn) son es-tadısticos suficientes y completos para θ y µ, respectivamente, y que

Eθ(T ) = θ, Vθ(T ) < ∞, Eµ(W ) = µ, Vµ(W ) < ∞.

Encuentra el mejor estimador insesgado de θµ.

12. (Ex. junio 2000) Sea X ∼ N(µ, 1). Queremos estimar θ = µ2 a partir deuna observacion de X.

a) Indica si los tres estimadores de θ siguientes,

θ1 = X2 − 1, θ2 = X2, θ3 = X2 + 1,

se pueden obtener como resultado de buscar los siguientes estimado-res de θ:

1) el estimador maximo verosımil,

2) el estimador insesgado uniformemente de mınima varianza (UM-VUE),

3) el estimador Bayes si la funcion de perdida es cuadratica y ladistribucion a priori de µ es plana (es decir, π(µ) es constante).

b) Calcula el error cuadratico medio de los estimadores θi, i = 1, 2, 3.¿Hay algun estimador inadmisible?

c) Da un estimador que sea mejor que los tres anteriores en terminosde error cuadratico medio. (Indicacion: Recuerda que θ = µ2 > 0.¿Con que probabilidad sera negativo θ1?).

d) ¿El estimador UMVUE alcanza la cota de Cramer-Rao?

Comportamiento asintotico

13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1, . . . , Xn que verifican que

Eθ(Xi) = θ + b, Vθ(Xi) = σ2 < ∞,

con b 6= 0 conocida.

Page 149: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

4.5. LISTA DE PROBLEMAS 139

a) Prueba que X no es un estimador consistente de θ.

b) Define un estimador insesgado de θ que sea consistente.

14. (Casella-Berger, 7.62) Sea la m.a.s. X1, . . . , Xn de X ∼ f(x; θ) = 0,5(1 +θx)I(−1,1)(x), donde −1 < θ < 1. Dar un estimador consistente de θ yprobar que lo es.

15. (Casella-Berger, 7.63) Se toma una m.a.s. X1, . . . , Xn de X ∼ N(θ, θ), conV (X) = θ > 0.

a) Prueba que el estimador maximo verosımil de θ, θ, es una raız de laecuacion de segundo grado θ2+θ−W = 0, donde W = (1/n)

∑ni=1 X2

i ,y determina cual de las dos raıces es el estimador maximo verosımil.

b) Da una aproximacion de la varianza de θ utilizando las propiedadesasintoticas del estimador maximo verosımil.

c) Da una aproximacion de la varianza de θ utilizando aproximacionespor series de Taylor.

16. (Casella-Berger, 7.64) Una variacion del modelo propuesto en el ejercicio3 consiste en permitir que los regresores sean variables aleatorias inde-pendientes e identicamente distribuidas: se tienen n variables aleatoriasY1, . . . , Yn que satisfacen

Yi = βXi + εi, i = 1, . . . , n,

donde X1, . . . , Xn son v.a.i.i.d. segun una N(µ, τ2), µ 6= 0, y ε1, . . . , εn sonv.a.i.i.d. segun una N(0, σ2), y las variables X’s y las ε’s son independien-tes. La varianza de los tres estimadores que se proponıan en aquel ejercicioes difıcil de calcular exactamente, por lo que es conveniente encontrar susvalores aproximados.

Aproxima en terminos de µ, σ2 y τ2 las esperanzas y varianzas de losestimadores siguientes:

a)∑n

i=1 XiYi/∑n

i=1 X2i .

b)∑n

i=1 Yi/∑n

i=1 Xi.

c) (1/n)∑n

i=1(Yi/Xi).

17. (Casella-Berger, 7.65) Sea X ∼ B(n, p), n conocida y 0 < p < 1. Sea p elestimador maximo verosımil de p construido a partir de X. La varianzade p es p(1− p)/n, que puede estimarse mediante p(1− p)/n.

a) Calcula la esperanza de p(1− p).

b) Usa un desarrollo de Taylor para aproximar la varianza de p(1− p).

c) ¿Presenta la aproximacion anterior algun problema?

Page 150: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

140CAPITULO 4. ESTIMACION PUNTUAL 2: EVALUACION DE ESTIMADORES

18. (Examen junio 2000) Consideremos muestras de tamano n de X ∼ N(µ, 1)y el problema de estimar γ = eµ. Tomamos como estimador de γ

γ = eX .

Da su distribucion asintotica y usa el metodo delta para aproximar susesgo.

19. (Examen julio 2000) Sea X una variable aleatoria con funcion de densidad

f(x; a, λ) = λe−λ(x−a)I[a,∞)(x)

con a ∈ R y λ > 0.

a) Calcula los estimadores de maxima verosimilitud de a y λ.

A partir de ahora supondremos que a es conocido.

b) Da la expresion del estimador maximo verosımil de λ, λ, e indica cuales su distribucion asintotica.

c) Queremos estimar σ2 = V (X) = 1/λ2. ¿Que estimador es asintotica-mente mas recomendable, σ2

1 o σ22 , donde

σ21 =

1

λ2, σ2

2 = S2 =1

n− 1

n∑

i=1

(Xi −X)2?

Indicaciones:

El coeficiente de apuntamiento de una v.a. Y se define comoCAp(Y ) = E[(Y − E(Y ))4]/V (Y )2.Si Y ∼ Exp(λ) entonces CAp(Y ) = 9.Si θ4 = E[(Y − E(Y ))4] y θ2 = V (Y ), entonces

V (S2) =1n

(θ4 − n− 3

n− 1θ22

)

Si Y es la media aritmetica de una m.a.s. de tamano n de Y ∼Exp(λ), entonces

E(Y4) =

1λ4

+6n2 + 3n + 14

n3λ4

d) Usa el metodo delta para dar la expresion aproximada del sesgo dee1/(X−a) como estimador de eλ.

Page 151: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 5

Contrastes de hipotesis

Referencias: Casella-Berger, capıtulo 8 y Garthwaite, Jollife y

Jones (1995), capıtulo 4, referencias generales; Garthwaite, Jollife y

Jones (1995), seccion 7.4., para contrastes bayesianos;

Una hipotesis estadıstica es una conjetura o una afirmacion sobre ladistribucion de una o mas variables aleatorias. Un contraste de hipotesis

(o un test de hipotesis o una prueba de hipotesis) es un procedimientopara decidir si se acepta o se rechaza una hipotesis.

5.1. Definiciones basicas. Contraste de hipotesis

simples

Usualmente se dispone de una muestra X1, . . . , Xn de una variable aleatoriaX con distribucion F y funcion de densidad (o funcion de masa) f . Sobre ladistribucion de X se realizan dos afirmaciones entre las que se debe decidir. Engeneral esas dos afirmaciones seran excluyentes. El tratamiento que se da a lasdos hipotesis no es simetrico y esto se refleja en el nombre que reciben: una sellama hipotesis nula y la otra hipotesis alternativa. Se denotan por H0 yH1, respectivamente. Se dice que en un test de hipotesis se contrasta H0 frentea H1.

La hipotesis nula es mas conservadora en el sentido de que no sera rechazadaa menos que la evidencia muestral en su contra sea muy clara. Esta hipotesissuele establecer un modelo sencillo para la distribucion de X (por ejemplo, siF pertenece a una familia parametrica, H0 fija el valor del parametro) o bienpropone como distribucion de X aquella que es comunmente aceptada como unabuena descripcion del fenomeno que modeliza X.

La hipotesis alternativa especifica el tipo de alejamiento de la hipotesis nulaque podrıa presentar la distribucion de X. Puede expresar un modelo gene-

141

Page 152: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

142 CAPITULO 5. CONTRASTES DE HIPOTESIS

ral que incluya a H0 como caso particular. Si un investigador considera que unfenomeno aleatorio no ha estado adecuadamente modelizado hasta ese momentoy cree tener una explicacion mas satisfactoria, propondra esta como hipotesis al-ternativa y el modelo vigente como hipotesis nula. Solo si hay evidencia muestralsuficiente para rechazar la hipotesis nula, sera aceptada la hipotesis alternativa.

Podemos distinguir tres tipos de pruebas de hipotesis:

A. Suponemos que F (y f) pertenecen a una cierta familia parametrica in-dexada por un parametro θ ∈ Θ y planteamos el contraste

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

donde Θ0 ∪Θ1 = Θ, Θ0 ∩Θ1 = ∅.

B. Contrastes de bondad de ajuste (goodness-of-fit tests, en ingles):

H0 : f = f0

H1 : f 6= f0

C. Para dos distribuciones f0 y f1 que no necesariamente pertenecen a lamisma familia parametrica, se plantea el contraste

H0 : f = f0

H1 : f = f1

Una hipotesis simple es aquella que especifica completamente la distribu-cion de X. En otro caso, se dice que la afirmacion es una hipotesis compuesta.Por ejemplo, si f ∈ fθ : θ ∈ Θ ⊆ IR, la hipotesis H : θ = θ0 es una hipotesissimple. La hipotesis H : θ > θ0 es compuesta.

Supongamos que se contrasta H0 frente a H1. Cuando se observa la muestrax˜ = (x1, . . . , xn) se debe decidir si esta presenta o no evidencia suficiente para

rechazar H0. El subconjunto C del espacio muestral Xn de muestras para lascuales se decide rechazar la hipotesis nula en favor de la alternativa se llamaregion crıtica o region de rechazo del contraste. El complementario de C

se llama region de aceptacion. Un contraste queda definido por su region

crıtica C.

5.1.1. Tipos de errores

Al realizar un contraste de hipotesis se pueden cometer dos tipos de errores:rechazar la hipotesis nula siendo esta cierta (error de tipo I), o no rechazarlacuando es falsa (error de tipo II). El error de tipo I se considera mas graveque el error de tipo II, dado que la hipotesis nula es siempre la mas conservadora.El siguiente esquema ilustra las diversas situaciones.

Page 153: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.1. DEFINICIONES BASICAS. CONTRASTE DE HIPOTESIS SIMPLES143

DECISIONAceptar H0 Rechazar H0

H0 Decision Error deREALIDAD cierta correcta TIPO I

H0 Error de Decisionfalsa TIPO II correcta

Las probabilidades de cometer un error son

P ( X˜ ∈ C|H0 cierta) y P (X˜ 6∈ C|H0 falsa).

Es deseable disponer de contrastes que tengan probabilidades de errores bajas.Pero en general no es posible disenar contrastes que tengan ambas probabili-dades pequenas: cuando un contraste se modifica para reducir su probabilidadde error de tipo I, esta modificacion conlleva un aumento de la probabilidad deerror de tipo II, y viceversa. Observese que si se desea reducir la probabilidaddel error de tipo I, α = PF (X˜ ∈ C|H0), se habran de reducir los puntos dela region crıtica C, pero ello implica que el conjunto C, complementario de C,aumenta y ası la probabilidad de error de tipo II, β = PF (X˜ ∈ C|H1), tambiencrecera en general.

Dado que el error de tipo I se ha considerado mas grave que el error de tipo II,la practica habitual en el contraste de hipotesis es considerar unicamente pruebasque garantizan que la probabilidad de cometer un error de tipo I sera inferiora un valor dado α suficientemente pequeno (por ejemplo, α = 0,01, 0.05 o 0.1)y buscar entre todas ellas aquella que hace mınima la probabilidad de cometerun error de tipo II. Al valor α se le llama nivel de significacion del test.

Si el menor valor obtenido β para la probabilidad de error de tipo II esinaceptablemente grande, pueden tomarse dos medidas para reducirlo:

aumentar la probabilidad de error de tipo I α permitida, o

aumentar el tamano de la muestra.

Supongamos que la distribucion de X pertenece a una familia parametricafθ : θ ∈ Θ y se contrasta

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

donde Θ0 ∪Θ1 = Θ, Θ0 ∩Θ1 = ∅. Se define la funcion de potencia η(θ) delcontraste como

η(θ) = Pθ( X˜ ∈ C) =

probabilidad de error de tipo I si θ ∈ Θ0

1− probabilidad de error de tipo II si θ ∈ Θ1

Para 0 ≤ α ≤ 1, un contraste de hipotesis con funcion de potencia η(θ) tienetamano α si

supθ∈Θ0

η(θ) = α.

Page 154: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

144 CAPITULO 5. CONTRASTES DE HIPOTESIS

Para 0 ≤ α ≤ 1, un contraste de hipotesis con funcion de potencia η(θ) tienenivel de significacion α si

supθ∈Θ0

η(θ) ≤ α.

El conjunto de contrastes con nivel de significacion α contiene las pruebas detamano α.

Un contraste que minimiza β = Pθ( X˜ ∈ C|H1) entre aquellos que tienentamano α se dice que es el contraste mas potente de tamano α o el mejor

contraste de tamano α.

5.1.2. Lema de Neyman-Pearson

El siguiente resultado determina cual es el contraste mas potente cuando secontrasta una hipotesis nula simple frente a una alternativa simple.

Teorema 41 (Lema de Neyman-Pearson) Sea X1, . . . , Xn una muestra alea-toria simple de X con funcion de densidad (o funcion de masa de probabilidad)f(x; θ). Se desea contrastar H0 : θ = θ0 frente a H1 : θ = θ1. Si L(θ|x˜ ) es lafuncion de verosimilitud, el mejor contraste de tamano α tiene region crıtica dela forma

C =

x˜ ∈ Xn :

L(θ1|x˜ )

L(θ0|x˜ )≥ A

para algun A > 0.

Demostracion: Haremos la demostracion solo en el caso de distribucion ab-solutamente continua. La prueba en el caso discreto es analoga (basta cambiarintegrales por sumatorios y funciones de densidad por funciones de masa deprobabilidad) si el nivel α puede alcanzarse exactamente con los valores de lafuncion de masa bajo H0 (en caso contrario hay que recurrir a un contrastealeatorizado; sobre este tema se daran referencias cuando se presente el ejemplo66). En Velez y Garcıa (1993), paginas 338-339, puede verse una demostracionvalida para el caso discreto y el absolutamente continuo.

Sea A tal que Pθ0(x˜ ∈ C) = α, donde C = x˜ ∈ Xn : L(θ1|x˜ )/L(θ0|x˜ ) ≥A. Sea C∗ la region crıtica de otro test de tamano α. Queremos probar que

β = Pθ1( x˜ ∈ C) ≤ β∗ = Pθ1(x˜ ∈ C∗).

Calculemos la diferencia β∗ − β:

β∗ − β =∫

x˜ ∈C∗L(θ1|x˜ )d x˜ −

x˜ ∈C

L(θ1|x˜ )d x˜ =

x˜ ∈C∗∩C

L(θ1|x˜ )d x˜ +∫

x˜ ∈C∗∩C

L(θ1|x˜ )d x˜−

Page 155: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.1. DEFINICIONES BASICAS. CONTRASTE DE HIPOTESIS SIMPLES145

x˜ ∈C∩C∗L(θ1|x˜ )d x˜ −

x˜ ∈C∩C∗L(θ1|x˜ )d x˜ =

x˜ ∈C∗∩C

L(θ1|x˜ )d x˜ −∫

x˜ ∈C∩C∗L(θ1|x˜ )d x˜ ≥

x˜ ∈C∗∩C

A L(θ0|x˜ )d x˜ −∫

x˜ ∈C∩C∗A L(θ0|x˜ )d x˜ =

A

[∫

x˜ ∈C∗∩C

L(θ0|x˜ )d x˜ +∫

x˜ ∈C∗∩C

L(θ0|x˜ )d x˜−

x˜ ∈C∩C∗L(θ0|x˜ )d x˜ −

x˜ ∈C∩C∗L(θ0|x˜ )d x˜

]=

A

[∫

x˜ ∈C∗L(θ0|x˜ )d x˜ −

x˜ ∈C

L(θ0|x˜ )

]= A(α− α) = 0.

2

El contraste que se propone en el Lema de Neyman-Pearson se denominatambien test de la razon de verosimilitudes.

Ejemplo 65Test Z.

Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2) con σ2 conocido.Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1, con µ1 > µ0.

Nuestra intuicion nos dice que se debe rechazar H0 si se observan valoresgrandes de x. Veamos que la aplicacion del Lema de Neyman-Pearson conducea esta solucion.

La funcion de verosimilitud de una muestra es

L(µ|x˜ ) = (2πσ2)−n/2 exp− 1

2σ2Σn

i=1(xi − µ)2

y el cociente de verosimilitudes

L(µ1|x˜ )

L(µ0|x˜ )=

(2πσ2)−n/2 exp− 1

2σ2 Σni=1(xi − µ1)2

(2πσ2)−n/2 exp− 1

2σ2 Σni=1(xi − µ0)2

=

exp

12σ2

Σni=1

((xi − µ0)2 − (xi − µ1)2

)=

exp

12σ2

n(2x(µ1 − µ0)2 + (µ2

0 − µ21)

)

Ası, la region crıtica del test de Neyman-Pearson tiene la forma

C = x˜ : expn(2x(µ1 − µ0)2 + (µ20 − µ2

1))/2σ2 ≥ A.

Page 156: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

146 CAPITULO 5. CONTRASTES DE HIPOTESIS

Vemos que el cociente de verosimilitudes es funcion creciente del estadısticominimal suficiente x porque µ1 − µ0 > 0, y por tanto la region crıtica puedeescribirse ası:

C = x˜ : x ≥ B.En este caso las constantes A y B se relacionan de este modo:

B =σ2 log(A)n(µ1 − µ0)

+µ1 + µ0

2.

Sin embargo no es necesario calcular B a partir de A, sino que es posible deter-minar su valor teniendo en cuenta que el contraste que se propone tiene tamanoα:

P (C|H0) = P (X ≥ B|H0) = α

Bajo H0 la distribucion de la media muestral es X ∼ N(µ0, σ2/n), de donde se

deduce que el valor de B debe ser

B = µ0 + zασ√n

.

Supongamos que µ0 = 5, µ1 = 6, σ2 = 1 y α = 0,05 y se toman muestrasde tamano n = 4. Acabamos de ver que rechazaremos H0 : µ = 5 en favor deH1 : µ = 6 si X ≥ µ0 + zασ/

√n = 5,8225, o equivalentemente si

Z =Xn − µ0

σ/√

n=

Xn − 51/√

4≥ 1,645.

Supongamos que se observa la muestra x˜ = (5,1, 5,5, 4,9, 5,3), luego la mediamuestral vale x = 5,2. Como

z =x− 51/√

4= 0,4 6≥ 1,645

no se rechaza H0.

Este contraste se denomina test Z porque usa el estadıstico Z =√

n(Xn −µ0)/σ, que tiene distribucion N(0, 1) bajo H0.. .

Ejemplo 66Sean Y1, . . . , Yn muestra aleatoria simple de Y ∼ Bern(p). Se desea contrastar

H0 : p = p0

H1 : p = p1

con p1 > p0. Sea X =∑n

i=1 Yi ∼ B(n, p). La verosimilitud de la muestra es

L(p|x) =(

n

x

)px(1− p)n−x.

Page 157: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.1. DEFINICIONES BASICAS. CONTRASTE DE HIPOTESIS SIMPLES147

Calculamos el logaritmo del cociente de verosimilitudes:

log(

L(p1|x)L(p0|x)

)= log

(px1(1− p1)n−x

px0(1− p0)n−x

)=

x log(p1/p0) + (n− x) log((1− p1)/(1− p0))

Ası, la region crıtica del test de Neyman-Pearson sera

C = x : x log(p1/p0) + (n− x) log((1− p1)/(1− p0)) ≥ log A =

x : x[log(p1/p0)− log((1−p1)/(1−p0))] ≥ −n log((1−p1)/(1−p0))+ log A =x : x ≥ B =

log(A)− n log((1− p1)/(1− p0))

log(

p1(1−p0)p0(1−p1)

)

Para determinar el valor de B usaremos el hecho de que la distribucion de X esconocida bajo H0 y que se desea definir un test con tamano α.

Supongamos que n = 10, p0 = 0,5 y p1 = 0,8. Para diferentes valores de B

se obtienen contrastes con diferentes tamanos α y potencias β:

B 0 3 7 8 9α 1.000 0.945 0.172 0.055 0.011β 0.000 <0.001 0.121 0.322 0.624

Vemos que no es posible construir un contraste de tamano α para todos losvalores α ∈ [0, 1]. Si por ejemplo queremos tener un contraste de tamano α =0,05 hay tres formas de actuar:

considerar que α = 0,055 es suficientemente proximo a 0,05 y rechazar H0

si x ≥ 8,

Pensar que 0.05 es la maxima probabilidad de error de tipo I aceptable y,por tanto, rechazar H0 si x ≥ 9, dando lugar a α = 0,011,

Rechazar H0 si x ≥ 9, aceptar H0 si x ≤ 7 y en el caso de que x = 8aleatorizar la decision: rechazar H0 con probabilidad τ y aceptarla conprobabilidad (1− τ), eligiendo τ de forma que se consiga un tamano exac-tamente igual a α = 0,05. En este ejemplo τ es 0,8864. Este tipo decontrastes se denominan tests aleatorizados.

En este curso no consideraremos los tests aleatorizados. En el capıtulo 18de Cristobal (1992), por ejemplo, se desarrolla la teorıa de los contrastes dehipotesis incluyendo la posibilidad de que estos sean aleatorizados.. .

Page 158: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

148 CAPITULO 5. CONTRASTES DE HIPOTESIS

En los dos ejemplos anteriores hemos visto que el mejor test de tamanoα depende de las observaciones solo a traves del valor que en ellas toma elestadıstico minimal suficiente del parametro de interes. El siguiente corolarioestablece esto como resultado general.

Corolario 6 En las hipotesis del Lema de Neyman-Pearson, si T es un es-tadıstico suficiente del parametro de interes θ con funcion de densidad (o deprobabilidad) g(t|θ), el mejor test para el contraste

H0 : θ = θ0

H1 : θ = θ1

tiene region crıtica de la forma

C =

t = T ( x˜ ) :g(t|θ1)g(t|θ0)

≥ A

para algun A ≥ 0.

Demostracion: Trivial a partir del Lema de Neyman-Pearson y del Teoremade Factorizacion (teorema 10). 2

5.1.3. Conclusiones de un contraste: el p-valor

Una forma de informar de los resultados de un contraste de hipotesis esmediante el tamano α del test usado y la decision tomada sobre si se rechazo ono H0. Si α es pequeno la decision de rechazar H0 es muy convincente, pero si α

es grande la probabilidad de cometer un error de tipo I es grande, lo cual restafuerza al test si la decision adoptada es la de rechazar H0. Por otro lado, paraα muy pequeno, el hecho de no rechazar H0 no se interpretara como un apoyoindiscutible a esta hipotesis sino como que no fue posible encontrar evidenciasuficiente en su contra como para superar la barrera tan restrictiva impuestapor ese valor de α.

Una forma alternativa de presentar los resultados de un contraste de hipotesises dar el p-valor o valor de probabilidad del test, definido este como elsupremo de los valores α para los cuales se rechazarıa la hipotesis nula si estase contrastase a nivel α. El p-valor depende de los datos muestrales. Puedeinterpretarse como la probabilidad de observar otra muestra que sea al menostan poco favorable a la hipotesis nula como la que se ha observado. A partir delp-valor se puede tomar la decision de rechazar (respectivamente, aceptar) H0 siel p-valor es pequeno (respectivamente, grande).

Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearsones

p = Pθ0

L(θ1|X˜ )

L(θ0|X˜ )≥

L(θ1|x˜ )

L(θ0|x˜ )

.

Page 159: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.2. CONTRASTES UNIFORMEMENTE MAS POTENTES 149

En general, cuando la region crıtica de un contraste de tamano α es tal quese rechaza H0 si y solo si W (x˜ ) ≥ cα, donde W (X˜ ) es un estadıstico y cα seelige para que el test tenga tamano α, entonces el p-valor del contraste para unamuestra observada x˜ es

p(x˜ ) = supθ∈Θ0

Pθ(W (X˜ ) ≥ W (x˜ )).

Ejemplo 65, pagina 145. Continuacion. En el ejemplo del test Z el p-valores

P (Xn ≥ xn|µ = µ0) = P

(Z ≥ xn − µ0

σ/√

n

)= 1− Φ

(xn − µ0

σ/√

n

)

donde Φ es la funcion de distribucion de Z ∼ N(0, 1).

En el caso concreto de que σ = 1, µ0 = 5, n = 4 y x = 5,2 se tiene que elp-valor es

p( x˜ ) = P

(X4 − 51/√

4≥ 5,2− 5

1/√

4

)= P (Z ≥ 0,4) = 0,3446

y por tanto no hay suficiente evidencia en contra de H0 como para rechazar estahipotesis.. .

5.2. Contrastes uniformemente mas potentes

Nos ocuparemos ahora de los contrastes de hipotesis en los que la hipotesisalternativa es compuesta.

Queremos contrastar H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

donde Θ0 ∪Θ1 = Θ, Θ0 ∩Θ1 = ∅.Por ejemplo, si Θ = [0,∞) podemos contrastar

H0 : θ = θ0

H1 : θ > θ0

Diremos que se trata de un contraste unilateral.

Si Θ = IR, los contrastes

H0 : θ ≤ θ0

H1 : θ > θ0y

H0 : θ ≥ θ0

H1 : θ < θ0

Page 160: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

150 CAPITULO 5. CONTRASTES DE HIPOTESIS

son tambien unilaterales y el contraste

H0 : θ = θ0

H1 : θ 6= θ0

se dice que es bilateral.

Diremos que un contraste de hipotesis es uniformemente mas potente

(UMP) de tamano α para contrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 si sufuncion de potencia η(θ) verifica que

supθ∈Θ0

η(θ) = α

y para cualquier otro contraste con funcion de potencia η∗ que sea tambien detamano α, es decir, que cumpla

supθ∈Θ0

η∗(θ) = α,

se tiene queη(θ) ≥ η∗(θ), para todo θ ∈ Θ1.

5.2.1. Lema de Neyman-Pearson para alternativas com-

puestas

El siguiente resultado es una extension del Lema de Neyman-Pearson al casode hipotesis alternativa compuesta.

Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas)Se desea contrastar

H0 : θ = θ0

H1 : θ ∈ Θ1 = Θ− θ0Para cada θ1 ∈ Θ1, se consideran los conjuntos

C(θ1) =

x˜ :

L(θ1|x˜ )

L(θ0|x˜ )≥ A(θ1)

,

las regiones crıticas de los contrastes mas potentes de tamano α para contrastar

H0 : θ = θ0

H1 : θ = θ1

dadas por el Lema de Neyman-Pearson.

Si esas regiones crıticas no dependen de θ1, es decir, si C(θ1) = C para todoθ1 ∈ Θ1, entonces la prueba estadıstica que tiene region crıtica C es UMP detamano α.

Page 161: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.2. CONTRASTES UNIFORMEMENTE MAS POTENTES 151

Demostracion: Sea η(θ) la funcion de potencia del test que tiene region crıticaC. Por la definicion de C se tiene que este test tiene tamano α. Sea η∗ la funcionde potencia de cualquier otro test de tamano α.

Para cualquier θ1 ∈ Θ1, por el Lema de Neyman-Pearson el test con regioncrıtica C es el mejor para contrastar

H0 : θ = θ0

H1 : θ = θ1

y por lo tanto, η(θ1) ≥ η∗(θ1). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que

η(θ1) ≥ η∗(θ1)

para todo θ1 ∈ Θ1, luego el test C es UMP de tamano α. 2

Ejemplo 67Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2) con σ2 conocido. Sedesea contrastar

H0 : µ = µ0

H1 : µ > µ0

En el ejemplo 65 se vio que para cualquier µ1 > µ0 el mejor test para contrastarH0 : µ = µ0 frente a H ′

1 : µ = µ1 tiene por region crıtica

C = x˜ : x ≥ B, con B = µ0 + zασ√n

.

Por lo tanto, la region crıtica es la misma para todos los posibles valores µ1 ∈Θ1 = (µ0,∞). Se sigue que el contraste con region crıtica C es UMP de tamanoα para contrastar H0 frente a H1.

La funcion de potencia del test UMP es

η(µ) = P (X˜ ∈ C|µ) = P (Xn ≥ µ0 + zασ√n|µ) =

P

(Xn − µ

σ/√

n≥ µ0 − µ

σ/√

n+ zα|µ

)= P

(Z ≥ µ0 − µ

σ/√

n+ zα

),

siendo Z ∼ N(0, 1).. .

El siguiente resultado extiende el anterior al caso en el que la hipotesis nulaes tambien compuesta.

Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta:

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1.

Supongamos que existe un procedimiento de contraste basado en un estadısticosuficiente T con region crıtica C que satisface las hipotesis siguientes:

Page 162: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

152 CAPITULO 5. CONTRASTES DE HIPOTESIS

1. el test tiene tamano α,

2. existe θ0 ∈ Θ0 tal que Pθ0(T ∈ C) = α,

3. si g(t|θ) denota la funcion de densidad (o de probabilidad) de T , para elvalor θ0 cuya existencia garantiza la hipotesis anterior y para cada θ1 ∈ Θ1

existe un A(θ1) ≥ 0 tal que

sig(t|θ1)g(t|θ0)

> A(θ1) =⇒ t ∈ C, y

sig(t|θ1)g(t|θ0)

< A(θ1) =⇒ t ∈ C.

Entonces esta prueba es UMP de tamano α para contrastar H0 frente a H1.

Demostracion: Sea η(θ) la funcion de potencia del contraste que tiene regioncrıtica C y sea η∗(θ) la funcion de potencia de otro contraste que tiene tamanoα. Se verificara pues que η∗(θ0) ≤ α.

Fijamos un θ1 ∈ Θ1 y contrastamos H ′0 : θ = θ0 frente a H ′

1 : θ = θ1. Por elcorolario al Lema de Neyman-Pearson, la region crıtica C corresponde al mejortest, luego η(θ1) ≤ η∗(θ1). Esto es valido para todo θ1 ∈ Θ1, luego el test conregion crıtica C es UMP. 2

5.2.2. Razon de verosimilitud monotona. Teorema de Karlin-

Rubin

En esta seccion veremos que bajo determinadas condiciones es posible encon-trar tests UMP para contrastes unilaterales cuyas regiones crıticas son facilmenteexpresables en funcion de un estadıstico suficiente. Las condiciones necesariashacen referencia a la monotonıa de la razon de verosimilitudes como funcion delestadıstico suficiente.

Una familia de funciones de densidad o de probabilidad g(t|θ) : θ ∈ Θ parauna variable aleatoria T tiene razon de verosimilitudes monotona (RVM)si para cada θ2 > θ1 el cociente g(t|θ2)/g(t|θ1) es una funcion no decreciente det para los valores t tales que g(t|θ2) > 0 o g(t|θ1) > 0.

Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H0 : θ ≤ θ0

frente a H1 : θ > θ0. Supongamos que T es un estadıstico suficiente para θ y quela familia g(t|θ) : θ ∈ Θ de funciones de densidad de T tiene RVM. Entoncespara cada t0 el test que rechaza H0 si y solo si T > t0 es UMP de tamanoα = Pθ0(T > t0).

Demostracion: Veamos en primer lugar que la funcion de potencia η(θ) =P (T > t0|θ) es creciente. Sea θ1 < θ2. Queremos comprobar que η(θ1) ≤ η(θ2).

Page 163: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.2. CONTRASTES UNIFORMEMENTE MAS POTENTES 153

El Lema de Neyman-Pearson para contrastar H ′0 : θ = θ1 frente a H ′

1 : θ = θ2

establece que el mejor test tiene region crıtica C = x˜ : (L(θ2|x˜ )/L(θ1|x˜ )) ≥A. Como T es suficiente para θ, sera L(θ|x˜ ) = g(T (x˜ )|θ)h(x˜ ). Dado que T

tiene RVM el conjunto C es

C =

x˜ :

g(T ( x˜ )|θ2)

g(T ( x˜ )|θ1)≥ A

= x˜ : T (x˜ ) ≥ t0.

Este contraste tiene tamano α′ = P (T > t0|θ1) = η(θ1). Consideremos uncontraste que rechaza H ′

0 con probabilidad α′ sea cual sea el valor x˜ observado.Su funcion de potencia es η∗(θ) = α′ y se trata de un test de tamano α′. Por elLema de Neyman-Pearson se tiene que

η(θ2) = P (T > t0|θ2) ≥ η∗(θ) = α′ = η(θ1)

y se concluye que la funcion de potencia η(θ) es creciente.

Para demostrar que el test con region crıtica x˜ : T ( x˜ ) > t0 es UMPpara contrastar H0 frente a H1 usaremos el corolario 7. Para aplicarlo hay quecomprobar que se cumplen sus tres hipotesis:

1. El test tiene tamano α. Como η(θ) es no decreciente, se tiene que

supθ≤θ0

η(θ) = η(θ0) = α = P (T > t0|θ0).

2. Existe θ0 tal que Pθ0(T ∈ C) = P (T > t0|θ0) = α. Esto es cierto pordefinicion de t0.

3. Para cada θ1 ∈ Θ1, existe A(θ1) tal que t ∈ C si y solo si (g(t|θ1)/g(t|θ0)) >

A(θ1). Esto se verifica si definimos

A(θ1) = ınft∈T

g(t|θ1)g(t|θ0)

,

donde T = t : t > t0 y g(t|θ1) > 0 o g(t|θ0) > 0. Si g(t|θ1)/g(t|θ0) >

A(θ1) entonces t > t0, puesto que T tiene RVM. Si t > t0 entoncesg(t|θ1)/g(t|θ0) > ınft g(t|θ1)/g(t|θ0) = A(θ1).

2

Acabamos de ver que frecuentemente se encontraran pruebas UMP parapruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP parapruebas bilaterales, como pone de manifiesto el siguiente ejemplo.

Ejemplo 68Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2) con σ2 conocido. Sedesea contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0.

Page 164: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

154 CAPITULO 5. CONTRASTES DE HIPOTESIS

Si contrastamos H0 frente a H ′1 : µ0 > µ1, la region crıtica del test UMP

es C1 = x˜ : xn ≤ A1. Si contrastamos H0 frente a H ′1 : µ0 < µ1, la region

crıtica del test UMP es C2 = x˜ : xn ≥ A2.Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan

valores de la media muestral mucho mayores o mucho menores que µ0:

C = x˜ : xn ≤ A1 o xn ≥ A1,

donde A1 y A2 se eligen para que el test tenga tamano α:

P (Xn ≤ A1|µ = µ0) + P (Xn ≥ A2|µ = µ0) = α.

La forma de fijar A1 y A2 puede atender a distintos criterios. Una posibilidades elegir A1 y A2 de forma que

P (Xn ≤ A1|µ = µ0) = P (Xn ≥ A2|µ = µ0) =α

2,

es decir, A1 = µ0 − zα/2σ/√

n, A2 = µ0 + zα/2σ/√

n.

Entonces se rechazara H0 si |Xn − µ0| ≥ zα/2σ/√

n. La funcion de potenciaes tal como se refleja en la figura siguiente (curva de trazo continuo).

−4 −3 −2 −1 0 1 2 3 4

0

0.2

0.4

0.6

0.8

1

α

µ0=0, σ=1

µ

Fun

cion

es d

e po

tenc

ia

Este contraste no es UMP porque, por ejemplo, si rechazamos H0 cuandoXn ≥ µ0 + zασ/

√n este contraste tiene potencia superior para µ > µ0, como

puede verse en la figura anterior (curva de trazo discontinuo).. .

Page 165: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE MAS POTENTES155

Vemos en el ejemplo anterior que no es posible atender las desviacionesbilaterales de la hipotesis nula y, a la vez, superar en potencia a los contrastesque han sido disenados para detectar desviaciones en una sola direccion.

En los casos en los que no existen tests UMP es posible aun elegir contrastesque tengan propiedades deseables. Una posibilidad (que sera desarrollada enla seccion 5.5) es construir pruebas que sean validas en muchas situaciones,facilmente aplicables y con buenas propiedades teoricas.

Otra posibilidad es restringir la clase de contrastes considerada y buscar eltest UMP dentro de esa clase. La seccion 5.3 se ocupa de esta alternativa.

5.3. Contrastes insesgados. Contrastes localmen-

te mas potentes

Un contraste de hipotesis para H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 de tamanoα y con funcion de potencia η(θ) es un contraste insesgado si η(θ) ≥ α paratodo θ ∈ Θ1.

Es razonable pedir que un contraste sea insesgado, puesto que nos dice que lapotencia nunca es menor bajo la hipotesis alternativa que bajo la nula: siemprees mas probable rechazar la hipotesis nula si esta es falsa que si no lo es. Esentonces logico restringir la clase de contrastes que se consideran a aquella quecontiene solo contrastes insesgados. Entre estos se buscaran los tests UMP.

Si se adopta este enfoque, puede probarse que en el muestreo de la normalcon σ2 conocida (ver ejemplo 68) el contraste que rechaza H0 : µ = µ0 si|Xn − µ0| ≥ zα/2σ/

√n es insesgado y es UMP en la clase de los contrastes

insesgados. Para una demostracion de este hecho, vease por ejemplo Casella-Berger, ejemplo 8.3.9.

En la busqueda de contrastes UMP, un planteamiento alternativo al de redu-cir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar testsinsesgados UMP) consiste en reducir las hipotesis alternativas que se tienen encuenta. En este sentido, es logico buscar procedimientos que sean uniformemen-te mas potentes solo para las hipotesis alternativas cercanas a la hipotesis nula.Seran estos contrastes los mas potentes para detectar pequenas desviaciones dela hipotesis nula. En cada caso concreto se ha de especificar que se entiende porhipotesis cercanas a la nula.

Supongamos que el parametro θ es real. Se dice que un test con funcion depotencia η(θ) es el mas potente localmente para contrastar H0 : θ ≤ θ0 (oH0 : θ = θ0) frente a H1 : θ > θ0 si, para cualquier otro contraste con funcionde potencia η′(θ) tal que η(θ0) = η′(θ0), existe un δ > 0 tal que η(θ) ≥ η′(θ)para todo θ ∈ (θ0, θ0 + δ].

Page 166: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

156 CAPITULO 5. CONTRASTES DE HIPOTESIS

Veamos como podemos encontrar el test mas potente localmente en estecaso. Restringimos la hipotesis alternativa del siguiente modo:

H0 : θ = θ0

H1 : θ = θ0 + δ

para δ > 0 cercano a 0.

Por el lema de Neyman-Pearson el mejor test tiene region crıtica de la forma

L(θ0 + δ; x˜ )

L(θ0; x˜ )≥ A ⇐⇒ log L(θ0 + δ; x˜ )− log L(θ0; x˜ ) ≥ log A.

Desarrollando por Taylor alrededor de δ = 0, se tiene que

log L(θ0 + δ; x˜ ) ≈ log L(θ0; x˜ ) + δ∂ log L

∂θ

∣∣∣∣θ=θ0

y por tanto el test localmente mas potente se basa en la funcion score

S(θ0; x˜ ) =∂ log L

∂θ

∣∣∣∣θ=θ0

y tiene por region crıtica, aproximadamente,

S(θ0; x˜ ) ≥ B = zα

√Iθ0

ya que, bajo H0, E[S(θ0; x˜ )] = 0, V [S(θ0; x˜ )] = Iθ0 y S(θ0; x˜ ) es aproximada-mente normal.

Ejemplo 69Sea X1, . . . , Xn muestra aleatoria simple de X ∼ Cauchy(θ), con funcion dedensidad

f(x|θ) =1

π(1 + (x− θ)2).

Se desea contrastar H0 : θ = θ0

H1 : θ > θ0.

La verosimilitud y su logaritmo son

L(θ; x˜ ) =n∏

i=1

1π(1 + (xi − θ)2)

, l (θ; x˜ ) = −n∑

i=1

(log π + log(1 + (xi − θ)2)

).

La funcion score es

S(θ; x˜ ) =n∑

i=1

2(xi − θ)1 + (xi − θ)2

y la informacion de FisherIθ =

n

2.

Page 167: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES 157

Asintoticamente la prueba localmente mas potente rechaza H0 : θ = θ0 en favorde H1 : θ > θ0 si y solo si

n∑

i=1

2(xi − θ0)1 + (xi − θ0)2

≥ zα/2

√n

2.

. .

Observemos que las pruebas localmente mas potentes son utiles solo paraalternativas unilaterales. Si θ es un vector, seran utiles cuando nos preocupauna direccion especıfica en la que el parametro pueda alejarse de θ0.

5.4. Consistencia y eficiencia para contrastes

Las propiedades deseables de los contrastes no se limitan a ser UMP o serlocalmente mas potente. La siguiente es tambien una propiedad que cualquiertest razonable deberıa cumplir.

Supongamos que un contraste depende del tamano n de la muestra y que sufuncion de potencia se denota por ηn(θ). Diremos que un contraste es consis-

tente silım

n−→∞ηn(θ) = 1

para todo θ ∈ Θ1. Las pruebas derivadas del Lema de Neyman-Pearson sonconsistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977).

Esta definicion lleva aparejado un concepto de eficiencia relativa entre con-trastes. Sean H0 y H1 dos hipotesis simples. Dados dos contrastes T1 y T2,ambos de tamano α y consistentes para contrastar H0 frente a H1, se conside-ran respectivamente los tamanos muestrales n1 y n2 mas pequenos necesariospara obtener potencia mayor o igual que η, un valor fijo. Se define la eficiencia

relativa de T1 comparado con T2 comon2

n1.

Se define la eficiencia relativa asintotica de T1 comparado con T2 como

lımη−→1

n2

n1,

es decir, es el lımite del cociente n2/n1 cuando ambos tamanos muestrales tien-den a infinito conjuntamente, en el sentido de que ambos garantizan potencia η

y η tiende a 1.

Existen otros conceptos de eficiencia relativa entre contrastes que contemplanla posibilidad de que la hipotesis alternativa tienda hacia la nula cuando n tiendea infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otrasdefiniciones se basan en la comparacion de p-valores (eficiencia de Bahadur; ver,por ejemplo, Shorack y Wellner 1986).

Page 168: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

158 CAPITULO 5. CONTRASTES DE HIPOTESIS

5.5. Test de la razon de verosimilitudes

Sea X1, . . . , Xn muestra aleatoria simple de X, variable aleatoria con funcionde densidad (o de probabilidad) f(x|θ) para algun θ ∈ Θ. Se desea hacer elcontraste

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Se define el estadıstico de la razon deverosimilitudes como

λ = λ(x˜ ) =maxθ∈Θ0 L(θ|x˜ )

maxθ∈Θ L(θ|x˜ ).

El test de la razon de verosimilitudes (tambien llamado test de la

razon de verosimilitudes generalizado, para distinguirlo del test de Neyman-Pearson, o test de la razon de las maximas verosimilitudes) estableceuna region crıtica de la forma

C = x˜ : λ(x˜ ) ≤ A

para alguna constante A que se determinara para que el test tenga el tamano α

deseado.

La idea intuitiva que sustenta este metodo de contraste es simple. Observeseque 0 ≤ λ ≤ 1 y que cuanto mas cercano a 1 sea el valor de λ, mas verosımiles que θ ∈ Θ0, mientras que cuanto mas se aleje λ de 1, mas creıble sera lahipotesis alternativa θ ∈ Θ1.

Ejemplo 70Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2), µ y σ2 desconocidos:el parametro es θ = (µ, σ2). Se desea contrastar

H0 : µ = µ0

H1 : µ 6= µ0

La verosimilitud es:

L(θ|x˜ ) = (2πσ2)−n/2 exp

− 2

2σ2

n∑

i=1

(xi − µ)2

.

El estimador de maxima verosimilitud (MV) bajo H0 es θ = (µ0, σ2), donde

σ2 =1n

n∑

i=1

(xi − µ0)2

y el valor de la verosimilitud en ese punto es

maxθ∈Θ0

L(θ|x˜ ) = (2πσ2)−n/2 exp−n

2

.

Page 169: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.5. TEST DE LA RAZON DE VEROSIMILITUDES 159

El estimador MV en general es θ = (x, σ2), donde

σ2 =n− 1

nS2 =

1n

n∑

i=1

(xi − x)2,

y el maximo de la verosimilitud es

maxθ∈Θ

L(θ|x˜ ) = (2πσ2)−n/2 exp−n

2

.

Por lo tanto,

λ = λ( x˜ ) =(

σ2

σ2

)−n/2

=(∑n

i=1(xi − µ0)2∑ni=1(xi − x)2

)−n/2

=

(∑ni=1(xi − x)2 + n(x− µ0)2∑n

i=1(xi − x)2

)−n/2

=(

1 +t2

n− 1

)−n/2

,

donde t =√

n(x− µ0)/SH0∼ . Por lo tanto, el estadıstico λ es decreciente en |t|.

La prueba de razon de verosimilitudes rechaza H0 si λ < A para algun A, locual ocurrira si y solo si |t| > B para algun B. Por lo tanto, la prueba de razonde verosimilitudes rechaza H0 si

|x− µ0|S/√

n> B

y B se elige para que el tamano del test sea α. Por lo tanto, este test coincidecon el test t bilateral clasico en el muestreo de la normal.. .

5.5.1. Relacion con el Lema de Neyman-Pearson.

Cuando H0 y H1 son hipotesis simples, el estadıstico λ( x˜ ) vale lo siguiente:

λ(x˜ ) =L(θ0|x˜ )

maxL(θ0|x˜ ), L(θ1|x˜ ) = mın

1,

L(θ0|x˜ )

L(θ1|x˜ )

.

El test que rechaza H0 cuando λ ≤ A tiene la misma region crıtica (y, por tanto,es el mismo contraste) que el que la rechaza cuando L(θ1|x˜ )/L(θ0|x˜ ) ≥ (1/A),que es la region crıtica dada por el test de Neyman-Pearson.

La unica distorsion es que no se pueden construir pruebas de la razon deverosimilitudes con niveles α ∈ (1− p, 1), donde p es

p = P

(L(θ0|x˜ )

L(θ1|x˜ )> 1

∣∣∣∣∣ H0

),

ya que si rechazamos H0 cuando λ(x˜ ) ≤ A < 1, entonces

α = P

(L(θ0|x˜ )

L(θ1|x˜ )≤ A

∣∣∣∣∣ H0

)≤ P

(L(θ0|x˜ )

L(θ1|x˜ )≤ 1

∣∣∣∣∣ H0

)= 1− p

y si tomamos A = 1 entonces el tamano es α = 1.

Page 170: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

160 CAPITULO 5. CONTRASTES DE HIPOTESIS

5.5.2. Propiedades de los contrastes de razon de verosimi-

litudes

El estadıstico λ(x˜ ) del test de la razon de verosimilitudes depende de x˜solo a traves del estadıstico minimal suficiente para θ. Las propiedades de estoscontrastes para muestras pequenas dependen de la modelizacion parametricaconcreta de que se trate. La siguiente es una propiedad comun a todos loscontrastes de razon de verosimilitudes:

Si H0 es simple y existe una prueba UMP para contrastar H0 frente aH1, entonces el test de razon de verosimilitudes coincide con el test UMP.(Vease Garthwaite, Jollife y Jones 1995, pagina 84, y las referencias allı ci-tadas para una demostracion de esta propiedad.)

Muchas de las propiedades asintoticas de los contrastes de la razon de vero-similitudes son comunes a todos ellos. Citemos las siguientes:

Bajo las condiciones de regularidad que garantizan que el estimador demaxima verosimilitud es consistente, se tiene que el test de razon de ve-rosimilitudes es un test consistente. (Vease Cristobal 1992, pagina 589).

El test razon de verosimilitudes es asintoticamente la prueba insesgadamas potente. (Vease Garthwaite, Jollife y Jones 1995, pagina 84.)

El test razon de verosimilitudes es asintoticamente eficiente, en el sentidode la eficiencia relativa asintotica definida al final de la seccion 5.3. (VeaseGarthwaite, Jollife y Jones 1995, pagina 85.)

Probaremos el siguiente resultado asintotico, que es util para determinar elvalor crıtico A de la definicion del test de la razon de verosimilitudes.

Teorema 44 Sea X1, . . . , Xn muestra aleatoria simple de X, variable aleatoriacon funcion de densidad (o de probabilidad) f(x|θ) para algun θ ∈ Θ. Se deseahacer el contraste

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1

donde Θ = Θ0 ∪Θ1 y Θ0 ∩Θ1 = ∅. Bajo las condiciones H1, H2, C1, C2, C3,C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asintoticodel estimador MV (esas hipotesis aseguran la existencia y continuidad de lasderivadas respecto al parametro de la funcion de verosimilitud, y que el soportede las distribuciones no depende del parametro) se tiene que el estadıstico

Qn = −2 log λ(X˜ n) −→n χ2d

bajo la hipotesis nula, donde d = dim(Θ)− dim(Θ0).

Page 171: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.5. TEST DE LA RAZON DE VEROSIMILITUDES 161

Demostracion: Haremos la prueba para el caso dim(Θ) = 1, dim(Θ0) = 0(luego d = 1). Para el caso general, puede verse, por ejemplo, Cristobal (1992),Teorema 1.2, pagina 596.

Consideramos el modelo X ∼ f ∈ fθ : θ ∈ Θ ⊆ IR y el contraste

H0 : θ = θ0

H1 : θ 6= θ0

Ası, d = 1− 0 = 1. Observese que

Qn = −2 log λ(X˜ n) = 2(log L(θn|x˜ n)− log L(θ0|x˜ n)

),

donde θn es el estimador maximo verosımil de θ. Desarrollamos l (θ0|x˜ n) =

log L(θ0|x˜ n) en serie de Taylor alrededor de θn:

l (θ0|x˜ n) = l (θn|x˜ n) +∂ l (θn|x˜ n)

∂θ(θ0 − θn) +

12

∂2l (θ|x˜ n)

∂θ2(θ0 − θn)2

donde θ es un valor entre θn y θ0.

Ası,

Qn = 2

∂ l (θn|x˜ n)

∂θ︸ ︷︷ ︸=0

(θ0 − θn)− 12

∂2l (θ|x˜ n)

∂θ2(θ0 − θn)2

=

−∂2l (θ|x˜ n)

∂θ2(θ0 − θn)2.

En el teorema 39 se probo que el estimador maximo verosımil θn es consistente.Como ademas |θ − θ0| ≤ |θn − θ0| se tendra que bajo H0

θ −→PH0

θ0.

En el teorema 39 se probo que bajo H0

− 1n

∂2l (θ|x˜ n)

∂θ2−→P IX(θ0),

y que √n(θn − θ0) −→D N (0, 1ToverIX(θ0)) ,

De donde se sigue, por el Teorema de Slutzky, que

Qn = − 1n

∂2l (θ|x˜ n)

∂θ2

(√n(θn − θ0)

)2

−→D χ21.

2

El calculo de d, la diferencia entre las dimensiones de Θ y Θ0, suele hacersecomo

d = ν1 − ν0,

Page 172: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

162 CAPITULO 5. CONTRASTES DE HIPOTESIS

donde νi es el numero de parametros estimados bajo Hi menos las restriccionesque relacionan unos parametros con otros, para i = 1, 2.

Ejemplo 71Modelos log-lineales. Sea θ ∈ Θ = (p1, p2, p3, p4, p5) ∈ IR5 :

∑5j=1 pj =

1, y pj ≥ 0, j = 1, . . . , 5. Sean X1, . . . , Xn variables aleatorias discretas inde-pendientes e identicamente distribuidas tales que

Pθ(Xi = j) = pj = f(j|θ)

es la funcion de probabilidad de Xi. La verosimilitud asociada a una muestrade tamano n es

L(θ|x˜ ) =n∏

i=1

f(xi|θ) = py11 py2

2 py33 py4

4 py55

donde yj = #xi, i = 1, . . . , n : xi = j, j = 1, . . . , 5.

Se desea contrastar

H0 : p1 = p2 = p3, p4 = p5

H1 : H0 es falsa

El espacio parametrico Θ tiene dimension 4, porque los parametros tienen unaligadura lineal:

∑5j=1 pj = 1.

Para definir Θ0, observemos que bajo H0 se cumple que p1 + p2 + p3 =3p1 ≤ 1, luego 0 ≤ p1 ≤ 1/3. Ademas, como los pj deben sumar 1, se tiene que3p1 + 2p4 = 1, luego p4 = (1− 3p1)/2. Ası, Θ0 es

Θ0 = (p1, p1, p1, p4, p4) : 0 ≤ p1 ≤ 1/3, y p4 = (1− 3p1)/2

luego Θ0 tiene dimension 1. Ası d = dim(Θ)− dim(Θ0) = 4− 1 = 3.

Es sencillo verificar que el EMV global de pj es pj = yj/n. Calculemos ahorael EMV bajo H0. La verosimilitud es

L(p1|x˜ ) = py1+y2+y31

(1− 3p1

2

)y4+y5

,

de donde se sigue que el EMV de p1 bajo H0 es

p10 =y1 + y2 + y3

3n,

que

p20 = p30 = p10 =y1 + y2 + y3

3n

y que

p40 = p50 =1− 3p10

2=

y4 + y5

2.

Page 173: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA VEROSIMILITUD163

El estadıstico λ(x˜ ) es entonces

λ( x˜ ) =py1+y2+y310

(1−3p10

2

)y4+y5

p1y1 p2

y2 p3y3 p4

y4 p5y5

=

(y1 + y2 + y3

3y1

)y1(

y1 + y2 + y3

3y2

)y2(

y1 + y2 + y3

3y3

)y3(

y4 + y5

2y4

)y4(

y4 + y5

2y5

)y5

.

El estadıstico Qn = −2 log λ( x˜ ) es

Qn = −2 log λ(x˜ ) = 25∑

j=1

yj log(

yj

mj

),

donde yj = npj , j = 1, . . . , 5, son las estimaciones de las frecuencias en cada unade las categorıas j = 1, . . . , 5 y mj = npj0, j = 1, . . . , 5 son las estimaciones bajola hipotesis nula. El test de razon de verosimilitudes rechaza H0 si −2 log λ( x˜ ) ≥χ2

3,α.

Este es un ejemplo de una familia de modelos conocidos como modelos log-lineales. En esta familia el estadıstico Qn del test de razon de verosimilitudestiene siempre la forma que acabamos de ver.. .

5.6. Contrastes relacionados con el de maxima

verosimilitud

El contraste basado en la razon de verosimilitudes no es el unico procedi-miento general para realizar contrastes de hipotesis. En esta seccion veremosotros dos metodos validos para contrastar una hipotesis nula simple frente auna alternativa compuesta.

Sea X1, . . . , Xn una muestra aleatoria simple de X ∼ fθ˜

, θ˜ ∈ Θ ⊆ Rk.

Se desea contrastar H0 : θ˜ = θ˜ 0

H1 : θ˜ 6= θ˜ 0

5.6.1. Test del score.

Cuando en la seccion 5.3 buscabamos procedimientos localmente mas poten-tes, llegamos a un test basado en la funcion score:

Sn(θ; x˜ n) =∂ log L(θ; x˜ n)

∂θ

Page 174: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

164 CAPITULO 5. CONTRASTES DE HIPOTESIS

si θ ∈ IR, o

Sn( θ˜ ; x˜ n) =

(∂ log L( θ˜ ; x˜ n)

∂θ1

, . . . ,∂ log L( θ˜ ; x˜ n)

∂θk

)t

si θ˜ = (θ1, . . . , θk) ∈ IRk.

Para contrastar H0 : θ˜ = θ˜ 0 frente a H1 : θ˜ 6= θ˜ 0 se propone elestadıstico

TSn = (Sn( θ˜ 0; x˜ n))t(In( θ˜ 0))−1Sn( θ˜ 0; x˜ n),

que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regu-laridad, se distribuye asintoticamente como una χ2

k dado que

Sn( θ˜ ; x˜ n) ≈ Nk(0, In( θ˜ 0)).

Para el caso k = 1 se tiene que bajo H0

TSn = (In( θ˜ 0))−1

(∂ log L(θ; x˜ n)

∂θ

)2

≈ χ21.

El test del score rechaza H0 si TSn ( x˜ n) > χ2

k,α.

Cualquier estimador consistente de la matriz de informacion asintotica podrıaser usado en lugar de In(θ0). Por ejemplo, pueden usarse la informacion obser-vada On que se definio en el teorema 40.

Los tests del score se conocen en econometrıa como tests de los multi-

plicadores de Lagrange.

5.6.2. Test de Wald.

El contraste de H0 : θ˜ = θ˜ 0 frente a H1 : θ˜ 6= θ˜ 0 puede basarse tambienen alguna distancia entre θ˜ 0 y el estimador de maxima verosimilitud de θ˜ ,

θ˜ n. Dado que bajo H0 la distribucion aproximada de θ˜ n

es

θ˜ n≈ Nk( θ˜ 0, (In( θ˜ 0))−1),

el estadısticoWn = ( θ˜ n

− θ˜ 0)tIn( θ˜ 0)( θ˜ n− θ˜ 0)

mide la distancia de Mahalanobish entre θ˜ 0 y θ˜ n. El test de Wald se basa

en este estadıstico. Bajo H0,Wn ≈ χ2

k.

Se rechaza H0 si Wn(x˜ n) > χ2k,α.

Aquı, al igual que ocurrıa con el test del score, la matriz In( θ˜ 0) puedeser sustituida por otro estimador consistente de la matriz de informacion. Porejemplo, puede usarse In( θ˜ n

) o la matriz de informacion observada On.

Page 175: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA VEROSIMILITUD165

Observese que para calcular el estadıstico Wn solo es necesario calcular elestimador maximo verosımil global. Por este motivo se le llama a veces test

de la maxima verosimilitud.

Observese que la expresion del test de la razon de verosimilitudes es com-pletamente diferente de las expresiones de los test del score o de Wald. Sinembargo, es facil ver (usando desarrollos de Taylor) que los tres contrastes sonasintoticamente equivalentes en el sentido siguiente:

TSn + 2 log λ(x˜ n) −→P 0, Wn + 2 log λ(x˜ n) −→P 0.

En muestras finitas los tres tests pueden presentar diferencias.

Ejemplo 72En un experimento de Bernoulli con probabilidad de exito p que se repite n

veces, se llama X al numero de exitos observados: X ∼ B(n, p). Se trata decontrastar las hipotesis

H0 : p = p0

H1 : p 6= p0

mediante los contrastes de la razon de verosimilitudes, del score y de Wald.

Calculamos el logaritmo de la verosimilitud,

l (p, x˜ ) = log(

n

x

)+ x log p + (n− x) log(1− p),

y sus primeras derivadas respecto al parametro,

∂ l (p, x˜ )

∂p=

x

p− n− x

1− p=

x− np

p(1− p),

∂2l (p, x˜ )

∂p2= − x

p2+

n− x

(1− p)2=

x(2p− 1)− np2

p2(1− p)2.

Ası, el EMV esp =

x

n.

y la informacion de Fisher es

In(p) = E

(−

∂2l (p, x˜ )

∂p2

)=

n

p(1− p).

El estadıstico del test del score es

TSn = (In(p0))−1

(−

∂ l (p, x˜ )

∂p

)2

=

p0(1− p0)n

(x− np0

p0(1− p0)

)2

=(x− np0)2

np0(1− p0),

Page 176: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

166 CAPITULO 5. CONTRASTES DE HIPOTESIS

y el del test de Wald

Wn = (p− p0)2n

p(1− p)=

(x− np0)2

np(1− p).

Por su parte, el estadıstico del test de la razon de verosimilitudes es

λ(x) =maxp=p0 L(p|x)

maxp∈(0,1) L(p|x)=

L(p0|x)L(p|x)

,

y

Qn = −2 log λ(x) = 2 (log L(p|x)− log L(p0|x)) = 2 (l (p|x)− l (p0|x)) =

2 (x log p + (n− x) log(1− p)− x log p0 − (n− x) log(1− p0)) =

2x (log p− log(1− p)− log p0 + log(1− p0)) + 2n (log(1− p)− log(1− p0)) =

2x log1− p0

1− p− 2x log

p0

p− 2 log

1− p0

1− p.

Desarrollando la funcion log en serie de Taylor hasta el orden 2 alrededor del 1,se obtiene que la expresion aproximada de Qn coincide con Wn.. .

5.6.3. Contrastes en presencia de parametros secundarios.

Acabamos de ver dos metodos generales (el test del score y el test de Wald)para construir contrastes cuando la hipotesis nula es simple. Hemos visto queestan relacionados con el contraste de la razon de verosimilitudes. Sin embargoeste ultimo test es aplicable aun cuando la hipotesis nula sea compuesta.

Veremos ahora que los tests del score y de Wald tambien pueden aplicarseaunque no todos los parametros del modelo queden fijados en la hipotesis nula.Aquellos parametros a los que H0 no hace referencia se denominan parametros

secundarios o parametros nuisance, en ingles.

Suponemos que el vector de parametros θ puede subdividirse en dos sub-conjuntos, θt = (αt, βt), con dimension de α igual a p < k, y que se deseancontrastar las hipotesis

H0 : α = α0

H1 : α 6= α0

Sea (αn, βn) el EMV de (α, β) construido a partir de una muestra de tamanon. Entonces se tiene que

(αn

βn

)≈ Nk

((α

β

), (In(α, β))−1

).

Se trata ahora de derivar contrastes basados en la distribucion asintotica de√n(αn − α).

Page 177: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA VEROSIMILITUD167

Escribimos la matriz de informacion de Fisher en bloques,

In(α, β) =(

In,αα(α, β) In,αβ(α, β)In,βα(α, β) In,ββ(α, β)

)

de forma que In,αα(α, β) es la matriz de varianzas-covarianzas de las componen-tes α de la funcion score. Afirmaciones analogas son ciertas para los restantesbloques. Observese que In,βα(α, β) = In,αβ(α, β)t. Para facilitar la notacion,llamaremos Iij al bloque (i, j) de In(α, β), para i = 1, 2 y j = 1, 2.

Invertimos la matriz In(α, β) mediante las formulas de una matriz divididaen bloques y obtenemos que el bloque correspondiente a la varianza de αn es

(I11 − I12I

−122 I21

)−1.

Ası, definimos la informacion sobre α ajustada despues de haber esti-

mado β como el inverso de esa matriz:

In,αα|β(α, β) = I11 − I12I−122 I21.

La distribucion marginal aproximada de αn es

αn ≈ Np

(α,

[In,αα|β(α, β)

]−1)

.

El estadıstico del test de Wald es

Wn = (αn − α0)tIn,αα|β(αn, βn) (αn − α0) ,

que bajo H0 tiene distribucion aproximada χ2p. Se rechazara H0 a nivel τ ∈ (0, 1)

si Wn > χ2p,τ .

Vamos ahora a deducir la expresion del test del score apropiado paraesta situacion. Se estima β mediante β0, el EMV de β calculado suponiendo queα = α0, es decir, resolviendo en β el sistema de ecuaciones Sn,β(α0, β) = 0. Delas propiedades usuales de los estimadores maximo verosımiles se deduce quebajo H0

Sn,α(α0, β0) ≈ Np

(0, In,αα|β(α0, β)

).

Por tanto, el estadıstico del test del score es

TSn = [Sn,α(α0, β0)]t

[In,αα|β(α0, β0)

]−1 [Sn,α(α0, β0)]

que bajo H0 es aproximadamente χ2p (de hecho, es asintoticamente equivalente

a Wn). Se rechazara H0 a nivel τ ∈ (0, 1) si TSn > χ2

p,τ .

Para deducir la prueba de la razon de verosimilitudes hay que ajustartanto el modelo global como el reducido:

Qn = −2 log λ(x˜ n) = 2[l (αn, βn)− l (α0, β0)],

que bajo H0 es aproximadamente χ2p y asintoticamente equivalente a Wn y a

TSn .

Page 178: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

168 CAPITULO 5. CONTRASTES DE HIPOTESIS

Ejemplo 73Modelo de regresion exponencial. Supongamos que en n individuos inde-pendientes se mide el valor de una covariable xi y el de una variable respuestaYi. Supongamos que las variables aleatorias Yi son exponenciales con tasa defallo 1/E[Yi] = exp(α + βxi), donde α, β ∈ IR.

Interesa saber si la covariable esta asociada con la respuesta, ası que seplantea el contraste

H0 : β = 0H1 : β 6= 0

Buscaremos el test de Wald, el del score y el de maxima verosimilitud. Calcula-mos la verosimilitud:

L(α, β|(yi, xi), 1 ≤ i ≤ n) =n∏

i=1

exp(α + βxi) exp(−yi exp(α + βxi)) =⇒

l (α, β|(yi, xi), 1 ≤ i ≤ n) =n∑

i=1

α + βxi − yi exp(α + βxi) =

nα + β

n∑

i=1

xi −n∑

i=1

yi exp(α + βxi)

Calculamos las funciones score:

Sα(α, β) =∂ l∂α

= n−n∑

i=1

yi exp(α + βxi),

Sβ(α, β) =∂ l∂β

=n∑

i=1

xi −n∑

i=1

yixi exp(α + βxi).

Los componentes de la matriz de informacion observada vienen dados por lasderivadas de los scores:

− ∂2l

∂α2 =n∑

i=1

yi exp(α + βxi),

− ∂2l∂α∂β

=n∑

i=1

yixi exp(α + βxi),

− ∂2l∂β2

=n∑

i=1

yix2i exp(α + βxi).

Como E(Yi) = 1/ exp(α + βxi) para cada i, tomando esperanzas de las expre-siones anteriores se obtiene la matriz de informacion:

In(α, β) =(

n∑n

i=1 xi∑ni=1 xi

∑ni=1 x2

i

)

La informacion para β ajustada por α es

Iββ|α = Iββ − IβαI−1ααIαβ =

n∑

i=1

x2i − (

n∑

i=1

xi)21n

=n∑

i=1

(xi − x)2

Page 179: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.6. CONTRASTES RELACIONADOS CON EL DE MAXIMA VEROSIMILITUD169

El estimador de maxima verosimilitud conjunto (αn, βn) se calcula resolvien-do numericamente el sistema de ecuaciones

Sα(α, β) = 0Sβ(α, β) = 0

⇐⇒

n =∑n

i=1 yi exp(α + βxi)∑ni=1 xi =

∑ni=1 xiyi exp(α + βxi)

Por su parte, el estimador de maxima verosimilitud de α bajo la hipotesis nulade que β = 0 puede calcularse explıcitamente, pues en ese caso Yi son una m.a.s.de Y ∼ exp(exp(α)), y sabemos que en este caso el EMV es

α0 = log(n/

n∑

i=1

yi).

Sea β0 = 0. Ahora tenemos todas los elementos necesarios para calcular losestadısticos de los trest contrastes:

Test de Wald.

Wn = (βn − β0)tIββ|α(βn − β0) = β2n

n∑

i=1

(xi − x)2H0≈ χ2

1.

Test del score. El score calculado en el EMV bajo H0 es

Sβ(α0, 0) =n∑

i=1

xi −n∑

i=1

yixin∑n

i=1 yi=

n∑

i=1

xi

(1− yi

y

)

y tiene varianza aproximadamente igual a

Iββ|α =n∑

i=1

(xi − x)2,

ası que

Sβ(α0, 0)√Iββ|α

=

∑ni=1 xi

(1− yi

y

)√∑n

i=1(xi − x)2≈H0 N(0, 1),

luego

TSn =

(n∑

i=1

xi

(1− yi

y

))2 n∑

i=1

(xi − x)2H0≈ χ2

1.

Test de la razon de verosimilitudes.

−2 log λ =

2

[nαn + βn

n∑

i=1

xi −n∑

i=1

yi exp(αn + βnxi)− n log(n/

n∑

i=1

yi)− n

]

que bajo H0 es aproximadamente χ21.

. .

Page 180: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

170 CAPITULO 5. CONTRASTES DE HIPOTESIS

5.7. Contrastes bayesianos

El enfoque bayesiano de los contrastes de hipotesis es conceptualmente dife-rente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H0 yH1 las hipotesis que se van a contrastar, que en un modelo parametrico seranafirmaciones sobre el parametro θ de la forma θ ∈ Θ0 y θ 6∈ Θ0, respectivamente.

En un marco frecuentista las hipotesis son siempre ciertas o estrictamentefalsas, dado que si θ ∈ Θ0 entonces H0 es cierta y por tanto

P (H0 es cierta|x) = 1 para todo x, y P (H1 es cierta|x) = 0 para todo x,

mientras que si θ 6∈ Θ0 esas probabilidades son, respectivamente, 0 y 1 sea cualsea el valor de x observado.

En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de

P (H0 es cierta|x) y P (H1 es cierta|x),

las probabilidades de que cada una de las hipotesis sean ciertas despues de haberobservado los datos x. Estas probabilidades proporcionan informacion util sobrela veracidad de H0 y H1.

Sea X1, . . . , Xn una muestra aleatoria simple de X ∼ f(x|θ) y θ una variablealeatoria con funcion de densidad (o de probabilidad) a priori π(θ). El contrastede H0 frente a H1 se basara en la distribucion a posteriori π(θ|x˜ ), donde x˜ esla m.a.s. de X observada. El contraste planteado es

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1 = Θc0

Las probabilidades a posteriori de cada una de las hipotesis son

P (H0 es cierta|x˜ ) = P (θ ∈ Θ0|x˜ ) =∫

Θ0

π(θ|x˜ )dθ,

P (H1 es cierta|x˜ ) = P (θ ∈ Θ1|x˜ ) =∫

Θ1

π(θ|x˜ )dθ.

El procedimiento para aceptar o rechazar H0 podrıa ser, por ejemplo, recha-zar H0 si

P (θ ∈ Θ0|x˜ ) < P (θ ∈ Θ1|x˜ )

y aceptarla en caso contrario. Con la terminologıa introducida en las seccionesanteriores, el estadıstico del contraste serıa

T (X˜ ) = P (θ 6∈ Θ0|X˜ )

y la region crıticax˜ : P (θ 6∈ Θ0|x˜ ) > 1/2.

Un procedimiento mas conservador consiste en rechazar H0 solo si la probabi-lidad de que sea falsa, dados los datos x˜ , es mayor que c > 1/2 (por ejemplo,puede tomarse c = 0,95 o c = 0,99).

Page 181: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.7. CONTRASTES BAYESIANOS 171

Ejemplo 74Sea X1, . . . , Xn m.a.s. de X ∼ N(θ, σ2), con σ2 conocida. La distribucion apriori de θ es N(µ, τ2), con µ y τ2 conocidos. Contrastamos

H0 : θ ≤ θ0

H1 : θ > θ0

Tal como se vio en la seccion 3.3, la distribucion a posteriori de θ es N(µp, τ2p ),

donde

µp =nτ2x + σ2µ

nτ2 + σ2, τp =

τ2σ2

nτ2 + σ2.

Rechazar H0 si y solo si

P (θ ∈ Θ0|x˜ ) < P (θ ∈ Θ1|x˜ ),

es equivalente a hacerlo si y solo si

P (θ ≤ θ0|x˜ ) <12,

y como π(θ|x˜ ) es simetrica y centrada en µp, esto es cierto si y solo si

µp =nτ2x + σ2µ

nτ2 + σ2> θ0 ⇐⇒ x > θ0 +

σ2(θ0 − µ)nτ2

.

. .

5.7.1. Ventaja a priori y a posteriori. Factor de Bayes

En el marco de la inferencia bayesiana, la forma de proceder es determinarla ventaja a posteriori de H0 (en ingles, posterior odds),

Q∗ =P (H0|x˜ )

P (H1|x˜ )

y la conclusion del contraste se expresa diciendo que H0 es Q∗ veces mas probableque H1, dados los datos.

Alternativamente, y dado que P (H0|x˜ ) + P (H1|x˜ ) = 1, se tiene que

Q∗

1 + Q∗= P (H0|x˜ ), y

11 + Q∗

= P (H1|x˜ )

son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas.Observese que en el enfoque bayesiano se tratan las dos hipotesis, la nula y laalternativa, de forma simetrica.

Page 182: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

172 CAPITULO 5. CONTRASTES DE HIPOTESIS

Mediante el teorema de Bayes, podemos expresar Q∗ de la forma siguiente:

Q∗ =P (H0|x˜ )

P (H1|x˜ )=

f( x˜ |H0)P (H0)

h( x˜ )

f( x˜ |H1)P (H1)

h( x˜ )

=P (H0)P (H1)

f(x˜ |H0)

f(x˜ |H1)= Q ·B,

donde Q = P (H0)/P (H1) es la ventaja a priori de H0 y representa lacreencia del investigador sobre que hipotesis es cierta antes de realizar el experi-mento, y B = f(x˜ |H0)/f(x˜ |H1) es el factor de Bayes, que determina comolos datos observados han cambiado esas creencias sobre que hipotesis es cierta.A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de lasdos hipotesis. El interes se centra entonces en el factor de Bayes, pues este valores el que determina como los datos modifican las creencias sobre que hipotesises cierta.

En general H0 especifica el modelo muestral f0(x|θ) y una distribucion apriori para θ, mientras que H1 especifica otro modelo parametrico f1(x|φ) yuna distribucion a priori sobre φ. Con esta formulacion, los contrastes baye-sianos permiten comparar modelos parametricos diferentes. Por ejemplo, en unproblema de regresion lineal se podrıan comparar dos conjuntos de regresoresdiferentes.

Veremos ahora como se concretan los contrastes bayesianos en tres situa-ciones en las que el modelo parametrico bajo ambas hipotesis es el mismo: elcontraste de dos hipotesis simples, el de dos compuestas y el de una simple frentea una compuesta.

5.7.2. Contraste de dos hipotesis simples.

Se trata de contrastar H0 : θ = θ0

H1 : θ = θ1

Dar una distribucion a priori para el parametro consiste en fijar valores paraP (H0) y P (H1).

En este caso el factor de Bayes es

B =f( x˜ |θ0)

f( x˜ |θ1),

que es el cociente de verosimilitudes que sirve de estadıstico al test derivado delLema de Neyman-Pearson.

Page 183: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.7. CONTRASTES BAYESIANOS 173

Ejemplo 75Sea X1, . . . , Xn m.a.s. de X ∼ exp(θ). Ası,

f(x˜ |θ) = θn exp

−θ

n∑

i=1

xi

y

B =(

θ0

θ1

)n

exp

(θ1 − θ0)

n∑

i=1

xi

.

La ventaja a posteriori de H0 es

Q∗ =P (H0)P (H1)

(θ0

θ1

)n

exp

(θ1 − θ0)

n∑

i=1

xi

.

. .

5.7.3. Contraste de dos hipotesis compuestas.

Se trata de contrastar

H0 : θ ∈ Θ0

H1 : θ ∈ Θ1 = Θc0

Para cada hipotesis se debe determinar una distribucion a priori del parametroθ (estas podrıan coincidir). Sean

π0(θ|H0) y π1(θ|H1),

la distribuciones a priori de θ bajo H0 y bajo H1, respectivamente. Ası,

f(x˜ |H0) =∫

Θ0

f(x, θ|H0)dθ =∫

Θ0

f(x|θ)π0(θ|H0)dθ,

y

f(x˜ |H1) =∫

Θ1

f(x, θ|H1)dθ =∫

Θ1

f(x|θ)π1(θ|H1)dθ,

Por lo tanto, el factor de Bayes es

B =

∫Θ0

f(x|θ)π0(θ|H0)dθ∫Θ1

f(x|θ)π1(θ|H1)dθ.

5.7.4. Contraste de hipotesis nula simple frente a alterna-

tiva compuesta.

Se trata de contrastar H0 : θ = θ0

H1 : θ 6= θ0

Page 184: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

174 CAPITULO 5. CONTRASTES DE HIPOTESIS

Combinando los dos casos anteriores, se tiene que el factor de Bayes es en estecaso

B =f(x|θ0)∫

θ 6=θ0f(x|θ)π1(θ|H1)dθ

.

Observese que si la distribucion a priori de θ es absolutamente continuaentonces la probabilidad a posteriori de H0 sera igual a 0, lo cual implica queQ∗ sera siempre 0, sean cuales sean los datos observados, y H0 sera rechazadasiempre. Sin embargo el factor de Bayes B sı es calculable y recoge la informacionesencial que los datos aportan sobre la veracidad de H0 y H1. En este caso esposible establecer a priori un valor para Q y definir Q∗ como el producto de Q

por B.

Ejemplo 76Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar

H0 : θ = θ0

H1 : θ 6= θ0

La verosimilitud es

f(x˜ |θ) = e−nθ θ∑n

i=1xi

∏ni=1 xi!

.

Se considera la distribucion a priori de θ bajo H1 como la distribucion conjugada,una γ(α1, α2):

π1(θ|H1) =1

Γ(α1 + 1)1

αα1+12

θα1e−θ/α2 .

El numerador del factor de Bayes es f(x˜ |θ0) y el denominador∫

θ 6=θ0

f(x|θ)π1(θ|H1)dθ =

θ 6=θ0

e−nθ θ∑n

i=1xi

∏ni=1 xi!

1Γ(α1 + 1)

1αα1+1

2

θα1e−θ/α2dθ =

Γ(α1 +∑n

i=1 xi + 1)∏n

i=1 xi!Γ(α1 + 1)αα1+12 (n + 1/α2)

α1+∑n

i=1xi+1

×

∫ ∞

0

(n + 1/α2)α1+

∑n

i=1xi+1θα1+

∑n

i=1xie(n+1/α2)θ

Γ(α1 +∑n

i=1 xi + 1)dθ =

Γ(α1 +∑n

i=1 xi + 1)

αα1+12

∏ni=1 xi!Γ(α1 + 1)(n + 1/α2)

α1+∑n

i=1xi+1

.

Ası,

B =e−nθ0 θ

∑n

i=1xi

0∏n

i=1xi!

Γ(α1+∑n

i=1xi+1)

αα1+12

∏n

i=1xi!Γ(α1+1)(n+1/α2)

α1+∑n

i=1xi+1

=

Page 185: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.7. CONTRASTES BAYESIANOS 175

αα1+12 e−nθ0θ

∑n

i=1xi

0 Γ(α1 + 1)(n + 1/α2)α1+

∑n

i=1xi+1

Γ(α1 +∑n

i=1 xi + 1).

Supongamos que se observan seis datos,

x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2,

de donde∑

xi = 19, y que se quieren contrastar

H0 : θ = 2H1 : θ 6= 2

con

π1(θ|Θ1) ∼ γ(α1 = 2,6, α2 = 1/0,6).

La esperanza y la varianza a priori son, respectivamente,

E =2,6 + 1

0,6= 6, V =

2,6 + 10,62

= 10.

Ası, el factor de bayes es

B =219e−6·2Γ(2,6 + 1)(6 + 0,6)2,6+19+1

0,62,6+1Γ(2,6 + 19 + 1)= 0,77.

Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja aposteriori es

Q∗ = Q ·B = 0,5 · 0,77 = 0,385

y se concluirıa que H1 es la hipotesis cierta.

Supongamos que la distribucion a priori tuviese parametros α1 = 35 y α2 =1/6. Entonces E = 6 y V = 1. En este caso se llegarıa a que

B = 3,16 y Q∗ = 1,58,

luego se seguirıa que H0 es la hipotesis correcta. El siguiente grafico ilustra lasdiferencias entre las dos situcaiones que acabamos de considerar.

Page 186: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

176 CAPITULO 5. CONTRASTES DE HIPOTESIS

0 5 10 150

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5Distribuciones a priori

θ

p(θ|

H1)

p(θ|H1,α

1=2.6, α

2=0.6)

p(θ|H1,α

1=35, α

2=6)

θ Media de x1,...,x

n

. .

En el contraste de una hipotesis nula simple frente a una alternativa com-puesta el factor de bayes puede calcularse de un modo alternativo, tal y comoespecifica por el siguiente teorema.

Teorema 45 Si f(x|θ) es continua en θ = θ0, entonces

B = lımθ−→θ0

π(θ|x˜ ,H1)

π(θ|H1)

donde π(θ|x˜ ,H1) es la densidad a posteriori de θ y π(θ|H1) es la a priori.

Demostracion: Por la hipotesis de continuidad se tiene que

f(x˜ |H0) = lımθ−→θ0

f( x˜ |θ,H1).

Como f( x˜ |θ,H1) = f( x˜ |H1)π(θ|x˜ ,H1)/π(θ|H1), se tiene que

f(x˜ |H0) = f(x˜ |H1) lımθ−→θ0

π(θ|x˜ ,H1)

π(θ|H1)=⇒ B =

f( x˜ |H0)

f( x˜ |H1)= lım

θ−→θ0

π(θ|x˜ ,H1)

π(θ|H1).

2

Page 187: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.8. LISTA DE PROBLEMAS 177

5.8. Lista de problemas

Definiciones basicas. Contrastes mas potentes

1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearsonpara encontrar la region crıtica del test mas potente para contrastar H0

frente a H1 en las siguientes situaciones.

a) X1, . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0, H1 : θ = θ1,θ1 > θ0.

b) X1, . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1. H0 : θ = θ0,H1 : θ = θ1, θ1 > θ0.

c) X1, . . . , Xn es m.a.s. de X ∼ N(µ, σ2), Y1, . . . , Ym es m.a.s. de Y ∼N(θ, τ2), las dos muestras son independientes y σ2 y τ2 son conocidas.H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos.

2. (Garthwaite, Jollife y Jones 1995, 4.2) En el ultimo apartado del ejercicioanterior, supongamos que σ2 = τ2 = δ = 1, que n = m y que hacemos elcontraste optimo a nivel α = 0,01.

a) Calcula la potencia del test si n = 10.

b) Calcula el menor valor de n tal que la potencia sea mayor o igual que0,95.

3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1, . . . , Xn una m.a.s. de unadistribucion gamma de parametros (3, θ) con densidad

f(x; θ) =1

2θ3x2e−x/θI(0,∞)(x).

a) Encuentra el test mas potente para contrastar H0 : θ = θ0 frente aH1 : θ = θ1, donde θ1 > θ0.

b) Utiliza los resultados obtenidos para dar el test uniformemente maspotente para contrastar H0 frente a H ′

1 : θ > θ0.

4. (Garthwaite, Jollife y Jones 1995, 4.5) Sea X1, . . . , Xn una m.a.s. de unadistribucion lognormal de parametros (µ, 1). Prueba que existe un testuniformemente mas potente para contrastar H0 : µ = µ0 frente a H1 : µ >

µ0 e indica que forma tiene.

5. (Garthwaite, Jollife y Jones 1995, 4.7) Sea X1, . . . , Xn una m.a.s. de unavariable aleatoria X. Se considera el contraste

H0 : X ∼ U(0, 1)H1 : X ∼ f(x; θ) = θeθx/(eθ − 1), 0 ≤ x ≤ 1, θ > 0, θ desconocido

Prueba que hay un test uniformemente mas potente y da la region crıticaaproximada para n suficientemente grande.

Page 188: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

178 CAPITULO 5. CONTRASTES DE HIPOTESIS

6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X ∼ f(x), una funcion dedensidad desconocida. Se toma una muestra de tamano n para contrastarH0 : f(x) = f0(x) frente a H1 : f(x) = f1(x), donde f0 y f1 son densidadesconocidas con el mismo soporte.

a) Considera las densidades de la forma λf0(x)+(1−λ)f1(x), λ ∈ [0, 1],para expresar H0 y H1 como hipotesis parametricas.

b) Considera

f0(x) =1√2π

e−x22 , f1(x) =

12e−|x|,

y prueba que entonces la region crıtica del test mas potente paracontrastar H0 frente a H1 es de la forma

R = x˜ ∈ IRn :n∑

i=1

(|xi| − 1)2 ≥ k

para algun k.

c) Evalua esa region crıtica para n = 1 y k = 1. ¿Es el test insesgado?

d) Evalua esa region crıtica para n = 1 y k = 1/4.¿Es el test insesgado?

Contrastes de la razon de verosimilitudes, scores y Wald

7. Sea X1, . . . , Xn una m.a.s. de X ∼ N(µ, σ2) con ambos parametros des-conocidos.

a) Considera el contraste

H0 : µ = µ0

H1 : µ 6= µ0

Comprueba que el test de la razon de verosimilitudes conduce al testt usual, que tiene region crıtica

Rα = x˜ ∈ IRn : −tn−1,α/2 ≤√

n(x− µ0)S

≤ tn−1,α/2c,

donde Ac denota el complementario del conjunto A.

b) Considera el contraste

H0 : σ2 = σ20

H1 : σ2 6= σ20

Comprueba que el test de la razon de verosimilitudes tiene regioncrıtica

Rα = x˜ ∈ IRn : C1 ≤ (n− 1)S2

σ20

≤ C2c,

para constantes C1 y C2 elegidas convenientemente.

Page 189: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.8. LISTA DE PROBLEMAS 179

8. Sea X1, . . . , Xn m.a.s. de X ∼ N(µ, σ2) y Y1, . . . , Ym m.a.s. de Y ∼N(θ, τ2). Las dos muestras son independientes. Los cuatro parametrosson desconocidos.

a) Suponiendo que σ2 = τ2, comprueba que el test de la razon de vero-similitudes para contrastar

H0 : µ = θ

H1 : µ 6= θ

conduce al contraste usual para la diferencia de medias.

b) Da la region crıtica del test de la razon de verosimilitudes para con-trastar

H0 : σ2 = τ2

H1 : σ2 6= τ2

c) En el caso especial de n = m, comprueba que el test anterior sereduce al test F usual para contrastar igualdad de varianzas.

9. Sean dos muestras independientes, X1, . . . , Xm m.a.s. de X ∼ Exp(λ1), eY1, . . . , Yn m.a.s. de Y ∼ Exp(λ2) (los parametros son las inversas de lasesperanzas). Sean Xm e Y n las respectivas medias muestrales. Considera-mos el test

H0 : λ1 = λ2

H1 : λ1 < λ2

a) Probar que bajo H0

Xm

Y n

∼ F2m,2n

(indicacion: Probar que si X es exponencial con esperanza 2, enton-ces X es tambien χ2 con dos grados de libertad. Probar que si X e Y

son variables aleatorias independientes e identicamente distribuidessegun una Exp(λ), entonces (X/Y ) ∼ F2,2).

b) Probar que la region crıtica del test de la razon de verosimilitudes pa-ra contrastar H0 frenta a H1 puede expresarse en funcion del cocienteXm/Y n y de cuantiles de una distribucion F con grados de libertadconvenientes.

c) Los siguientes datos corresponden a tiempos de llegada a un incidentede dos servicios de urgencia: guardia urbana y bomberos.

Tiempo (minutos) de llegada dela guardia urbana a un accidentede trafico urbano

2,65 2,98 5,61 6,61 2,50 0,65 3,741,12 5,34 0,40 1,93 4,87

Tiempo (minutos) de llegada delos bomberos a un incendio en elcasco urbano.

6,89 3,48 4,91 5,04 9,17 2,20 1,056,09

Page 190: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

180 CAPITULO 5. CONTRASTES DE HIPOTESIS

Se supone que los tiempos de llegada se distribuyen segun una leyexponencial. Usar el test de razon de verosimilitudes para contrastarsi los tiempos medios de llegada de ambos servicios son iguales frentea que la guardia urbana llega en promedio antes que los bomberos.Hacerlo a un nivel de significacion α = 0,05.

10. Se toma una muestra de tamano n de una variable aleatoria Poisson(θ)para contrasrtar H0 : θ = θ0 frente a H1 : θ 6= θ0. Encontrar el estadısticode los siguientes tests.

a) Test de razon de verosimilitudes.

b) Test del score.

c) Test de Wald.

11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,pero no contagiosa, suceden aleatoria y uniformemente en una poblacion,el numero de muertes en una region con poblacion igual a P (es decir, conun numero de habitantes igual a P ) se modela con una ley de Poisson demedia µP , µ ∈ [0, 1].

a) Suponemos que el numero de muertes observadas en n regiones conpoblaciones P1, P2, . . . , Pn son Y1, Y2, . . . , Yn. Deriva una expresionpara el estimador de maxima verosimilitud de µ. Llamalo µ.

La siguiente tabla da el numero de muertos por cancer de hıgado (el cancerde hıgado se puede considerar una enfermedad rara) durante 4 anos en lasregiones de Ontario (Canada).

Regionses Pi MuertesRegion 1 423.447 37Region 2 175.685 11Region 3 1.245.379 72Region 4 413.465 40Region 5 216.476 12Region 6 242.810 14Region 7 213.591 16Region 8 166.045 9Region 9 265.880 15Region 10 116.371 12

b) Encuentra µ para estos datos y calcula el numero de muertes espe-radas en cada region.

c) Supongamos ahora que Y1, Y2, . . . , Yn son variables aleatorias de Pois-son de medias λ1, λ2, . . . , λn y sean P1, P2, . . . , Pn constantes positi-vas conocidas. Considera la hipotesis:

H0 : λ1 = µP1, λ2 = µP2, . . . , λn = µPn

Page 191: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

5.8. LISTA DE PROBLEMAS 181

donde µ es desconocido. Demuestra que el estadıstico del test de larazon de verosimilitudes para contrastar esta hipotesis es

−2 log Λ = 2n∑

i=1

Yi log(Yi/λi)

donde λi = µPi y µ es el estimador de maxima verosimilitud encon-trado en el apartado (a).

d) Aplica este ultimo resultado para concluir si las tasas de muerte (pro-porcion de muertos en cada poblacion) de las 10 regions son propor-cionales a las poblaciones de las regiones.

12. (Examen julio 2000) Sea X v.a. con densidad

f(x;β) =β

xβ+1I[1,∞)(x), β > 0.

a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )).

b) Se observa una muestra de tamano n de X. Contrasta a nivel α

H0 : β = 1H1 : β 6= 1

usando el test de la razon de verosimilitudes, el test de Wald y el testdel score.

c) Aplica los tests anteriores para α = 0,05 al caso de haber observadolos siguientes datos:

2,2263, 1,6464, 1,1788, 1,5014, 3,1677,

1,3762, 5,0698, 1,7471, 1,8849, 16,0879

(Suma de los datos= 35.8865; producto de los datos= 7595.66).

Contrastes bayesianos

13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido.Una de las dos hipotesis siguientes es cierta:

H0 : θ =12

o H1 : θ =34.

Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor quesu probabilidad a priori si y solo si x log 3 < n log 2.

14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1, . . . , Xn una m.a.s. de unadistribucion exponencial de esperanza 1/θ, θ > 0. Se desea contrastarH0 : θ = 1 frente a H1 : θ 6= 1, donde estas hipotesis tienen probabilidades

Page 192: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

182 CAPITULO 5. CONTRASTES DE HIPOTESIS

a priori P (H0) = p y P (H1) = 1 − p. Si la distribucion a priori de θ esγ(α, β), con α y β conocidos, determina la ventaja a posteriori

Q∗ =P (H0|x˜ )

P (H1|x˜ )= Q ·B,

donde Q es la ventaja a priori y B es el factor de Bayes, de dos formasdistintas: aplicando primero directamente la definicion del factor de Bayesy, despues, calculando B como lımite de cocientes entre probabilidades aposteriori y a priori bajo H1.

15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1, . . . , Xn una m.a.s. de unaN(θ, 1). Se consideran dos hipotesis: H0 : θ = 1 y H1, con P (H0) = p yP (H1) = 1− p.

a) Suponiendo que H1 especifica que θ = −1, prueba que

P (H0|x˜ ) =pe

∑n

i=1xi

pe∑n

i=1xi + (1− p)e−

∑n

i=1xi

.

b) Suponiendo que H1 especifica que θ 6= 1 y que bajo H1 la distribuciona priori de θ es N(0, 1), determina P (H0|x˜ ) en el caso especial deque

∑ni=1 xi = n.

Page 193: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 6

Estimacion por intervalos

Referencias: Casella-Berger, capıtulo 9 y Cristobal (1992), capıtulo

15.

En los capıtulos 3 y 4 se han estudiado los estimadores puntuales. Estosestimadores ofrecen un unico valor como estimacion del parametro desconocidoθ. En este capıtulo se aborda el problema de la estimacion por conjuntos,donde se estudian estimadores que proporcionan un conjunto como estimacionde θ. El resultado de una estimacion por conjuntos es una afirmacion del tipo“θ ∈ C”, donde C = C(x˜ ) es un subconjunto del espacio parametrico Θ quedepende de los datos observados x˜ . En el caso de que Θ ⊆ IR los conjuntos quese suelen usar para realizar inferencias sobre θ son intervalos.

6.1. Intervalos de confianza

Un estimador por intervalos de un parametro θ ∈ Θ ⊆ IR es cualquierpar de funciones reales L(x˜ ) y U(x˜ ) definidas en el espacio muestral X talesque L(x˜ ) ≤ U(x˜ ) para todo x˜ = (x1, . . . , xn) ∈ X . Si se observa el valorX˜ = x˜ , mediante este estimador se hace la inferencia “L( x˜ ) ≤ θ ≤ U(x˜ )”.

Al intervalo aleatorio [L(X˜ ), U(X˜ )] se le llama estimador por intervalos

de θ (o intervalo estimador de θ), mientras que al valor que ha tomado enla muestra observada [L(x˜ ), U( x˜ )] se le llama estimacion por intervalos

de θ (o intervalo estimacion de θ).

Ejemplo 77Sea X1, X2, X3, X4 una muestra de tamano 4 de X ∼ N(µ, 1). Un estimador

por intervalos de µ es [X−1, X +1]. Para cada muestra observada x1, x2, x3, x4,la estimacion por intervalos de µ es [x− 1, x + 1].. .

183

Page 194: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

184 CAPITULO 6. ESTIMACION POR INTERVALOS

Observese que si se estima un parametro θ mediante un intervalo, la infe-rencia es menos precisa que si se estima con un estimador puntual: ahora noslimitamos a afirmar que el parametro esta en un cierto conjunto, mientras queantes dabamos un valor concreto como estimacion suya. Dado que se pierde enprecision, cabe preguntarse que se gana al estimar un parametro θ mediante unintervalo, respecto a hacerlo con un estimador puntual. La respuesta es que segana en confianza: en general, la probabilidad de que un estimador sea exac-tamente igual al parametro que desea estimar es 0, mientras que la probabilidadde que un estimador por intervalos cubra al parametro sera positiva.

Ejemplo 77, pagina 183. Continuacion. Si se estima µ por X, se tiene queP (X = µ) = 0, porque X ∼ N(µ, 1/4). Sin embargo,

P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) =

P

(−2 ≤ X − µ

1/√

4≤ 2

)= 0,9544.

A costa de algo de precision, el paso de un estimador puntual a uno por inter-valos ha permitido aumentar la confianza que tenemos en que sea correcta laafirmacion hecha en la inferencia.. .

Se llama probabilidad de cobertura de un estimador por intervalos[L(X˜ ), U(X˜ )] del parametro θ a la probabilidad de que ese intervalo aleatoriocubra al verdadero valor del parametro θ:

Pθ(θ ∈ [L( X˜ ), U( X˜ )]).

Observese que esa probabilidad de cobertura puede variar con θ.

Se llama coeficiente de confianza del intervalo [L(X˜ ), U(X˜ )] comoestimador del parametro θ al ınfimo de las probabilidades de cobertura:

ınfθ∈Θ

Pθ(θ ∈ [L(X˜ ), U(X˜ )]).

Intervalo de confianza es el nombre que recibe usualmente un estimadorpor intervalos junto con su coeficiente de confianza. Tambien se nombra ası aveces a la estimacion a que da lugar el estimador por intervalos aplicado a unamuestra concreta. Ademas de C(x˜ ), se usara tambien la notacion IC1−α(θ) seusara para referirse a un intervalo de confianza (1− α) para θ.

Si se desea construir un intervalo para una transformacion invertible τ(θ) delparametro y [L(x˜ ), U( x˜ )] es un intervalo de confianza (1−α) para θ, entoncesel intervalo

[τ(L(x˜ )), τ(U(x˜ ))]

es un intervalo de confianza (1− α) para τ(θ).

Page 195: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185

Observese que en las expresiones del tipo Pθ(θ ∈ [L(X˜ ), U(X˜ )]), el valordel parametro esta fijo y lo que son variables aleatorias son los extremos delintervalo:

Pθ(θ ∈ [L(X˜ ), U( X˜ )]) = Pθ(L( X˜ ) ≤ θ ∩ U(X˜ ) ≥ θ).

6.2. Metodos para construir intervalos de con-

fianza

En esta seccion veremos cuatro metodos para construir estimadores por in-tervalos de un parametro θ ∈ Θ ⊆ IR.

6.2.1. Inversion de un contraste de hipotesis

Como veremos a continuacion, hay una estrecha relacion entre la estimacionpor intervalos y los contrastes de hipotesis. En general, se puede decir que cadametodo de construccion de un intervalo de confianza corresponde a un metodode contraste de un hipotesis, y viceversa.

Ejemplo 78Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2) con σ conocido.Consideramos el contraste

H0 : µ = µ0

H1 : µ 6= µ0.

Para hacer el contraste a nivel α el test insesgado uniformemente de maximapotencia rechaza H0 si |x − µ0| > zα/2σ/

√n, es decir, la region del espacio

muestral X en donde se acepta H0 es el conjunto de x˜ tales que

x− zα/2σ√n≤ µ0 ≤ x + zα/2

σ√n

.

Dado que el test tiene tamano α, se tiene que P (aceptar H0|µ = µ0) = 1 − α.Por lo tanto, para todo µ0

P

(X − zα/2

σ√n≤ µ0 ≤ X + zα/2

σ√n

∣∣∣∣ µ = µ0

)= 1− α,

de donde se sigue que

(X − zα/2

σ√n≤ µ ≤ X + zα/2

σ√n

)= 1− α

para todo µ, luego [X − zα/2σ/√

n, X + zα/2σ/√

n] es un estimador por inter-valos de confianza 1− α para µ.. .

Page 196: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

186 CAPITULO 6. ESTIMACION POR INTERVALOS

La correspondencia entre intervalos de confianza y contrastes de hipotesisse debe a que ambos procedimientos persiguen la consistencia entre los valoresobservados en la muestra y los parametros de la distribucion poblacional, aunquedesde perspectiva distintas. En un contraste de hipotesis se fijan los parametrosy se buscan que valores muestrales son acordes con ellos (esto es, se busca laregion de aceptacion), mientras que en la estimacion por intervalos se tomacomo fija la muestra observada y se buscan los valores de los parametros quehacen esta muestra plausible (esto es, se busca el intervalo de confianza).

El siguiente resultado prueba la relacion existente entre contrastes e inter-valos.

Teorema 46 Para cada valor θ0 ∈ Θ se denota por A(θ0) a la region de acep-tacion a nivel α de un test que contrasta H0 : θ = θ0. Para cada x˜ ∈ X sedefine el conjunto C( x˜ ) ⊆ Θ como

C(x˜ ) = θ0 ∈ Θ : x˜ ∈ A(θ0).

Entonces el conjunto aleatorio C(X˜ ) es un estimador por conjuntos de confian-za 1− α para θ.

Recıprocamente, sea C(X˜ ) un estimador por conjuntos de confianza 1 − α

para θ. Para cada θ0 ∈ Θ se define

A(θ0) = x˜ ∈ X : θ0 ∈ C( x˜ ).

Entonces A(θ0) es la region de aceptacion a nivel α de un test que contrastaH0 : θ = θ0.

Demostracion: Veamos la primera parte. Por ser A(θ0) el complementario dela region de rechazo de un test de nivel α se tiene que

Pθ0(X˜ ∈ A(θ0)) ≥ 1− α.

Dado que θ0 es un valor arbitrario del parametro, podemos escribir θ en lugarde θ0. Como x˜ ∈ A(θ) si y solo si θ ∈ C(x˜ ), se tiene que

Pθ(θ ∈ C( X˜ )) = Pθ(X˜ ∈ A(θ)) ≥ 1− α,

y se concluye que C( X˜ ) es un estimador por conjuntos de confianza 1− α.

Veamos la segunda parte. La probabilidad de error de tipo I del test cuyaregion de aceptacion es A(θ0) es

Pθ0(X˜ 6∈ A(θ0)) = Pθ0(θ0 6∈ C(X˜ )) ≤ α,

ası que este es un test de nivel α. 2

El procedimiento de construccion de intervalos de confianza (o de conjuntosde confianza, en general) a partir de la inversion de contrastes de hipotesis es muy

Page 197: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 187

util en la practica porque en general es mas sencillo un problema de contrastede hipotesis que uno de estimacion: el hecho de poder trabajar suponiendo lahipotesis nula cierta facilita la tarea. Cualquiera de los metodos de contrastede hipotesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos deconfianza.

Observese que, aunque sea θ ∈ IR, este mecanismo de inversion no garantizaque los conjuntos de confianza obtenidos sean intervalos.

Ejemplo 79Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p apartir de una observacion x de X. Para ello se invierte el test de tamano α quecontrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por region de aceptacion losvalores x que son mas probables bajo H0 hasta completar una probabilidad de(1− α).

Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tablada las regiones de aceptacion A(p) para los distintos valores de p especificadosen H0:

p A(p)[0, ,238] 0

(,238, ,305) 0,1[,305, ,362] 1(,362, ,366) 0,1[,366, ,634] 1,2(,634, ,638) 2,3[,638, ,695] 2(,695, ,762) 2,3

[,7,621] 3

Invirtiendo estas regiones de aceptacion se obtienen los siguientes conjuntos deconfianza C(x):

x C(x)0 [0, ,305) ∪ (,362, ,366)1 (,238, ,634]2 [,366, ,762)3 (,634, ,638) ∪ (,695, 1]

Observar que no todos los conjuntos de confianza que pueden aparecer son in-tervalos.. .

En la practica, sin embargo, con frecuencia sı encontraremos intervalos. Porotra parte, el tipo de intervalo encontrado dependera de la hipotesis alternativa

Page 198: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

188 CAPITULO 6. ESTIMACION POR INTERVALOS

que se considero para definir el contraste. Si la hipotesis alternativa es bilateral,en general se obtendra un intervalo de longitud finita, mientras que si la alter-nativa es unilateral, los intervalos que se encuentran tienen uno de sus extremosen −∞ o ∞.

Ejemplo 80Sea X˜ ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ

mediante la inversion de un test de tamano α. Se toma una muestra de tamanon de X. El test de la razon de verosimilitudes para contrastar

H0 : λ = λ0

H1 : λ 6= λ0

tiene por estadıstico

1λn

0e−

∑n

i=1xi/λ0

supλ1

λn e−∑n

i=1xi/λ

=1

λn0e−

∑n

i=1xi/λ0

1

(∑n

i=1xi/n)n

e−n=

(∑ni=1 xi

nλ0

)n

ene−∑n

i=1xi/λ0 .

Para un valor λ0 fijo, la region de aceptacion del test es

A(λ0) =

x˜ :(∑n

i=1 xi

λ0

)n

e−∑n

i=1xi/λ0 ≥ k∗

,

donde la constante k∗ se elige para que el test tenga tamano α, o lo que es lomismo, para que

Pλ0( X˜ ∈ A(λ0)) = 1− α.

Observese que la expresion de la region de aceptacion depende de la muestray del parametro solo a traves de v =

∑xi/λ0. Ademas, la distribucion de

V =∑n

i=1 Xi/λ0 no depende del parametro λ0:∑n

i=1 Xi ∼ γ(n, λ0) bajo H0,luego V ∼ γ(n, 1). De esto se sigue que el valor k∗ es el mismo para todo λ0.

Invirtiendo la region de aceptacion se obtiene el conjunto de confianza 1−α:

C( x˜ ) =

λ :(∑n

i=1 xi

λ

)n

e−∑n

i=1xi/λ ≥ k∗

.

La funcion g(v) = vne−v es positiva en todo IR+, vale 0 en v = 0 y tiendea 0 si v tiende a infinito. Ademas, tiene un unico punto crıtico en v = n. Sesigue que tiene un unico maximo en v = n y que los conjuntos de la formav ≥ 0 : g(v) ≤ k∗, con k∗ ≤ g(n) = nne−n, son intervalos de la forma [l, u],con l ≥ n ≥ u y g(l) = g(u) = k∗.

De ello se deduce que A(λ0) es un intervalo para cualquier valor de λ0, y quelos conjuntos de confianza C(x˜ ) tambien son intervalos para cualquier valor de∑n

i=1 xi.

Page 199: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 189

Ası pues, el intervalo de confianza obtenido sera de la forma

C(n∑

i=1

xi) =

λ : L(

n∑

i=1

xi) ≤ λ ≤ U(n∑

i=1

xi)

,

con

L(n∑

i=1

xi) =∑n

i=1 xi

u, U(

n∑

i=1

xi) =∑n

i=1 xi

l.

Los valores l y u son las soluciones del sistema de ecuaciones no lineales

g(l) = g(u)P (l ≤ V ≤ u) = 1− α

Si n = 2, V ∼ γ(2, 1) y el sistema se transforma en este:

l2e−l = u2e−u

e−l(l + 1)− e−u(u + 1) = 1− α

Si hacemos 1 − α = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u =5,4945, luego el intervalo de confianza 0.90 para λ es

[0,182∑

Xi, 2,28∑

Xi] ≡ [0,364X2, 4,56X2].

. .

6.2.2. Cantidades pivotales

Uno de los metodos mas comunes de construccion de intervalos de confianzaes el uso de cantidades pivotales.

Sea X˜ = (X1, . . . , Xn) una m.a.s. de X ∼ F (x; θ). Una funcion Q(X˜ , θ)de la muestra y del parametro es una cantidad pivotal si la distribucion deprobabilidad de Q(X˜ , θ) no depende del parametro θ, es decir, Q(X˜ , θ) tienela misma distribucion para cualquier valor de θ.

Dada una cantidad pivotal Q( X˜ , θ), para cualquier conjunto A del espacioimagen de Q se tiene que Pθ(Q(X˜ , θ) ∈ A) no depende de θ. Por lo tanto si seelige un conjunto Aα tal que

Pθ(Q( X˜ , θ) ∈ A) = 1− α, para todo θ,

y se observa la muestra X˜ = x˜ , entonces el conjunto

C(x˜ ) = θ : Q( x˜ , θ) ∈ Aes un conjunto de confianza 1− α para θ.

En el caso de que θ ∈ IR, el uso de cantidades pivotales no garantiza engeneral que el conjunto de confianza sea un intervalo.

Page 200: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

190 CAPITULO 6. ESTIMACION POR INTERVALOS

Ejemplo 81Si X tiene distribucion perteneciente a una familia de localizacion y escala, en-tonces es posible definir diferentes cantidades pivotales. Entre ellas senalaremoslas siguientes:

Familia de localizacion: fµ(x) = f(x− µ) Q( x˜ , µ) = X − µ

Familia de escala: fσ(x) = (1/σ)f(µ/σ) Q( x˜ , σ) = X/σ

Familia de localizacion fµ,σ(x) = Q1( x˜ , µ, σ) = (X − µ)/σ,y escala: (1/σ)f((x− µ)/σ) Q2( x˜ , µ, σ) = (X − µ)/S

Para ver que esas funciones son cantidades pivotales basta escribir Xi = µ+σYi,con Yi ∼ f , y comprobar que las funciones Q solo dependen de Y1, . . . , Yn.. .

Ejemplo 80, pagina 188. Continuacion. En el ejemplo 80 el intervalo deconfianza construido se baso en

V =∑n

i=1 Xi

λ,

cuya distribucion es γ(n, 1) para cualquier valor de λ, ası que V es una cantidadpivotal y el intervalo de confianza construido allı es un ejemplo de intervalobasado en una cantidad pivotal.

Si se define T = 2V , entonces T ∼ γ(n, 2), es decir T ∼ χ22n. Es mas facil

encontrar tabulada la distribucion χ22n que la distribucion gamma, por lo que T

resultara mas util en la practica.. .

En la practica, la forma en la que se construye un intervalo de confianza apartir de una cantidad pivotal es la siguiente. Supondremos que Q(x˜ , θ) ∈ IR yθ ∈ IR. Para un valor α dado, se buscan numeros a y b tales que

Pθ(a ≤ Q(X˜ , θ) ≤ b) = 1− α.

Observar que a y b no dependen de θ por ser Q cantidad pivotal, y que laeleccion de a y b no sera unica en general.

Para cada θ0, el conjunto

A(θ0) = x˜ : a ≤ Q(x˜ , θ) ≤ bes la region de aceptacion de un test de tamano α para contrastar H0 : θ = θ0

basado en el estadıstico T ( X˜ ) = Q(X˜ , θ0). Invirtiendo este contraste obtene-mos el conjunto de confianza 1− α para θ:

C(x˜ ) = θ : a ≤ Q(x˜ , θ) ≤ b.

Page 201: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 191

Si gx˜

(θ) = Q(x˜ , θ) es una funcion monotona de θ para cada x˜ fijo, entonces

se tiene garantıa de que C( x˜ ) sea un intervalo. Si gx˜

(θ) es creciente, enton-

ces C( x˜ ) = [L( x˜ , a), U(x˜ , b)], mientras que si gx˜

(θ) es decreciente, entonces

C(x˜ ) = [L( x˜ , b), U(x˜ , a)]. Si gx˜

(θ) es invertible, entonces

C(x˜ ) = [mıng−1

x˜(a), g−1

x˜(b),maxg−1

x˜(a), g−1

x˜(b)].

Ejemplo 80, pagina 188. Continuacion. En este ejemplo Q( X˜ , λ) =2

∑ni=1 Xi/λ ∼ χ2

2n. Ası, podemos elegir a = χ22n,1−α/2 y b = χ2

2n,α/2, don-de P (Y ≥ χ2

2n,p) = p para p ∈ (0, 1), y la variable Y es una χ22n.

En este caso

gx˜

(λ) = Q(x˜ , λ) =2

∑ni=1 xi

λ,

es decir gx˜

es invertible y decreciente, luego el intervalo de confianza (1 − α)

para λ sera

C(x˜ ) = [g−1

x˜(b), g−1

x˜(a)] =

[2

∑ni=1 xi

χ2n,1−α/2

,2

∑ni=1 xi

χ2n,α/2

].

En el caso de n = 2 y α = 0,1, χ24,,05 = 9,49 y χ2

4,,95 = ,71, luego el intervalo deconfianza 0.90 es

C( x˜ ) =[

4x

9,49,

4x

,71

]= [0,4215x, 5,63x].

. .

Observese que el intervalo que se acaba de calcular difiere del construido enel ejemplo 80, pese a que ambos se basan (en la practica) en la misma cantidadpivotal. Ello se debe a que, como se senalo antes, la forma de elegir los valores a

y b no es unica. Aquı se han tomado de forma que el intervalo fuese simetrico

en probabilidad, es decir, la probabilidad α que queda fuera del intervaloC(X˜ ) se reparte a partes iguales entre valores menores y mayores que los delintervalo. Esta forma de elegir a y b es la mas usada en la practica, aunqueveremos mas adelante que no da lugar, en general, a los intervalos mas cortosposibles.

Ejemplo 82Intervalos de confianza para la media y la varianza de la distribucionnormal.

Page 202: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

192 CAPITULO 6. ESTIMACION POR INTERVALOS

Si X ∼ N(µ, σ) con σ conocida, entonces la distribucion de X es de una familiade localizacion y, por tanto, Q(X˜ , µ) = (X − µ)/σ es una cantidad pivotal.Ademas,

Z =√

nQ( X˜ , µ) =√

n(X − µ)σ

∼ N(0, 1).

El intervalo de confianza (1−α) para µ simetrico en probabilidad que se derivade esta cantidad pivotal es

IC1−α(µ) = C(x˜ ) = [x− zα/2σ√n

, x + zα/2σ√n

].

Si σ es desconocido, una cantidad pivotal es Q(X˜ , µ) = (X − µ)/S. Ademas,

t =√

nQ(X˜ , µ) =√

n(X − µ)S

∼ tn−1.

El intervalo de confianza (1−α) para µ simetrico en probabilidad que se derivade esta cantidad pivotal es

IC1−α(µ) = C(x˜ ) = [x− tn−1,α/2S√n

, x + tn−1,α/2S√n

].

Si se desea dar un intervalo de confianza para σ2 o para σ, puede usarse lacantidad pivotal

Q(x˜ , σ) = (n− 1)S2/σ2 ∼ χ2n−1.

Si se eligen a y b para que el intervalo sea simetrico en probabilidad se obtienen

IC1−α(σ2) =

[(n− 1)S2

χ2n−1,α/2

,(n− 1)S2

χ2n−1,1−α/2

],

IC1−α(σ) =

[√(n− 1)S2

χ2n−1,α/2

,

√(n− 1)S2

χ2n−1,1−α/2

].

. .

Uno de los casos en los que la cantidad pivotal es monotona en el parametropara una muestra fija es aquel en que existe un estadıstico T = T (X˜ ) (esdeseable que sea un estadıstico suficiente para el parametro) con distribucionabsolutamente continua y tal que su funcion de distribucion sea monotona enel parametro. En este caso, se toma como cantidad pivotal

Q(x˜ , θ) = FT (T ( x˜ ); θ).

Por una parte Q(X˜ , θ) = FT (T ( X˜ ); θ) ∼ U(0, 1) para todo θ, luego Q escantidad pivotal, y por otra g

x˜(θ) = Q(x˜ , θ) es monotona en θ. Este metodo

es util para construir intervalos de confianza para parametros de posicion.

Page 203: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 193

Veamos ahora una forma generica de definir una cantidad pivotal que es vali-da para cualquier distribucion poblacional absolutamente continua y que siem-pre da lugar a un intervalo de confianza si el parametro es real. Supongamos queX es una variable aleatoria absolutamente continua con funcion de distribucionF (x; θ) y que esta funcion es continua y monotona en θ. Sea X1, . . . , Xn m.a.s.de X. Entonces

Ui = F (Xi; θ) ∼ U(0, 1) para todo θ, y Yi = − log Ui ∼ exp(1) ≡ γ(1, 1).

Por lo tanto,n∑

i=1

Yi ∼ γ(n, 1) y 2n∑

i=1

Yi ∼ χ22n.

Ası, se tiene que

Q( x˜ , θ) = 2n∑

i=1

Yi = −2n∑

i=1

log F (Xi; θ)

es cantidad pivotal y gx˜

(θ) = Q( x˜ , θ) es monotona en θ.

Observese que Ui = 1 − F (Xi; θ) ∼ U(0, 1), por lo que tambien se puededefinir Q a partir de los logaritmos de la funcion (1− F (Xi; θ)).

Ejemplo 80, pagina 188. Continuacion. Sea Xi es exponencial con mediaλ. En este caso es mas comodo trabajar con Ui = 1− F (Xi; λ) = e−Xi/λ. Ası,

Q(x˜ , λ) = −2n∑

i=1

log(1− F (Xi; θ)) =2

∑ni=1 Xi

λ∼ χ2

2n,

que es la misma cantidad pivotal que habıamos encontrado en el ejemplo 80.. .

6.2.3. Intervalos bayesianos

En el marco bayesiano el parametro θ es una variable aleatoria cuya dis-tribucion a priori es π(θ). Las observaciones tienen distribucion condicionadacon densidad (o funcion de masa) f(x|θ). Tras la observacion de una muestraX˜ = x˜ , la distribucion de probabilidad de θ se modifica con la informacion re-

cibida y pasa a tener la distribucion a posteriori π(θ|x˜ ). Ası, cualquier intervalo(o en general, cualquier conjunto) A ⊂ Θ tal que

P (θ ∈ A|x˜ ) =∫

A

π(θ|x˜ )dθ = 1− α

sera un intervalo bayesiano de probabilidad 1−α. El conjunto A depende de lamuestra observada a traves de π(θ|x˜ ).

Page 204: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

194 CAPITULO 6. ESTIMACION POR INTERVALOS

Observese que ahora ya no se habla de coeficiente de confianza, como en elenfoque clasico: ahora (1−α) es realmente la probabilidad de que el parametropertenezca al intervalo A y ahora el parametro es la variable aleatoria, mientrasque la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido obser-vada. Por este motivo, a los intervalos bayesianos se les denomina intervalos

de credibilidad (o mas en general, conjuntos de credibilidad).

De los infinitos intervalos A que podemos elegir de forma que

P (θ ∈ A|x˜ ) = 1− α

dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalosimetrico en probabilidad, es decir, aquel que deja a su izquierda una probabi-lidad de α/2 y otra tanta a su derecha.

Tambien puede buscarse el intervalo de credibilidad (1−α) que tenga mayor

densidad a posteriori. Es decir,

λ : π(λ|x˜ ) ≥ cα,

donde cα se elige de forma que∫

λ:π(λ| x˜ )≥cαπ(λ|x˜ )dλ = 1− α.

Ejemplo 83Sea X1, . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0,

β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1, . . . , Xn = xn

es una

γ

(α +

n∑

i=1

xi, (β−1 + n)−1

),

segun se vio en el teorema 20.

Si tomamos como distribucion a priori la γ de parametros α = β = 1,entonces la a posteriori de λ es γ(1 +

∑ni=1 xi, (n + 1)−1), luego

(2(n + 1)λ|x˜ ) ∼ χ22(

∑xi+1)

.

Si tomamos intervalos simetricos en probabilidad, obtenemos el intervalo decredibilidad (1− α)

χ22(

∑xi+1),1−α/2

2(n + 1),χ2

2(∑

xi+1),α/2

2(n + 1)

.

Si suponemos que n = 10 y que∑n

i=1 xi = 6 y tomamos 1− α = ,9, se obtieneel intervalo de credibilidad 90% para λ siguiente: [,299, 1,077].

Page 205: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.2. METODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 195

Con los mismos datos se obtiene el intervalo de credibilidad 90% con mayordensidad a posteriori para λ siguiente: [,253, 1,005]. Observese que este intervaloes mas corto que el intervalo que deja fuera dos colas con la misma probabilidad.En la siguiente figura se representan ambos.

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.60

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8Intervalos de credibilidad (1−α)=0.9 para λ

λ

Den

sida

d a

post

erio

ri de

λ

IC1−α(λ) simétrico en probabilidad

IC1−α(λ) de mayor densidad

cα=0.44

. .

6.2.4. Intervalos de verosimilitud

A partir de la funcion de verosimilitud se puede estimar un parametro me-diante un intervalo (o, mas en general, mediante un conjunto) de una formaalternativa a los intervalos de confianza vistos hasta ahora. Estos estimadoresalternativos se conocen como intervalos de verosimilitud.

Sea X1, . . . , Xn una m.a.s. de X ∼ f(x; θ). La funcion de verosimilitud deuna muestra observada x˜ es

L(θ; x˜ ) =n∏

i=1

f(xi; θ).

Esta funcion, para x˜ fijo, representa como de verosımil es la muestra x˜ paracada uno de los posibles valores de θ.

El estimador maximo verosımil de θ es el valor θ que hace maxima la vero-similitud y es un buen estimador de θ, como vimos en la seccion 4.4. Si se desea

Page 206: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

196 CAPITULO 6. ESTIMACION POR INTERVALOS

estimar θ mediante un conjunto, parece logico considerar el de los valores θ quehagan mas verosımil la muestra observada x˜ .

Para un valor cualquiera de θ se define la verosimilitud relativa de lamuestra x˜ segun θ como

R(θ; x˜ ) =L(θ; x˜ )

L(θ; x˜ ).

Dada una proporcion p ∈ (0, 1), se define el conjunto de verosimilitud al100p % para θ al conjunto

V (X˜ ) = θ : R(θ; x˜ ) ≥ p.Si θ ∈ IR, estos conjuntos de verosimilitud seran intervalos si la funcion deverosimilitud es concava para cualquier x˜ ∈ X .

Observese que hay una equivalencia clara entre los conjuntos de verosimilitudal 100p % y los intervalos de confianza (1−α) construidos a partir de la inversiondel test de razon de verosimilitudes para contrastar H0 : θ = θ0 frente a H0 :θ 6= θ0, donde entre p y α existe una relacion biyectiva.

Ejemplo 80, pagina 188. Continuacion. Sea X˜ ∼ exp(λ), λ = E(X).Los calculos realizados en el ejemplo 80 nos permiten escribir la verosimilitudrelativa como

R(λ; x˜ ) =1

λn e−∑n

i=1xi/λ

supλ1

λn e−∑n

i=1xi/λ

=

(∑ni=1 xi

)n

ene−∑n

i=1xi/λ.

Ası, el intervalo de verosimilitud al 100p % sera

V ( x˜ ) =

λ :(∑n

i=1 xi

)n

ene−∑n

i=1xi/λ ≥ p

.

Este intervalo tiene una confianza (1− α) que depende de p.

Del mismo modo, el intervalo de confianza 0.9 que se calculo en la pagina188 para n = 2, [0,364X2, 4,56X2], es tambien un intervalo de verosimilitudal 100p %, y p depende del valor (1 − α) elegido. Concretamente, en este casop = 0,23.. .

6.3. Evaluacion de estimadores por intervalos

Los intervalos de confianza (1 − α) posibles para un parametro dada unamuestra x˜ son multiples. Se plantea la cuestion de como evaluar la calidad decada intervalo y, si es posible, elegir el mejor.

Page 207: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.3. EVALUACION DE ESTIMADORES POR INTERVALOS 197

En estimacion por intervalos (o por conjuntos) hay dos cantidades que in-dican la calidad de un estimador: la longitud (o tamano) del intervalo y suprobabilidad de cobertura. Es deseable tener intervalos cortos (precision) conalta probabilidad de cobertura (confianza). Sucede que si se desea aumentar laprecision hay que disminuir la confianza y viceversa.

6.3.1. Intervalos de longitud mınima

Una practica habitual es fijar la confianza deseada para los intervalos ybuscar que intervalo con esa confianza es el que tiene longitud mınima. Se tratade un problema de optimizacion con la restriccion de que la confianza sea unadada. La siguiente proposicion da la solucion bajo ciertas condiciones.

Proposicion 4 Supongamos que se construye un intervalo de confianza (1−α)para un parametro θ ∈ IR a partir de la cantidad pivotal Q( x˜ , θ) ∈ IR y quela distribucion de Q(X˜ , θ) es absolutamente continua con funcion de densidadfQ. Se supone ademas que la funcion g

x˜(θ) = Q(x˜ , θ) es creciente, derivable

e invertible y que su inversa es la funcion h : IR −→ Θ ⊆ IR.

Si la funcion fQ/h′ es unimodal, entonces el intervalo de confianza (1− α)de longitud mınima para θ es

C(x˜ ) = [h(a∗), h(b∗)]

donde a∗ y b∗ son los valores de IR que verifican

fQ(a∗)h′(a∗)

=fQ(b∗)h′(b∗)

y ∫ b∗

a∗fQ(q)dq = 1− α.

Demostracion: Sea FQ la funcion de distribucion de Q(X˜ , θ). Tal como vimosen el apartado de la seccion 6.2 dedicado a las cantidades pivotales, los intervalosde la forma

[h(a), h(b)],

con FQ(b)− FQ(a) = 1− α, son intervalos de confianza (1− α) para θ. Ası queb depende de a de forma que

FQ(b(a))− FQ(a) = 1− α.

Derivando respecto a a obtenemos

fQ(b(a))b′(a) = fQ(a).

Page 208: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

198 CAPITULO 6. ESTIMACION POR INTERVALOS

Si buscamos el valor de a que minimiza la longitud del intervalo, hay que mini-mizar

h(b(a))− h(a).

Los puntos crıticos a∗ de esta funcion son los que cumplen

h′(b(a∗))b′(a∗) = h′(a∗) ⇐⇒ fQ(a∗)h′(a∗)

=fQ(b∗)h′(b∗)

,

donde b∗ = b(a∗). Ademas solo hay un punto a∗ que cumpla simultaneamenteesa condicion y la de que FQ(b(a∗)) − FQ(a)∗ = 1 − α, porque al ser fQ/h′

unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ/h′ obien esta estrictamente contenido en [a∗, b(a∗)] o bien lo contiene estrictamente.En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α).

Veamos ahora que la solucion unica (a∗, b(a∗)) es un mınimo. Calculamos lasegunda derivada de h(b(a))− h(a):

h′′(b(a))b′(a)2 + h′(b(a))b′′(a)− h′′(a) =

h′′(b(a))b′(a)fQ(a)

fQ(b(a))+h′(b(a))

(f ′Q(a)fQ(b(a))− f ′Q(b(a))b′(a)fQ(a)

f2Q(b(a))

)−h′′(a).

Si tenemos en cuenta que en (a∗, b(a∗)) se verifica que fQ(a)/h′(a) = fQ(b)/h′(b),la expresion anterior se transforma en esta:

h′(a)f ′Q(a)− h′′(a)fQ(a)fQ(a)

−h′(b(a))f ′Q(b(a))b′(a)fQ(a)f2

Q(b(a))+

h′′(b(a))fQ(b(a))b′(a)fQ(a)f2

Q(b(a))=

(h′(a))2

fQ(a)

(h′(a)f ′Q(a)− h′′(a)fQ(a)

(h′(a))2− h′(b(a))f ′Q(b(a))− h′′(b(a))fQ(b(a))

(h′(b(a)))2b′(a)

)=

(h′(a))2

fQ(a)

(∂(fQ(q)/h′(q))

∂q

∣∣∣∣q=a

− ∂(fQ(q)/h′(q))∂q

∣∣∣∣q=b

)

y esta cantidad es positiva por ser fQ/h′ unimodal. 2

Las modificaciones necesarias para que este resultado sea aplicable a trans-formaciones g

x˜decrecientes son inmediatas.

Un caso particular importante es aquel en que la transformacion gx˜

(θ) =

Q(x˜ , θ) es lineal. En este caso h es tambien lineal y su derivada es constante, dedonde se sigue que la condicion para que el intervalo tenga longitud mınima esque la densidad fQ tome el mismo valor en ambos extremos a y b. Si, ademas, ladistribucion de Q es simetrica, entonces los intervalos de menor longitud serantambien simetricos en probabilidad. Esto ocurre, por ejemplo, en la estimacionpor intervalos de la media poblacional de la normal.

Observese que si [L( x˜ ), U( x˜ )] es el intervalo de confianza (1−α) de mınimalongitud para θ, el intervalo [τ(L(x˜ )), τ(U(x˜ ))] es un intervalo de confianza(1− α) para τ(θ), pero este no tiene por que ser el de mınima longitud.

Page 209: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.3. EVALUACION DE ESTIMADORES POR INTERVALOS 199

En la estimacion por intervalos de un parametro de escala a veces interesamas tener el intervalo [L,U ] de mınima escala, es decir, el que tiene el menorvalor de U/L posible, en lugar del intervalo de mınima longitud. El resultadoanterior se puede usar tomando la reparametrizacion λ = log θ. El intervalo demınima longitud para λ sera de la forma [h(a∗), h(b∗)], donde h = log h y h

es la inversa de gx˜

(θ) = Q(x˜ , θ). Ası que el intervalo [h(a∗), h(b∗)] es el de

menor escala para θ. La condicion fQ(a)/h′(a) = fQ(b)/h′(b) se puede expresaren terminos de h como

fQ(a)h(a)h′(a)

=fQ(b)h(b)

h′(b).

Ejemplo 84Sea X1, . . . , Xn una m.a.s. de X ∼ N(µ, σ2). Queremos dar el intervalo deconfianza (1− α) de menor longitud para σ2, basado en la cantidad pivotal

Q(X˜ , σ2) =(n− 1)S2

σ2∼ χ2

n−1.

En este caso la transformacion gx˜

(σ2) = (n− 1)S2/σ2 y su inversa es

h(q) =(n− 1)S2

q.

La condicion que deben cumplir los cuantiles a y b de la distribucion χ2n−1 para

dar lugar al intervalo mas corto es

fQ(a)a2 = fQ(b)b2,

ademas de cumplir que Pχ2n−1

([a, b]) = 1 − α. Es facil encontrar valores de n yα para los que este intervalo no es simetrico en probabilidad.

Si se desea el intervalo mas corto para σ, entonces

h(q) =

√(n− 1)S2

q=⇒ h′(q) = −

√(n− 1)S2

1

2√

q3.

La condicion que deben cumplir a y b es

fQ(a)a3/2 = fQ(b)b3/2.

Si se desea el intervalo de menor escala para σ2 la condicion que debencumplir a y b es

fQ(a)a = fQ(b)b.

y si se quiere el de mınima escala para σ, entonces

fQ(a)a2 = fQ(b)b2.

. .

Page 210: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

200 CAPITULO 6. ESTIMACION POR INTERVALOS

6.3.2. Relacion con contrastes de hipotesis y optimalidad

El criterio de la longitud no es el unico con el que se puede evaluar unintervalo. Un concepto alternativo nace a partir de la estrecha relacion existenteentre intervalos de confianza y contrastes de hipotesis. Se trata de la probabilidadde falso cubrimiento que fue introducida por Neyman.

Sea X˜ ∼ f( x˜ ; θ) y C( x˜ ) un intervalo de confianza (1 − α) para θ basadoen la inversion de un test con region de aceptacion A(θ). La probabilidad de

verdadera cobertura es la funcion de θ definida como Pθ(θ ∈ C(X˜ )). Laprobabilidad de falsa cobertura es la probabilidad de que un intervalocubra θ′ cuando θ es el verdadero valor del parametro. Es una funcion quedepende de dos valores del parametro θ y θ′. Formalmente se define como

Pθ(θ′ ∈ C(X˜ )), si C( X˜ ) = [L(X˜ ), U(X˜ )] y θ′ 6= θ,

Pθ(θ′ ∈ C(X˜ )), si C( X˜ ) = [L(X˜ ),∞) y θ′ < θ,

Pθ(θ′ ∈ C( X˜ )), si C(X˜ ) = (∞, U( X˜ )] y θ′ > θ.

Un intervalo de confianza (1−α) que minimiza la probabilidad de falso cubri-miento para todos los valores de θ y θ′ sobre una clase de intervalos de confianza(1− α) se denomina intervalo uniformemente mas acurado (UMA). Estosintervalos de confianza se consiguen invirtiendo contrastes uniformemente maspotentes, como pone de manifiesto el siguiente resultado.

Teorema 47 Sea X˜ ∼ f(x˜ ; θ), θ ∈ Θ ⊆ IR. Para cada θ0 ∈ Θ, sea A∗(θ0)la region de aceptacion del contraste UMP para contrastar H0 : θ = θ0 frentea H1 : θ > θ0 a nivel α. Sea C∗( x˜ ) el intervalo de confianza (1 − α) construi-do invirtiendo las regiones de aceptacion UMP. Entonces para cualquier otrointervalo C(x˜ ) de confianza (1− α) se tiene que

Pθ(θ′ ∈ C∗(X˜ )) ≤ Pθ(θ′ ∈ C( X˜ ))

para todo θ′ < θ. En particular, el intervalo C∗(x˜ ) es UMA entre los que sonde la forma C(x˜ ) = [L( X˜ ),∞).

Demostracion: Sea θ′ < θ y A(θ′) la region de aceptacion del test conseguidoal invertir los intervalos C(x˜ ). Como A∗(θ′) es UMP para contrastar H0 : θ = θ′

frente a H1 : θ > θ′, y θ > θ′ se tiene que

Pθ(θ′ ∈ C∗(X˜ )) = Pθ(X˜ ∈ A∗(θ′)) ≤ Pθ(X˜ ∈ A(θ′)) = Pθ(θ′ ∈ C(X˜ )).

2

Para intervalos de la forma (−∞, U(X˜ )] se puede establecer un resultadoanalogo. Observese que los intervalos UMA no siempre existen, dado que en laseccion 5.2 vimos que no esta garantizada la existencia de tests UMP.

Page 211: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.3. EVALUACION DE ESTIMADORES POR INTERVALOS 201

Cuando se estudiaron los contrastes UMP se puso de manifiesto la conve-niencia de restringir la atencion solo a los contrastes insesgados a la horade buscar el contraste UMP para contrates bilaterales. En el estudio de los in-tervalos de confianza UMA existe un concepto analogo de insesgadez: se diceque C(x˜ ) es conjunto insesgado de confianza (1− α) si

Pθ(θ′ ∈ C(X˜ )) ≤ 1− α para todo θ 6= θ′.

Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubri-miento es siempre menor o igual que la probabilidad de cubrimiento verdadero.

Se dice que un conjunto C∗(x˜ ) de confianza (1 − α) es insesgado y uni-

formemente mas acurado si es UMA entre la clase de conjuntos insesgadosde confianza (1− α).

El siguiente teorema establece la correspondencia entre conjuntos insesgadosUMA y contrastes insesgados UMP.

Teorema 48 Sea X˜ ∼ f(x˜ ; θ), θ ∈ Θ. Para cada θ0 ∈ Θ, sea A∗(θ0) la regionde aceptacion del contraste insesgado UMP para contrastar H0 : θ = θ0 frentea H1 : θ 6= θ0 a nivel α. Sea C∗(x˜ ) el conjunto de confianza (1− α) construidoinvirtiendo las regiones de aceptacion del test insesgado UMP. Entonces paracualquier otro conjunto insesgado C( x˜ ) de confianza (1− α) se tiene que

Pθ(θ′ ∈ C∗( X˜ )) ≤ Pθ(θ′ ∈ C(X˜ ))

para todo θ′ 6= θ, es decir, el intervalo C∗(x˜ ) es insesgado UMA.

Demostracion: La demostracion es analoga a la del teorema 47 y puede dejarsecomo ejercicio. 2

Para terminar esta seccion, se establecera la relacion existente entre la lon-gitud de un intervalo de confianza y su probabilidad de cobertura.

Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribucionparametrica dada por la funcion de densidad (o funcion de masa) f(x˜ ; θ), θ ∈Θ ⊆ IR. Sea C(x) = [L(x), U(x)] un intervalo de confianza para θ. Si L(x) yU(x) son funciones estrictamente crecientes de x, entonces para cualquier valorθ∗ se tiene que

Eθ∗(U(X)− L(X)) =∫

θ 6=θ∗Pθ∗(θ ∈ C( X˜ ))dθ.

Demostracion:

Eθ∗(U(X)−L(X)) =∫

X(U(x)−L(x))f(x; θ∗)dx =

X

(∫ U(x)

L(x)

)f(x; θ∗)dx

Page 212: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

202 CAPITULO 6. ESTIMACION POR INTERVALOS

Observese que

θ ∈ θ : L(X) ≤ θ ≤ U(x) ⇐⇒ x ∈ x : U−1(θ) ≤ x ≤ L−1(θ),

puesto que L(x) y U(x) son funciones estrictamente crecientes. Por lo tanto,cambiando el orden de integracion la integral anterior puede calcularse como

Θ

(∫ L−1(θ)

U−1(θ)

f(x; θ∗)dx

)dθ =

Θ

Pθ∗(U−1(θ) ≤ X ≤ L−1(θ))dθ =

Θ

Pθ∗(θ ∈ C(X))dθ =∫

θ 6=θ∗Pθ∗(θ ∈ C(X))dθ.

2

El teorema anterior justifica que a los intervalos que minimizan la probabi-lidad de falsa cobertura se les llame tambien intervalos mas cortos en el

sentido de Neyman.

6.4. Intervalos de confianza asintoticos

Estudiaremos en esta seccion tecnicas que proporcionan intervalos de con-fianza aproximada (1 − α). Se basan en propiedades asintoticas de algunos es-tadısticos.

Sea X˜ n = (X1, . . . , Xn) una m.a.s. de tamano n de X ∼ f(x; θ). Se diceque Qn( x˜ n, θ) es una cantidad pivotal asintotica si para todo θ

Qn( X˜ n, θ) −→D Q,

donde Q es una variable aleatoria de distribucion conocida que no depende deθ.

Si se construyen intervalos de confianza (1−α) a partir de Qn sustituyendosu distribucion por la de Q, diremos que los intervalos resultantes tienen apro-ximadamente confianza (1 − α). En general, cuanto mayor sea n mejor sera laaproximacion.

Un caso particular importante lo constituyen las cantidades pivotales asin-toticas de la forma

Qn =T (X˜ n)− EA

θ (T ( X˜ n))√V A

θ (T ( X˜ n))

que son asintoticamente normales, donde T ( X˜ n) es algun estadıstico de la mues-tra tal que

T ( X˜ n)− EAθ (T (X˜ n)) −→P 0,

Vθ(T ( X˜ n))

V Aθ (T (X˜ n))

−→P 1.

Page 213: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.4. INTERVALOS DE CONFIANZA ASINTOTICOS 203

6.4.1. Intervalos basados en el estimador de maxima ve-

rosimilitud

Sea L(X˜ n, θ) la funcion de verosimilitud de una muestra de tamano n de

X ∼ f(x, θ). Sea θn el estimador de maxima verosimilitud de θ, y sea

In(θ) = −Eθ

(∂2

∂θ2log L(θ; X˜ n)

),

la informacion de Fisher que sobre θ contiene una muestra de tamano n. En-tonces

QEMVn =

θn − θ√(In(θ))−1

−→D Z ∼ N(0, 1),

luego QEMVn es una cantidad pivotal derivada del estimador maximo verosımil.

Un conjunto de confianza aproximadamente (1− α) para θ es

θ : −zα/2 ≤ QEMVn ≤ zα/2.

No siempre podra derivarse de ahı un intervalo de confianza.

Una forma de garantizar un intervalo de confianza aproximadamente (1−α)para θ es construirlo como

[θn − zα/2

√(In(θ))−1, θn + zα/2

√(In(θ))−1],

donde In(θ) es algun estimador consistente de la informacion de Fisher.

Ejemplo 85Sea X ∼ N(0, σ2). Se desea construir un intervalo de confianza aproximada

(1−α) para σ. El logaritmo de la verosimilitud de una muestra de tamano n es

log L(σ, x˜ n) = −n log√

2π − n log σ −∑n

i=1 x2i

2σ2.

La funcion score es

∂ log L(σ, x˜ n)

∂σ= −n

σ+

∑ni=1 x2

i

σ3,

por lo que el estimador maximo verosımil es

σn =

√√√√ 1n

n∑

i=1

X2i ,

y la informacion de Fisher es

In(σ) = −Eσ

(∂2 log L(σ, x˜ n)

∂σ2

)= − n

σ2+

3n

σ4Eσ(X2) =

2n

σ2.

Page 214: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

204 CAPITULO 6. ESTIMACION POR INTERVALOS

Ası, la cantidad pivotal asintotica es

QEMVn (x˜ n, σ) =

√1n

∑ni=1 x2

i − σ

σ/√

2n,

que, fijada la muestra, es una funcion invertible de σ. El intervalo de confianzapara σ es

σ : −zα/2 ≤

√1n

∑ni=1 x2

i − σ

σ/√

2n≤ zα/2

=

√1n

∑ni=1 x2

i

1 + zα/2,

√1n

∑ni=1 x2

i

1− zα/2

.

Si se construye el intervalo de confianza para σ2 basado en su estimador demaxima verosimilitud se observa que los extremos de este intervalo no son loscuadrados de los extremos del intervalo construido para σ.. .

Hay una relacion estrecha entre los intervalos de confianza basado en QEMVn

y los intervalos de verosimilitud definidos en la pagina 195. El logaritmode la verosimilitud relativa es

r(θ; x˜ ) = log R(θ; x˜ ) = log L(θ; x˜ )− log L(θ; x˜ ),

que bajo condiciones de regularidad puede ser aproximada en torno a θn como

r(θ; x˜ ) ≈ −12(θ − θn)2In(θn).

El conjunto de verosimilitud al 100p % para θ es

V (X˜ ) = θ : R(θ; x˜ ) ≥ p = θ : r(θ; x˜ ) ≥ log p ≈

θ : (θn−θ)2In(θn) ≤ −2 log p = [θn−√−2 log p/In(θn), θn+

√−2 log p/In(θn)].

Este intervalo de verosimilitud coincide con el intervalo de confianza construidoa partir del EMV si hacemos

zα/2 =√−2 log p.

Tomar α = 0,05 equivale a tomar p = 0,1465, tomar α = 0,1 es equivalente afijar p = 0,2585.

Page 215: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.4. INTERVALOS DE CONFIANZA ASINTOTICOS 205

6.4.2. Intervalos basados en la funcion score.

Sea L(X˜ n, θ) la funcion de verosimilitud de una muestra de tamano n deX ∼ f(x, θ). Sea Sn( X˜ n, θ) la funcion score:

Sn(X˜ n, θ) =∂

∂θlog L(θ; X˜ n).

Recordemos queEθ(Sn) = 0, Vθ(Sn) = In(θ),

donde In(θ) es la informacion de Fisher. Ademas,

QSn =

Sn( X˜ n, θ)√In(θ)

−→D Z ∼ N(0, 1),

luego QSn es cantidad pivotal asintotica. El conjunto

C(x˜ ) = θ : −zα/2 ≤ QSn( x˜ , θ) ≤ zα/2

es un conjunto de confianza aproximadamente igual a (1 − α). Si QSn(x˜ , θ) es

funcion invertible de θ para x˜ fijo, entonces ese conjuntos sera un intervalo.

El metodo de construccion de intervalos de confianza basado en la funcionscore tiene la particularidad de que si se utiliza para dar un intervalo para θ y seobtiene [L(x˜ ), U(x˜ )], cuando se usa para dar un intervalo para τ(θ) el intervaloque se obtiene es justamente [τ(L(x˜ )), τ(U(x˜ ))]. Esto se debe a que

Sn(x˜ , τ) =∂

∂θlog L(θ; X˜ n)

∂τ

∂θ= Sn(x˜ , θ)

∂τ

∂θ,

In(τ) = −Eτ

[∂2

∂θ2log L(θ; X˜ n)

(∂θ

∂τθ

)2

+∂

∂θlog L(θ; X˜ n)

∂2τ

∂θ2

]=

In(θ)(

∂τ

∂θ

)2

,

de donde se sigue queQS

n( x˜ , θ) = QSn(τ(θ)).

Esta propiedad no la verifican todos los metodos de construccion de intervalosde confianza, tal y como se senalo en el ejemplo 85, pagina 203.

Ejemplo 85, pagina 203. Continuacion. La funcion score es

Sn = −n

σ+

∑ni=1 x2

i

σ3

y la informacion de Fisher es

In =2n

σ2.

Page 216: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

206 CAPITULO 6. ESTIMACION POR INTERVALOS

Ası, el conjunto de confianza basado en el score esσ : −zα/2 ≤

−nσ +

∑n

i=1x2

i

σ3√2nσ2

≤ zα/2

=

√√√√1n

∑ni=1 x2

i

1 + zα/2

√2n

,

√√√√1n

∑ni=1 x2

i

1− zα/2

√2n

.

Este intervalo es diferente del que se encontro en la pagina 203.

Observese que si se construye el intervalos basado en la funcion score paraσ2, se obtiene un intervalo cuyos extremos son los cuadrados de los extremosdel intervalo para σ.. .

El siguiente teorema establece que entre una amplia familia de intervalosbasado en cantidades pivotales asintoticamente normales, los mas cortos son losbasado en la funcion score.

Teorema 50 Sea X ∼ f(x; θ). Se suponen las condiciones de regularidad H1,H2 y H3 introducidas en el Teorema de Cramer-Rao. Sea h(X, θ) una funciontal que Eθ(h(X, θ)) = 0 y 0 < Vθ(h) = Vθ(h(X, θ)) < ∞. Se define

Qh(X˜ , θ) =∑n

i=1 h(Xi, θ)√nVθ(h)

Se define

h0(X, θ) =∂

∂θlog f(x, θ).

Entonces se verifica lo siguiente:

1. Qh(X˜ , θ) es asintoticamente N(0, 1).

2. QSn = Qh0 .

3. La cantidad ∣∣∣∣Eθ

(∂Qh

∂θ

)∣∣∣∣

se hace maxima cuando h(X, θ) = h0(X, θ) o h(X, θ) = kh0(X, θ) conk 6= 0.

4. Los intervalos de confianza basados en la funcion score son los mas cortosasintoticamente, entre los basados en las cantidades pivotales asintoticasQh.

Page 217: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.4. INTERVALOS DE CONFIANZA ASINTOTICOS 207

Demostracion: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamosque se cumple 3. La derivada parcial de Ah respecto a θ es

∂Qh(X, θ)∂θ

=1√

nVθ(h)

(n∑

i=1

∂h(Xi, θ)∂θ

− 12Vθ(h)

∂Vθ(h)∂θ

n∑

i=1

h(Xi, θ)

).

Como Eθ(h(X, θ)) = 0, su esperanza sera

[∂Qh(X, θ)

∂θ

]=

√n

Vθ(h)E

[∂h(X, θ)

∂θ

].

Observese ademas que

1√n

∂θ

∂Qh(X, θ)−→P

1√Vθ(h)

E

[∂h(Xi, θ)

∂θ

],

lo cual implica que el valor absoluto de ∂Qh(X, θ)/∂θ tiende a infinito en pro-babilidad. Este hecho sera necesario para probar el punto 4.

Por otra parte, si derivamos respecto a θ la igualdad Eθ(h(X, θ)) = 0 seobtiene lo siguiente:

0 =∂

∂θ

∫h(x, θ)f(x; θ)dx =

∫∂h(x, θ)

∂θf(x; θ)dx +

∫∂f(x; θ)

∂θh(x, θ)dx,

de donde se sigue que

E

[∂h(Xi, θ)

∂θ

]= −

∫∂f(x; θ)

∂θh(x, θ)dx =

−∫

h(x, θ)∂ log f(x; θ)

∂θf(x; θ)dx = −Cov(h(X, θ), h0(X, θ)).

De ahı se deduce, por una parte, que

[∂Qh0(X, θ)

∂θ

]= −

√nVθ(h0) < 0,

y por otra que

[∂Qh(X, θ)

∂θ

]= −√n

Cov(h(X, θ), h0(X, θ))√Vθ(h)

,

luego,Eθ

[∂Qh(X,θ)

∂θ

]

[∂Qh0 (X,θ)

∂θ

] = Corr(h(X, θ), h0(X, θ)),

y por lo tanto ∣∣∣∣Eθ

[∂Qh(X, θ)

∂θ

]∣∣∣∣ ≤∣∣∣∣Eθ

[∂Qh0(X, θ)

∂θ

]∣∣∣∣ .

Esto concluye la demostracion de 3.

Page 218: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

208 CAPITULO 6. ESTIMACION POR INTERVALOS

Probemos ahora 4. Sea θ0 el verdadero valor del parametro. Si θ es suficien-temente proximo a θ0,

Qh(X˜ , θ) ≈ Qh(X˜ , θ0) + (θ − θ0)∂Qh

∂θ

∣∣∣∣θ0

,

El intervalo de confianza basado en Qh es entonces

θ : −zα/2 ≤ Qh( X˜ , θ0) + (θ − θ0)∂Qh

∂θ

∣∣∣∣θ0

≤ zα/2

,

cuya longitud tiende a 0 porque, segun vimos mas arriba, el valor absoluto de(∂Qh(X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ

que estan dentro del intervalo sean cada vez mas proximos a θ0, con lo que laanterior aproximacion de Qh(X˜ , θ) por su desarrollo de Taylor de primer ordensera cada vez mas precisa, cuando n crece.

La longitud asintotica del intervalo es

2zα/2∣∣∣∣E(

∂Qh

∂θ

∣∣∣θ0

)∣∣∣∣.

Basta entonces aplicar el punto 3 del teorema para obtener 4. 2

Podemos dar las siguientes reglas practicas para calcular intervalos de con-fianza asintoticos. En primer lugar, es recomendable que estos se basen en lafuncion score. Tanto en ese caso como si se usan otras cantidades pivotales, serecomienda evitar cuanto sea posible la sustitucion de cantidades que dependendel parametro por estimadores consistentes de estas.

Ejemplo 86Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1−α) asintotico parap que se deriva de la funcion score. La verosimilitud es

L(θ;x) =(

n

x

)px(1− p)n−x

y el score,

S(θ, x) =∂ log L(θ;x)

∂p=

x− np

p(1− p).

La informacion de Fisher es

I(p) = −E

[∂2 log L(θ;x)

∂p2

]=

n

p(1− p).

Ası, la cantidad pivotal asintotica derivada de la funcion score es

QS(x, p) =S(θ, x)√

I(p)=√

n(p− p)√p(1− p)

,

Page 219: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.4. INTERVALOS DE CONFIANZA ASINTOTICOS 209

donde p = x/n. El intervalo de confianza que da lugar es

C1 =

p : −zα/2 ≤

√n(p− p)√p(1− p)

≤ zα/2

El siguiente es tambien un intervalo de confianza (1 − α) asintoticos para elparametro p de X ∼ B(n, p):

C2 =

p : −zα/2 ≤

√n(p− p)√p(1− p)

≤ zα/2

=

[p∓ zα/2

√p(1− p)√

n

]

El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedarexpresado explıcitamente como un intervalo. Definimos la funcion g(p) = (p −p)

√n/(p(1− p)). Es facil comprobar que esa funcion es estrictamente creciente

en p. Resolviendo las ecuaciones g(p) = ±zα/2 se obtiene que

C1 =

(p + (z2

α/2/2n))∓ zα/2

√p(1−p)+(z2

α/2/4n)√

n(1 + (z2

α/2/n))

.

El premio por este trabajo extra es que la longitud de C1 sera, en general, menorque la de C2. Se puede comprobar que el cociente de la longitud de C1 entre lade C2 es √

1 + (z2α/2/4np(1− p))

1 + (z2α/2/n)

,

que para valores de p cercanos a 0.5 es aproximadamente igual a

1√1 + (z2

α/2/n)< 1.

Cuando n crece los intervalos C1 y C2 son practicamente coincidentes.. .

Page 220: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

210 CAPITULO 6. ESTIMACION POR INTERVALOS

6.5. Lista de problemas

Metodos de construccion

1. (Casella-Berger, 9.1) Sea X ∼ N(µ, 1). A partir de una m.a.s. X1, . . . , Xn

de X se puede contruir un intervalo de confianza 0.95 para µ de la formax ∓ 1, 96/

√n. Sea p la probabilidad de que una nueva observacion Xn+1

independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor,igual o mayor que 0.95?

2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para cons-truir intervalos de confianza para la media y la varianza de una distribucionnormal.

3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para cons-truir intervalos de confianza para la diferencia de medias y el cociente devarianzas de dos distribuciones normales.

4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para cons-truir intervalos de confianza de la forma [c,∞) para el cociente de lasmedias de dos exponenciales.

5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X ∼B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de con-fianza 0.95 a partir de la inversion del test de la razon de verosimilitudespara contrastar H0 : p = p0 frente a H1 : p 6= p0.

6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tamanon de una exponencial con densidad

f(x; θ) =1θe−x/θI(0,∞)(x).

a) Prueba que Y = 2∑n

i=1 Xi/θ es cantidad pivotal.

b) Construye un intervalode confianza (1− α) para θ a partir de Y .

7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatoriasindependientes X1, . . . , Xn tales que

Xi ∼ N(θai, bi), i = 1, . . . , n,

donde las constantes ai, bi son conocidas y bi > 0, para i = 1, . . . , n.

a) Encuentra un estadıstico suficiente para θ y a partir de el construyeun intervalo bilateral de confianza (1− α) para θ.

b) Si ai = bi = i, i = 1, . . . , n, ¿cual es el menor valor de n tal quelongitud de ese intervalo es menor o igual que 0,5?

Page 221: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.5. LISTA DE PROBLEMAS 211

8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para θ basada enuna m.a.s. de tamano n de una N(θ, θ), donde θ > 0 es la varianza de ladistribucion. A partir de esa cantidad pivotal, construye un intervalo deconfianza (1− α) para θ.

9. (Casella-Berger, 9.26) Sea X1, . . . , Xn una m.a.s. de X ∼ beta(θ, 1) ysupongamos que θ tiene distribucion a priori γ(r, λ). Dar un conjunto decredibilidad (1− α) para θ.

10. (Casella-Berger, 9.29) Sea X1, . . . , Xn una m.a.s. de X ∼ Bern(p). Darun intervalo de credibilidad (1 − α) para p usando la a priori conjugadabeta(a, b).

Evaluacion de los metodos de construccion de interva-los de confianza

11. (Casella-Berger, 9.35) Sea X1, . . . , Xn una m.a.s. de X ∼ N(µ, σ2). Com-para las longitudes esperadas de los intervalos de confianza (1 − α) paraµ calculados bajo los supuestos siguientes.

a) σ2 conocida.

b) σ2 desconocida.

12. (Casella-Berger, 9.36) Sean X1, . . . , Xn variables aleatorias independientescon funciones de densidad

fXi(x; θ) = eiθ−xI[iθ,∞)(x).

a) Prueba que T = mıni(Xi/i) es un estadıstico suficiente para θ.

b) Encontrar el intervalo de confianza (1−α) de la forma [T + a, T + b]de longitud mınima.

13. (Casella-Berger, 9.37) Sea X1, . . . , Xn una m.a.s. de X ∼ U(0, θ). SeaY = X(n) el maximo de las observaciones.

a) Prueba que Y/θ es una cantidad pivotal.

b) Prueba que [y, y/α1/n] es el mas corto de cuantos intervalos de con-fianza (1− α) se pueden derivar de la cantidad pivotal Y .

14. (Casella-Berger, 9.42) Se tiene una observacion de una γ(k, β) con parame-tro de forma k conocido. Encontrar el intervalo de confianza (1− α) mascorto entre los que tienen la forma [x/b, x/a].

15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribucion logısti-ca:

f(x; θ) =ex−θ

(1 + ex−θ)2.

Basandote en una observacion de X, construye el intervalo de confianza(1− α) uniformemente mas acurado de la forma (−∞, U(x)].

Page 222: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

212 CAPITULO 6. ESTIMACION POR INTERVALOS

16. (Casella-Berger, 9.45) Sea X1, . . . , Xn una m.a.s. de X ∼ exp(λ) (E(X) =λ).

a) Construye el contraste UMP de tamano α para contrastar H0 : λ =λ0 rente a H1 : λ < λ0.

b) Da el intervalo de confianza (1 − α) uniformemente mas acuradobasado en el contraste del apartado anterior y prueba que puedeexpresarse como

C(x˜ ) =

[0,

∑ni=1 xi

χ22n,α

].

c) Calcula la longitud esperada de C(X˜ ).

Intervalos de confianza asintoticos

17. (Casella-Berger, 9.60.a) Sea X1, . . . , Xn una m.a.s. de una distribucionbinomial negativa de parametros (r, p), r conocido. Calcula un intervalode confianza aproximada (1− α) para p basado en la funcion score.

18. (Casella-Berger, 9.62) Sea X1, . . . , Xn una m.a.s. de una distribucion bi-nomial negativa de parametros (r, p), r conocido.

a) ¿Que distribucion tiene Y =∑n

i=1 Xi?

b) Prueba que si p tiende a 0, entonces 2pY tiende en distribucion a unaχ2

2nr. (Indicacion: Utiliza las funciones generadores de momentos).

c) Usa este hecho para probar que[

χ22nr,1−α/2

2∑n

i=1 xi,

χ22nr,α/2

2∑n

i=1 xi

]

es un intervalo de confianza aproximada (1− α) para p.

d) ¿Como habrıa que escoger los extremos del intervalo para obtener elintervalo de longitud mınima con confianza aproximada (1− α)?

19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoriaX con distribucion de Poisson(θ). Usa el hecho de que para valores grandesde θ la distribucion de X es aproximadamente N(θ, θ) para obtener unaecuacion cuadratica en θ cuyas raıces dan los extremos de un intervalo deconfianza aproximado para la media de X, θ.

20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmetica seplantea lanzar al mercado un nuevo producto para hombre y quiere saberque proporcion θ de hombres de un grupo de edad compraran ese producto.Dado que una pregunta directa puede no obtener una respuesta sincera,se opta por un procedimiento de respuesta aleatorizada mediante el cualel encuestador nunca puede saber la respuesta dada por el encuestado.

Page 223: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

6.5. LISTA DE PROBLEMAS 213

Cada enuestado lanza un dado sin que el encuestador vea el resultado.Segun el resultado obtenido, habra de codificar su respuesta (“Sı, com-prare el nuevo producto” o “No, no comprare el nuevo producto”) comoA, B o C, segun la siguiente tabla:

Resultado en el dado1 2 3 4 5 6

Verdadera Sı C C C A B Arespuesta No C A A B A B

En una muestra de 1000 hombres las veces que aparecieron las respuestasA, B y C fueron 440, 310 y 250, respectivamente.

a) Prueba que el logaritmo de la verosimilitud de θ es

440 log(3− θ) + 310 log(2− θ) + 250 log(1− 2θ) + constante.

b) Da el estimador maximo verosımil de θ.

c) Construye un intervalo de confianza aproximada 95 % para θ.

d) Supongamos ahora que se tiene acceso a la verdadera respuesta Sı-Node los hombres de otra muestra de tamano n. ¿Que tamano muestraln es necesario para que el intervalo de confianza 95 % en este casotenga la misma longitud que el calculado previamente?

Page 224: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

214 CAPITULO 6. ESTIMACION POR INTERVALOS

Page 225: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Capıtulo 7

Introduccion a la Teorıa de

la Decision

Referencias: Casella-Berger, capıtulo 10, Garthwaite, Jollife y Jones

(1995), capıtulo 6.

Todos los metodos de inferencia estadıstica (estimacion puntual, contrastesde hipotesis, estimacion por intervalos) involucran la toma de una decision: hayque decidir que punto o que intervalo se toma como estimador de un parametro;hay que decidir si se rechaza o no la hipotesis nula.

La teorıa de la decision es el marco teorico que permite estudiar global-mente los problemas de inferencia estadıstica como un unico tipo de problema:la toma de una decision. Todas los elementos del proceso de decision estanformalmente definidos, incluyendo el criterio que la decision final habra de op-timizar.

7.1. Elementos basicos en un problema de deci-

sion

Los elementos necesarios para plantear un problema de inferencia estadısticadesde la perspectiva de la teorıa de la decision son los siguientes:

Datos. Los datos se describen mediante un vector aleatorio X˜ cuyos valoresestan en el espacio muestral X .

Modelo. Es el conjunto de posibles distribuciones de probabilidad de los da-tos X˜ . Se supone que es una familia parametrica de distribuciones fθ :θ ∈ Θ, donde fθ es una funcion de densidad o una funcion de masa de

215

Page 226: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

216 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

probabilidad. El conjunto Θ es el espacio de parametros. El parame-tro θ (que puede ser un escalar o un vector) es el valor verdadero, perodesconocido, del estado de la naturaleza.

Espacio de acciones. Despues de observar X˜ = x˜ se toma una decisionque afecta a θ. El conjunto de posibles acciones permitidas es el espacio

de acciones. Este conjunto se denotara por A y sus elementos por a.El espacio de acciones determina si un problema de decision es uno deestimacion puntual (si A = Θ), uno de estimacion por intervalos (si A esel conjunto de intervalos contenidos en Θ) o uno de contraste de hipotesis(si A = “aceptar H0”, “rechazar H0”).

Funcion de perdida. Para evaluar el coste de tomar la decision a cuandoel verdadero estado de la naturaleza es θ, se utiliza una funcion de

perdida:L : Θ×A −→ IR

(θ, a) −→ L(θ, a)

Cuanto mayor es el valor de L(θ, a) menos apropiada es la decision a

si el verdadero estado de la naturaleza es θ. En economıa y en analisisbayesiano se valora la adecuacion de a a θ con una funcion de utilidad

U(θ, a) que da valores altos a pares acordes y valores bajos a pares pocoadecuados. Una funcion de perdida cambiada de signo es una funcion deutilidad y viceversa.

Reglas de decision. Una regla de decision es una funcion

δ : X −→ Ax˜ −→ δ( x˜ ) = a

que, para cada posible valor x˜ de X , indica que accion a se ha de tomarsi X˜ toma el valor x˜ . El conjunto de reglas de decision aceptablesen un problema se denota por D.

Funcion de riesgo. Para evaluar la calidad de las reglas de decision δ ∈ D sedefine la funcion de riesgo

R : Θ×D −→ IR(θ, δ) −→ R(θ, δ) = Eθ[L(θ, δ(X˜ ))]

que mide la perdida esperada si se usa la regla δ y el verdadero estado dela naturaleza es θ.

Como el valor que toma el parametro θ no es conocido, es deseable usar unaregla de decision que tenga valores bajos de la funcion de riesgo para todos losposibles valores θ ∈ Θ.

Page 227: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.1. ELEMENTOS BASICOS EN UN PROBLEMA DE DECISION 217

7.1.1. Comparacion de reglas de decision.

Sean δ1 y δ2 dos reglas de decision con funciones de riesgo asociadas R(θ, δ1)y R(θ, δ2).

Comparar δ1 y δ2 mediante la funcion de riesgo es facil si se verifica que

R(θ0, δ1) < R(θ0, δ2) para todo θ ∈ Θ.

Al comparar δ1 y δ2 diremos que:

δ1 es tan buena como δ2 si R(θ, δ1) ≤ R(θ, δ2) para todo θ ∈ Θ.

δ1 es mejor que δ2 si R(θ, δ1) ≤ R(θ, δ2) para todo θ ∈ Θ, y existe unθ0 ∈ Θ tal que R(θ0, δ1) < R(θ0, δ2).

δ1 es equivalente a δ2 si R(θ, δ1) = R(θ, δ2) para todo θ ∈ Θ.

Una regla δ1 es inadmisible si existe otra regla δ2 tal que

R(θ, δ2) ≤ R(θ, δ1) para todo θ ∈ Θ

y ademas existe un θ0 tal que

R(θ0, δ2) < R(θ0, δ1).

En ese caso diremos que δ2 es preferible a δ1, o simplemente que δ2 es mejor

que δ1.

Diremos que una regla δ es admisible si no existe otra regla δ′ ∈ D que seamejor que δ.

Una regla de decision que sea admisible tiene una propiedad deseable, yaque no existe ninguna otra regla que la mejore uniformemente, pero no haygarantıas de que el comportamiento de esa regla sea uniformemente bueno enΘ. La admisibilidad solo garantiza que la regla no es uniformemente mala. Parecerazonable restringir la busqueda de las reglas de decision a la clase de reglas deD que sean admisibles.

En la comparacion de dos reglas de decision lo habitual sera que ninguna deellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otrapara determinados valores de θ y ocurra lo contrario para otros valores de θ. Pararealizar una valoracion global (considerando todos los posibles valores de θ) deuna regla de decision δ, a veces se define una distribucion de probabilidad

a priori π(θ) en Θ que refleja como son de plausibles las diferentes zonas delespacio de parametros. A partir de esta distribucion sobre Θ se define el riesgo

Bayes de las reglas de decision como

B : A −→ IRδ −→ B(δ) = Eπ[R(θ, δ)]

Page 228: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

218 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

En ocasiones escribiremos el riesgo Bayes como B(π, δ) para senalar explıcita-mente que su definicion depende de la distribucion a priori π considerada.

El riesgo Bayes de δ resume en un solo numero el comportamiento de δ

sobre todo el espacio Θ. Valores pequenos de B(π, δ) indican que δ tiene unbuen comportamiento en las zonas de Θ a las que π asigna mas probabilidad.

A una regla de decision δ que hace mınimo el riesgo Bayes se le llama regla

Bayes. En la seccion 7.4 veremos que estas reglas tiene ciertas propiedades deoptimalidad.

7.2. Teorıa de la decision e inferencia estadıstica

En esta seccion veremos como plantear los problemas de estimacion puntual,estimacion por intervalos y contraste de hipotesis como problemas de teorıa dela decision.

7.2.1. Estimacion puntual.

Supongamos que X˜ es un vector aleatorio con distribucion fθ, θ ∈ Θ. Su-pongamos que Θ ⊆ IR y se desea estimar el parametro θ. Determinaremos todoslos elementos del problemas de decision asociado. Las ideas que se desarrollaranahora son tambien validas si θ es un vector de parametros. Los datos y el modeloson los que se acaban de especificar: X˜ , fθ : θ ∈ Θ.

El espacio de acciones A se corresponde con los posibles valores de θ, es decirA = Θ. A veces puede interesar que A sea mas grande que Θ, por ejemplo, si θ

es la probabilidad de exito de un experimento de Bernoulli y Θ = (0, 1) podrıaser que nos interesase tomar A = [0, 1].

La funcion de perdida L debe reflejar el hecho de que si una accion a escercana a θ entonces la decision es correcta, es decir, la perdida es pequena.En general las funciones de perdidas consideradas son funciones crecientes en ladistancia entre θ y a. Las funciones de perdida mas usuales son estas:

Perdida del valor absoluto: L(θ, a) = |θ − a|.

Perdida cuadratica: L(θ, a) = (θ − a)2.

Perdida 0-1: L(θ, a) = 1|θ−a|>c, con c ≥ 0.

La funcion de perdida puede reflejar que es menos deseable, por ejemplo, so-brestimar θ que subestimarlo. Ası lo hace esta funcion de perdida:

L(θ, a) =

(θ − a)2 si a < θ

10(θ − a)2 si a ≥ θ

Page 229: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.2. TEORIA DE LA DECISION E INFERENCIA ESTADISTICA 219

Tambien es posible penalizar mas los errores de estimacion cuando θ es proximoa 0 que cuando θ es grande:

L(θ, a) =(θ − a)2

|θ|+ 1.

Observese que en este contexto las reglas de decision son los estimadores de θ.La funcion de riesgo de una regla de decision depende de la funcion de perdidadefinida. Por ejemplo, si la perdida es cuadratica, la funcion de riesgo es el errorcuadratico medio:

R(θ, δ) = Eθ[(δ( X˜ )− θ)2] = Vθ(δ(X˜ )) + (Sesgoθ(δ(X˜ )))2.

Los estimadores (las reglas de decision) deseables segun esta definicion de lafuncion de riesgo son aquellos que simultaneamente tienen poco sesgo y pocavarianza. Observese que desde el punto de vista de la teorıa de la decisionno esta justificado el restringir la clase de estimadores D a aquellos que soninsesgados.

Ejemplo 87Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2). Consideremos elproblema de estimar σ2 usando la funcion de perdida cuadratica

L(θ, a) = (θ − a)2.

Consideremos reglas de decision (estimadores) del tipo δb(X˜ ) = bS2, donde S2

es la varianza muestral, y b > 0.

Recordemos que E(S2) = σ2 y V (S2) = 2σ4/(n− 1). El riesgo de δb es

R((µ, σ2), δb) = V (bS2) + (E(bS2)− σ2)2 =

b2 2σ4

n− 1+ (bσ2 − σ2)2 = σ4

(2b2

n− 1+ (b− 1)2

)= σ4c(b).

Ası, la funcion de riesgo no depende de µ y es cuadratica en σ2.

Observese que si c(b) < c(b′) entonces R((µ, σ2), δb) < R((µ, σ2), δb′). Porlo tanto, buscar la mejor regla de decision equivale a minimizar c(b) en b. Elmınimo de esa expresion se alcanza en b = (n− 1)/(n + 1) y, por lo tanto, paracada valor del parametro (µ, σ2) el estimador

S2 =n− 1n + 1

S2 =1

n + 1

n∑

i=1

(Xi −X)2

tiene el riesgo menor entre todos los estimadores de la forma bS2.

El siguiente grafico compara los riesgos de S2, σ2 y S2 para diferentes valoresde σ2, donde σ2 = (n− 1)S2/n es el estimador maximo verosımil de σ2.

Page 230: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

220 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

0 1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

30

35

R(σ2,S2)

R(σ2,(n−1)S2/n)

R(σ2,(n−1)S2/(n+1))

σ2

Rie

sgo

. .

Ejemplo 88Sea X1, . . . , Xn muestra aleatoria simple de X no necesariamente normal conV (X) = σ2 positiva y finita. Consideramos el problema de la estimacion de σ2

y la funcion de perdida

LS(σ2, a) =a

σ2− 1− log

a

σ2,

conocida como perdida de Stein. Observese que LS(σ2, a) ≥ 0 y que LS(σ2, a) =0 si y solo si a = σ2. Ademas, para σ2 fijo, se tiene que

lıma−→0

LS(σ2, a) = ∞, y lıma−→∞

LS(σ2, a) = ∞.

Es decir, LS penaliza tanto la subestimacion como la sobrestimacion. Recuerdeseque con la perdida cuadratica la subestimacion tiene perdida acotada, mientrasque la penalizacion de la sobrestimacion es no acotada.

Consideremos, como en el ejemplo anterior, la clase de estimadores de laforma δb = bS2. Su riesgo es

R(σ2, δb) = E

[bS2

σ2− 1− log

bS2

σ2

]= b− 1− log b− E

(log

S2

σ2

).

Observese que el ultimo sumando es funcion de σ2 y posiblemente de otrosparametros, pero no es funcion de b. Ası, R(σ2, δb) se minimiza en aquel valor

Page 231: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.2. TEORIA DE LA DECISION E INFERENCIA ESTADISTICA 221

b que hace mınima la funcion b − log b, es decir, en b = 1. Ası, de todos losestimadores de la forma bS2 el que tiene menor riesgo para cualquier valor σ2

es δ1 = S2.. .

7.2.2. Contrastes de hipotesis.

En un problema de contraste de hipotesis el espacio de acciones consisteunicamente en dos elementos: A = a0, a1, donde la accion a0 consiste enaceptar H0 : θ ∈ Θ0 y la accion a1 en rechazarla o, equivalentemente, aceptarH1 : θ ∈ Θ1.

Una regla de decision δ es una funcion del espacio muestral X˜ que solo tomados valores: a0 o a1. El conjunto x˜ : δ( x˜ ) = a0 es la region de aceptacion deltest y el conjunto x˜ : δ( x˜ ) = a1 es la region de rechazo o region crıtica.

La funcion de perdida ha de reflejar que se comete un error si se decide a0

cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otroscasos se actua correctamente. En este contexto la funcion de perdida 0-1 es lamas utilizada:

L(θ, a0) = 1θ 6∈Θ0, L(θ, a1) = 1θ∈Θ0.

Esta funcion penaliza de igual forma los errores de tipo I que los errores de tipoII. Si se desea penalizarlos de forma diferente puede usarse la funcion de perdida0-1 generalizada:

L(θ, a0) = cII1θ 6∈Θ0, L(θ, a1) = cI1θ∈Θ0,

donde cI es el coste de un error de tipo I, y cII el de uno de tipo II.

Se pueden definir otras funciones de perdida que recojan aspectos propiosdel problema que se este tratando. Por ejemplo, la funcion de perdida puederecoger el hecho de que es mas grave cometer un error de tipo I cuanto maslejos de Θ0 este θ.

La funcion de potencia de un contraste esta relacionada con la funcion deriesgo de ese contraste. Sea β(θ) la funcion de potencia de un test basado en laregla de decision δ. Sea C = x˜ : δ(x˜ ) = a1 la region crıtica. Entonces

β(θ) = P (X˜ ∈ C|θ) = P (δ(X˜ ) = a1|θ).

Por su parte, la funcion de riesgo asociada a una perdida 0-1 generalizada es,para θ ∈ Θ0,

R(θ, δ) = Eθ(L(θ, δ( X˜ ))) =

0 · P (δ( X˜ ) = a0|θ) + cI · P (δ(X˜ ) = a1|θ) = cIβ(θ),

y para θ 6∈ Θ0,R(θ, δ) = Eθ(L(θ, δ( X˜ ))) =

Page 232: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

222 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

cII · P (δ(X˜ ) = a0|θ) + 0 · P (δ( X˜ ) = a1|θ) = cII(1− β(θ)).

Esta relacion entre la funcion de riesgo y la de potencia viene dada por la eleccionde la funcion de perdida 0-1 generalizada. Sin embargo, aunque se trabaje conotras funciones de perdida, en general la funcion de potencia juega un papelimportante en cualquier contraste de hipotesis. En efecto,

R(θ, δ) = Eθ(L(θ, δ(X˜ ))) = L(θ, a0)(1− β(θ)) + L(θ, a1)β(θ).

Ejemplo 89Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(µ, σ2) con σ2 conocida. Elcontraste uniformemente mas potente de nivel α para contrastar

H0 : µ ≥ µ0

H1 : µ < µ0

rechaza H0 siX − µ0

σ/√

n< −zα

y tiene funcion de potencia

β(µ) = Pµ

(Z < −zα − µ− µ0

σ/√

n

)= φ

(−zα − µ− µ0

σ/√

n

).

Para α = 0,1 y tomando cI = 8 y cII = 3 en la funcion de perdida 0-1 generali-zada, se tiene que

R(µ, δ) = 8φ

(−zα − µ− µ0

σ/√

n

)si µ ≥ µ0,

R(µ, δ) = 3(

1− φ

(−zα − µ− µ0

σ/√

n

))si µ < µ0.

−3 −2 −1 0 1 2 30

0.5

1

1.5

2

2.5

3

R(µ

,δ)

n1/2(µ−µ0)/σ

µ<µ0

µ ≥ µ0

Page 233: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.2. TEORIA DE LA DECISION E INFERENCIA ESTADISTICA 223

. .

A veces es conveniente aprovechar la funcion de perdida para reflejar el hechode que algunas decisiones incorrectas son mas graves que otras. Por ejemplo, enel contraste

H0 : µ ≥ µ0

H1 : µ < µ0

se comete un error de tipo I si se rechaza H0 cuando de hecho µ ≥ µ0. Sinembargo, las consecuencias de rechazar erroneamente H0 son mucho peores siµ es mucho mayor que µ0 que si µ es ligeramente mayor que µ0. La siguientefuncion de potencia refleja esto:

L(µ, a0) = b(µ0 − µ)1µ<µ0, L(µ, a1) = c(µ− µ0)21µ≥µ0,

donde b y c son constantes positivas. Un contexto en el que esta funcion deperdida es adecuada es el siguiente. Se desea contrastar si una cierta medicinaayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol maximoaceptable en µ0. Se contrasta

H0 : µ ≥ µ0

H1 : µ < µ0

donde µ es el nivel de colesterol de un paciente que ha tomado la medicina(se supone que µ no es directamente observable, sino solo a partir de diversosanalisis). Debido a la asociacion entre niveles altos de colesterol y enfermedadesde corazon, las consecuencias de rechazar H0 cuando µ es grande son muchopeores que si µ toma valores moderados, aunque superiores a µ0. Por eso esconveniente usar la funcion cuadratica (µ− µ0)2.

7.2.3. Estimacion por intervalos.

En estimacion por conjuntos el espacio de acciones A consiste en todos lossubconjuntos del espacio parametrico Θ. Nos limitaremos a considerar el casode que Θ ⊂ IR y unicamente consideraremos como acciones los subconjuntos deΘ que sean intervalos. Esta limitacion es arbitraria y responde unicamente aconsideraciones practicas.

Sea C un elemento de A. Cuando se toma la accion C, se esta haciendo laestimacion “θ ∈ C”. Una regla de decision δ(x˜ ) especifica para cada x˜ ∈ Xque intervalo C ∈ A sera usado como estimador si se observa X˜ = x˜ . Usaremosla notacion C(x˜ ) para denotar a C = δ( x˜ ).

En estimacion por intervalos las funciones de perdida tienen en cuenta dosaspectos: si el verdadero valor del parametro esta o no en el intervalo estimador,y una medida del tamano de este. Para medir el tamano se usa la longitud del

Page 234: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

224 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

intervalo, Long(C), mientras que la funcion IC(θ) suele usarse para indicar si θ

esta o no en C.

La forma en que se combinan esas dos cantidades para formar la funcion deperdida es habitualmente esta:

L(θ, C) = b Long(C)− IC(θ),

donde la constante b determina el peso relativo del tamano y la correccion deC. La funcion de riesgo asociada sera

R(θ, C) = bEθ(Long(C( X˜ )))− Eθ(IC( X˜ )) =

bEθ(Long(C(X˜ )))− Pθ(θ ∈ C(X˜ )).

Esta funcion de riesgo tiene dos componentes: la longitud esperada del intervaloy su probabilidad de cubrimiento. Ası, cuando se busca el estimador C(x˜ )que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entrelongitud y confianza. Esta es una diferencia considerable con respecto al enfoqueadoptado en la seccion 6, dedicada a la estimacion por intervalos: allı se fijabaun valor de la confianza y se buscaba el intervalo mas corto que tuviese dichaconfianza. Desde la optica de la teorıa de la decision es posible perder algode confianza si a cambio se consigue reducir notablemente la longitud de losestimadores.

Ejemplo 90Sea X ∼ N(µ, σ2), con σ2 conocida. Consideremos las reglas de decision

Cc(x) = [x− cσ, x + cσ], c ∈ IR, c ≥ 0.

Compararemos estos estimadores usando la funcion de perdida

L(µ,Cc) = bLong(Cc)− ICc(µ) = 2bσc− ICc(µ).

Ası, la primera parte de la funcion de riesgo es constante, mientras que la se-gunda vale

Pµ(µ ∈ Cc(X)) = Pµ(X − cσ ≤ µ ≤ X + cσ) =

(−c ≤ X − µ

σ≤ c

)= 2P (Z ≤ c)− 1,

donde Z ∼ N(0, 1). Por lo tanto, la funcion de riesgo es

R(µ,Cc) = 2bσc− 2P (Z ≤ c) + 1.

Es una funcion de riesgo constante en µ. Ası, la mejor regla de decision corres-pondera al valor c donde la funcion

g(c) = 2bσc− 2P (Z ≤ c) + 1

Page 235: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.3. EL PROBLEMA DE DECISION BAYESIANO 225

tenga su mınimo. La derivada de g(c) se anula en el punto c que verifica

bσ = fZ(c) =1√2π

e−c22 ⇐⇒ c2 = log

12πb2σ2

.

Esa ecuacion tiene solucion si y solo si bσ ≤ 1/√

2π. Cuando hay solucion estavale

c∗ =

√log

12πb2σ2

.

La segunda derivada de g en c∗ es g′′(c∗) = 2b − 2f ′Z(c∗) > 0, porque c∗ ≥ 0implica que f ′Z(c∗) ≤ 0, luego c∗ es un mınimo de g. En el caso de que bσ >

1/√

2π, puede comprobarse que g′(c) > 0 para todo c ≥ 0, luego el mınimoriesgo se alcanza en c = 0.

En resumen, si bσ ≤ 1/√

2π (lo que equivale a no dar un peso excesivo altamano del intervalo en la funcion de riesgo) entonces el intervalo optimo es[x − c∗σ, x + c∗σ], mientras que si bσ > 1/

√2π (es decir, si la longitud del in-

tervalo pesa mucho en la funcion de riesgo) entonces el mejor intervalo para µ

es [x, x], es decir, un estimador puntual de µ.. .

7.3. El problema de decision bayesiano

Hemos visto en la seccion 7.1 que a veces se define una distribucion de pro-babilidad π(θ) sobre el espacio parametrico Θ, que refleja el conocimiento queel investigador tiene sobre los posibles valores del parametro a priori, es decir,antes de observar los datos X˜ . En general cualquier funcion de pesos que pon-dere de cierta forma las diferentes regiones de Θ sera valida como distribucionπ(θ), aunque esta distribucion no refleje ningun conocimiento previo subjetivosobre Θ.

Se definio el riesgo Bayes de la regla de decision δ respecto de la distribuciona priori π como

B(π, δ) = Eπ[R(θ, δ)].

Es una medida del riesgo medio de acuerdo a los pesos que asigna π. Ası, si nose dispone de informacion previa que permita definir π, una forma razonablede elegir esta distribucion a priori es hacerlo de forma que los valores de θ alos que se les asigne probabilidad a priori grande sean aquellos para los cualesel experimentador desea tener un riesgo pequeno, y los valores de θ con pesopequeno sean aquellos cuyo riesgo no le preocupa.

Se define la regla Bayes como aquella regla δπ que minimiza el riesgo Bayes:

B(π, δπ) = mınδ∈D

B(π, δ).

Page 236: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

226 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

Esta regla puede no existir, o bien puede haber mas de una regla Bayes, aunqueen general solo existe una regla Bayes.

Los siguientes resultados indican como encontrar las reglas Bayes, si estasexisten.

Teorema 51 Para cada x˜ ∈ X se define

r( x˜ , a) = Eπ(θ| x˜ )

(L(θ, a)),

donde la esperanza se toma con respecto a la distribucion a posteriori de π, dadoque se ha observado X˜ = x˜ . Para cada x˜ ∈ X se supone que existe una acciona(x˜ ) ∈ A tal que

r( x˜ , a(x˜ )) = mınb∈A

r(x˜ , b).

Sea la regla de decision

δπ : X −→ Ax˜ −→ a(x˜ )

Si δπ ∈ D entonces δπ es la regla Bayes respecto a π.

Demostracion: Sea f(x˜ , θ) = f(x˜ |θ)π(θ) la distribucion conjunta de (X˜ , θ)y sea m(x˜ ) la marginal de X˜ . Ası,

B(π, δ) = Eπ(R(θ, δ)) = Eπ

[Eθ(L(θ, δ(X˜ )))

]=

Eθ(L(θ, δ(X˜ ))) = Em( x˜ )

[E

π(θ| X˜ )(L(θ, δ(X˜ )))

]=

Em( x˜ )

(r( X˜ , δ(X˜ ))).

Para cada x˜ ∈ X , r( x˜ , δπ(x˜ )) ≤ r( x˜ , δ(x˜ )) para todo δ ∈ D, de donde sesigue que

Em( x˜ )

(r( X˜ , δπ(X˜ ))) ≤ Em( x˜ )

(r(X˜ , δ(X˜ )))

para todo δ ∈ D y, en consecuencia, que

B(π, δπ) ≤ B(π, δ)

para todo δ ∈ D, luego δπ es la regla Bayes. 2

Observese que la funcion r(x˜ , a) que se define en el anterior teorema es laesperanza a posteriori de la funcion de perdida, dado que se ha observado X˜ =x˜ . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza

a posteriori de la funcion de perdida, ya sea analıtica o numericamente.

El siguiente resultado se sigue directamente del teorema anterior y da laexpresion explıcita para la regla de Bayes en dos casos importantes referidos ala estimacion de parametros.

Page 237: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.3. EL PROBLEMA DE DECISION BAYESIANO 227

Corolario 8 Consideremos un problema de estimacion de un parametro realθ ∈ IR. Se tiene lo siguiente:

1. Si L(θ, a) = (θ − a)2 la regla Bayes es δπ(x˜ ) = E(θ|x˜ ), si δπ ∈ D.

2. Si L(θ, a) = |θ−a| la regla Bayes es δπ( x˜ ) que asocia a cada x˜ la medianaa de la distribucion a posteriori π(θ|x˜ ), si δπ ∈ D.

Observese que si el conjunto de acciones A = Θ es finito (o discreto) podrıapasar que E(θ|x˜ ) 6∈ A y entonces δπ(x˜ ) = E(θ|x˜ ) no serıa una funcion de X˜en A, es decir, δπ no serıa una regla de decision legıtima. Si A = Θ es convexo sepuede probar que E(θ|x˜ ) ∈ A para cualquier distribucion a posteriori π(θ|x˜ ).

El siguiente resultado hace referencia al problema de contrastes de hipotesisdesde la perspectiva de la teorıa de la decision bayesiana. Concreta en estecontexto lo establecido por el teorema 51 sobre como determinar la regla Bayes.

Teorema 52 Consideremos un problema de contraste de la hipotesis H0 : θ ∈Θ0 frente a H1 : θ 6∈ Θ0, con funcion de perdida 0-1 generalizada. Cualquiertest que

rechaza H0 si P (θ ∈ Θ0|x˜ ) <cII

cI + cII

yacepta H0 si P (θ ∈ Θ0|x˜ ) >

cII

cI + cII

es una regla de Bayes (tambien llamada test de Bayes o regla Bayes).

Demostracion: Aplicamos el teorema 51. Como A = a0, a1 hay que com-parar r( x˜ , a0) y r( x˜ , a1) y escoger como accion a( x˜ ) aquella de las dos quede valor menor de r(x˜ , a).

Recordemos que

L(θ, a0) = cII1θ 6∈Θ0, L(θ, a1) = cI1θ∈Θ0.

Calculamos r( x˜ , a0) y r(x˜ , a1):

r(x˜ , a0) = Eπ(θ| x˜ )

(L(θ, a0)) = cIIP (θ 6∈ Θ0|x˜ )

r( x˜ , a1) = Eπ(θ| x˜ )

(L(θ, a1)) = cIP (θ ∈ Θ0|x˜ ).

Ası, el conjunto de x˜ ∈ X para los cuales el test de Bayes rechaza H0 sonaquellos para los cuales

r(x˜ , a1) < r(x˜ , a0) ⇐⇒ cIP (θ ∈ Θ0|x˜ ) < cIIP (θ 6∈ Θ0|x˜ ) ⇐⇒

P (θ ∈ Θ0|x˜ ) <cII

cI + cII.

Page 238: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

228 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

Analogamente, el conjunto de puntos en los que el test Bayes acepta H0, es decir,aquellos para los cuales la accion a0 tiene menor riesgo esperado a posterior quela accion a1, son aquellos que cumplen

r( x˜ , a0) < r(x˜ , a1) ⇐⇒ cIP (θ ∈ Θ0|x˜ ) > cIIP (θ 6∈ Θ0|x˜ ) ⇐⇒

P (θ ∈ Θ0|x˜ ) >cII

cI + cII.

Si r(x˜ , a0) = r( x˜ , a1), las dos acciones son indiferentes y puede tomarse cual-quiera de ellas sin que la regla resultante deje de ser la regla Bayes. 2

Ejemplo 91Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(θ, σ2) y π(θ) ∼ N(µ, τ2),con σ2, µ y τ2 conocidos. Sea

η =σ2

nτ2 + σ2.

La distribucion a posteriori de θ dado que X˜ = x˜ es normal con parametros

E(θ|x˜ ) = (1− η)x + ηµ, V (θ|x˜ ) = ητ2.

Consideremos el test H0 : θ ≥ θ0

H1 : θ < θ0

con funcion de perdida 0-1 generalizada. Calculemos P (θ ∈ Θ0|x˜ ):

P (θ ∈ Θ0|x˜ ) = P (θ ≥ θ0|x) = P

(Z ≥ θ0 − (1− η)x− ηµ

τ√

η

∣∣∣∣ x

).

Ası, el test de Bayes rechaza H0 si

P (θ ∈ Θ0|x˜ ) < α′

donde α′ = cII/(cI + cII), y eso ocurre si y solo si

θ0 − (1− η)x− ηµ

τ√

η> zα′ ⇐⇒ x < θ0 −

η(µ− θ0) + zα′τ√

η

1− η.

Por lo tanto, el test de Bayes rechaza H0 para valores pequenos de x y el valorcrıtico depende de las perdidas para los dos tipos de errores (a traves del valorα′) y de la distribucion a priori. Recordemos que el test uniformemente maspotente de nivel α rechaza H0 si

x < θ0 − zασ√n

.

Page 239: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION 229

En el caso particular de que tomasemos cI = 1 − α y cII = α, entoncesα′ = α. Si ademas consideramos la distribucion a priori de θ centrada en θ0

tendremos que el test de Bayes rechaza H0 si

x < θ0 −zα′τ

√η

1− η.

Recordando la definicion de η se llega a que se rechaza H0 si y solo si

x < θ0 − zα′σ√n

√1 +

σ2

nτ2,

expresion que solo difiere del test UMP en el factor√

1 + (σ2/nτ2). Amboscontrasten coincidiran si σ2/nτ2 = 0, es decir, si n −→ ∞, o si τ2 −→ ∞ o siσ2 −→ 0.. .

7.4. Admisibilidad de las reglas de decision

La clase D de todas las reglas de decision posibles quizas sea excesivamentegrande: podrıa estar formada por todas las funciones de X en A. La eleccion dela regla δ en un determinado problema se simplifica si restringimos la busquedaa una subclase de reglas C ⊆ D de la que formen parte unicamente las reglasque tengan alguna buena propiedad. Una de estas propiedades deseables es lade ser admisible.

7.4.1. Comparacion de reglas de decision.

Sean δ1 y δ2 dos reglas de decision con funciones de riesgo asociadas R(θ, δ1)y R(θ, δ2). Al comparar δ1 y δ2 diremos que:

δ1 es tan buena como δ2 si R(θ, δ1) ≤ R(θ, δ2) para todo θ ∈ Θ.

δ1 es mejor que δ2 si R(θ, δ1) ≤ R(θ, δ2) para todo θ ∈ Θ, y existe unθ0 ∈ Θ tal que R(θ0, δ1) < R(θ0, δ2).

δ1 es equivalente a δ2 si R(θ, δ1) = R(θ, δ2) para todo θ ∈ Θ.

Diremos que una regla δ es admisible si no existe otra regla δ′ ∈ D que seamejor que δ. Diremos que δ es inadmisible si existe otra regla δ′ mejor que δ.

Una regla de decision que sea admisible tiene una propiedad deseable, yaque no existe ninguna otra regla que la mejore uniformemente, pero no haygarantıas de que el comportamiento de esa regla sea uniformemente bueno enΘ. La admisibilidad solo garantiza que la regla no es uniformemente mala. Parece

Page 240: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

230 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

razonable restringir la busqueda de las reglas de decision a la clase de reglas deD que sean admisibles.

Sea una clase C ⊆ D. Se dice que C es una clase completa si para cadaδ′ 6∈ C existe δ ∈ C que es mejor que δ′. C es una clase esencialmente

completa si para cada δ′ 6∈ C existe δ ∈ C que es tan buena como δ′.

Teorema 53 Sea C una clase de reglas de decision completa. Entonces la clasede reglas de decision admisibles esta contenida en C.

Demostracion: Sea δ′ una regla admisible. Si δ′ 6∈ C, entonces existe δ ∈ Cmejor que δ′, y eso contradice el supuesto de que δ′ es admisible, luego δ′ ∈ C.

2

7.4.2. Busqueda de reglas admisibles y clases completas.

Teorema 54 Consideremos un problema de decision en el que Θ ⊆ IR. Supon-gamos que para cada regla de decision δ ∈ D, la funcion de riesgo R(θ, δ) escontinua en θ.

Sea π(θ) una distribucion a priori sobre Θ tal que para todo ε > 0 y todoθ ∈ Θ la probabilidad que π asigna al intervalo (θ − ε, θ + ε) es positiva.

Sea δπ la regla Bayes respecto a π. Si −∞ < B(π, δπ) < ∞ entonces δπ esadmisible.

Demostracion: Supongamos que δπ es inadmisible. Entonces existe una reglaδ ∈ D tal que

R(θ, δ) ≤ R(θ, δπ) para todo θ ∈ Θ

y existe un θ0 ∈ Θ conR(θ0, δ) < R(θ0, δ

π).

Sea ν = R(θ0, δπ)−R(θ0, δ) > 0. Por continuidad de R(θ, δ) y R(θ, δπ) se tiene

que existe ε > 0 tal queR(θ, δπ)−R(θ, δ) >

ν

2para todo θ ∈ (θ0 − ε, θ0 + ε). Entonces

B(π, δπ)−B(π, δ) = Eπ[R(θ, δπ)−R(θ, δ)] ≥

Eπ[1(θ0−ε,θ0+ε)(R(θ, δπ)−R(θ, δ))] ≥ ν

2Pπ[(θ0 − ε, θ0 + ε)] > 0.

Esto contradice el supuesto de que δπ es regla Bayes. Por lo tanto δπ es admisible.2

El teorema anterior proporciona un conjunto de condiciones bajo las cualeslas reglas Bayes son admisibles. Hay otros conjuntos de hipotesis que tambien

Page 241: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION 231

lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teoremase sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecena cualquier clase completa. Es ası razonable considerar las reglas Bayes.

El siguiente teorema permite restringir las reglas de decision consideradasa aquellas que dependen de estadısticos suficientes, dado que hacerlo no tienecoste en terminos de las funciones de riesgo. Este resultado es una generalizaciondel teorema de Rao-Blackwell (teorema 27, pagina 108).

Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente noacotado. Supongamos que la funcion de perdida L(θ, a) es una funcion convexade la accion a, para todo θ ∈ Θ. Sea T (X˜ ) un estadıstico suficiente de θ conespacio muestral T .

Si δ(x˜ ) ∈ D es una regla de decision, entonces la regla de decision

δ′(x˜ ) = δ′T (T ( x˜ )),

dondeδ′T : T −→ A

t −→ δ′T (t) = Eθ(δ( X˜ )|T ( X˜ ) = t),

es tan buena como δ, siempre y cuando la esperanza condicionada exista paratodo t ∈ T .

Demostracion: Veamos en primer lugar que δ′( x˜ ) es regla de decision, es decir,es una funcion de X en A. Por una parte, como T es estadıstico suficiente,Eθ(δ( X˜ )|T ( X˜ ) = T ( x˜ )) no depende de θ, sino solo de x˜ . Ademas, como δ

es regla de decision se tiene que δ(x˜ ) ∈ A para todo x˜ ∈ X y por ser A unconjunto convexo se sigue que Eθ(δ( X˜ )|T ( X˜ ) = T (x˜ )) ∈ A.

Veamos ahora que δ′ es tan buena como δ. Para todo θ ∈ Θ, se tiene que

R(θ, δ) = Eθ[L(θ, δ(X˜ ))] = Eθ[EθL(θ, δ( X˜ ))|T (X˜ )]

y por ser L convexa,

Eθ[EθL(θ, δ(X˜ ))|T ( X˜ ))] ≥ Eθ[L(θ, Eθ(δ( X˜ )|T ( X˜ )))] =

Eθ[L(θ, δ′(X˜ ))] = R(θ, δ′).

2

El siguiente corolario se sigue directamente del teorema.

Corolario 9 La clase de reglas de decision que dependen de los datos X˜ soloa traves de un estadıstico suficiente T es una clase esencialmente completa.

Estos resultados tienen especial importancia en el problema de estimacionpuntual cuando el espacio A es un intervalo.

Page 242: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

232 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

7.4.3. Admisibilidad de la media muestral bajo normali-

dad.

Sean X1, . . . , Xn m.a.s. de X ∼ N(θ, σ2). Nos planteamos el problema deestimacion de θ ∈ Θ = IR con funcion de perdida cuadratica. Veremos que eneste caso la media muestral es admisible como estimador de θ.

Teorema 56 La media muestral X es un estimador admisible de θ.

Demostracion: Distinguiremos dos situaciones, segun σ2 sea conocida o no.

(i) σ2 conocida.Supongamos que δ(x˜ ) = x es inadmisible. Entonces existe δ′(x˜ ) tal que R(θ, δ′) ≤R(θ, x) para todo θ ∈ IR y para algun θ0 se tiene que R(θ, x)−R(θ, δ′) = ν > 0.

De la continuidad en θ de la funcion de perdida cuadratica y la continuidadde la funcion de densidad de la normal de esperanza θ, se sigue que R(θ, δ) esfuncion continua de θ para toda regla δ. Como consecuencia de ello, existe ε > 0tal que R(θ, x)−R(θ, δ′) > ν/2, para todo θ ∈ (θ0 − ε, θ0 + ε).

Consideramos sobre IR la distribucion a priori π ∼ N(0, τ2) y definimos

η =σ2

nτ2 + σ2.

Ası,

B(π, x)−B(π, δ′) =∫ ∞

−∞[R(θ, x)−R(θ, δ′)]

1√2πτ

e−θ2

2τ2 dθ ≥

∫ θ0+ε

θ0−ε

[R(θ, x)−R(θ, δ′)]1√2πτ

e−θ2

2τ2 dθ >

ν

2P (θ0 − ε < Y < θ0 + ε) >

ν

22εfY (θ′0) =

ν

22ε

1√2πτ

e−(θ′0)2

2τ2

donde Y ∼ N(0, τ2) y θ′0 es el mas cercano a 0 de los dos puntos θ0− ε y θ0 + ε.Si llamamos K(τ) a

K(τ) =ν

22ε

1√2π

e−(θ′0)2

2τ2

se tiene queτ(B(π, x)−B(π, δ′)) > K(τ)

y que

lımτ−→∞

K(τ) =ν/2√2π

2ε > 0.

Por otra parte, el riesgo Bayes de la media muestral es

B(π, x) =∫

Θ

R(θ, X)π(θ)dθ =σ2

n,

Page 243: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISION 233

porque R(θ, X) = Eθ[(θ −X)2] = σ2/n, para todo θ ∈ Θ. Esto ademas ocurrepara cualquier a priori π.

Sea δπ la regla Bayes respecto a la a priori π. Por el teorema 51 y su corolario,la regla Bayes δπ(x˜ ) es la que asigna a cada x˜ la esperanza a posteriori de θ

dado x˜ , y su riesgo Bayes es la varianza a posteriori:

B(π, δπ) = τ2η =τ2σ2

nτ2 + σ2.

Por lo tanto,

τ(B(π, δπ)−B(π, x)) = τ

(τ2η − σ2

n

)=

−σ2

(1− τ2η

n

σ2

)= −σ2

(1− τ2 σ2

nτ2 + σ2

n

σ2

)=

−σ2

nτη.

Finalmente,

0 ≥ τ(B(π, δπ)−B(π, δ′)) = τ(B(π, δπ)−B(π, x)) + τ(B(π, x))−B(π, δ′)) >

−σ2

nτη + K(τ) = −σ2

n

τσ2

nτ2 + σ2+ K(τ) τ→∞−→ ν/2√

2π2ε > 0,

lo cual es una contradiccion, que nace de suponer que x no es admisible.

(ii) σ2 desconocida.Supongamos que x es inadmisible. Entonces existe un estimador δ′ tal que

R((θ, σ2), δ′) ≤ R((θ, σ2), x), para todo (θ, σ2),

R((θ0, σ20), δ′) < R((θ, σ2), x), para algun (θ0, σ

20).

Como δ′ es una funcion de X en IR, δ′ tambien es un estimador de θ si σ2 sefija en el valor σ2

0 . Para cualquier regla de decision, el riesgo R(θ, δ) cuando σ2

es conocida y vale σ20 es igual al riesgo en el caso de σ2 desconocida evaluado

en el valor σ20 : R((θ, σ2

0), δ). Ası,

R(θ, δ′) = R((θ, σ20), δ′) ≤ R((θ, σ2

0), x), para todo θ,

R(θ0, δ′) = R((θ0, σ

20), δ′) < R((θ, σ2

0), x), para algun θ0.

De aquı se sigue que δ′ es mejor que x para estimar θ cuando σ2 es conocidoy vale σ2

0 , lo que contradice el hecho de que x es admisible si σ2 es conocida.Ası x ha de ser admisible tambien si σ2 es desconocida. 2

Page 244: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

234 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

7.5. Reglas minimax

El riesgo Bayes definido en la seccion 7.3 permite resumir el comportamientode la funcion de riesgo de una regla de decision δ sobre todo el espacio Θ enun solo numero, el riesgo Bayes de esa regla, que es el valor medio (segun la apriori π) de la funcion de riesgo. Este resumen es util porque permite compararcualquier par de reglas de decision mediante la comparacion de sus respectivosriesgos Bayes.

Otro resumen numerico de la funcion de riesgo usado habitualmente es elvalor maximo (o el supremo) que toma esta funcion cuando θ recorre Θ.

Se dice que una regla de decision δ′ es una regla minimax si

supθ∈Θ

R(θ, δ′) = ınfδ∈D

supθ∈Θ

R(θ, δ).

Una regla minimax protege de la mejor forma posible (ınfδ∈D) contra la situacionmas adversa que podrıa presentarse (supθ∈Θ).

El criterio minimax para elegir una regla de decision es muy conservador,pues solo tiene en cuenta para cada regla δ cual es su comportamiento en elpeor escenario posible, sin considerar si ese escenario adverso es o no plausible.Este criterio considera que la naturaleza (quien decide el valor de θ) es unadversario del decisor, y lleva a este a actuar de forma estrategica. Este supuestoes exagerado en muchos problemas estadısticos.

Por otra parte, el criterio minimax se complementa bien con el de admisibili-dad. Una regla puede ser admisible porque se comporta bien en un determinadovalor de θ, aunque tenga un riesgo altısimo para los restantes valores. Si ademasde admisible una regla es minimax se puede estar seguro de que el riesgo nosera extremadamente alto en ningun valor de θ. Ası pues, una regla que seaminimax y admisible sera una buena regla. De hecho, las reglas minimax estanestrechamente relacionadas con las reglas admisibles y las reglas Bayes, comoponen de manifiesto los resultados siguientes.

Teorema 57 Supongamos que una regla de decision δπ es regla Bayes paracierta distribucion a priori π y que, ademas,

R(θ, δπ) ≤ B(π, δπ), para todo θ ∈ Θ.

Entonces δπ es minimax.

Demostracion: Supongamos que δπ no fuese minimax. Entonces existirıa al-guna regla δ′ tal que

supθ∈Θ

R(θ, δ′) < supθ∈Θ

R(θ, δπ).

El riesgo Bayes de esta regla serıa

B(π, δ′) ≤ supθ∈Θ

R(θ, δ′) < supθ∈Θ

R(θ, δπ) ≤ B(π, δπ),

Page 245: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.5. REGLAS MINIMAX 235

entrando en contradiccion con el hecho de que δπ es regla Bayes respecto a π.2

Observese que la hipotesis

R(θ, δπ) ≤ B(π, δπ), para todo θ ∈ Θ,

es muy restrictiva. Al definirse el riesgo Bayes como

B(π, δπ) = Eπ(R(θ, δπ))

se tiene que en generalB(π, δπ) ≤ sup

θ∈ΘR(θ, δπ).

De esto se sigue que la hipotesis del problema es equivalente a que

B(π, δπ) = supθ∈Θ

R(θ, δπ),

y eso ocurre si y solo si π pone toda la probabilidad en el conjunto de puntos θ

en los que R(θ, δπ) es maxima. En cierto modo lo que se pide en el teorema esque la regla R(θ, δπ) sea constante con probabilidad 1, segun π.

La distribucion a priori π cuya regla Bayes es minimax es la distribucion a

priori menos favorable. Tiene la propiedad de que si π′ es otra distribuciona priori y δπ′ es la regla Bayes asociada, entonces

B(π′, δπ′) ≤ B(π, δπ).

En efecto,

B(π′, δπ′) ≤ B(π′, δπ) = Eπ′(R(θ, δπ)) ≤ Eπ′(B(π, δπ)) = B(π, δπ).

Si una regla de decision δ tiene funcion de riesgo constante en θ entoncesse dice que es una regla igualadora. En muchos caso las reglas igualadorasson minimax, como muestra el siguiente resultado, que se sigue directamentedel teorema anterior.

Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna dis-tribucion a priori π. Entonces δ es minimax.

Este corolario es util cuando se quiere probar que una regla igualadora esminimax. Basta con encontrar una a priori π respecto de la cual la regla igua-ladora sea regla Bayes. El siguiente resultado prueba que en ese caso tambienbasta con probar que la regla igualadora es admisible.

Teorema 58 Sea δ una regla igualadora. Si δ es admisible, entonces es mini-max.

Page 246: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

236 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

Demostracion: Sea c = R(θ, δ), que es constante en θ por ser δ igualadora. Siδ no es minimax, entonces existe una regla δ′ tal que

supθ∈Θ

R(θ, δ′) < supθ∈Θ

R(θ, δ) = c.

Para todo θ ∈ Θ se tiene entonces que

R(θ, δ′) ≤ supθ∈Θ

R(θ, δ′) < supθ∈Θ

R(θ, δ) = c = R(θ, δ),

lo cual implica que δ no es admisible. El absurdo nace de suponer que δ no esminimax. 2

Ejemplo 92Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(θ, σ2). El teorema 56 mues-tra que la media muestral X es un estimador admisible de θ cuando se usaperdida cuadratica, tanto si σ2 es conocido como si no lo es.

En el caso de σ2 conocida, se tiene que X es una regla igualadora:

R(θ, x) = V (X) =σ2

n.

Ası, por el teorema anterior se sigue que la media muestral X es estimadorminimax.

Sin embargo, si σ2 es desconocido, este teorema no es aplicable porque X yano es una regla igualadora: el riesgo

R((θ, σ2), x) = V (X) =σ2

n,

depende de σ2. De hecho cualquier estimador tiene

supθ,σ2

R((θ, σ2), δ) = ∞,

y por lo tanto cualquier estimador es minimax.

Se puede probar que si se define la perdida L((θ, σ2), a) = (a − θ)2/σ2 en-tonces X es admisible y minimax, con riesgo maximo finito.. .

El siguiente resultado muestra que bajo ciertas situaciones una regla mini-max es admisible.

Teorema 59 Supongamos que δ es la unica regla minimax en el sentido de quecualquier otra regla minimax es equivalente a δ. Entonces δ es admisible.

Page 247: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.5. REGLAS MINIMAX 237

Demostracion: Sea δ′ otra regla de decision. Si la funcion de riesgo de δ′

coincide con la de δ, entonces δ′ no es mejor que δ. Si no coinciden, entonces δ′

no es minimax, mientras que δ sı lo es, ası que

supθ∈Θ

R(θ, δ′) > supθ∈Θ

R(θ, δ).

De ahı se sigue que para algun θ′ ∈ Θ,

R(θ′, δ′) > supθ∈Θ

R(θ, δ) ≥ R(θ′, δ),

por lo que δ′ no es mejor que δ. Como δ′ podrıa ser cualquier regla de decision,se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2

Page 248: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

238 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

7.6. Lista de problemas

Teorıa de la Decision e inferencia estadıstica. ReglasBayes

1. (Casella-Berger, 10.1) Sea X ∼ N(θ, 1) y considera el contraste de H0 :θ ≥ θ0 frente a H0 : θ < θ0. Usa la funcion de perdida

L(θ, a0) = b(θ0 − θ)1θ<θ0, L(θ, a1) = c(θ − θ0)21θ≥θ0,

donde b y c son constante positivas, para analizar los tres contrastes querechazan H0 si X < −zα + θ0 para α = ,1, ,3 y ,5, respectivamente.

a) Para b = c = 1, diguja y compara las tres funciones de riesgo.

b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo.

c) Dibuja las funciones de potencia de los tres contrastes y comparalascon las funciones de riesgo halladas en los dos apartados anteriores.

2. (Casella-Berger, 10.2) Sea X ∼ B(5, p). Consideramos el contraste H0 :p ≤ 1/3 frente a H0 : p > 1/3 con perdida 0-1. Dibuja y compara lasfunciones de riesgo de los siguientes dos contrastes: el primero rechaza H0

si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5.

3. (Casella-Berger, 10.3) Sea X ∼ B(10, p). Dibuja y compara las funcionesde riesgo de dos estimadores de p, δ1(x) = 1/3 y δ2(x) = x/10, bajofuncion de perdida dada por el valor absoluto.

4. (Casella-Berger, 10.6) Sea X ∼ N(µ, σ2), σ2 desconocida. Para cada c ≥ 0se define el estimador por intervalos para µ

C(x) = [x− cs, x + cs],

donde s2 es un estimador de σ2 independiente de X, tal que νS2/σ2 ∼ χ2ν .

Se considera la funcion de perdida

L((µ, σ), C) =b

σLong(C)− IC(µ).

a) Prueba que la funcion de riesgo, R((µ, σ), C), esta dada por

R((µ, σ), C) = b(2cM)− [2P (T ≤ c)− 1],

donde T ∼ tν y M = E(S)/σ.

b) Si b ≤ 1/√

2π, prueba que el valor de c que minimiza el riesgo satisfaceque

b =1√2π

ν + c2

) ν+12

.

Page 249: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.6. LISTA DE PROBLEMAS 239

c) Relaciona estos resultados con los analogos obtenidos en el caso deque σ2 sea conocida (ver ejemplo desarrollado en teorıa), en el sentidosiguiente: prueba que si ν −→ ∞, entonces la solucion encontradaaquı converge a la que se tiene si σ2 es conocida.

5. (Casella-Berger, 10.8) Sea X1, . . . , Xn una m.a.s. de X ∼ N(θ, σ2), conσ2 conocida. Se desea estimar θ usando perdida cuadratica. Sea la distri-bucion a priori de θ, π(θ), una N(µ, τ2) y sea δπ el estimador Bayes de θ.Prueba las siguientes formulas para la funcion de riesgo y el riesgo Bayes.

a) Para cualesquiera constantes a y b, el estimador δ( X˜ ) = aX+b tienefuncion de riesgo

R(θ, δ) = a2 σ2

n+ (b− (1− a)θ)2.

b) Sea η = σ2/(nτ2 + σ2). La funcion de riesgo del estimador de Bayeses

R(θ, δπ) = (1− η)2σ2

n+ η2(θ − µ)2.

c) El riesgo Bayes del estimador de Bayes es B(π, δπ) = τ2η.

6. (Casella-Berger, 10.9) Sea X ∼ N(µ, 1). Sea δπ el estimador de Bayes de µ

bajo perdida cuadratica. Calcula y dibuja las funciones de riesgo, R(µ, δπ),para π(θ) ∼ N(0, 1) y π(θ) ∼ N(0, 10). Indica como la distribucion a prioriafecta la funcion de riesgo del estimador de Bayes.

7. (Casella-Berger, 10.11) Se define la funcion de perdida LINEX (LINear-EXponential) como

L(θ, a) = ec(a−θ) − c(a− θ)− 1,

con c > 0. Es una funcion suave que permite ponderar de forma asimetricalas desviaciones por exceso y por defecto. Variando el valor c se puedenconseguir desde perdidas muy asimetricas hasta otras casi simetricas.

a) Dibuja L(θ, a) como funcion de a− θ cuando c = 0,2, 0,5 y 1.

b) Sea X ∼ f(x|θ). Prueba que el estimador de Bayes de θ, usandoperdida LINEX y distribucion a priori π, es

δπ = −1c

log E(e−cθ|X).

c) Sea X1, . . . , Xn una m.a.s. de X ∼ N(θ, σ2), con σ2 conocida y dis-tribucion a priori sobre θ no informativa: π(θ) = 1. Prueba que elestimador de Bayes de θ bajo perdida LINEX es

δB(X) = X − cσ2

2n.

d) Compara los riesgos Bayes de δB(X) y de X usando perdida LINEX.

Page 250: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

240 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

e) Compara los riesgos Bayes de δB(X) y de X usando perdida cuadrati-ca.

Admisibilidad. Reglas minimax

8. (Casella-Berger, 10.12) Sea X ∼ N(µ, 1) y consideremos el contraste deH0 : µ ≤ 0 frente a H1 : µ > 0 usando perdida 0-1. Sea δc el test querechaza H0 si X > c. Se puede probar que la clase de contrastes δc :−∞ ≤ c ≤ ∞ es esencialmente completa para este problema. Sea δ eltest que rechaza H0 si 1 < X < 2. Encuentra un test δc que sea mejor queδ.

9. (Casella-Berger, 10.13) Sea X ∼ N(µ, 1) y consideremos el contraste deH0 : µ = 0 frente a H1 : µ 6= 0 usando perdida 0-1. Sea δc,d el testque acepta H0 si c ≤ X ≤ d. Se puede probar que la clase de contrastesδc,d : −∞ ≤ c ≤ d ≤ ∞ es esencialmente completa para este problema.Sea δ el test que acepta H0 si 1 ≤ X ≤ 2 o −2 ≤ X ≤ −1. Encuentra untest δc,d que sea mejor que δ.

10. (Casella-Berger, 10.14) Supongamos un problema de decision con espacioparametrico finito, Θ = θ1, . . . , θm. Supongamos que δπ es la regla Bayescon respecto a una distribucion a priori π que da probabilidad positiva acada posible valor de θ ∈ Θ. Prueba que δπ es admisible.

11. (Casella-Berger, 10.15) Supongamos que para una cierta distribucion apriori π, cada regla Bayes con respecto a π (si es que hay mas de una) tienela misma funcion de riesgo. Prueba que estas reglas Bayes son admisibles.En otras palabras, si una regla Bayes es unica entonces es admisible.

12. (Casella-Berger, 10.16) Sea X ∼ N(µ, σ2), σ2 conocida. Se desea estimarµ con perdida cuadratica. Prueba que la regla δ(x) = 17, que estima µ

como 17 para cualquier valor x observado, es admisible.

13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decision C escompleta minimal si es completa y ningun subconjunto propio de C esclase completa. Prueba que si existe una clase de reglas completa minimal,entonces es la clase de reglas admisibles.

14. (Casella-Berger, 10.20) Sea C una clase de reglas de decision esencialmentecompleta. Prueba que si δ′ 6∈ C es admisible, entonces existe una reglaδ ∈ C tal que δ y δ′ son equivalentes.

15. (Casella-Berger, 10.21) Sea X ∼ B(n, p), con n conocida. Se considera laestimacion de p con perdida del error absoluto. Sea δ(x) = 1/3 la reglaque estima p como 1/3, sea cual sea la observacion x.

a) Prueba que δ(x) es admisible.

Page 251: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

7.6. LISTA DE PROBLEMAS 241

b) Prueba que δ(x) es la regla Bayes para alguna distribucion a prioriπ(p).

16. (Casella-Berger, 10.23) Sea X1, . . . , Xn una m.a.s. de una poblacion conesperanza θ y varianza desconocida σ2, 0 < σ2 < ∞. Se desea estimar θ

con perdida cuadratica.

a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 yb son constantes, es inadmisible.

b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible.

c) Supongamos ahora que σ2 es conocida. Prueba que un estimador deesa forma es admisible si a < 1.

17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en losnaturales que van de 1 a θ ∈ IN. Sea el espacio parametrico Θ = 1, 2, . . ..Se estima θ considerando perdida cuadratica.

a) Sea el espacio de acciones A = Θ. Prueba que para algunas distribu-ciones a priori el estimador δ(x) = E(θ|x) no es el estimador Bayesde θ.

b) Supongamos ahora que el espacio de acciones es A = [1,∞) y quela esperanza E(θ|x) existe siempre. Prueba que δ(x) = E(θ|x) es elestimador Bayes de θ.

c) Prueba que δ0(x) = x es admisible, independientemente de cual de losdos espacios de acciones anteriores sea considerado. (Nota: Pruebaque R(1, δ) es mınimo si δ = δ0 y despues usa induccion en θ.)

d) El estimador δ0(x) = x es el estimador de Bayes con respecto a algunadistribucion a priori. ¿Con respecto a cual?

e) Prueba que existen otras reglas Bayes respecto a esa misma distribu-cion a priori que tienen funciones de riesgo diferentes a la de δ0.

18. (Casella-Berger, 10.26) Sea X ∼ N(µ, 1). Se desea contrastar H0 : µ ≥ µ0

frente a H1 : µ < µ0 con funcion de perdida 0-1 generalizada medianteun test que rechace H0 si X < −zα + µ0. Encuentra el valor de α que dalugar a un test minimax.

19. (Casella-Berger, 10.27) Sea X1, . . . , Xn muestra aleatoria simple de X ∼N(θ, σ2) con σ2 desconocida. Se desea estimar θ con la funcion de perdida

L((θ, σ2), a) =(a− θ)2

σ2.

a) Prueba que X es un estimador admisible de θ.

b) Prueba que X es minimax.

20. (Casella-Berger, 10.30, 10.31) Sea πn, n ∈ IN, una sucesion de distribucio-nes a priori. Sea δn la regla Bayes respecto a πn.

Page 252: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

242 CAPITULO 7. INTRODUCCION A LA TEORIA DE LA DECISION

a) Prueba que si B(πn, δn) converge a un numero c y δ es una regla dedecision tal que R(θ, δ) = c para todo θ ∈ Θ, entonces δ es minimax.

b) Sea X1, . . . , Xn muestra aleatoria simple de X ∼ N(θ, σ2) con σ2

conocida. Se desea estimar θ con perdida cuadratica. Utiliza el resul-tado del apartado anterior para probar que X es minimax.

21. (Casella-Berger, 10.33) Sea X1, . . . , Xn muestra aleatoria simple de X ∼Bern(p). Se desea estimar p con perdida cuadratica. Sea

pB =∑n

i=1 Xi +√

n/4n +

√n

.

a) Prueba que pB es una regla igualadora.

b) Prueba que pB es minimax.

c) Prueba que pB es admisible.

22. (Examen junio 2000) Sea la variable aleatoria X con distribucion uniformeen el intervalo [0, θ], con θ > 0 desconocido. Se desea estimar el parametroθ basandose solo en una unica observacion de X y se plantea este problemacomo un problema de decision. La distribucion a priori sobre θ tiene comofuncion de densidad

π(θ) = θe−θI(0,∞).

a) Consideramos solo las reglas de decision que son funciones de la ob-servacion x de la forma dk(x) = kx, con k ≥ 1. Si la funcion deperdida es

L(θ, a) = |a− θ|calcula la funcion de riesgo R(θ, dk). ¿Es posible encontrar una regladk∗ que haga mınimo el riesgo para cualquier valor de θ?

b) Encuentra la regla Bayes. (Indicacion: Usa directamente la defini-cion de regla Bayes como aquella que hace mınimo el error Bayes.)

c) Consideremos ahora perdida cuadratica. Encuentra la regla Bayes.

d) Si ahora se permite que cualquier funcion d(x) sea una regla de de-cision y se considera perdida cuadratica, encuentra la regla Bayes.

23. (Examen julio 2000) Sea X ∼ B(n = 2, p). Se ha de decidir a partir de unaobservacion de X si el parametro p es 1/4 o 1/2. La funcion de perdida es0-1.

a) Da la lista de las ocho posibles reglas de decision e indica los corres-pondientes valores de la funcion de riesgo.

b) Indica cuales de las ocho reglas son inadmisibles.

c) Encuentra la regla Bayes correspondiente a una distribucion a prioricon funcion de probabilidad

π(1/4) =23, π(1/2) =

13.

d) Encuentra la regla minimax para este problema.

Page 253: Curso de Inferencia y Decisi¶on - delicado/docencia/IyDapuntes.pdfCurso de Inferencia y Decisi¶on Guadalupe G¶omez y Pedro Delicado Departament d’Estad¶‡stica i Investigaci¶o

Referencias

Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall.

Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scien-tific.

Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and

selected topics. Prentice Hall.

Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press.

Cristobal, J.A (1992). Inferencia Estadıstica. Universidad de Zaragoza.

DeGroot, M. H. (1988). Probabilidad y Estadıstica. Addison-Wesley.

Garcıa-Nogales, A. (1998). Estadıstica Matematica. Universidad de Extrema-dura.

Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. Prentice-Hall.

Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley.

Pena, D. (1995). Estadıstica: Modelos y Metodos, Volumen 2: Modelos lineales yseries temporales. Alianza Universidad, Madrid. Segunda edicion revisada.

Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.).Duxbury Press.

Sanz, M. (1999). Probabilitats. Barcelona: EUB.

Schervish, M.J. (1995). Theory of Statistics. Springer.

Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to

Statistics. John Wiley & Sons.

Silvey, S.D. (1983). Statistical Inference. Chapman and Hall.

Spivak, M. (1970). Calculo infinitesimal. Barcelona: Reverte.

Velez, R. y A. Garcıa (1993). Principios de Inferencia Estadıstica. UNED.

243