MÉTODOS BAYESIANOS - ITAM - Correo electrónico para...

42
CURSO: MÉTODOS BAYESIANOS INSTRUCTOR: LUIS E. NIETO BARAJAS EMAIL: [email protected] URL: http://allman.rhon.itam.mx/~lnieto Banco de México

Transcript of MÉTODOS BAYESIANOS - ITAM - Correo electrónico para...

Page 1: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

CURSO:

MÉTODOS BAYESIANOS

INSTRUCTOR: LUIS E. NIETO BARAJAS

EMAIL: [email protected]

URL: http://allman.rhon.itam.mx/~lnieto

Banco de México

Page 2: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

2

Métodos Bayesianos

OBJETIVO: El alumno conocerá los principios básicos de la teoría Bayesiana

y se familiarizará con el concepto de modelado estadístico en general.

Conocerá algunas de las familias de modelos más comunes y será capaz

de realizar un análisis estadístico Bayesiano para estos modelos,

principalmente en contextos de regresión, series de tiempo y de

pronóstico.

TEMARIO:

1. Teoría de decisión (B2−5)

1.1 Fundamentos y axiomas de coherencia

1.2 Principio de utilidad esperada máxima

1.3 Proceso de aprendizaje y distribución predictiva

1.4 Distribuciones iniciales informativas, no informativas y conjugadas

1.5 Problemas de inferencia paramétrica 2. Cómputo Bayesiano (G2−5, C10)

2.1 Aproximaciones analíticas e integración numérica

2.2 Métodos de Monte Carlo y simulación vía cadenas de Markov

2.3 Medidas de comparación y ajuste de modelos 3. Algunos modelos estadísticos (C3, C4, C9)

3.1 Modelos de regresión lineal

3.2 Modelos lineales generalizados

3.3 Análisis de clasificación y Modelos de mezcla

Page 3: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

3

3.4 Modelos de supervivencia 4. Modelos de series de tiempo (C7)

4.1 Modelos lineales dinámicos

4.2 Modelos lineales generalizados dinámicos 5. Otros temas (CL3, C5)

5.1 Modelos jerárquicos

5.2 Análisis Bayesiano empírico

5.3 Modelos Bayesianos no paramétricos

REFERENCIAS:

• (B) Bernardo, J. M. (1981). Bioestadística: Una perspectiva Bayesiana.

Vicens Vives: Barcelona.

Disponible en: http://www.uv.es/bernardo/Bioestadistica.pdf

• (C) Congdon, P. (2001). Bayesian Statistical Modelling. Wiley:

Chichester.

• (CL) Carlin, J. B. & Louis, T. A. (2000). Bayes and empirical Bayes

methods for data analysis, 2a. edición. Chapman & Hall: Boca Raton.

• (G) Gutiérrez‐Peña, E. (1997). Métodos computacionales en la

inferencia Bayesiana. Monografía IIMAS‐UNAM Vol. 6, No. 15.

Disponible en: http://www.dpye.iimas.unam.mx/eduardo/MCB/index.html

Page 4: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

4

PAQUETES ESTADÍSTICOS: Durante el curso se manejarán varios paquetes

estadísticos que nos servirán para entender mejor los conceptos y para

realizar análisis Bayesianos.

Paquete didáctico:

1) First Bayes (http://www.shef.ac.uk/~st1ao/1b.html)

Paquetes de análisis:

2) WinBUGS (http://www.mrc‐bsu.cam.ac.uk/bugs/)

3) OpenBUGS (http://www.openbugs.info/)

4) R (http://www.r‐project.org/)

EVALUACIÓN: El curso de evaluará con un trabajo final. El alumno se

enfrentará a un problema real en el que tendrá que mostrar su

conocimiento aprendido modelando de manera adecuada un conjunto de

datos, resolviendo objetivos particulares y tomando decisiones. El alumno

deberá entregar su trabajo una semana después de que se le

proporcionen los detalles de la base de datos y los objetivos a resolver.

Page 5: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

5

1. Teoría de decisión

1.1 Fundamentos y Axiomas de coherencia

El OBJETIVO de la estadística, y en particular de la estadística Bayesiana, es

proporcionar una metodología para analizar adecuadamente la

información con la que se cuenta (análisis de datos) y decidir de manera

razonable sobre la mejor forma de actuar (teoría de decisión).

DIAGRAMA de la Estadística:

Tipos de INFERENCIA:

Clásica Bayesiana

Paramétrica √√√ √√

No paramétrica √√ √

Población

Muestra

MuestreoInferencia

AAnnáálliissiiss ddee ddaattooss

TToommaa ddee ddeecciissiioonneess

Page 6: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

6

La estadística esta basada en la TEORÍA DE PROBABILIDADES. Formalmente la

probabilidad es una función que cumple con ciertas condiciones (axiomas

de la probabilidad), pero en general puede entenderse como una medida

o cuantificación de la incertidumbre.

Aunque la definición de función de probabilidad es una, existen varias

interpretaciones de la probabilidad: clásica, frecuentista y subjetiva. La

METODOLOGÍA BAYESIANA está basada en la interpretación subjetiva de la

probabilidad y tiene como punto central el Teorema de Bayes.

Reverendo Thomas Bayes (1702‐1761).

La inferencia estadística es una forma de tomar decisiones. Los métodos

clásicos de inferencia ignoran los aspectos relativos a la toma de

decisiones, en cambio los métodos Bayesianos sí los toman en cuenta.

¿Qué es un problema de decisión?. Nos enfrentamos a un problema de

decisión cuando debemos elegir entre dos o más formas de actuar.

La TOMA DE DECISIONES es un aspecto primordial en la vida de un

profesionista, por ejemplo, un administrador debe de tomar decisiones

Page 7: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

7

constantemente en un ambiente de incertidumbre; decisiones sobre el

proyecto más verosímil o la oportunidad de realizar una inversión.

La TEORÍA DE DECISIÓN propone un método de tomar decisiones basado en

unos principios básicos sobre la elección coherente entre opciones

alternativas.

ELEMENTOS DE UN PROBLEMA DE DECISIÓN en ambiente de incertidumbre:

Un problema de decisión se define por la cuarteta (D, E, C, ≤), donde:

D : Espacio de opciones. Es el conjunto de posibles alternativas, debe de

construirse de manera que sea exhaustivo (que agote todas las

posibilidades que en principio parezcan razonables) y excluyente (que la

elección de uno de los elementos de D excluya la elección de cualquier

otro).

D = d1,d2,...,dk.

E : Espacio de eventos inciertos. Contiene los eventos inciertos relevantes

al problema de decisión.

Ei = Ei1,Ei2,...,Eimi., i=1,2,…,k.

C : Espacio de consecuencias. Es el conjunto de consecuencias posibles y

describe las consecuencias de elegir una decisión.

C = c1,c2,...,ck.

Page 8: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

8

≤ : Relación de preferencia entre las distintas opciones. Se define de

manera que d1≤d2 si d2 es preferido sobre d1.

ÁRBOL DE DECISIÓN (en ambiente de incertidumbre):

EJEMPLO 1: Un gerente tiene $B pesos y debe decidir si invertir en un

proyecto o guardar el dinero en el banco. Si guarda su dinero en el banco

y si la tasa de interés se mantiene constante, al final del año tendría el

doble, pero si la tasa sube tendría 3 veces más. Si invierte en el proyecto,

d1

di

dk

c11

c12

c1m1

No se tiene información completa sobre las consecuencias de tomar cierta decisión.

E11

E12

E1m1

Ei1

Ek1

Ei2

Ek2

Eimi

Ekmk

ci1

ck1

ci2

ck2

cimi

ckmk

Nodo de decisión Nodo aleatorio

Page 9: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

9

puede ocurrir que el proyecto sea exitoso o que fracase. Si el proyecto es

exitoso y la tasa de interés se mantiene constante, al final de un año

tendría 10 veces la inversión inicial, pero si la tasa sube tendría

únicamente 4 veces más de su inversión inicial. En caso de que el proyecto

fracasara al final de un año habrá perdido su inversión inicial.

D = d1, d2, donde d1 = proyecto, d2 = banco

E = E11, E12, E13, E21, E22, donde E11 = éxito / tasa constante, E12 = éxito /

tasa sube, E13 = fracaso, E21 = tasa constante, E22 = tasa sube

C = c11, c12, c13, c21, c22, donde c11=$10B, c12=$5B, c13=‐$B, c21=$2B,

c22=$4B

Proyecto

Banco

Éxito

Fracaso

T. cte.

T. sube

T. cte.

T. sube

$10B

$5B

-$B

$2B

$4B

Page 10: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

10

En la práctica, la mayoría de los problemas de decisión tienen una

estructura más compleja. Por ejemplo, decidir si realizar o no un proyecto,

y en caso afirmativo tratar de decidir la acción más adecuada según el

resultado del proyecto. (Problemas de decisión secuenciales).

Frecuentemente, el conjunto de eventos inciertos es el mismo para

cualquier decisión que se tome, es decir, Ei = Ei1,Ei2,...,Eimi = E1,E2,...,Em =

E, para todo i. En este caso, el problema se puede representar como:

E1 ... Ej ... Em

d1 c11 ... c1j ... c1m

M M M M

di ci1 ... cij ... cim

M M M M

dk ck1 ... ckj ... ckm

El OBJETIVO de un problema de decisión en ambiente de incertidumbre

consiste entonces en elegir ¡la mejor! decisión di del conjunto D sin saber

cuál de los eventos Eij de Ei ocurrirá.

Aunque los sucesos que componen cada Ei son inciertos, en el sentido de

que no sabemos cuál de ellos tendrá lugar, en general se tiene una idea

sobre la probabilidad de cada uno de ellos. Por ejemplo,

Page 11: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

11

40 años

Algunas veces resulta difícil ordenar nuestras preferencias sobre las

distintas consecuencias posibles. Tal vez resulta más fácil asignar una

utilidad a cada una de las consecuencias y ordenar posteriormente de

acuerdo a la utilidad.

CUANTIFICACIÓN de los sucesos inciertos y de las consecuencias.

La información que el decisor tiene sobre la posible ocurrencia de los

eventos inciertos puede ser cuantificada a través de una función de

probabilidad sobre el espacio E.

¿viva 10 más?

¿muera en 1 mes?

¿llegue a los 100?

¿Cuál es más probable?

Consecuencias Ganar mucho dinero y

tener poco tiempo disponible

Ganar poco dinero y tener mucho tiempo

disponible

Ganar regular de dinero y tener regular de tiempo disponible

Page 12: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

12

De la misma manera, es posible cuantificar las preferencias del decisor

entre las distintas consecuencias a través de una función de utilidad de

manera que 'j'iij cc ≤ ⇔ ( ) ( )'j'iij cucu ≤ .

Alternativamente, es posible representar el árbol de decisión de la

siguiente manera:

¿CÓMO tomar ¡la mejor! decisión?

Si de alguna manera fuéramos capaces de deshacernos de la

incertidumbre podríamos ordenar nuestras preferencias de acuerdo con

las utilidades de cada decisión. La mejor decisión sería la que tenga la

utilidad máxima.

d1

di

dk

u(c11)

u(c12)

u(c1m1)

P(E11|d1)

P(E12|d1)

P(E1m1|d1)

P(Ei1|di)

P(Ek1|dk)

P(Ei2|di)

P(Ek2|dk)

P(Eimi|di)

P(Ekmk|dk)

u(ci1)

u(ck1)

u(ci2)

u(ck2)

u(cimi)

u(ckmk)

Incertidumbre Decisor

¡Fuera¡

Page 13: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

13

ESTRATEGIAS: En un principio estudiaremos cuatro estrategias o criterios

propuestos en la literatura para tomar una decisión.

1) Optimista : Dar por “segura” a la mejor consecuencia de cada opción.

2) Pesimista (o minimax): Dar por “segura” a la peor consecuencia de

cada opción.

3) Consecuencia más probable (o condicional): Dar por “segura” a la

consecuencia más probable de cada opción.

4) Utilidad esperada: Dar por “segura” una consecuencia promedio para

cada opción.

Cualquiera que sea la estrategia tomada, la mejor opción es aquella que

maximice la utilidad del árbol “sin incertidumbre”.

EJEMPLO 2: En unas elecciones parlamentarias en la Gran Bretaña

competían los partidos Conservador y Laboral. Una casa de apuestas

ofrecía las siguientes posibilidades:

a) A quien apostara a favor del partido Conservador, la casa estaba

dispuesta a pagar 7 libras por cada 4 que apostase si el resultado

favorecía a los conservadores, en caso contrario el apostador perdía su

apuesta.

b) A quien apostase a favor del partido Laboral, la casa estaba dispuesta a

pagar 5 libras por cada 4 que apostasen si ganaban los laboristas, en

caso contrario el apostador perdía su apuesta.

Page 14: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

14

o D = d1,d2

donde, d1 = Apostar al partido Conservador

d2 = Apostar al partido Laboral

o E = E1, E2

donde, E1 = Que gane el partido Conservador

E2 = Que gane el partido Laboral

o C = c11, c12, c21, c22. Si la apuesta es de k libras

entonces, k43k

47kc11 =+−=

kc12 −=

kc21 −=

k41k

45kc22 =+−=

Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij

y sea π = P(E1), y π−1 = P(E2).

P(E) π π−1

u(d,E) E1 E2

d1 (3/4)k ‐k

d2 ‐k (1/4)k

¿A qué partido apostar?

Laboral Conservador

Page 15: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

15

1) Optimista: d1 (apostar al partido Conservador)

2) Pesimista: d1 ó d2 (da igual cualquiera de las dos)

3) Consecuencia más probable: d1 ó d2 (dependiendo)

Si 2/1>π se toma a E1 como “seguro” ⇒ d1

Si 2/1≤π se toma a E2 como “seguro” ⇒ d2

4) Utilidad esperada: d1 ó d2 (dependiendo)

Las utilidades esperadas son:

( ) k1)4/7()k)(1(k)4/3(du 1 −π=−π−+π=

( ) k)4/5()4/1(k)4/1)(1()k(du 2 π−=π−+−π=

Entonces, la mejor decisión sería:

Si ( )1du > ( )2du ⇔ 12/5>π ⇒ d1

Si ( )1du < ( )2du ⇔ 12/5<π ⇒ d2

Si ( )1du = ( )2du ⇔ 12/5=π ⇒ d1 ó d2

Gráficamente, si definimos las funciones

( ) ( )11 dukk47g =−π

=π , y

( ) ( )22 du4kk

45g =+π

−=π

Page 16: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

16

entonces, si k = 1,

La línea gruesa representa la mejor solución al problema de decisión

dada por el criterio de la utilidad esperada.

Observación: Si [ ]7/4,5/1∈π , la utilidad esperada de la mejor decisión

es negativa!.

Pregunta 1: ¿Tu apostarías si [ ]7/4,5/1∈π ?

Pregunta 2: ¿Cuál es el valor que la casa esperaría tuviera π?.

Intuitivamente, la casa esperaría que [ ]7/4,5/1∈π .

o Moraoleja: Debemos de incluir todas las alternativas en el espacio de

opciones (i.e, ser exhaustivos), teniendo cuidado con la inadmisibilidad!.

INADMISIBILIDAD de una opción: Una opción d1 es inadmisible si existe otra

opción d2 tal que d2 es al menos tan preferible como d1 pase lo que pase

5/12

1/5 4/7

g1(π)

g2(π)

0.0 0.2 0.4 0.6 0.8 1.0

-1.0

-0.5

0.0

0.5

1.0

Page 17: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

17

(para cualquier suceso incierto) y existe un caso (suceso incierto) para el

que d2 es más preferida que d1.

AXIOMAS DE COHERENCIA. Son una serie de principios que establecen las

condiciones para tomar decisiones coherentemente y para aclarar las

posibles ambigüedades en el proceso de toma de decisión. Los axiomas de

coherencia son 4:

1. Comparabilidad.

2. Transitividad.

3. Sustitución y dominancia.

4. Eventos de referencia.

1.2 Principio de utilidad esperada máxima

IMPLICACIONES de los axiomas de coherencia:

CUANTIFICACIÓN DE LAS CONSECUENCIAS: La cuantificación de la consecuencia c

será un número u(c) medido en la escala [0,1]. Esta cuantificación estará

basada en eventos de referencia.

EJEMPLO 3: Utilidad del dinero. Supongamos que la peor y la mejor

consecuencias al jugar un juego de azar son:

c* = $0 (la peor) y c* = $1,000 (la mejor)

La idea es determinar una función de utilidad para cualquier consecuencia

c tal que c* ≤ c ≤ c*. Pensemos en una lotería:

Page 18: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

18

Si el número de consecuencias es muy grande o incluso infinito la función

de utilidad se puede aproximar por un modelo obteniéndose una de las

siguientes formas:

NOTA: En algunos casos es más conveniente definir la función de utilidad

en una escala distinta al intervalo [0,1], como por ejemplo: en tiempo, en

números negativos, productos vendidos, empleos generados, etc. Es

posible demostrar que una función de utilidad definida en otra escala es

una transformación lineal de la utilidad original definida en [0,1].

¿Cuál prefieres?

Ganar seguro

c

Ganar c* con probabilidad q

o Ganar c* con

probabilidad 1-q

0

1

0 1,000

c

u(c)

Para no caer en paradojas, es conveniente que la función de utilidad sea “aversa al riesgo”.

Indiferente al riesgo

c|1

c*|q, c∗|1−q

Amante al riesgo

Aversión al riesgo

Page 19: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

19

CUANTIFICACIÓN DE LOS EVENTOS INCIERTOS: La cuantificación de los eventos

inciertos E estará también basada en eventos de referencia.

EJEMPLO 4: Asignación de la probabilidad de un evento E. Supongamos que

nos enfrentamos al problema de decidir en qué proyecto invertir y que la

peor y la mejor consecuencias son:

c∗ = −$1000 (la peor) y c* = $5,000 (la mejor)

Sea E = sube la tasa de interés. Para determinar la probabilidad de E

consideramos las siguientes loterías:

Finalmente, se aplica este mismo procedimiento a cada una de los

eventos inciertos, digamos, E1,E2,...,Ek. Si el número de eventos inciertos

es muy grande o incluso infinito la función de probabilidad se puede

aproximar por un modelo (discreto o continuo) obteniéndose la siguiente

forma,

¿Cuál prefieres?

Ganar c* con probabilidad q

o Ganar c∗ con

probabilidad 1-q

Ganar c* si ocurre E

o Ganar c∗ si no ocurre E

c*|q, c∗|1−q c*|E, c∗|Ec

Page 20: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

20

NOTA: La probabilidad asignada a un evento, es siempre condicional a la

información que se posee en el momento de la asignación, i.e., no existen

probabilidades absolutas.

CUANTIFICACIÓN DE LAS OPCIONES:

Hasta ahora, hemos cuantificado a las consecuencias y a los eventos

inciertos. Finalmente queremos asignar un número a las opciones, del tal

forma que la mejor opción es aquella a la que se le asigna la cuantificación

más alta.

o Resultado: Criterio de decisión Bayesiano.

Considérese el problema de decisión definido por D = d1,d2,...,dk, donde di

= ijij m,,1j,Ec K= , i=1,...,k. Sea P(Eij|di) la probabilidad de que suceda Eij

si se elige la opción di, y sea u(cij) la utilidad de la consecuencia cij.

Entonces, la cuantificación de la opción di es su utilidad esperada, i.e.,

( ) ( ) ( )∑=

=im

1jiijiji dEPcudu .

La decisión óptima es aquella d∗ tal que ( ) ( )ii

* dumaxdu = .

a

θ

P(θ)

Modelo continuo

b

Si Eθ =θ ⇒ E = θ | θ∈[a,b]

Page 21: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

21

RESUMIENDO: Si se aceptan los axiomas de coherencia, necesariamente se

debe proceder de la siguiente manera:

1) Asignar una utilidad u(c) para toda c en C.

2) Asignar una probabilidad P(E) para toda E en E.

3) Determinar la utilidad esperada de cada opción y elegir la opción

(óptima) que maximiza la utilidad esperada.

1.3 Proceso de aprendizaje y distribución predictiva

La reacción natural de cualquiera que tenga que tomar una decisión cuyas

consecuencias dependen de la ocurrencia de eventos inciertos E, es

intentar reducir su incertidumbre obteniendo más información sobre E.

¿Cómo reducir la incertidumbre sobre un evento E?.

Adquirir información adicional (Z) sobre E.

LA IDEA es entonces recolectar información que reduzca la incertidumbre

de los eventos inciertos, o equivalentemente, que mejore el conocimiento

que se tiene sobre E.

¿De dónde obtengo información adicional?.

Encuestas, estudios previos, experimentos, etc.

Page 22: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

22

El problema central de la inferencia estadística es el de proporcionar una

metodología que permita asimilar la información accesible con el objeto

de mejorar nuestro conocimiento inicial.

¿Cómo utilizar Z para mejorar el conocimiento sobre E?.

( )EP ( )ZEP

Mediante el Teorema de Bayes.

o TEOREMA DE BAYES: Sean Jj,Ej ∈ una partición finita de Ω (E), i.e., Ej∩Ek=∅

∀j≠k y Ω=∈U

JjjE . Sea Z ≠ ∅ un evento. Entonces,

( ) ( ) ( )( ) ( )∑

=

Jjii

iii EPEZP

EPEZPZEP , i =1,2,...,k.

Comentarios:

1) Una forma alternativa de escribir el Teorema de Bayes es:

( ) ( ) ( )iii EPEZPZEP ∝

P(Z) es llamada constante de proporcionalidad.

2) A las P(Ej) se les llama probabilidades iniciales o a‐priori y a las P(Ej|Z)

se les llama probabilidades finales o a‐posteriori. Además, P(Z|Ej) es

llamada verosimilitud y P(Z) es llamada probabilidad marginal de la

información adicional.

¿ ?

Page 23: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

23

Recordemos que todo esto de la cuantificación inicial y final de los

eventos inciertos es para reducir la incertidumbre en un problema de

decisión.

Supongamos que para un problema particular se cuenta con lo siguiente:

( )ijEP : cuantificación inicial de los eventos inciertos

( )ijcu : cuantificación de las consecuencias

Z: información adicional sobre los eventos inciertos

( )EP ( )ZEP

En este caso se tienen dos situaciones:

1) Situación inicial (a‐priori):

( )ijEP , ( )ijcu , ( ) ( )∑j

ijij EPcu

2) Situación final (a‐posteriori):

( )ZEP ij , ( )ijcu , ( ) ( )∑j

ijij ZEPcu

¿Qué pasa si de alguna manera se obtiene aún más información adicional

acerca de E?. Suponga que primero se tiene acceso a Z1 (información

adicional acerca de E) y posteriormente se obtiene Z2 (más información

adicional acerca de E). Existen dos formas para actualizar la información

que se tiene sobre E:

Teo. Bayes

Utilidad esperada

inicial

Utilidad esperada

final

Page 24: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

24

1) Actualización secuencial:

( )EP ( )1ZEP ( )21 Z,ZEP

Los pasos son:

Paso 1: ( ) ( ) ( )( )1

11 ZP

EPEZPZEP = ,

Paso 2: ( ) ( ) ( )( )12

11221 ZZP

ZEPE,ZZPZ,ZEP = .

2) Actualización simultánea:

( )EP ( )21 Z,ZEP

¿Cómo se hace?

Paso único: ( ) ( ) ( )( )21

2121 Z,ZP

EPEZ,ZPZ,ZEP = .

¿Serán equivalentes ambas formas de actualización?

( ) ( ) ( )( )

( )( )

( )( )

( )( )

==

1

21

1

1

1

21

12

11221

ZPZ,ZP

ZPE,ZP

E,ZPE,Z,ZP

ZZP

ZEPE,ZZPZ,ZEP

( )( )

( ) ( )( )21

21

21

21

Z,ZP

EPEZ,ZP

Z,ZPE,Z,ZP==

Z1 Z2

Z1,Z2

Page 25: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

25

EJEMPLO 5: Un paciente va al médico con algún padecimiento y quiere que

el médico le de un diagnóstico. Supongamos que la enfermedad del

paciente cae en alguna de las siguientes tres categorías:

E1 = enfermedad muy frecuente (resfriado)

E2 = enfermedad relativamente frecuente (gripa)

E3 = enfermedad poco frecuente (pulmonía)

El médico sabe por experiencia que

P(E1)=0.6, P(E2)=0.3, P(E3)=0.1 (probabilidades iniciales)

El médico observa y obtiene información adicional (Z = síntomas) acerca

de la posible enfermedad del paciente. De acuerdo con los síntomas el

doctor dictamina que

P(Z | E1)=0.2, P(Z | E2)=0.6, P(Z | E3)=0.6 (verosimilitud)

¿Qué enfermedad es más probable que tenga el paciente?.

Usando el Teorema de Bayes, obtenemos:

( ) ( ) ( ) 0.36(0.6)(0.1)(0.6)(0.3)(0.2)(0.6)EPEZPZP3

1jjj =++==∑

=

( )31

36.0)6.0)(2.0(

ZEP 1 ==

( )21

36.0)3.0)(6.0(

ZEP 2 ==

( )61

36.0)1.0)(6.0(

ZEP 3 ==

Por lo tanto, es más probable que el paciente tenga una enfermedad

relativamente frecuente (E2).

(probabilidades finales)

Page 26: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

26

Problema de Inferencia.

PROBLEMA DE INFERENCIA. Sea F ( ) Θ∈θθ= ,xf una familia paramétrica

indexada por el parámetro θ∈Θ. Sea X1,...,Xn una m.a. de observaciones

de f(x|θ) ∈F. El problema de inferencia paramétrico consiste en

aproximar el verdadero valor del parámetroθ.

El problema de inferencia estadístico se puede ver como un problema de

decisión con los siguientes elementos:

D = espacio de decisiones de acuerdo al problema específico

E = Θ (espacio parametral)

C = ( ) Θ∈θ∈θ ,d:,d D

≤ : Será representado por una función de utilidad o pérdida.

La muestra proporciona información adicional sobre los eventos inciertos

θ∈Θ. El problema consiste en cómo actualizar la información.

Por lo visto con los axiomas de coherencia, el decisor es capaz de

cuantificar su conocimiento acerca de los eventos inciertos mediante una

función de probabilidades. Definamos,

( )θf la distribución inicial (ó a‐priori). Cuantifica el conocimiento

inicial sobre θ.

( )θxf proceso generador de información muestral. Proporciona

información adicional acerca de θ.

Page 27: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

27

( )θxf la función de verosimilitud. Contiene toda la información

sobre θ proporcionada por la muestra ( )n1 X,XX K= .

Toda esta información acerca de θ se combina para obtener un

conocimiento final o a‐posteriori después de haber observado la muestra.

La forma de hacerlo es mediante el Teorema de Bayes:

( ) ( ) ( )( )xf

fxfxf

θθ=θ ,

donde ( ) ( ) ( )∫Θ

θθθ= dfxfxf ó ( ) ( )∑θ

θθ fxf .

Como ( )xf θ es función de θ, entonces podemos escribir

( ) ( ) ( )θθ∝θ fxfxf

Finalmente,

( )xf θ la distribución final (ó a‐posteriori). Proporciona todo el

conocimiento que se tiene sobre θ (inicial y muestral).

NOTA: Al tomar θ el carácter de aleatorio, debido a que el conocimiento

que tenemos sobre el verdadero valor θ es incierto, entonces la función

de densidad que genera observaciones con información relevante para θ

es realmente una función de densidad condicional.

o Definición: Llamaremos una muestra aleatoria (m.a.) de tamaño n de una

población f(x|θ), que depende de θ, a un conjunto X1,...,Xn de variables

aleatorias condicionalmente independientes dado θ, i.e.,

( ) ( ) ( )θθ=θ n1n1 xfxfx,xf LK .

Page 28: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

28

En este caso, la función de verosimilitud es la función de densidad

(condicional) conjunta de la m.a. vista como función del parámetro, i.e.,

( ) ( )∏=

θ=θn

1iixfxf .

DISTRIBUCIÓN PREDICTIVA: La distribución predictiva es la función de densidad

(marginal) f(x) que me permite determinar qué valores de la v.a. X

resultan más probables.

Lo que conocemos acerca de X esta condicionado al valor del parámetro

θ, i.e., f(x|θ) (su función de densidad condicional). Como θ es un valor

desconocido, f(x|θ) no puede utilizarse para describir el comportamiento

de la v.a. X.

Distribución predictiva inicial. Aunque el verdadero valor de θ sea

desconocido, siempre se dispone de cierta información sobre θ (mediante

su distribución inicial f(θ)). Esta información puede combinarse para

poder dar información sobre los valores de X. La forma de hacerlo es:

( ) ( ) ( )∫ θθθ= dfxfxf ó ( ) ( ) ( )∑θ

θθ= fxfxf

Supongamos que se cuenta con información adicional (información

muestral) X1,X2,..,Xn de la densidad f(x|θ), por lo tanto es posible tener un

conocimiento final sobre θ mediante su distribución final ( )xf θ .

Page 29: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

29

Distribución predictiva final. Supongamos que se quiere obtener

información sobre los posibles valores que puede tomar una nueva v.a. XF

de la misma población f(x|θ). Si XF es independiente de la muestra

X1,X2,..,Xn, entonces

( ) ( ) ( )∫ θθθ= dxfxfxxf FF ó ( ) ( ) ( )∑θ

θθ= xfxfxxf FF

EJEMPLO 6: Lanzar una moneda. Se tiene un experimento aleatorio que

consiste en lanzar una moneda. Sea X la v.a. que toma el valor de 1 si la

moneda cae sol y 0 si cae águila, i.e., X∼Ber(θ). En realidad se tiene que

X|θ ∼Ber(θ), donde θ es la probabilidad de que la moneda caiga sol.

( ) ( ) )x(I1xf 1,0x1x −θ−θ=θ .

El conocimiento inicial que se tiene acerca de la moneda es que puede ser

una moneda deshonesta (dos soles).

P(honesta) = 0.95 y P(deshonesta) = 0.05

¿Cómo cuantificar este conocimiento sobre θ?

moneda honesta ⇔ θ = 1/2 θ ∈ 1/2, 1

moneda deshonesta ⇔ θ = 1

por lo tanto,

( ) 95.02/1P ==θ y ( ) 05.01P ==θ

es decir,

( )

=θ=θ

=θ1 si ,05.0

2/1 si ,95.0f

Supongamos que al lanzar la moneda una sola vez se obtuvo un sol, i.e,

X1=1. Entonces la verosimilitud es

Page 30: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

30

( ) ( ) θ=θ−θ=θ= 011 11XP .

Combinando la información inicial con la verosimilitud obtenemos,

( ) ( ) ( ) ( ) ( )1P11XP2/1P2/11XP1XP 111 =θ=θ=+=θ=θ===

( )( ) ( )( ) 525.005.0195.05.0 =+=

( ) ( ) ( )( )

( )( )9047.0

525.095.05.0

1XP

2/1P2/11XP1X2/1P

1

11 ==

==θ=θ=

===θ

( ) ( ) ( )( )

( )( )0953.0

525.005.01

1XP

1P11XP1X1P

1

11 ==

==θ=θ=

===θ

es decir,

( )

=θ=θ

==θ1 si ,0953.0

2/1 si ,9047.01xf 1

La distribución predictiva inicial es

( ) ( ) ( ) ( ) ( )1P11XP2/1P2/11XP1XP =θ=θ=+=θ=θ===

( )( ) ( )( ) 525.005.0195.05.0 =+=

( ) ( ) ( ) ( ) ( )1P10XP2/1P2/10XP0XP =θ=θ=+=θ=θ===

( )( ) ( )( ) 475.005.0095.05.0 =+=

es decir,

( )

==

=0x si ,475.0

1x si ,525.0xf

La distribución predictiva final es

( ) ( ) ( ) ( ) ( )1x1P11XP1x2/1P2/11XP1x1XP 1F1F1F ==θ=θ=+==θ=θ==== ( )( ) ( )( ) 54755.00953.019047.05.0 =+=

( ) ( ) ( ) ( ) ( )1x1P10XP1x2/1P2/10XP1x0XP 1F1F1F ==θ=θ=+==θ=θ==== ( )( ) ( )( ) 45235.00953.009047.05.0 =+=

Page 31: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

31

es decir,

( )

==

==0x si ,452.0

1x si ,548.01xxf

F

F1F .

EJEMPLO 7: Proyectos de inversión. Las utilidades de un determinado

proyecto pueden determinarse a partir de la demanda (θ) que tendrá el

producto terminal. La información inicial que se tiene sobre la demanda

es que se encuentra alrededor de $39 millones de pesos y que el

porcentaje de veces que excede los $49 millones de pesos es de 25%.

De acuerdo con la información proporcionada, se puede concluir que una

distribución normal modela “adecuadamente” el comportamiento inicial,

entonces

θ ∼ ( )2,N σµ ,

donde µ=E(θ)=media y σ2=Var(θ)=varianza. Además

¿Cómo?

( ) 25.03949

ZP49P =

σ−

>=>θ ⇒ σ−

=3949

Z 25.0 ,

como Z0.25 = 0.675 (valor de tablas) ⇒ 675.010

Por lo tanto, θ ∼ N(39, 219.47).

Demanda (θ) alrededor de 39 µ=39

P(θ > 49) = 0.25 σ=14.81

Page 32: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

32

Para adquirir información adicional sobre la demanda, se considerarán 3

proyectos similares cuyas utilidades dependen de la misma demanda.

Supongamos que la utilidad es una variable aleatoria con distribución

Normal centrada en θ y con una desviación estándar de σ=2.

X|θ ∼ N(θ, 4) y θ ∼ N(39, 219.47)

Se puede demostrar que la distribución predictiva inicial toma la forma

X ∼ N(39, 223.47)

¿Qué se puede derivar de esta distribución predictiva?

( ) ( ) 0808.04047.1ZP47.223

3960ZP60XP =>=

>=> ,

lo cual indica que es muy poco probable tener una utilidad mayor a 60.

Suponga que las utilidades de los 3 proyectos son: x1=40.62, x2=41.8,

x3=40.44.

Se puede demostrar que si

donde,

20

2

020

2

1 1n

1x

n

σ+

σ

θσ

=θ y

20

2

21 1n

1

σ+

σ

=σ .

Por lo tanto,

x =40.9533, θ0 = 39, σ2 = 4, σ02 = 219.47, n=3

θ1 = 40.9415, σ12 = 1.3252 ∴ xθ ∼ N(40.9415, 1.3252)

X|θ ∼ N(θ, σ2) y θ ∼ N(θ0, σ02) ⇒ xθ ∼N(θ1, σ1

2)

Page 33: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

33

1.4 Distribuciones iniciales informativas, no informativas y conjugadas

Existen diversas clasificaciones de las distribuciones iniciales. En términos

de la cantidad de información que proporcionan se clasifican en

informativas y no informativas.

DISTRIBUCIONES INICIALES INFORMATIVAS: Son aquellas distribuciones iniciales

que proporcionan información relevante e importante sobre la ocurrencia

de los eventos inciertos θ.

EJEMPLO 8: La distribución inicial para θ del Ejemplo 7 es un ejemplo de

distribución inicial informativa. En el mismo contexto del Ejemplo 7,

supongamos ahora que existen únicamente 3 posibles estados de la

demanda: θ1 = demanda baja, θ2 = demanda media y θ3 = demanda alta.

Suponga además que la demanda media se cree tres veces tan probable

que la demanda baja y la demanda alta dos veces tan probable que la

demanda baja. Especifica la distribución inicial para la demanda.

Sea pi=P(θi), i =1,2,3. Entonces,

p2=3p1 y p3=2p1. Además, 1ppp 321 =++

⇒ p1+ 3p1+ 2p1=1 ⇔ 6p1=1 ∴ p1=1/6, p2=1/2 y p3=1/3

DISTRIBUCIONES INICIALES NO INFORMATIVAS: Son aquellas distribuciones iniciales

que no proporcionan información relevante o importante sobre la

ocurrencia de los eventos inciertos θ.

Page 34: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

34

Existen varios criterios para definir u obtener una distribución inicial no

informativa:

1) Principio de la razón insuficiente: Bayes (1763) y Laplace (1814, 1952). De

acuerdo con este principio, en ausencia de evidencia en contra, todas las

posibilidades deberían tenerla misma probabilidad inicial.

o En particular, si θ puede tomar un número finito de valores, digamos

m, la distribución inicial no informativa, de acuerdo con este principio

es:

( ) )(Im1

fm21 ,,, θ=θ θθθ K

o ¿Qué pasa cuando el número de valores (m) que puede tomar θ tiende

a infinito?

( ) .ctef ∝θ

En este caso se dice que f(θ) es una distribución inicial impropia,

porque no cumple con todas las propiedades para ser una distribución

inicial propia.

2) Distribución inicial invariante: Jeffreys (1946) propuso una distribución

inicial no informativa invariante ante reparametrizaciones, es decir, si

πθ(θ) es la distribución inicial no informativa para θ entonces,

( ) )(J)()( ϕϕθπ=ϕπ θθϕ es la distribución inicial no informativa de ϕ = ϕ(θ).

Esta distribución es generalmente impropia.

o La regla de Reffreys consiste en lo siguiente: Sea F = ( ) Θ∈θθ :xf ,

Θ⊂ℜd un modelo paramétrico para la variable aleatoria X. La

Page 35: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

35

distribución inicial no informativa de Jeffreys para el parámetro θ con

respecto al modelo F es

2/1)(Idet)( θ∝θπ , θ∈Θ,

donde ( )

θ∂θ∂θ∂

−=θ θ '

XflogE)(I

2

|X es la matriz de información de Fisher

o EJEMPLO 9: Sea X una v.a. con distribución condicional dado θ, Ber(θ),

i.e., ( ) ( ) )x(I1xf 1,0x1x −θ−θ=θ , θ∈(0,1).

( ) )x(Ilog)1log()x1()log(xxflog 1,0+θ−−+θ=θ

( )θ−

−−

θ=θ

θ∂∂

1x1x

xflog

( ) 222

2

)1(x1x

xflogθ−−

−θ

−=θθ∂∂

( ) ( ) ( )( ) )1(

1

1

XE1XE

)1(X1X

EI 2222|X θ−θ==

θ−θ−

+θθ

=

θ−−

−θ

−−=θ θ L

( ) )(I1)1(

1)( )1,0(

2/12/12/1

θθ−θ=

θ−θ∝θπ −−

∴ ( )2/1,2/1Beta)( θ=θπ .

3) Criterio de referencia: Bernardo (1986) propuso una nueva metodología

para obtener distribuciones iniciales mínimo informativas o de referencia,

basándose en la idea de que los datos contienen toda la información

relevante en un problema de inferencia.

o La distribución inicial de referencia es aquella distribución inicial que

maximiza la distancia esperada que hay entre la distribución inicial y la

final cuando se tiene un tamaño de muestra infinito.

Page 36: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

36

o Ejemplos de distribuciones iniciales de referencia se encuentran en el

formulario.

DISTRIBUCIONES CONJUGADAS: Las distribuciones conjugadas surgen de la

búsqueda de cuantificar el conocimiento inicial de tal forma que la

distribución final sea fácil de obtener de “manera analítica”. Debido a los

avances tecnológicos, esta justificación no es válida en la actualidad.

o Definición: Familia conjugada. Se dice que una familia de distribuciones

de θ es conjugada con respecto a un determinado modelo

probabilístico f(x|θ) si para cualquier distribución inicial perteneciente

a tal familia, se obtiene una distribución final que también pertenece a

ella.

o EJEMPLO 10: Sea X1,X2,...,Xn una m.a. de Ber(θ). Sea θ∼Beta(a,b) la

distribución inicial de θ. Entonces,

( ) ( ) ( )∏=

−∑θ−∑θ=θn

1ii1,0

xnx xI1xf ii

( ) ( ) )(I1)b()a()ba(

f )1,0(1b1a θθ−θ

ΓΓ+Γ

=θ −−

⇒ ( ) ( ) )(I1xf )1,0(1xnb1xa ii θ∑θ−∑θ∝θ −−+−+

∴ ( ) ( ) )(I1)b()a()ba(

xf )1,0(1b1a

11

11 11 θθ−θΓΓ+Γ

=θ −− ,

donde ∑+= i1 xaa y ∑−+= i1 xnbb . Es decir, )b,a(Betax 11∼θ .

Page 37: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

37

o Más ejemplos de familias conjugadas se encuentran en el formulario.

1.5 Problemas de inferencia paramétrica

Los problemas típicos de inferencia son: estimación puntual, estimación

por intervalos y prueba o contraste de hipótesis.

ESTIMACIÓN PUNTUAL. El problema de estimación puntual visto como

problema de decisión se describe de la siguiente manera:

o D = E = Θ.

o ( )θθ,~v la pérdida de estimar mediante θ~ el verdadero valor del

parámetro de interés θ. Considérense tres funciones de pérdida:

1) Función de pérdida cuadrática:

( ) ( )2~ a,~v θ−θ=θθ , donde a > 0

En este caso, la decisión óptima que minimiza la pérdida esperada es

( )θ=θ E~ .

2) Función de pérdida absoluta:

( ) θ−θ=θθ ~ a,~v , donde a > 0

La mejor estimación de θ con pérdida cuadrática es la media de la distribución de θ.

Page 38: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

38

En este caso, la decisión óptima que minimiza la pérdida esperada es

( )θ=θ Med~ .

3) Función de pérdida vecindad:

( ) )(I1,~v)~(Bθ−=θθ

θε,

donde ( )θε~B denota una vecindad (bola) de radio ε con centro en θ~ .

En este caso, la decisión óptima que minimiza la pérdida esperada cuando

0→ε es

( )θ=θ Moda~ .

EJEMPLO 11: Sean X1,X2,...,Xn una m.a. de una población Ber(θ).

Supongamos que la información inicial que se tiene se puede describir

mediante una distribución Beta, i.e., θ ∼ Beta(a,b). Como demostramos en

el ejemplo pasado, la distribución final para θ es también una distribución

Beta, i.e.,

θ|x ∼ Beta

−++ ∑∑

==

n

1ii

n

1ii Xnb ,Xa .

La idea es estimar puntualmente a θ,

La mejor estimación de θ con pérdida absoluta es la mediana de la distribución de θ.

La mejor estimación de θ con pérdida vecindad es la moda de la distribución de θ.

Page 39: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

39

1) Si se usa una función de pérdida cuadrática:

( )nba

xaxE~ i

+++

=θ=θ ∑ ,

2) Si se usa una función de pérdida vecindad:

( )2nba

1xaxModa~ i

−++−+

=θ=θ ∑ .

ESTIMACIÓN POR INTERVALO. El problema de estimación por intervalo visto

como problema de decisión se describe de la siguiente manera:

o D = D : D ⊂ Θ,

donde, D es un intervalo de probabilidad al (1‐α) si ( ) α−=θθ∫ 1dfD

.

Nota: para un α∈(0,1) fijo no existe un único intervalo de probabilidad.

o E = Θ.

o ( ) )(ID,Dv D θ−=θ la pérdida de estimar mediante D el verdadero

valor del parámetro de interés θ.

Esta función de pérdida refleja la idea intuitiva que para un α dado es

preferible reportar un intervalo de probabilidad D* cuyo tamaño sea

mínimo. Por lo tanto,

El intervalo D* de longitud mínima satisface la propiedad de ser un

intervalo de máxima densidad, es decir

si θ1∈D* y θ2∉D* ⇒ f(θ1) ≥ f(θ2)

La mejor estimación por intervalo de θ es el intervalo D* cuya longitud es mínima.

Page 40: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

40

¿Cómo se obtiene el intervalo de mínima longitud (máxima densidad)?

Los pasos a seguir son:

o Localizar el punto más alto de la función de densidad (posterior) de θ.

o A partir de ese punto trazar líneas rectas horizontales en forma

descendiente hasta que se acumule (1‐α) de probabilidad.

Shape,Scale2,1

Gamma Distribution

x

dens

ity

0 2 4 6 8 100

0.1

0.2

0.3

0.4

CONTRASTE DE HIPÓTESIS. El problema de contraste de hipótesis es un

problema de decisión sencillo y consiste en elegir entre dos modelos o

hipótesis alternativas H0 y H1. En este caso,

o D = E = H0, H1

o ( )θ,dv la función de pérdida que toma la forma,

v(d,θ) H0 H1

H0 v00 v01

H1 v10 v11

θ

| | |

| |

|

1-α

Page 41: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

41

donde, v00 y v11 son la pérdida de tomar una decisión correcta

(generalmente v00 = v11 = 0),

v10 es la pérdida de rechazar H0 (aceptar H1) cuando H0 es cierta y

v01 es la pérdida de no rechazar H0 (aceptar H0) cuando H0 es falsa.

Sea p0 = P(H0) = probabilidad asociada a la hipótesis H0 al momento de

tomar la decisión (inicial o final). Entonces, la pérdida esperada para cada

hipótesis es:

( ) ( ) ( ) 00001010010000 pvvvp1vpvHvE −−=−+=

( ) ( ) ( ) 01011110110101 pvvvp1vpvHvE −−=−+=

cuya representación gráfica es de la forma:

donde, 00011110

1101*

vvvvvv

p−+−

−= .

Finalmente, la solución óptima es aquella que minimiza la pérdida

esperada:

si ( ) ( ) 0H pp vvvv

p‐1p

HvEHvE *0

0010

1101

0

010 ⇒>⇔

−−

>⇔<

0 1

p0

p* H1 H0

v01 v10

( ) 1HvE( ) 0HvE

v11 v00

Page 42: MÉTODOS BAYESIANOS - ITAM - Correo electrónico para ...allman.rhon.itam.mx/~lnieto/index_archivos/CursoBM1.pdf · 1.2 Principio de utilidad esperada máxima ... y en particular

INSTRUCTOR: LUIS E. NIETO BARAJAS

Curso: Métodos Bayesianos

42

H0 si p0 es suficientemente grande comparada con 1‐p0.

si ( ) ( ) 1H pp vvvv

p‐1p

HvEHvE *0

0010

1101

0

010 ⇒<⇔

−−

<⇔>

H1 si p0 es suficientemente pequeña comparada con 1‐p0.

si 1H0H ó pp *0 ⇒=

Indiferente entre H0 y H1 si p0 no es ni suficientemente grande ni

suficientemente pequeña comparada con 1‐p0.