4. Principio de utilidad esperada máxima -...

33
PROFESOR: LUIS E. NIETO BARAJAS 4. Principio de utilidad esperada máxima ¾ Los axiomas de coherencia son la base de una teoría bien fundamentada, la Teoría de decisión Bayesiana. ¾ IMPLICACIONES de los axiomas de coherencia. Para poder asimilar y acatar los axiomas de coherencia, es necesario introducir una notación formal: En general, toda opción d i se puede escribir como todas sus posibles consecuencias dados los sucesos inciertos, es decir, { } i ij ij i m , 1, j , E c d K = = . Tanto las consecuencias como los sucesos inciertos pueden verse como casos particulares de opciones: Consecuencias: c ~ d c = { } c , donde es el evento seguro. Eventos inciertos: E ~ d E = { } c * * E c , E c , donde c * y c * son “la mejor” y “la peor” consecuencias. Eventos de referencia: R ~ d R = { } c * * R c , R c . ¾ CUANTIFICACIÓN DE LAS CONSECUENCIAS: Sabemos entonces que, c * ~ d = { } * * c , c c * ~ d = { } * * c , c . Si R 1 y R 2 son dos regiones, R 1 es más creíble que R 2 si 30 Módulo 3: Estadística Bayesiana

Transcript of 4. Principio de utilidad esperada máxima -...

Page 1: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

4. Principio de utilidad esperada máxima

Los axiomas de coherencia son la base de una teoría bien fundamentada, la

Teoría de decisión Bayesiana.

IMPLICACIONES de los axiomas de coherencia. Para poder asimilar y acatar

los axiomas de coherencia, es necesario introducir una notación formal:

En general, toda opción di se puede escribir como todas sus posibles

consecuencias dados los sucesos inciertos, es decir,

iijiji m,1,j ,Ecd K== .

Tanto las consecuencias como los sucesos inciertos pueden verse como

casos particulares de opciones:

Consecuencias: c ~ dc = Ωc ,

donde Ω es el evento seguro.

Eventos inciertos: E ~ dE = c*

* Ec,Ec ,

donde c* y c* son “la mejor” y “la peor” consecuencias.

Eventos de referencia: R ~ dR = c*

* Rc,Rc .

CUANTIFICACIÓN DE LAS CONSECUENCIAS: Sabemos entonces que,

c* ~ d∅= Ω∅ ** c,c

c* ~ dΩ= ∅Ω ** c,c .

Si R1 y R2 son dos regiones, R1 es más creíble que R2 si

30Módulo 3: Estadística Bayesiana

Page 2: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Área(R1) > Área(R2),

por lo tanto, si

1Rd = c1*1

* Rc,Rc

2Rd = c2*2

* Rc,Rc

sucede que

2Rd < d . 1R

Entonces, “graduando” R se tiene que para cualquier c tal que c*≤c≤c*,

existe esa R tal que

c ∼ dR = c*

* Rc,Rc .

Finalmente, una forma de cuantificar las consecuencias es tomando,

u(c)=Área(R).

Nota: u(c*)=0 y u(c*)=1.

EJEMPLO 6: Utilidad del dinero. Supongamos que la peor y la mejor

consecuencias al jugar un juego de azar son:

c* = $0 (la peor)

c* = $1,000 (la mejor)

¡Lotería!

La idea es determinar una función de utilidad para cualquier consecuencia

c tal que c*≤c≤c*.

31Módulo 3: Estadística Bayesiana

Page 3: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

1) Una primera opción es asignar una función lineal:

u(c)

c

¿Será

2) Una se

sugeri

las sig

Por el

La ide

satisfa

0

1

1,0000

ciert

gun

do p

uien

Gansegu

c

axio

a es

ce n

o que entre más dinero se tenga más utilidad se produce en forma lineal?

da forma de asignar la utilidad es siguiendo el razonamiento

or los axiomas: Sabemos que u(c*)=0 y u(c*)=1, se comparan

tes loterías:

¿Cuál prefieres?

Ganar c* con probabilidad p

o Ganar c* con

probabilidad 1-p

ar ro

dc = Ωc ó dp = p1c,pc ** −

ma 1, es posible determinar si dc<dp, dc~dp ó dc>dp.

encontrar el valor de p que haga que dc~dp. En este caso, se

ecesariamente que

Eu(dc)=Eu(dp),

32Módulo 3: Estadística Bayesiana

Page 4: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

pero como

Eu(dc)=u(c),

porque c es una consecuencia segura y

Eu(dp) = u(c*)p + u(c*) (1-p)

= (1)p + (0)(1-p)

= p.

Por lo tanto,

u(c) = p.

Finalmente se aplica este mismo procedimiento a cada una de las

consecuencias, digamos, c*<c1<c2<c3<c4<c*. Si el número de

consecuencias es muy grande o incluso infinito la función de utilidad se

puede aproximar por un modelo obteniéndose la siguiente forma,

u(c)

c

Aversión al riesgo

¡Entre

0

1

0 1,000

s dinero se tiene el incremento en utilidad es menor!

33Módulo 3: Estadística Bayesiana

Page 5: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

CUANTIFICACIÓN DE LOS EVENTOS INCIERTOS: Siguiendo la misma idea, si

dE = c*

* Ec,Ec ,

existe un evento de referencia R tal que

dE ~ dR = c*

* Rc,Rc ,

de manera que E es igualmente creíble que R. Como la credibilidad de R se

mide con su área, la credibilidad de E también, es decir,

P(E) = Área(R).

EJEMPLO 7: ¿Cómo asignar una probabilidad al evento A?. Se consideran

las siguientes loterías:

¿Cuál prefieres?

Ganar c* con

probabilidad p o

Ganar c* con probabilidad 1-p

Ganar c* si ocurre A

o Ganar c* si no ocurre A

dA = c*

* Ac,Ac ó dp = p1c,pc ** −

Por el axioma 1, es posible determinar si dA<dp, dA~dp ó dA>dp.

La idea es encontrar el valor de p que haga que dA~dp. En este caso, se

satisface necesariamente que

Eu(dA)=Eu(dp),

pero como

Eu(dA) = u(c*)P(A) + u(c*)P(Ac)

= (1)P(A) + (0)P(Ac)

34Módulo 3: Estadística Bayesiana

Page 6: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

= P(A)

y

Eu(dp) = u(c*)p + u(c*) (1-p)

= (1)p + (0)(1-p)

= p

Por lo tanto,

P(A) = p.

Finalmente se aplica este mismo procedimiento a cada una de los

eventos inciertos, digamos, E1,E2,...,Ek. Si el número de eventos

inciertos es muy grande o incluso infinito la función de probabilidad se

puede aproximar por un modelo (discreto o continuo) obteniéndose la

siguiente forma,

P(θ)

Modelo continuo

Si Eθ=θ ⇒ E=θ | θ∈[a,b]

θ

b

a

35

Módulo 3: Estadística Bayesiana
Page 7: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

DERIVACIÓN DE LA UTILIDAD ESPERADA:

Recordemos que en general cualquier opción d se puede escribir como

d = kk2211 Ec,,Ec,Ec K

∼ kk221c1*1

* Ec,,Ec,ERc,Rc K

∼ kk221c1*11

* Ec,,Ec,ERc,ERc K∩∩

M

∼ c*

* Bc,Bc

donde, ( ) ( ) ( )kk2211 ERERERB ∩∪∪∩∪∩= L .

Si d1 y d2 son dos opciones, entonces existen B1 y B2 tales que

d1 ∼ c1*1

* Bc,Bc

d2 ∼ c2*2

* Bc,Bc

por lo tanto, d1 < d2 solo si B2 es más probable que B1.

Finalmente, B2 es más probable que B1 solo si

( ) ( ) ( ) ( )∑∑ < ii2ii1 EPcuEPcu ,

es decir,

( ) ( ) 21 duEduE < .

Principio de la Utilidad Esperada Máxima

36Módulo 3: Estadística Bayesiana

Page 8: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

PRINCIPIO DE UTILIDAD ESPERADA MÁXIMA (criterio de decisión Bayesiano).

Consideres el problema de decisión definido por

D = d1,...,dk

donde, di = cij | Eij, j=1,...,mi.

Sea P(Eij) la probabilidad de que suceda Eij y sea u(cij) la utilidad de la

consecuencia di que la ocurrencia de Eij da lugar. Entonces, la utilidad

esperada de la decisión di es

( ) ( ) (∑=

=im

1jijiji EPcuduE )

y la decisión óptima es aquella que maximiza la utilidad esperada de todas

las opciones posibles en D.

RESUMIENDO: Si se aceptan los axiomas de coherencia, necesariamente se

debe proceder de la siguiente manera:

1) Asignar la utilidad u(c) para toda c en C.

2) Asignar la probabilidad P(E) para toda E en E.

3) Elegir la opción (óptima) que maximiza la utilidad esperada.

Se ha considerado el caso de un problema de decisión discreto y finito, i.e.,

D = d1,...,dk y E = E1,...,Em.

¿Qué pasa si D tiene un número infinito de opciones?

Tendríamos que:

1) Encontrar la expresión de

( ) ( )dgduE =

(como función de d) y

37Módulo 3: Estadística Bayesiana

Page 9: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

2) Maximizar g(d) sobre el espacio D.

¿Qué pasaría si E tiene un número infinito de elementos?

Por ejemplo, si E = θ | θ∈[a,b], y un elemento es de la forma Eθ=θ

para cada θ∈[a,b]. En este caso,

1) (Caso continuo) ( ) ( ) ( )∫ θθθ=b

a

df,duduE

2) Maximizar Eu(d) sobre el espacio D.

En la práctica resulta a veces más natural medir la utilidad en unidades de

tiempo, dinero, años de vida, número de clientes, etc. Si en lugar de utilizar

la función de utilidad u(c), se utiliza una transformación lineal de ella,

digamos,

b)c(au)c('u +=

donde a y b son constantes. Entonces, la nueva utilidad esperada sería

( ) ( ) ∑∑ +== )E(Pb)c(au)E(Pc'ud'uE

b)E(P)c(ua)E(bP)E(P)c(au +=+= ∑∑∑

( ) bduaE +=

Si a > 0 (positiva):

Maximizar E es equivalente a Maximizar E ( ) d'u ( ) du

Por lo tanto, es otra función de utilidad equivalente a u(c) (medida en

unidades diferentes).

( )c'u

38Módulo 3: Estadística Bayesiana

Page 10: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Si a < 0 (negativa):

Minimizar es equivalente a Maximizar ( ) d'uE ( ) duE

⇒ no es una función de utilidad, pero puede interpretarse como una

función de pérdida.

( )c'u

Por lo tanto, u es una función de pérdida equivalente a la función de

utilidad u(c).

( )c'

39Módulo 3: Estadística Bayesiana

Page 11: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

5. Información inicial

Como ya se vio anteriormente, es necesario cuantificar los sucesos

inciertos pertenecientes al espacio E. A la cuantificación (inicial) de los

eventos inciertos se le conoce como información inicial.

Una forma de realizar la cuantificación es siguiendo un procedimiento

coherente dado por los axiomas mediante la comparación de opciones

equivalentes y el uso de “loterías”.

Otra forma de realizar la cuantificación de los eventos inciertos es

asignando una distribución de probabilidades directamente sobre los

eventos, de tal manera que refleje nuestro conocimiento inicial.

Consideremos el caso más sencillo: Supongamos que el espacio de eventos

E es un conjunto discreto (posiblemente infinito), es decir, E = E1,...,Em.

Sea θ una cantidad aleatoria que toma valores θ=1,2,..., de tal manera que

P(Ei) = P(θ=i).

Entonces, en lugar de asignar una probabilidad directamente sobre E,

resulta más sencillo asignar una probabilidad sobre θ.

La distribución de θ describe entonces la información sobre el valor de θ

que inicialmente se posee. Esta distribución recibe el nombre de

distribución inicial de θ.

40Módulo 3: Estadística Bayesiana

Page 12: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Como θ es una cantidad aleatoria discreta, su distribución de probabilidad

puede ser descrita mediante su función de densidad

fθ(i) = P(θ=i) = pi, i=1,2,...

Las probabilidades pi pueden ser determinadas mediante relaciones entre

ellas dadas por el decisor.

EJEMPLO 8: Diagnóstico. Las consecuencias de un determinado tratamiento

dependen de la enfermedad del paciente. Se considera que existen 5

enfermedades θ1, θ2, θ3, θ4 y θ5 compatibles con los síntomas observados.

¿Qué enfermedad

tendrá?

Los médicos expertos determinan que existen las siguientes relaciones

entre ellas

( ) ( )54321 PP θθθ=θθ UUU ,

( ) ( ) ( )342 P4PP θ=θ=θ

y creen muy remota la posibilidad de que se trate de la enfermedad θ5.

Determinar la correspondiente distribución inicial.

41Módulo 3: Estadística Bayesiana

Page 13: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Sean pi = P(θi), i=1,2,...,5. Con la información inicial dada por los médicos

construimos el siguiente sistema:

=

−−

−−−

=++++==

++=+

1000

ppppp

11111014000101011111

1pppppp4p

ppppppp

5

4

3

2

1

54321

34

42

54321

El sistema anterior es un sistema de 4 ecuaciones con 5 incógnitas por lo

que existirán múltiples soluciones. Para poder resolver el sistema de una

forma más sencilla, sea p5 = δ un número pequeño pero mayor a cero.

Tomando a δ como una cantidad conocida, el sistema queda de la siguiente

forma:

δ−

δ

=

−−−−

100

pppp

1111140010101111

4

3

2

1

con 4 ecuaciones y 4 incógnitas. Por lo tanto la solución “única” a este

nuevo sistema (en términos de δ) es

( )δ+= 81101p1 , ( )δ−== 21

104pp 42 , ( )δ−= 21

101p3 .

En particular, si se juzga 20 veces más probable que θ5 no sea la causa de

la dolencia a que sí lo sea, tendríamos

( ) 201=

δδ− ⇔ δ = 0.048

Por lo tanto,

42Módulo 3: Estadística Bayesiana

Page 14: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

( ) 138.0P 1 =θ=θ , ( ) 362.0P 2 =θ=θ , ( ) 090.0P 3 =θ=θ , ,

.

( ) 362.0P 4 =θ=θ

( ) 048.0P 5 =θ=θ

Obsérvese que δ puede ser tan pequeño como se quiera, pero debe de ser

mayor que cero a menos que pueda garantizarse que la enfermedad θ5 es

prácticamente imposible que sea la causa de dichos síntomas.

Si el número de elementos de E es grande o incluso infinito, una forma de

hacer la cuantificación es siguiendo el procedimiento dado por los axiomas

para ciertos elementos de E y encontrar la cuantificación de los demás

elementos ajustando un modelo continuo.

Otra posibilidad para realizar la cuantificación de E (o de θ) es empezar

directamente con un modelo, averiguando primero algunas características

cualitativas de la información que posee el “tomador de decisiones”. Por

ejemplo, se le puede preguntar:

¿Tu crees que el

modelo es simétrico con respecto a esa

moda?

¿Tu crees que el modelo tiene

una sola moda?

Si la respuesta es afirmativa en ambas preguntas, se podría usar un modelo

de la forma

43Módulo 3: Estadística Bayesiana

Page 15: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Mean,Std. dev.0,1

Normal Distribution

- -3 -1 1 3 5

x

0

0.1

0.2

0.3

0.4

dens

ity

¡Normal!

5 θ

Considerando algunas propiedades del modelo propuesto, y con la ayuda

del tomador de decisiones se puede especificar el modelo de manera

completa. Por ejemplo, en el caso de la Normal se sabe que

Mean,Std. dev.0,1

Normal Distribution

-3 -1 1 3 50

0.1

0.2

0.3

0.4

dens

ity

¡Distribución Normal!

95% N(µ,σ2)

¿Dónde está

¿Entre qué v

aproximadam

-5

xµ µ-2σ µ+2σ

la moda? µ

alores crees que se encuentre ente el 95% de probabilidad? σ

44Módulo 3: Estadística Bayesiana

Page 16: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

EJEMPLO 9: Cantidad de tirosina. Las consecuencias de un determinado

medicamento pueden determinarse a partir de la cantidad de tirosina

contenida en la orina. La información inicial sobre la cantidad de tirosina θ

contenida en la orina de una determinada paciente puede describirse de tal

manera que se encuentre alrededor de 39mg./24hrs. y que el porcentaje de

veces que la cantidad de tirosina exceda 49mg./24hrs. sea de 25%.

Determinar la correspondiente distribución inicial.

¿Me das una

muestra de orina?

¿Cuánta tirosina tendrá?

De acuerdo con la información proporcionada, se puede concluir que una

distribución normal modela adecuadamente el comportamiento inicial,

entonces

θ ∼ ( )2,N σµ ,

donde µ=E(θ)=media y σ2=Var(θ)=varianza. Además

µ=39 Cantidad de tirosina (θ) alrededor de 39

σ=14.81 P(θ > 49) = 0.25

45Módulo 3: Estadística Bayesiana

Page 17: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

¿Cómo?

( ) 25.03949ZP49P =

σ−

>=>θ

⇒ σ−

=3949Z 25.0 , como Z0.25 = 0.675 (valor de tablas)

⇔ 675.010

Por lo tanto,

θ ∼ N(39, 219.47).

Una vez determinada la distribución inicial deben calcularse algunas

probabilidades a partir de ella. Esto por dos razones:

1) Permite comprobar si las probabilidades calculadas son consistentes con

nuestra información inicial y

2) Si la familia elegida permite una buena descripción de la información

inicial.

EJEMPLO 9: Cantidad de tirosina (continuación...). El tomador de

decisiones opina que es muy poco probable que la cantidad de tirosina sea

menor a 10mg./24hr. Verificar que la distribución inicial es consistente con

esta afirmación.

( ) ( ) ( ) 0256.095.1ZP95.1ZP81.143910ZP10P =>=−<=

<=<θ ,

lo cual es consistente con la afirmación.

46Módulo 3: Estadística Bayesiana

Page 18: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

6. Teorema de Bayes (El proceso de aprendizaje)

6.1. Conceptos básicos de probabilidad

Sean A y B dos eventos de un mismo espacio muestral Ω, entonces

PROBABILIDAD CONDICIONAL:

( ) ( )( )BP

BAPBAP I= , si ( ) 0BP ≠

⇒ ( ) ( ) ( )BPBAPBAP =I

Por otro lado,

( ) ( )( )AP

ABPABP I= , si ( ) 0AP ≠

⇒ ( ) ( ) ( )APABPABP =I

Como

( ) ( )ABPBAP II =

entonces,

( ) ( ) ( ) ( )APABPBPBAP = ,

por lo tanto,

( ) ( )APABP

( ) ( )BPBAP =

47Módulo 3: Estadística Bayesiana

Page 19: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

INDEPENDENCIA: A y B son independientes si,

( ) ( )APBAP = ó ( ) ( )BPABP =

es decir,

⇔ ( )( ) (APBP

BAP=

I ) ó ( )( ) ( )BPAP

ABP=

I

por lo tanto, A y B son independientes si

( ) ( ) ( )BPAPBAP =I

¡La ocurrencia de B no afecta

la ocurrencia o la no ocurrencia de A!

ó

¡La ocurrencia de A no afecta

la ocurrencia o la no ocurrencia de B!

6.2. El proceso de aprendizaje

La reacción natural de cualquiera que tenga que tomar una decisión cuyas

consecuencias dependen de la ocurrencia de eventos inciertos (E ó θ), es

intentar reducir su incertidumbre obteniendo más información sobre E ó θ.

48Módulo 3: Estadística Bayesiana

Page 20: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

LO IDEAL sería recolectar o adquirir información que elimine por completo

la incertidumbre, pero eso es muy caro o imposible de obtener.

LA IDEA es entonces recolectar información que reduzca la incertidumbre

de los eventos inciertos, o equivalentemente, que mejore el conocimiento

que se tiene sobre E.

Esta información generalmente se trata de muestras producto de encuestas,

estudios previos, experimentos, etc.

El problema central de la inferencia estadística es el de proporcionar una

metodología que permita asimilar la información accesible con el objeto de

mejorar nuestro conocimiento inicial.

Sea Z la información adicional que de alguna manera se pudo obtener

sobre el evento E.

Recordemos que

representa media

probabilidad de

disponible Z, i.e.,

¿Cómo utilizar Z para mejorar el conocimiento sobre E?

la información que inicialmente se tiene sobre E se

nte una probabilidad P(E), el objetivo es derivar la

ocurrencia del mismo evento E dada la información

( )EP ( )ZEP ¿ ?

49Módulo 3: Estadística Bayesiana

Page 21: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

LA FORMA de hacerlo es la siguiente:

E: evento incierto

Z: información adicional

( ) ( ) EZP EP

P(E): probabilidad inicia

P(Z | E): verosimilitud

P(Z): probabilidad marg

P(E | Z): probabilidad fin

Alternativamente, la pro

P(Z) es llamada constant

En general, se tiene m

mejorar su conocimiento

TEOREMA DE BAYES: Se

exhaustivos) del espacio

de los Ei, i=1,...,k. Enton

( ZEP i

Como

( ) ( )ZPZEP =

l de E

inal de Z

al de E

babilidad final de E se puede escribir como

( ) ( ) ( )EPE|ZPZEP ∝

e de proporcionalidad!.

ás de un suceso incierto sobre el cuál se quiere

, esto nos da pie al siguiente teorema.

an E1,...,Ek una partición finita (eventos ajenos y

Ω y sea Z información adicional sobre cada uno

ces,

) ( ) ( )( )ZP

EPEZP ii= , i =1,2,...,k.

50Módulo 3: Estadística Bayesiana

Page 22: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

( )( ) ( )

( )ZP

EPEZPZEP1

k

1iiik

1ii

∑∑ =

=

== ,

entonces

( ) ( ) ( )∑=

=k

1iii EPEZPZP .

Finalmente,

( ) ( ) ( )

( ) ( )∑=

= k

1jjj

iii

EPEZP

EPEZPZEP , i=1,2,...,k.

¿Para qué nos sirve reducir la incertidumbre de los eventos inciertos?

Consideremos el siguiente problema de decisión:

d3

d2

d1

c11

c12

E32

E22

E21

E12

E31

E11

c32

c22

c31

c21

51Módulo 3: Estadística Bayesiana

Page 23: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Se cuenta con lo siguiente:

( )ijEP : cuantificación inicial de los eventos inciertos

( )ijcu : cuantificación de las consecuencias

Z: información adicional sobre los eventos inciertos Teo. Bayes

( )EP ( )ZEP

Se tienen dos situaciones:

1) Situación inicial (a-priori): Utilidad esperada

inicial ( )ijEP , ( )ijcu , ( ) ( )∑

jijij EPcu

2) Situación final (a-posteriori): Utilidad esperada

final ( )ZEP ij , ( )ijcu , ( ) ( )∑

jijij ZEPcu

¿Qué pasa si de alguna manera se obtiene aún más información adicional

acerca del evento E?. Se obtiene Z1 (información adicional acerca de E) y

posteriormente se obtiene Z2 (también información adicional acerca de E).

Existen dos caminos para actualizar la información que se tiene sobre E:

1) Actualización secuencial: Se cuenta con un conocimiento inicial P(E);

usando Z1, actualizar el conocimiento para obtener P(E|Z1).

Posteriormente, usar P(E|Z1) como conocimiento inicial y utilizar Z2

para obtener P(E|Z1,Z2).

En otras palabras,

52Módulo 3: Estadística Bayesiana

Page 24: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

(EP ) ( )1E ZP ( )21 Z,ZEP Z1 Z2

¿Cómo se hace?

Paso 1: ( ) ( ) ( )( )1

11 ZP

EPEZPZEP = ,

Paso 2: ( ) ( ) ( )( )12

11221 ZZP

ZEPE,ZZPZ,ZEP = .

2) Actualización simultánea: Se cuenta con un conocimiento inicial P(E);

usando Z1 y Z2 actualizar el conocimiento (simultáneamente) para

obtener P(E | Z1,Z2). En otras palabras,

( )EP ( )21 Z,ZEP Z1,Z2

¿Cómo se hace?

Paso único: ( ) ( ) ( )( )21

2121 Z,ZP

EPEZ,ZPZ,ZEP = .

¿Serán equivalentes ambas formas de actualización?

( ) ( ) ( )( )12

11221 ZZP

ZEPE,ZZPZ,ZEP =

53Módulo 3: Estadística Bayesiana

Page 25: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

( )( )

( )( )

( )( )

1

21

1

1

1

21

ZPZ,ZP

ZPE,ZP

E,ZPE,Z,ZP

=

( )( )21

21

Z,ZPE,Z,ZP

=

( ) ( )

( )21

21

Z,ZPEPEZ,ZP

=

∴ ¡Ambas formas de actualización son equivalentes!

EJEMPLO 10: Un paciente va al médico con algún padecimiento y quiere

que el médico le de un diagnóstico.

Muy Frec.

Rel. Frec. Poco Frec.

Supongamos que la enfermedad del paciente cae en alguna de las

siguientes tres categorías:

E1 = enfermedad muy frecuente

E2 = enfermedad relativamente frecuente

E3 = enfermedad poco frecuente

54Módulo 3: Estadística Bayesiana

Page 26: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

El médico sabe por experiencia que

P(E1)=0.6, P(E2)=0.3, P(E3)=0.1 (probabilidades iniciales)

El médico observa y obtiene información adicional (Z = síntomas) acerca

de la posible enfermedad del paciente. De acuerdo con los síntomas el

doctor dictamina que

P(Z | E1)=0.2, P(Z | E2)=0.6, P(Z | E3)=0.6 (verosimilitud)

Combinando la información inicial con la verosimilitud mediante el

Teorema de Bayes se obtiene

( ) ( ) ( ) 0.36(0.6)(0.1)(0.6)(0.3)(0.2)(0.6)EPEZPZP3

1jjj =++==∑

=

( ) 33.036.0

)6.0)(2.0(ZEP 1 ==

(probabilidades finales) ( ) 5.0

36.0)3.0)(6.0(ZEP 2 ==

( ) 17.036.0

)1.0)(6.0(ZEP 3 ==

Por lo tanto, es más probable que el paciente tenga una enfermedad

relativamente frecuente (E2).

EJEMPLO 11. Juan (mexicano) se propone viajar a Caracas, donde espera

entrevistarse con el Sr. Fernández, un hombre de negocios radicado en esa

ciudad, para proponerle la compra de Tequila mexicano. Si consigue su

objetivo ganará una comisión de $40,000. Ahora bien, Juan considera que

existe una probabilidad de 0.5 de que el Sr. Fernández tenga que salir de

Caracas en el último momento y por tal razón no sea posible realizar la

venta. Aún en el caso de que se produzca la entrevista, Juan considera que

55Módulo 3: Estadística Bayesiana

Page 27: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

la probabilidad de efectuar la venta es de 0.4. El viaje le costaría $8,000

independientemente de que pueda realizar la entrevista.

a) ¿Es conveniente que Juan viaje a Caracas?

b) Un servicio de información secreta ofrece sus servicios a Juan. Le

ofrece informarle si el Sr. Fernández estará en Caracas antes de que

Juan emprenda el viaje. El registro de aciertos de esta compañía indica

que si la persona está en Caracas, lo encuentran el 80% de las veces; por

otro lado si la persona no está en Caracas, aciertan el 90% de las veces.

Si el servicio de información secreta cuesta $100, ¿le conviene a Juan

contratar el servicio?. ¿Cuál sería su decisión si le dice el servicio que el

Sr. Fernández no va a estar?.

Resolvamos primero el inciso (a):

o D = d1,d2

donde, d1 = viajar

d2 = no viajar

56Módulo 3: Estadística Bayesiana

Page 28: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

o E = NE, SE, NV, SV

donde, NE = no está

SE = sí está

NV = no realizar la venta

SV = sí realizar la venta

La cuantificación de la verosimilitud de cada unos de estos sucesos

inciertos es

P(NE) = 0.5

P(SE) = 0.5

¿P(NV) = 0.6? ó ¿P(NV | SE) = 0.6?

¿P(SV) = 0.4 ? ó ¿P(SV | SE) = 0.4?

o C = c1, c2, c3, c4

donde, c1 = c(d1,NE) = -8000

c2 = c(d1,SE,NV) = -8000

c3 = c(d1,SE,SV) = 40000-8000=32000

c4 = c(d2) = 0

Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij

d2

d1

P(NV|SE)=0.6

P(Ω)=1

SV

P(SV|SE)=0.4

NV

SE

NE

57Módulo 3: Estadística B

-$8000

0

$3200

0

$

-$8000

P(NE)=0.5

P(SE)=0.5

ayesiana

Page 29: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

1) Optimista: d1 (viajar)

2) Pesimista: d2 (no viajar)

3) Consecuencia más probable: d2 (no viajar)

4) Utilidad esperada: d1 ó d2 (son equivalentes)

Las utilidades esperadas son:

( ) 0)4.0)(5.0(32000)6.0)(5.0(8000)5.0(8000duE 1 =+−−= ( ) 0)1(0duE 2 ==

¡Le da “igual” si viaja o no viaja!.

Resolvamos ahora el inciso (b):

o D = d1,d2,a1,a2

donde, d1 = viajar

d2 = no viajar

a1 = contratar el servicio secreto

a2 = no contratar el servicio secreto

o E = NE, SE, NV, SV, DN, DS

donde, NE = no está

SE = sí está

NV = no realizar la venta

SV = sí realizar la venta

DN = que el servicio diga que no está

DS = que el servicio diga que sí está

La cuantificación de la verosimilitud de cada unos de estos sucesos

inciertos se vuelve un poco más complicada, veamos:

58Módulo 3: Estadística Bayesiana

Page 30: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Necesitamos,

Rama 1: P(DN), P(NE|DN), P(SE|DN), P(NV|SE,DN), P(SV|SE,DN).

Rama 2: P(DS), P(NE|DS), P(SE|DS), P(NV|SE,DS), P(SV|SE,DS).

Rama 3: P(NE), P(SE), P(NV|SE), P(SV|SE).

La información inicial proporcionada por Juan es,

P(NE) = 0.5, P(SE) = 0.5, P(NV | SE) = 0.6, P(SV | SE) = 0.4 y

P(DS | SE) = 0.8, P(DN | NE) = 0.9

Las probabilidades de la Rama 3 son las mismas que las que se

obtuvieron para el árbol anterior. Para calcular las probabilidades de las

otras dos Ramas se usan reglas de probabilidad condicional

obteniéndose,

( ) ( ) 5.05.01NEP1SEP =−=−=

( ) ( ) ( ) ( ) ( )SEPSEDNPNEPNEDNPDNP +=

( )( ) ( )( ) 55.05.02.05.09.0 =+=

( ) ( ) 45.055.01DNP1DSP =−=−=

Rama 1:

( ) ( ) ( )( )

( )( ) 818.055.0

5.09.0DNP

NEPNEDNPDNNEP ===

( ) ( ) 182.0818.01DNNEP1DNSEP =−=−=

( ) ( ) 6.0SENVPDN,SENVP ==

( ) ( ) 4.0SESVPDN,SESVP ==

Rama 2:

( ) ( ) ( )( )

( )( ) 112.045.0

5.01.0DSP

NEPNEDSPDSNEP ===

59Módulo 3: Estadística Bayesiana

Page 31: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

( ) ( ) 888.0112.01DSNEP1DSSEP =−=−=

( ) ( ) 6.0SENVPDS,SENVP ==

( ) ( ) 4.0SESVPDS,SESVP ==

o C = c1, c2, c3, c4, c5, c6, c7, c8, c9, c10, c11, c12

donde, c1 = c(a1,DN,d1,NE) = -8000 –100 = -8100

c2 = c(a1,DN,d1,SE,NV) = -8000 –100 = -8100

c3 = c(a1,DN,d1,SE,SV) = 40000 –8000 –100 = 31900

c4 = c(a1,DN,d2) = -100

c5 = c(a1,DS,d1,NE) = -8000 –100 = -8100

c6 = c(a1,DS,d1,SE,NV) = -8000 –100 = -8100

c7 = c(a1,DS,d1,SE,SV) = 40000 –8000 –100 = 31900

c8 = c(a1,DS,d2) = -100

c9 = c(a2,d1,NE) = -8000

c10 = c(a2,d1,SE,NV) = -8000

c11 = c(a2,d1,SE,SV) = 40000 –8000 =32000

c12 = c(a2,d2) = 0

Supongamos que la utilidad es proporcional al dinero, i.e., u(cij) = cij.

La solución al problema de acuerdo con cada uno de los criterios es:

1) Optimista: a2 y d1 (no contratar el servicio y viajar)

2) Pesimista: a2 y d2 (no contratar el servicio y no viajar)

3) Consecuencia más probable: a2 y d2 (no contratar el servicio y no

viajar)

4) Utilidad esperada: d1 (viajar)

60Módulo 3: Estadística Bayesiana

Page 32: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Las utilidades esperadas son:

Si contrata el servicio y dice que no va a estar: d2

( ) 5188

)4.0)(182.0(31900)6.0)(182.0(8100)818.0(8100d,DN,auE 11

−=+−−=

( ) 100)1(100d,DN,auE 21 −=−=

¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández

no va a estar?. R = d2 (no viajar).

Si contrata el servicio y dice que sí va a estar: d1

( ) 6108

)4.0)(888.0(31900)6.0)(888.0(8100)112.0(8100d,DS,auE 11

=+−−=

( ) 100)1(100d,DS,auE 21 −=−=

¿Cuál sería su decisión si le dice el servicio que el Sr. Fernández

sí va a estar?. R = d1 (viajar).

Si no contrata el servicio: d1 ó d2

( ) 0)4.0)(5.0(32000)6.0)(5.0(8000)5.0(8000d,auE 12 =+−−= ( ) 0)1(0d,auE 22 ==

Finalmente,

( ) 6.26936188(0.45) )55.0(100auE 1 =+−=

( ) 0)1(0auE 2 ==

¿le conviene a Juan contratar el servicio? R = a1 (sí contrata).

61Módulo 3: Estadística Bayesiana

Page 33: 4. Principio de utilidad esperada máxima - ITAMallman.rhon.itam.mx/~lnieto/index_archivos/Modulo32.pdf · 4. Principio de utilidad esperada máxima Los axiomas de coherencia son

PROFESOR: LUIS E. NIETO BARAJAS

Árbol de decisión

a2

a1

DN P(DN)=0.55

DS P(DS)=0.45

SE P(SE|DS)=0.888

NE P(NE|DS)=0.112

P(Ω)=1

d2

d1

P(Ω)=1

d1

NE P(NE)=0.5

SE P(SE)=0.5

d2

d1

P(Ω)=1

SE P(SE|DN)=0.182

NE P(NE|DN)=0.818

62Módulo 3: Estadística Bayesiana

SV P(SV|SE,DS)=0.4

NV P(NV|SE,DS)=0.6

-$100

$31900

-$8100

-$8100

$0

-$8000

SV P(SV|SE)=0.4

NV P(NV|SE)=0.6 -$8000

$32000

-$100

$31900SV P(SV|SE,DN)=0.4

NV P(NV|SE,DN)=0.6

-$8100

-$8100