Familias exponenciales y distribuciones inicialesallman.rhon.itam.mx/~mendoza/Tabasco.pdf · a una...

Post on 17-Apr-2020

8 views 0 download

Transcript of Familias exponenciales y distribuciones inicialesallman.rhon.itam.mx/~mendoza/Tabasco.pdf · a una...

Familias exponenciales y distribuciones iniciales

Eduardo Gutiérrez-Peña1 y Manuel Mendoza Ramírez2

1Departamento de Probabilidad y Estadística, IIMAS-UNAM

2Departamento de Estadística, ITAM

XXVI Foro Nacional de EstadísticaVillahermosa, Tabasco. Septiembre 21-23, 2011

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 1 / 23

Contenido

1 Familias Exponenciales Naturales

2 Familias Conjugadas

3 Teoría de la Información

4 Problemas de Optimización

5 Inferencia Bayesiana Paramétrica

6 Observaciones Finales

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 2 / 23

Famila Exponencial Natural (FEN)

Densidadpθ(x |θ) = b(x) expθx −M(θ) (θ ∈ Ξ)

con M(θ) = log∫

b(x) expθx η(dx)

Espacio parametral (canónico)

Ξ = θ ∈ IR : M(θ) < ∞

Parámetro medioµ = µ(θ) = E [ X |θ ] = dM(θ)/dθ

espacio del parámetro medio: Ω = µ(Ξ)

Función de varianza

V (µ) = Var[ X |θ(µ) ] = d2M(θ(µ))/dθ2

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 3 / 23

Famila Exponencial Natural (FEN)

Sean X1, . . . , Xn ∼ pθ(x |θ) y S =∑n

i=1 Xi . Entonces

pθ(s|θ, n) = b(s, n) expθs − n M(θ)

VerosimilitudLθ(θ|s, n) ∝ expθs − n M(θ)

Información de Fisheriθ(θ) = d2M(θ)/dθ2

En términos del parámetro medio

iµ(µ) = V (µ)−1

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 4 / 23

Familia Conjugada

Familia conjugada natural

πθ(θ|s0, n0) ∝ Lθ(θ|s0, n0) (s0 ∈ IR, n0 ∈ IR)

Forma normalizada

πθ(θ|s0, n0) = exp[s0θ − n0 M(θ)]−W (s0, n0)

con W (s0, n0) = log∫

exps0θ − n0 M(θ)dθ (Diaconis-Ylvisaker)

Inicial de JeffreysπJ(θ) ∝ iθ(θ)1/2

La posterior de Jeffreys es miembro de la familia conjugada de DY si la FENtiene función de varianza cuadrática (FVC)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 5 / 23

Teoría de la Información

Entropía relativa

DKL(f (·)||g(·)) =

∫f (x) ln

f (x)

g(x)

dx

también se conoce como la divergencia de Kullback-Liebler entre f y g.

Información Mutua

I(X , Θ) =

∫ ∫p(x , θ) ln

p(x , θ)

p(x)p(θ)

dxdθ

=

∫p(x)

∫p(θ|x) ln

p(θ|x)

p(θ)

dx

=

∫p(x) DKL(p(θ|x)||p(θ)) dx .

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 6 / 23

Optimización

Las familias exponenciales de distribuciones se pueden obtener como soluciones aproblemas de optimización de la entropía.

Mínima entropía relativa: para una g fija, se minimiza DKL(f (·)||g(·)) respecto af sujeto a las restricciones∫

hi(x)f (x)dx = mi ; i = 1, . . . , k

Si existe una solución f ∗, entonces pertenece a una familia exponencial general

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 7 / 23

Inferencia Bayesiana Paramétrica

X: observable que describe el fenómeno de interés

p(x |θ) y p(θ)

Elementos

p(x , θ) = p(θ) p(x |θ)= p(x) p(θ|x)

Función de pérdida: L(θ, θ)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 8 / 23

Inferencia Bayesiana Paramétrica

X: observable que describe el fenómeno de interés

p(x |θ) y p(θ)

Elementos

p(x , θ) = p(θ) p(x |θ)= p(x) p(θ|x)

Función de pérdida: L(θ, θ)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 9 / 23

Inferencia Bayesiana Paramétrica

I. Selección del modelo de muestreo p(x |θ)∫hi(x)p(x |θ)dx = mi ; i = 1, . . . , k

con p(x |θ) “cercana” a la medida base b(x)

Entropía Relativa Mínima (ERM, Kullback 1959):

La solución a este problema de optimización pertenece a una familia exponencial

p(x |θ) = b(x) expθx −M(θ)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 10 / 23

Inferencia Bayesiana Paramétrica

X: observable que describe el fenómeno de interés

p(x |θ) and p(θ)

Elementos

p(x , θ) = p(θ) p(x |θ)= p(x) p(θ|x)

Función de pérdida: L(θ, θ)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 11 / 23

Inferencia Bayesiana Paramétrica

II. Selección de la inicial p(θ)

De nuevo, las restricciones + “cercanía” a la medida B(θ) + ERM

La solución de este problemaes un miembro de otra familia exponencial

Si las restricciones se formulan en términos de θ y M(θ),

p(θ) es conjugada para p(x |θ)

p(θ) ∝ B(θ) expx0θ − n0M(θ)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 12 / 23

Inferencia Bayesiana Paramétrica

III. Proceso de aprendizaje

− Una muestra

X(n) = (X1, . . . , Xn) muestra aleatoria de p(x |θ)

p(θ|x(n)) pertenece a la misma familia a la que pertenece p(θ) y el cálculo se simplifica

− Varias muestras

X(ni ) muestra aleatoria de p(x |θi); i=1,. . . ,k

p(θi |x(ni )) pertenece a la misma familia a la que pertenece p(θi )

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 13 / 23

Inferencia Bayesiana Paramétrica

− Varias muestras

Si θ1, . . . , θk son intercambiables, entonces pueden considerarse una m.a. de

p(θ|x0, n0) ∝ B(θ) expx0θ − n0M(θ)

Si los hiperparámetros (x0, n0) de la inicial común son desconocidos, se puedeutilizar el argumento previo para producir una inicial p(x0, n0)

Esta inicial resuelve otro problema de optimización; pertenecea una familia exponencial y puede ser conjugada para p(θ|x0, n0)

(George, Makov & Smith; 1993)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 14 / 23

Iniciales Máximo Informativas

X: observable que describe el fenómeno de interés

p(x |θ) y p(θ)

Elementos

p(x , θ) = p(θ) p(x |θ)= p(x) p(θ|x)

L(θ, θ) = DKL(p(x |θ)||p(x |θ))

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 15 / 23

Iniciales Máximo Informativas

Información Mutua: I(X , Θ) es una funcional de p(x , θ)

- Dada p(x), la minimización de I(X , Θ) con respecto a p(θ|x) sujeta a la restricción∫ ∫p(x)p(θ|x)L(θ(x), θ)dxdθ ≤ l

conduce a una posterior conjugada (GP & Muliere; 2004)

p(θ|x) ∝ exp(x + x0)θ − (n + n0)M(θ)

- En otro sentido, si se fija p(x |θ) y se maximiza (asintóticamente) I(X , Θ) con respecto ap(θ), se obtiene la inicial de Jeffreys (Clarke & Barron; 1994)

* Grünwald and Dawid (2004) exploran la relación entre máxima entropía y mínimapérdida esperada en el caso menos favorable. Consideran problemas de decisión yfunciones de pérdida arbitrarios.

Definen versiones generalizadas de entropía, divergencia y familias exponenciales.Como caso particular, la información mutua puede interpretarse como una entropíageneralizada.

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 16 / 23

Medida Base

Volviendo a la selección de la inicial en el caso no jerárquico...

p(θ) ∝ B(θ) expx0θ − n0M(θ)

B(θ) = πL(θ) ∝ 1 ⇒ p(θ) ∝ expx0θ − n0M(θ)

E(µ|x(n)) =

∑i xi + x0

n + n0

= x ( si x0 = 0, n0 = 0)

(Diaconis & Ylvisaker; 1979)

También,µKL = E(µ|x(n)) (GP; 1992)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 17 / 23

Medida Base

B(θ) ∝ πJ(θ) ⇒ p(θ) ∝ [iθ(θ)]1/2 expx0θ − n0M(θ)

Esta es la inicial de referencia con restricciones (Bernardo & Smith; 1994)

FEN-FVC ⇒ θ ^ µ ⇔ iθ(θ) ∝ expk1θ − k2M(θ) para algunos k1, k2.

p(θ) ∝ exp(

x0 +k1

2

)θ −

(n0 +

k2

2

)M(θ)

= exp x0θ − n0M(θ)

De esta forma, la inicial de referencia (Jeffreys) puede interpretarse como un caso límitede la familia conjugada DY a medida que x0 → k1/2 y n0 → k2/2

(GP & Smith; 1995, 1997)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 18 / 23

Medida Base

Considere una FEN-FVC, como en el caso previo, y sea λ = λ(θ) unareparametrización

Suponga que: (i) λ ^ θ, y (ii) existe un estimador λ = λ(x(n)) tal queE(λ|θ) = λ(θ)

Pregunta: ¿Qué medida base B(θ) produce E(λ|x(n)) = λ(x(n)) ?

La respuesta es B(θ) ∝ iθ(θ)|Jλ(θ)|−1. En este caso,

p(θ) ∝ exp (x0 + k1 − r1) θ − (n0 + k2 − r2) M(θ)= exp x0θ − n0M(θ)

con r1 y r2 determinados por λ(·)

B(θ) también puede interpretarse como un caso límite de la familia conjugada DYcomo x0 → (k1 − r1) y n0 → (k2 − r2)

(Hartigan, 1965; GP & Mendoza, 1999)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 19 / 23

Medida Base

Considere una FEN-FVC, como en el caso previo, y sea λ = λ(θ) unareparametrización

Suponga que: (i) λ ^ θ, y (ii) existe un estimador λ = λ(x(n)) tal queE(λ|θ) = λ(θ)

Pregunta: ¿Qué medida base B(θ) produce E(λ|x(n)) = λ(x(n)) ?

La respuesta es B(θ) ∝ iθ(θ)|Jλ(θ)|−1. En este caso,

p(θ) ∝ exp (x0 + k1 − r1) θ − (n0 + k2 − r2) M(θ)= exp x0θ − n0M(θ)

con r1 y r2 determinados por λ(·)

B(θ) también puede interpretarse como un caso límite de la familia conjugada DYcomo x0 → (k1 − r1) y n0 → (k2 − r2)

(Hartigan, 1965; GP & Mendoza, 1999)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 19 / 23

Medida Base

Considere una FEN-FVC, como en el caso previo, y sea λ = λ(θ) unareparametrización

Suponga que: (i) λ ^ θ, y (ii) existe un estimador λ = λ(x(n)) tal queE(λ|θ) = λ(θ)

Pregunta: ¿Qué medida base B(θ) produce E(λ|x(n)) = λ(x(n)) ?

La respuesta es B(θ) ∝ iθ(θ)|Jλ(θ)|−1. En este caso,

p(θ) ∝ exp (x0 + k1 − r1) θ − (n0 + k2 − r2) M(θ)= exp x0θ − n0M(θ)

con r1 y r2 determinados por λ(·)

B(θ) también puede interpretarse como un caso límite de la familia conjugada DYcomo x0 → (k1 − r1) y n0 → (k2 − r2)

(Hartigan, 1965; GP & Mendoza, 1999)

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 19 / 23

Medida Base

Así, πH(θ) ∝ iθ(θ)|Jλ(θ)|−1 es una inicial “no informativa” para λ.En términos de λ, resulta

πλ(λ) ∝ iλ(λ)

Observe queπJ(λ) ∝ [ iλ(λ) ]1/2

y

πL(λ) ∝ 1

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 20 / 23

Medida Base

Así, πH(θ) ∝ iθ(θ)|Jλ(θ)|−1 es una inicial “no informativa” para λ.En términos de λ, resulta

πλ(λ) ∝ iλ(λ)

Observe queπJ(λ) ∝ [ iλ(λ) ]1/2

y

πL(λ) ∝ 1

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 20 / 23

Medida Base

Así, πH(θ) ∝ iθ(θ)|Jλ(θ)|−1 es una inicial “no informativa” para λ.En términos de λ, resulta

πλ(λ) ∝ iλ(λ)

Observe queπJ(λ) ∝ [ iλ(λ) ]1/2

y

πL(λ) ∝ 1

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 20 / 23

Observaciones Finales

Las familias Exponenciales y la maximización de la entropía con restricciones,están muy relacionadas. Si las restricciones se eligen apropiadamente, puedenproducir conjugamiento.

Existe una dualidad entre maximización de la entropía y minimización de lapérdida esperada en el caso menos favorable.

Se pueden obtener distintas clases de iniciales "no informativas" como casoslímite de las familias conjugadas DY. Un caso interesante se presenta cuando elvalor esperado final del parámetro λ coincide con el correspondiente estimadorinsesgado λ.

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 21 / 23

Observaciones Finales

Otra dualidad es la que existe entre la noción clásica de insegamiento y laminimización de la pérdida cuadrática esperada. Los resultados sugieren queesta relación se podría extender utilizando una definición más general deinsesgamiento (para funciones de pérdida arbitrarias) como la que introducenNoorbaloochi & Meeden (1983).

Otras generalizaciones interesantes podrían examinarse a partir de la teoríadesarrollada por Grünwald & Dawid.

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 22 / 23

References

Bernardo JM & Smith AFM (1994). Bayesian Theory. Wiley.

Clarke BS & Barron AR (1994). Jeffreys’ prior is asymptotically least favorable under entropy risk. Jounal of StatisticalPlanning and Inference 41, 37–60.

Diaconis P & Ylvisaker D (1979). Conjugate priors for exponential exponential families. Annals of Statistics 7, 269–281.

George E, Makov U & Smith AFM (1993). Conjugate likelihood distributions. Scandinavian Journal of Statistics 26, 509-517.

Gutiérrez-Peña E & Mendoza M (1999). A note on Bayes estimates for exponential families. Revista de la Real Academiade Ciencias Exactas, Físicas y Naturales (España) 93, 351–356.

Gutiérrez-Peña E & Muliere P (2004). Conjugate priors represent strog pre-experimental assumptions. ScandinavianJournal of Statistics 31, 235–246.

Gutiérrez-Peña E & Smith AFM (1995). Conjugate parametrizations for natural exponential families. Journal of theAmerican Statistical Association 90, 1347–1356.

Gutiérrez-Peña E & Smith AFM (1997). Exponential and Bayesian conjugate families: Review and Extensions. Test 6, 1–90.

Grünwald, PD ’& Dawid, AP (2004). Game theory, maximum extropy, minumum discrepancy and robust Bayesiandecision theory. Annals of Statistics 32, 1367–1433.

Hartigan J (1965). The asymptotically unbiased prior distribution. Annals of Mathematical Statistics 36, 1137–1152.

Kullback S (1959). Information Theory and Statistics. Wiley.

Noorbaloochi S & Meeden G (1983). Unbiasedness as the dual of being Bayes. Journal of the American StatisticalAssociation 78, 619–623.

E. Gutiérrez-Peña y M. Mendoza R. (UNAM/ITAM) Familias exponenciales y distribuciones iniciales Foro AME 23 / 23