UNIVERSIDAD AUTÓNOMA CHAPINGO
DIVISIÓN DE CIENCIAS FORESTALES
DEPARTAMENTO DE ESTADÍSTICA, MATEMÁTICA Y CÓMPUTO
“UN ENFOQUE BAYESIANO DEL MODELO DE REGRESIÓN EN
ECONOMETRÍA”
TESIS PROFESIONAL
Que como requisito parcial
para obtener el título de:
LICENCIADO EN ESTADÍSTICA
PRESENTA:
JORGE TRUCIOS CAMARILLO
Chapingo, México, mayo del 2006
Índice de Contenido
RESUMEN ..................................................................................................................................................................... i
SUMMARY ...................................................................................................................................................................ii
Capítulo I ...................................................................................................................................................................... 1
Introducción. .............................................................................................................................................................. 1
Justificación. .............................................................................................................................................................. 2
Objetivos .................................................................................................................................................................... 3 General ................................................................................................................................................................... 3 Particulares ............................................................................................................................................................ 3
Capítulo II ..................................................................................................................................................................... 4
Teoría Bayesiana ....................................................................................................................................................... 4
Cálculo bayesiano. ..................................................................................................................................................... 5
Capítulo III ................................................................................................................................................................... 7
Modelo de regresión lineal normal con a priori conjugada natural: Caso Univariado ....................................... 7 Función de verosimilitud ...................................................................................................................................... 7 A priori. ................................................................................................................................................................. 10 Posterior. .............................................................................................................................................................. 11 Comparación de modelos. ................................................................................................................................... 13 Predicción. ............................................................................................................................................................ 16
Capítulo IV .................................................................................................................................................................. 18
Modelo de regresión lineal normal múltiple con a priori conjugada natural en notación matricial ................ 18 Función de verosimilitud .................................................................................................................................... 19 A priori .................................................................................................................................................................. 20 Posterior. .............................................................................................................................................................. 21 Comparación de modelos. ................................................................................................................................... 23
Comparación de modelos suponiendo restricciones de desigualdad. ................................................................ 23 Restricciones de igualdad .................................................................................................................................. 23 Intervalos de densidad posterior más altos. ....................................................................................................... 25
Predicción. ............................................................................................................................................................ 26
Capítulo V. .................................................................................................................................................................. 28
Modelo de regresión lineal normal con a priori independiente normal-gama. ................................................... 28 A priori .................................................................................................................................................................. 28 Posterior ............................................................................................................................................................... 29 Densidad Proporción Savage–Dickey ............................................................................................................... 30 Predicción ............................................................................................................................................................. 32
Capítulo VI .................................................................................................................................................................. 34
Modelo de Regresión Lineal con Matriz de Covarianzas de Errores Generales .................................................. 34
Modelo con Matriz de Varianzas y Covarianzas general Ω ............................................................................ 34 Función de Verosimilitud .................................................................................................................................. 35 A Priori .............................................................................................................................................................. 36
Posterior............................................................................................................................................................. 36 Heteroscedasticidad ............................................................................................................................................. 37 Heteroscedasticidad de forma desconocida: Con errores t-student ................................................................ 38
Capitulo VII ................................................................................................................................................................ 41
Calculo Bayesiano .................................................................................................................................................... 41 Integración Monte Carlo.................................................................................................................................... 41 Muestreo de Gibbs ............................................................................................................................................... 42 Diagnósticos Cadenas de Markov Monte Carlo ................................................................................................ 44 Calculo Bayesiano para Heteroscedasticidad.................................................................................................... 48
Capitulo VIII............................................................................................................................................................... 50
Ejemplos y Discusión. .............................................................................................................................................. 50 Ejemplo 1.............................................................................................................................................................. 51
Mínimos cuadrados ordinario ............................................................................................................................ 52 Modelo de Regresión lineal normal con a priori no informativa y a priori informativa................................... 53 Modelo de Regresión lineal normal con a priori independiente normal-gamma .............................................. 56
Ejemplo II ............................................................................................................................................................ 58 Heteroscedasticidad para el acercamiento clásico ............................................................................................. 58 Heteroscedasticidad en el enfoque Bayesiano ................................................................................................... 60
CONCLUCIONES ..................................................................................................................................................... 62
Bibliografía ................................................................................................................................................................. 63
APÉNDICE I .............................................................................................................................................................. 63
ANEXO ....................................................................................................................................................................... 66
Índice de Cuadros y Figuras
Cuadro 1. Desembolsos del presupuesto de defensa de los EU. .............................................................................. 51
Cuadro 2. Análisis de Varianza ................................................................................................................................. 52
Cuadro 3. Coeficientes de regresión. ........................................................................................................................ 52
Cuadro 4. Medias posteriores para . ..................................................................................................................... 53
Cuadro 5. Comparación de modelos envolviendo . ............................................................................................ 54
Cuadro 6. Resultado posteriores con a priori informativa ...................................................................................... 54
Cuadro 7. Coeficientes de y desviaciones estándar. ........................................................................................... 55
Cuadro 8. Propiedades posteriores de h y de ...................................................................................................... 55
Cuadro 9. Resultados previos y posteriores para (desviaciones estándar) ...................................................... 57
Cuadro 10. Inversiones para 35 firmas en una industria. ....................................................................................... 58
Cuadro 11. Análisis de Varianza. .............................................................................................................................. 59
Cuadro 12. Coeficientes de regresión........................................................................................................................ 59
Cuadro 13. Análisis de Varianza para los datos transformados. ........................................................................... 59
Cuadro 14. Coeficientes de regresión con los datos transformados. ...................................................................... 59
Cuadro 15.Modelo lineal Heteroscedastico Bayesiano con estimaciones de Gibbs............................................... 61
Cuadro 16. Valores a priori ........................................................................................................................................ 61
Cuadro 17. Estimaciones posteriores ........................................................................................................................ 61
Cuadro 18. Parámetros para ambos acercamientos y desviación Estándar. ........................................................ 61
Figura 1. Valores actuales contra los valores predichos y residuales. ................................................................... 52
Figura 2. Gráfica de residuales. ................................................................................................................................ 53
i
UN ENFOQUE BAYESIANO DEL MODELO DE REGRESIÓN EN
ECONOMETRÍA
Jorge Trucios Camarillo1
José Artemio Cadena Meneses2
RESUMEN
El presente trabajo propone el modelo de regresión lineal múltiple y un modelo de regresión
lineal con Heteroscedasticidad bajo el enfoque Bayesiano, como una herramienta para el análisis
de la información, ofrece las bases para el cálculo de estimadores y de cómo se integra la
información a priori al modelo de regresión.
El enfoque Bayesiano, integra la información a priori ( , | )p h y (que pueden ser: conocimiento
del investigador sobre el fenómeno, investigaciones anteriores u otras fuentes) con la función de
verosimilitud 2( | , )p y , a través del teorema de Bayes, obteniendo el resultado conocido como
la distribución posterior del modelo ( , | )p h y .
Para la obtención de los estimadores, en el presente trabajo se propusieron: una a priori no
informativa, una a priori conjugada natural y además se incluyó una a priori independiente
normal-gama. El programa utilizado para calcular dichos estimadores fue MATLAB versión 5.3,
se utilizaron las rutinas de LaSage (1999) que están en la página: www.spatial-econometrics.com,
para poder calcular los estimadores.
El enfoque Bayesiana y Clásica producen resultados similares cuando no se cuenta con
información a priori, la diferencia substancial entre ambos métodos esta en el análisis y el enfoque
del problema. Sin embargo, con información a priori los estimadores Bayesianos son más precisos
que los estimadores clásicos.
Palabras Clave: Distribución a priori, Distribución posterior, Función de verosimilitud,
Heteroscedasticidad, Regresión lineal.
1 Egresado del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales.
Universidad Autónoma Chapingo. México. 2 Profesor del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales. Universidad
Autónoma Chapingo. México.
ii
AN APPROACH OF THE BAYESIAN REGRESSION MODEL IN ECONOMETRICS
Jorge Trucios Camarillo1
José Artemio Cadena Meneses2
SUMMARY
The present paper proposes a multiple linear regression model and a Heteroskedasticity linear
regression model under the Bayesian approach, like a tool for the analysis of information; this
offers the bases for the calculation of estimators and how adds the prior information to the
regression model.
Bayesian approach, adds the prior information ( , | )p h y (it could can be: previous knowledge of
the investigator on the phenomenon, investigations or other sources) with the likelihood function
2( | , )p y through Bayes’ theorem, obtaining the result known like posterior distribution of the
model ( , | )p h y .
For obtaining the estimators, in the present paper are propose: a noninformative prior distribution,
a natural conjugate prior distribution, and in addition an independent normal-gamma prior
distribution. The program used to calculate these estimators was MATLAB version 5.3, LaSage
(1999) toolbox was used, and they are at the page: www.spatial-econometrics.com, to be able to
calculate the estimators.
The Bayesian approach and Classic approach produce similar results when the researcher don’t
have prior information, the substantial differences among both methods is the analysis and the
focus of the problem. However, with prior information the Bayesian estimators are more accurate
than the classical estimators.
Key words: Prior distribution, Posterior distribution, Likelihood function, Heteroskedasticity,
linear Regression model.
1 Egresado del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales.
Universidad Autónoma Chapingo. México. 2 Profesor del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales. Universidad
Autónoma Chapingo. México.
1
Capítulo I
Introducción.
En la segunda mitad del siglo XVIII fue publicado el teorema de Bayes (1764), así llamado por el
nombre del monje que lo desarrolló, en respuesta a los postulados de la inferencia Gausiana. El
estudio clásico de las distribuciones de probabilidad –o estadística Gausiana- supone funciones de
densidad simétricas y bien definidas, así como la ausencia de cualquier conocimiento previo por
parte del investigador. Bayes, en la justificación de su teoría argumenta que los datos no
necesariamente provenían de tales funciones de densidad, sino que probablemente eran generados
por leyes probabilísticas sujetas a formas asimétricas y sesgadas. En tanto que el investigador
conociera estas características, el procedimiento correcto de inferencia estadística debería
incorporar, decía Bayes, esta información y de esta forma, contar con un marco probabilístico más
apropiado para la inferencia estadística.
En el campo económico, la inferencia Bayesiana comienza a tomar un lugar importante. Según
Judge (1985) la econometría es la aplicación empírica de la teoría económica mediante la
inferencia estadística y los modelos matemáticos, es una rama de la economía que aglutina a la
teoría económica, las matemáticas, la estadística y la informática para estudiar y analizar
fenómenos económicos. Puede decirse que constituye en sí misma una disciplina dentro de la
economía y a la vez una potente herramienta que tanto los economistas como muchos otros
investigadores sociales utilizan para el estudio de sus problemas concretos. El principal propósito
de la econometría es proporcionar un sustento empírico a la teoría económica.
El análisis Bayesiano es aplicable a cualquier procedimiento estadístico. Este trabajo fue elegido
por su amplia utilización en diferentes disciplinas, en este caso en la econometría.
2
Justificación.
La diferencia fundamental entre el modelo clásico y el Bayesiano es que en este último los
parámetros son considerados aleatorios, por lo que pueden ser cuantificados en términos
probabilísticos. Por otro lado, es importante resaltar que la inferencia Bayesiana se basa en
probabilidades asociadas con diferentes valores del parámetro que podrían haber dado lugar a
la muestra x que se observó. Por el contrario, la inferencia clásica se basa en probabilidades
asociadas con las diferentes muestras x que se podrían observar para algún valor fijo, pero
desconocido, del parámetro . En relación con la obtención de estimaciones puntuales para los
parámetros poblacionales, en el caso del modelo clásico, la estimación se interpreta como el valor
de , que hace más probable haber obtenido la muestra observada, mientras en el modelo
Bayesiano, la estimación será el valor de que, puesto que se ha observado x, sea más verosímil
o más creíble.
Las principales características que se le pueden atribuir a la teoría Bayesiana son las siguientes:
1. Proporciona una manera satisfactoria de introducir explícitamente y de darle seguimiento a
los supuestos sobre el conocimiento previo.
2. La inferencia Bayesiana no presenta problemas en la selección de estimadores y de
intervalos de confianza.
3. El teorema de Bayes permite la actualización continua de la información sobre los
parámetros de la distribución conforme se generan más observaciones.
4. A diferencia de la inferencia clásica, la Bayesiana no requiere de la evaluación de las
propiedades de los estimadores obtenidos en un muestreo sucesivo.
5. La probabilidad de un evento está dada por el grado de confianza o creencia que tiene un
individuo sobre la ocurrencia del evento.
La principal objeción es que las conclusiones dependen de la selección específica de la
aproximación previa. Aunque para otros esto es lo interesante de la aproximación Bayesiana. Sin
embargo, se debe señalar que inclusive en inferencia clásica, y además en investigaciones
científica en general, estos conocimientos previos son utilizados implícitamente.
3
Objetivos
General
Presentar el punto de vista Bayesiano en la solución de problemas econométricos y contrastar los
resultados producidos por éste con los resultados de la estadística clásica.
Particulares
Resolver un modelo de regresión lineal normal con la metodología Bayesiana y con la
estadística clásica para contrastar los resultados producidos por ambas.
Resolver un modelo donde este presente la heteroscedasticidad con las dos metodologías.
Hacer uso de paquetes estadísticos computacionales para ambos casos.
4
Capítulo II
Teoría Bayesiana
Sean dos variables aleatorias, A y B. Las reglas de probabilidad implican que:
)()|(),( BpBApBAp
donde ),( BAp es la probabilidad conjunta de ocurrir A y B, )|( BAp es la probabilidad de
ocurrir A dado que B ha ocurrido (la probabilidad condicional de A dado B), y )(Bp es la
probabilidad marginal de B. Ahora se pueden cambiar los papeles de A y B y encontrar una
expresión para la probabilidad conjunta de A y B, esto es:
)()|(),( ApABpBAp
Igualando estas dos expresiones para ),( BAp y arreglando se llega a la forma más simple de
expresar la regla de Bayes, que yace en el corazón de la econometría Bayesiana:
)(
)()|()|(
Ap
BpBApABp (2.1)
Si se supone que 1 2, , kA A A son k sucesos mutuamente excluyentes, uno de los cuales ha de
ocurrir necesariamente; entonces la ley de la probabilidad total establece que:
1
( ) ( | ) ( )k
i ii
p A p A B p B
De modo que, se tiene:
1
( | ) ( )( | )
( | ) ( )
j jj k
i ii
p A B p Bp B A
p A B p B
La econometría está interesada en utilizar los datos para aprender algo sobre lo que le interesa al
investigador. Sólo que el “algo" depende del contexto. Sin embargo, la economía típicamente
trabaja con modelos, que dependen de los parámetros. Así el interés se centra en los coeficientes
del modelo de regresión y en la estimación de éstos.
Sea y un vector o matriz de datos y un vector o matriz que contienen los parámetros para el
modelo. El interés se centra en aprender acerca de (una vez obtenidos los datos, esto puede
hacerse a través de la expresión).
( | ) ( )( | )
( )
p pp
p
y θ θθ y
y (2.2)
5
o bien .
( | ) ( | ) ( )p p pθ y y θ θ (2.3)
El término ( | )p θ y es la densidad posterior ( | )p y θ , es la función de verosimilitud y ( )p θ es la
densidad a priori. La a priori ( )p θ , no depende de los datos contiene cualquier información que
no esta disponible en los datos acerca de .
La función de verosimilitud ( | )p y θ , es la densidad condicionada de los datos en los parámetros
del modelo. Siendo a menudo referido como el proceso generador de los datos.
La posterior ( | )p θ y , resume todo lo que nosotros conocemos de después de ver los datos,
combina la información de los datos y la información que no proviene de estos.
Cálculo bayesiano.
La elegancia teórica y conceptual del enfoque Bayesiano lo ha hecho atractivo por muchas
décadas. Sin embargo, los Bayesianos han sido una minoría en el campo de la econometría, que
ha sido dominado por el enfoque clásico. Existen dos razones principales para esto: la
información a priori y el cálculo. Muchos investigadores se oponen al uso de la información a
priori subjetiva en el supuesto objetivo de la ciencia económica.
El cálculo es el segundo y la razón principal para el estatus minoritario de la econometría
Bayesiana. Es decir, el cálculo en la econometría Bayesiana, históricamente, ha sido difícil o
imposible. Sin embargo, la revolución de la computación, de los últimos viente años, ha superado
esta valla y ha llevado a un florecimiento de los métodos Bayesianos en muchos campos.
La ecuación que define la posterior no envuelve integrales, pero la presentación de la información
acerca de los parámetros puede a menudo suponer cálculos importantes.
Para la media de la densidad posterior, se supone que es un vector con k elementos
1( ,..., )k θ . La media posterior de cualquier elemento de es calculado como
dypyE ii )|()|( (2.4)
Salvo algunos casos, no es posible evaluar analíticamente esta integral.
6
Y la varianza posterior es calculada como
22 )|()|()|var( yEyEy iii
que requiere la evaluación de la integral en (2.4), así como
dypyE ii )|()|( 22
Todas estas características posteriores tienen la forma:
dypgygE )|()(|)( (2.5)
donde )(g es una función de interés.
7
Capítulo III
Modelo de regresión lineal normal con a priori conjugada natural: Caso Univariado
Una discusión detallada del modelo de regresión puede encontrarse en cualquier libro de
econometría (Greene (2000), Gujarati (1995), Hill, Griffiths and Judge (1985), Koop (2000)).
Considere la relación entre un variable dependiente y, y k variables explicativas kxx ,...,1 de la
forma:
kk xxy ...221
donde es el error aleatorio, y x1 es igual a uno.
Función de verosimilitud
Sean yi y xi los datos observados, para i donde Ni ,...,2,1 . Por simplicidad matemática, no se
toma en cuenta la intersección, el modelo de regresión lineal es:
i i iy x (3.1)
Los supuestos acerca de i y xi determinan la forma de la función de verosimilitud, estos son:
1. i se distribuye normal con media 0 y varianza 2 , i y j son independientes el uno
del otro para ji . Esto es i es independiente e idénticamente distribuido (i.i.d.)
2(0, )N .
2. ix es fijó y si son variables aleatorias, son independientes de i con una función de
densidad de probabilidad, )|( ixp donde es un vector de parámetros que no incluye a
y 2 .
La suposición de que las variables explicativas no son aleatorias es común en las ciencias físicas,
donde los métodos experimentales son comunes. Es decir, como parte de la disposición
experimental, el investigador escoge valores particulares para las x . En muchas aplicaciones
económicas, tal suposición no es razonable. Sin embargo, la suposición de que la distribución de
las x es independiente del error y con una distribución, que no depende de los parámetros de
interés, es a menudo razonable. En el idioma de la economía, se puede considerar como que x es
una variable exógena.
8
La función de verosimilitud está definida como la función de densidad de probabilidad conjunta
para todos los datos en los parámetros desconocidos (vea (2.3)). El vector de observaciones de la
variable dependiente es un vector de longitud N:
1
2
.
N
y
y
y
y
o, equivalentemente 1 2( , ,..., )Ny y y y . De manera similar, para la variable explicativa, definimos
1 2( , ,..., )Nx x x x . Entonces la función de verosimilitud llega a ser 2( , | , , )p y x . El segundo
supuesto implica que podemos escribir la función de verosimilitud como:
2 2( , | , , ) ( | , , ) ( | )p p p y x y x x
Como la distribución de x no es de interés, se trabaja entonces con una función de verosimilitud
sobre 2( | , , )p y x .
Los supuestos sobre los errores pueden ser usados para trabajar en la forma precisa de la función
de verosimilitud. En particular, usando ciertas reglas básicas de probabilidad y (3.1),
encontramos:
),|( 2iyp es normal
ii xyE ),|( 2
22 ),|var( iy
Usando la definición de la densidad normal obtenemos
22
22
( )1( | , ) exp
22
i ii
y xp y
Finalmente, para ji , si i y j son independiente, se sigue que iy y jy son también
independiente y, así, 2 21
( | , ) ( | , )N
iip p y
y y, por lo tanto, la función de verosimilitud
esta dada por:
2 2
21
2
1 1( | , ) exp ( )
2(2 )
N
i iNiN
p y x
y (3.2)
Si se toma:
9
22
1 1
2 2 2
1
2 2 2
1 1
2
2 21
1
2 2 2
1
ˆ ˆ( ) ( ) ( )
ˆ ˆ( ) ( )
ˆ ˆ( ) ( )
ˆ( )
ˆ( 1) ( )1
ˆ( )
N N
i i i i ii i
N
i i ii
N N
i i ii i
N
i i Ni
ii
N
ii
y x y x x
y x x
y x x
y x
N xN
vs x
Entonces para futuras derivaciones, la verosimilitud se escribirá como, Green (2000):
N
i
i
N
i
ii xvsxy1
222
1
2 )ˆ()(
Donde
1 Nv (3.3)
2
ˆ
i
ii
x
yx (3.4)
y
v
xy
s
N
i
ii
1
2
2
)ˆ(
(3.5)
, 2s y v son los estimadores de mínimos cuadrados ordinarios (MCO) para , el error estándar
y los grados de libertad, respectivamente. Son estadísticas suficientes (Poirier, 1995) para (2.2).
Además, para muchas derivaciones técnicas, es más fácil trabajar con la precisión del error que
con la varianza. La precisión de error esta definida como 21h .
Usando estos resultados, podemos escribir la función de verosimilitud como:
22
1
222
1
22
exp)ˆ(2
exp
)2(
1),|(
s
hvhx
hhhyp
vN
iiN
(3.6)
El primer término en los corchetes es el núcleo de la densidad normal para , y el segundo
término es una densidad gamma para h.
10
A priori.
La a priori refleja cualquier información que el investigador tiene antes de ver los datos, que
desea incluir. Por lo tanto, los previos pueden tomar cualquiera forma. Sin embargo, es común
escoger clases particulares de previos que son fáciles de interpretar y/o hacer los cálculos más
fáciles. La a priori conjugada natural típicamente tiene tales ventajas. Una distribución a priori
conjugada es una que, cuando es combinada con la verosimilitud, produce una posterior que cae
en la misma clase de distribuciones, tiene la propiedad adicional de poseer la misma forma
funcional que la función de verosimilitud. Estas propiedades significan que la información a
priori puede interpretarse del mismo modo que la función de verosimilitud.
En el modelo de regresión lineal simple, se extrae una a priori para y h , que se denota por
),( hp . La densidad posterior se denotará por ( , | )p h y , es conveniente escribir
)()|(),( hphphp y pensar en términos de un previo para h| y uno para h . La forma de la
función de verosimilitud en (3.6) sugiere que el previo conjugado natural incluirá una distribución
normal para h| y una distribución de gamma para h . A una distribución tal como ésta, que es
un producto de una gamma y una normal, se le denomina una normal-gama, Koop (2003).
),(~| 1VhNh
y
),(~2
vsGh
),,,(~,2
vsVNGh
(3.7)
El investigador podría escoger entonces valores particulares de los llamados hiperparametros
previos , V , 2
s y v para reflejar su información previa.
Se usará la barra bajo el parámetros ( ) para denotar los parámetros de una densidad previa, y la
barra sobre el parámetros ( ) para denotar los parámetros de una densidad posterior.
11
Posterior.
La densidad posterior resume la información a priori y de los datos, que tenemos sobre los
parámetros desconocidos, y h . La densidad posterior es también de la forma normal-gama,
confirmando que la a priori es en realidad una conjugada natural.
Formalmente, tenemos la posterior de la forma, Koop (2003)
),,,(~|,2
vsVNGyh
(3.8)
donde
21
1
ixVV (3.9)
)ˆ( 21
ixVV (3.10)
Nvv (3.11)
y 2
s esta definido implícitamente a través de:
2
2222
1
)ˆ(
ixV
vsvsvs
(3.12)
En el modelo de regresión, el coeficiente de la variable explicativa , que es de interés
fundamental, es una medida de los efectos marginales de la variable explicativa en la variable
dependiente. La media posterior ( | )E y , es un punto de estimación y var( | ) y es usado para la
medida de la incertidumbre asociada con el punto de estimación. Usando las reglas básicas de
probabilidad, la media posterior puede ser calculada como:
( | ) ( , | ) ( | )E p h dhd p d y y y
Esta ecuación motiva el interés sobre la densidad marginal posterior ( | )p y . Puede ser calculado
analíticamente usando las propiedades de la distribución Normal-Gama. En particular, implica
que, si se integra respecto a h (usando el hecho de que ( | ) ( , | )p p h dh y y ), la distribución
marginal posterior para es una distribución t, Koop (2003).
2| ~ ( , , )t s V v y (3.13)
sigue de la definición de la distribución t
( | )E y (3.14)
12
y
2
var( | )2
vsV
v
y (3.15)
La precisión del error h , es usualmente de menos interés que , pero las propiedades de la
normal-gamma implican inmediatamente que, Press (1989):
2| ~ ( , )h G s v
y (3.16)
y por lo tanto
2( | )E h s
y (3.17)
y
22
var( | )s
hv
y (3.18)
El modelo de regresión lineal con el previo conjugado natural normal-gamma es un caso donde la
simulación posterior no es requerida.
Para ver las diferencias entre la econometría Bayesiana y la Clásica tómese en cuenta que este
último podría calcular y su varianza 2 2( )is x , y estimar 2 por 2s . Los Bayesianos calculan
la media y la varianza posterior de por ( y Vv
vs
2
2
) y se estima 2h por su media
posterior, 2
s . Éstas son estrategias muy similares, si no fuera por dos diferencias importantes. En
primer lugar, la fórmula Bayesiana combina la a priori y la información de los datos. En segundo
término, está la interpretación Bayesiana de como una variable aleatoria.
Tomando v relativamente pequeño, N y V valores grandes que asegure que la información previa
juegue un papel pequeño en la fórmula posterior (como (3.9)–(3.12)). Se refiere como un previo
relativamente no informativo.
Se establece un previo no informativo tomando 0v y 0V . Tales elecciones son hechas
comúnmente, e implican que ),,,(~|,2
vsVNGyh
Koop (2003), donde
2
1
ixV (3.19)
13
ˆ (3.20)
Nv (3.21)
22vsvs (3.22)
Que son los resultados de mínimos cuadrados ordinarios.
El previo no informativo tiene propiedades muy atractivas y, dada la relación cercana con los
resultados de MCO, proporciona un puente entre los enfoques Bayesiano y clásico. Sin embargo,
tiene una propiedad indeseable: esta densidad previa no es una densidad válida, pues que hace que
no integre a uno. Tales previos son denominados impropios.
Comparación de modelos.
Si hay dos modelos de regresión simple, 1M y 2M . Estos modelos difieren en sus variables
explicativas. Es decir, jM para 1, 2j está basado en el modelo de regresión lineal simple:
jijiji xy (3.24)
para Ni ,...,2,1 . Las suposiciones acerca de ji y jix son las mismas.
Para los dos modelos, se escribe el previo conjugado natural Normal-gama como, Koop (2003):
),,,(~|,2
jjjjjjj vsVNGMh
(3.25)
los posteriores de la forma:
),,,(~|,2
jjjjjjj vsVNGMh
(3.26)
donde
21
1
jij
jxV
V (3.27)
)ˆ( 21
jijjjjj xVV (3.28)
Nvv j (3.29)
y 2
js esta definido implícitamente a través de:
14
2
2
222
1
)ˆ(
ji
j
jj
jjjjjj
xV
svsvsv
(3.30)
Una herramienta básica en la comparación de modelos Bayesiano es la relación odds posterior:
)()|(
)()|(
22
1112
MpMyp
MpMypPO
El modelo de probabilidades previa, )( iMp para 2,1i , debe ser seleccionada antes de ver los
datos comúnmente se tiene, la elección no informativa 2
1)()( 21 MpMp . La verosimilitud
marginal )|( jMyp , se calcula como:
jjjjjjj dhdhphypMyp ),(),|()|( (3.31)
El modelo de regresión lineal normal con previo conjugado natural en la integral en (3.31) puede
ser calculado analíticamente. Poirier (1995) o Zellner (1971) proporcionan detalles de este
cálculo, que permite escribir:
222
1
)()|(
jv
jj
j
j
jj svV
VcMyp
(3.32)
para 2,1j , donde
2
22
2
)(2
Nj
v
jj
j
jv
svv
c
j
(3.33)
y () es la función gamma.
Al comparar la relación odds posterior 1M y 2M llega a ser, Koop (2003)
)()(
)()(
222
22
2
1
2
2
2
122
11
2
1
1
1
1
12
2
1
MpsvV
Vc
MpsvV
Vc
POv
v
(3.34)
15
La relación odds posterior puede ser usada para calcular los modelos de probabilidades
posteriores )|( yMp j , usando las relaciones:
12
121
1)|(
PO
POyMp
y
12
21
1)|(
POyMp
La relación odds previa )(
)(
2
1
Mp
Mp, es el más alto soporte para 1M . La suma de cuadrados del error
es una medida común del ajuste del modelo, con valores inferiores que indican un ajuste mejor.
Por lo tanto, la relación de desigualdad posterior premia a los modelos, la cual ajustan mejor los
datos. En tercer lugar, la relación odds posterior indicará soporte para el modelo donde hay la
coherencia máxima entre la a priori y la información de los datos (2)ˆ(
jj entre )(2jj sv ).
Finalmente,
1
1
V
V es la relación posterior para varianzas previas.
Bajo la variante no informativa de los previos conjugados naturales ( 0,01
jj Vv ), la
verosimilitud marginal no esta definida y, por lo tanto, la relación odds posterior esta indefinida.
Esto es un problema con el uso de previo no informativo para la comparación de modelos. Sin
embargo, en el contexto presente, una solución común a este problema es poner 21 vv igual a
un número arbitrariamente pequeño y hacer lo mismo con 1
1
V y 1
2
V . También, poner 22
21 ss .
Bajo estas suposiciones, la relación de desigualdad posterior está definida por, Koop (2003):
)()(1
)()(1
222
22
2
1
2
2
122
11
2
1
2
1
12
Mpsvx
Mpsvx
PON
i
N
i
(3.35)
En este caso, la relación de desigualdad posterior refleja sólo la relación de desigualdad a priori,
la bondad relativa del ajuste de los dos modelos, y la relación de los términos que envuelven
21 jix , que refleja la precisión de la posterior para jM .
16
Predicción.
Tenemos la ecuación:
*** xy (3.36)
donde *y no son observados. Aparte de esto, todas las suposiciones de este modelo son iguales
que para el modelo de regresión simple discutidó previamente. Es necesario suponer que *x es
observado.
La predicción Bayesiana está basado en:
dhdyhphyypyyp )|,(),,|()|( **
(3.37)
El hecho de que * es independiente de i implica que y y
*y son independientes el uno del
otro y, por lo tanto ),|(),,|( ** hyphyyp . Los términos dentro de la integral en (3.37)
son )|,( yhp y ),|( * hyp . Usando un razonamiento similar para esto se deriva la función de
verosimilitud
2**
2
1
2
1
* )(2
exp
)2(
),|( xyhh
hyp
(3.38)
Multiplicando (3.38) por la posterior dado en (3.8) e integrando como se describe en (3.37)
produce (Zellner, 1971):
2
)1(
12*22*** )1()()|(
v
xVsxyvyyp (3.39)
Que es una densidad t con media *x , varianza 2*
2
12
xVv
vs
, y grados de libertad v . En
otras palabras,
vxVsxtyy ,1,~| 2*2** (3.40)
Estos resultados pueden ser usados para proporcionar las predicciones y medidas de la
incertidumbre asociadas con el punto de predicción (la desviación estándar predictiva).
Un concepto Bayesianos importantes es el modelo promedio. Al calcular el modelo de
probabilidades posteriores )|( yMp j , para 2,1j . Éstos pueden ser usados para seleccionar un
modelo para trabajar. Sin embargo, no es siempre deseable escoger simplemente un modelo con
17
posterior más alta. El Modelo Bayesiano promedio supone mantener todos los modelos, pero
presenta resultados promedió de los modelos completos. Desde el punto de vista de la
probabilidad, es derivar, Koop (2003):
)|(),|()|(),|()|( 22
*
11
** yMpMyypyMpMyypyyp (3.41)
Con las propiedades del operador del valor esperado, se sigue inmediatamente que:
)|(),|()|(),|()|( 22
*
11
** yMpMyyEyMpMyyEyyE
que puede ser usado para calcular los puntos de predicción promedio sobre los dos modelos. Si
(.)g es cualquier función del interés, entonces el resultado es generalizado a
* * *1 1 2 2( ) | ( ) | , ( | ) ( ) | , ( | )E g y y E g y y M p M y E g y y M p M y
(3.42)
18
Capítulo IV
Modelo de regresión lineal normal múltiple con a priori conjugada natural en
notación matricial
Una discusión detallada del modelo de regresión puede encontrarse en cualquier libro de
econometría (Greene (2000), Gujarati (1995), Hill, Griffiths and Judge (1985), Koop (2000)). Se
tiene una variable dependiente iy , y k variables explicativas, iki xx ,...,1 para Ni ,...,1 . El
modelo de regresión lineal esta dado por
1 2 2 1.... 1 1,2,...,i i k ik i iy x x x para i N (4.1)
Se defines los siguientes vectores Nx1:
1
.
.
.
N
y
y
y
y
1
.
.
.
N
ε
el vector (k x 1)
1
.
.
.
k
β
19
y la matriz de (N x k)
12 1
22 2
2
1 . . .
1 . . .
.
.
.
1 . . .
k
k
N Nk
x x
x x
x x
X
y se escribe
= +y Xβ ε (4.2)
Función de verosimilitud
Los supuestos sobre y X determinan la forma de la función de verosimilitud. Las
generalizaciones son :
1. ε tiene distribución normal multivariada con media N0 y matriz de covarianzas 2N I . Es
decir, 1( , )N NN h 0 I donde
2h .
2. Todos los elementos de X son fijos y si son variables aleatorias, estos son independientes
de todos los elementos de ε con una función de densidad de probabilidad ( | )p X λ , donde
λ es un vector de parámetros que no incluye a ni h .
La matriz de covarianzas de un vector es una matriz que contiene las varianzas en la diagonal y
las covarianzas fuera de esta, esto significa:
1 1 2 1
1 2 2 2
1
var( ) cov( , ) . . cov( , )
cov( , ) var( ) . . cov( , )
var( ) .
.
cov( , ) . . . . var( )
N
N
N N
ε
1
1
1
..00
.
.
0..0
0..0
h
h
h
20
1var( ) Nhε I o 1)var( hi y 0),cov( ji para Nji ,...,1, para ji .
Usando la definición de la densidad normal multivariada, podemos escribir la función de
verosimilitud como:
2
2
( | , ) exp ( ) '( )2
(2 )
N
N
h hp h
y β y Xβ y Xβ (4.3)
Es conveniente escribir la función de verosimilitud desde el punto de vista de las cantidades de
MCO. Éstos son (Green (2000)):
kNv (4.4)
1ˆ ( )β X'X X'y (4.5)
y
2ˆ ˆ( ) '( )
sv
y - Xβ y - Xβ
(4.6)
La función de verosimilitud se escribe como
1
2 22
2
1 ˆ ˆ( | , ) exp ( ) ' ( )2 2
(2 )
v
N
h hvp h h
s
y β h β - β X'X β -β (4.7)
A priori
La a priori para condicional en h tiene la forma, Koop (2003)
1| ~ ( , )h N hβ β V
y un previo para la h de la forma
),(~2
vsGh
entonces la posterior tiene la forma
2, ~ ( , , , )NG s v
β h β V (4.8)
21
es ahora un k vector que contiene las medias previas para los k coeficientes de regresión,
k ,...,1 , y V es ahora una matriz de covarianzas positiva definida k x k. La notación para la
densidad previa es ),,,|,(),(2
vsVhfhp NG
.
Posterior.
Esta se deriva multiplicando la verosimilitud (4.7) por los previos (4.8), produciendo una
posterior de la forma, Koop (2003)
2, | ~ ( , , , )h NG s v
β y β V (4.9)
donde
-1 1( ) V V X'X (4.10)
1 ˆ( )
β V V β X'Xβ (4.11)
Nvv (4.12)
y 2
s está definido completamente por
12 2 2 1ˆ ˆ( ) ' ( ) ( )vs vs vs
β -β V X'X β -β (4.13)
Las expresiones anteriores describen la distribución posterior conjugada. En el caso de la
posterior marginal para , el resultado es una distribución t multivariada, Koop (2003)
2| ~ ( , )t s vβ y β V, (4.14)
y se sigue de la definición de la distribución t que:
( | )E β y β (4.15)
y
2
var( | )2
vs
v
β y V (4.16)
Las propiedades de la distribución normal gama implican inmediatamente esto, Press (1989):
),(~|2
vsGyh
(4.17)
22
y, por lo tanto
2)|(
syhE (4.18)
v
syh
22
)|var(
(4.19)
Para un previo relativamente no informativo, se toma un valor más pequeño para v que N y V un
valor grande. Cuando se trabaja con matrices, la interpretación del término grande no es
inmediatamente obvia. Se toman A y B donde A > B y A, B son matrices cuadradas, A-B es
positiva definida. Una medida de la magnitud de una matriz es su determinante. Por lo tanto,
cuando decimos que A debe ser relativamente más grande que B, quiere decir que A-B debe ser
una matriz positiva definida con un determinante grande.
Se puede crear un previo no informativo tomando 0v y 1V un valor pequeño. No existe una
vía única de hacer esto último. Una vía común es poner 1kc
V I , donde la c es un escalar, y
dejar entonces que c tienda a cero. Si se hace esto se encuentra, Koop (2003)
1( )V X'X (4.20)
ˆβ β (4.21)
v N (4.22)
y
22vssv (4.23)
Todas estas fórmulas suponen información de los datos, y son iguales a las cantidades de mínimos
cuadrados ordinarios.
En cuanto al caso de una variable explicativa, este previo no informativo es impropio y puede ser
escrito como:
hhp
1),( (4.24)
23
Comparación de modelos.
El marco de regresión lineal con k variables explicativas toma en cuenta una gran variedad de
modelos a comparar. Se consideran dos tipos de comparación de modelos. En el primero, los
modelos son diferenciados según las restricciones de desigualdad en el espacio de parámetro. En
el segundo modelo se distinguen por restricciones de igualdad.
Comparación de modelos suponiendo restricciones de desigualdad.
En algunos casos, el interés podría enfocarse en las regiones del espacio de parámetro. Se suponen
las restricciones de desigualdad de la forma:
Rβ r (4.25)
donde R es una matriz conocida Jxk y r es un j-vector conocido. Se supone ( )rango R J . Se
definen dos modelos de la forma, Koop (2003):
1 :M Rβ r
y
2 :M Rβ r
2M significa que uno o más de las restricciones de desigualdad en 1M son violados.
Para los modelos definidos de esta manera, las relaciones odds posterior calculados son
típicamente fáciles, y el uso del previo no informativo no es un problema. Es decir,
112
2
( | ) ( | )
( | ) ( | )
p M pPO
P M p
y Rβ r y
y Rβ r y (4.26)
La posterior para tiene una distribución t multivariada, se sigue que )|( yRp también tiene
una distribución t.
Restricciones de igualdad
Existen dos tipos de modelos a comparar, que caen en esta categoría. El primero, al comparar
1M , que asigna Rβ r para 2M , la cual no tiene esta restricción. En segundo término, comparar
1 1 (1) 1:M y X β ε y 2 2 (2) 2:M y X β ε , donde 1X y 2X son matrices que contiene las variables
24
explicativas completamente diferentes. Se supone que las restricciones de igualdad pueden
escribirse como:
( ):j j j j jM y X β ε (4.27)
donde 2,1j , jy esta definido, jX es un matriz jNxk de variables explicativas, ( )jβ es un jk -
vector de coeficientes de regresión y jε es un N-vector de errores distribuido 1( , )N j NN h0 I .
La a priori normal gamma para los dos modelos es, Koop (2003):
),,,(~|,2
)( jjjjjjj vsVNGMh
(4.28)
para 2,1j . La posterior toma la forma
),,,(~|,2
)( jjjjjjj vsVNGMh
(4.29)
Donde
1 1( ' )j j jj V V X X (4.30)
1 ˆ( ' )j j j jj j j
β V V β X X β (4.31)
Nvv jj (4.32)
y 2
js esta definido implícitamente por
12 2 2 1ˆ ˆ( ) ' ( ' ) ( )j j j j j j j jjj j j jv s v s v s
β β X X β βV (4.33)
2ˆ ,j jsβ y jv son las cantidades de mínimos cuadrados ordinarios.
La verosimilitud marginal es, Poirier (1995) o Zellner (1971) proporcionan detalles de este
cálculo.
1
22
2( | ) ( )
jvj
j jj j j
j
p M c v s
Vy
V (4.34)
para 2,1j , donde
2
22
2
)(2
Nj
v
jjj
jv
svv
c
j
(4.35)
25
Comparando la relación odds posterior 1M para 2M es, Koop (2003)
1
1
1
21 221 11 1
1
12 1
22 222 22 2
2
( ) ( )
( ) ( )
v
v
c v s p M
PO
c v s p M
V
V
V
V
(4.36)
El uso de los previos no informativos para los ( )jβ causan mayores problemas los cuales ocurren
principalmente cuando 21 kk .Cuando 21 kk , la a priori no informativa produce una relación
de desigualdad posterior:
1
22 21 1 1 1 1
121
22 22 2 2 2 2
( ' ) ( ) ( )
( ' ) ( ) ( )
N
N
v s p MPO
v s p M
X X
X X
Esta expresión depende de las unidades de medida.
Intervalos de densidad posterior más altos.
Las técnicas de comparación de Bayes están basadas en la idea de que )|( yMp j resume todo lo
que se conoce y la incertidumbre acerca jM después de ver los datos.
Se definen estos conceptos en el contexto del vector de parámetro en el modelo de regresión
lineal normal. Se supone que los elementos del vector de coeficientes de regresión , puedan
estar en cualquier parte en el intervalo ),( , la cual se denota por kR . Sea )(gw
cierto vector m de funciones de que está definido sobre una región , donde km . Sea C
una región dentro , denotado por C , Koop (2003).
Definición 4.1: Conjuntos creíbles
El conjunto C es un conjunto creíble 100(1-α)% con respecto a )|( ywp si:
1)|()|(C
dwywpyCwp
26
Entonces un intervalo creíble del 95% para j es cualquier intervalo ba, , tal que:
b
a jjj dypybap 95.0)|()|(
Definición 4.2: Intervalos de densidad posteriores más altos (HPDI)
Un intervalo 100(1-α)% de densidad posterior más alto para w es un 100(1-α)% intervalo creíble
para w con la propiedad de que tiene un área más pequeña que cualquier otro 100(1-α)% intervalo
creíble para w.
Es común presentar intervalos de densidad posteriores más altos además de los puntos estimación
al hacer la estimación Bayesiana. HPDI también puede ser usado en una manera ad hoc para hacer
comparación de modelos. Si se consideran dos modelos de regresión lineal normal como en (4.2),
y el interés se centra en decidir si la j-ésima variable explicativa debe incluirse. Así, los dos
modelos en consideración son, Koop (2003)
0: jjM
y
0: jjM
Un HPDI puede ser calculado para j usando las propiedades de la distribución t. Si este HPDI
no incluye el cero, entonces está es la evidencia contra 1M . Un hallazgo que el HPDI incluye el
cero se toma como la evidencia en favor de 1M .
Predicción.
Se supone que se tiene un modelo de regresión lineal normal como en (4.2), con verosimilitud y a
priori dado como en (4.3) y (4.8). La inferencia posterior puede ser llevada a cabo usando (4.9).
Se quiere llevar a cabo la inferencia predictiva sobre T valores que no son observados de la
variable dependiente, que denotamos por * * *1( ,..., ) 'Ty yy , que se genera según
* * * y X β ε (4.38)
donde *ε es independiente de ε y es 1(0, )TN h I y *
X es una matriz Txk análoga a X,
conteniendo k variables explicativas para cada uno de los T datos de la muestra.
27
La predicción Bayesiana esta basado en, Koop (2003)
* *( | ) ( | , , ) ( , | )p p h p h d dh y y y y β β y (4.39)
El hecho de que * es independiente de ε implica que y y *y son independientes y, por lo tanto
* *( | , , ) ( | , )p h p hy y β y β . Este último término puede ser escrito como
2
* * * * *
2
( | , ) exp '2
(2 )
S
S
h hp h
y β y X β y X β (4.40)
Multiplicando (4.38) por la posterior dado en (4.9), e integrando, produce una densidad predictiva
multivariado t de la forma
2* * * *| ~ , ' ,Tt s v
y y X β I X VX (4.41)
Este resultado puede ser utilizado para llevar a cabo la inferencia predictiva en el modelo de
regresión lineal normal con a priori conjugada natural.
28
Capítulo V.
Modelo de regresión lineal normal con a priori independiente normal-gama.
El previo conjugado natural no puede reflejar la información a priori con precisión en una
aplicación particular. Es deseable tener métodos Bayesianos disponibles que usen a otros previos,
en este caso se tiene el modelo de la regresión lineal Normal con una a priori independiente
Normal-gamma.
La función de verosimilitud que será usada es la misma que se ha utilizado anteriormente.
A priori
La a priori es similar, a la utilizada como en la sección anterior, pero se supone la independencia
a priori entre y h . En particular, se supone que ( , ) ( ) ( )p h p p h con )(p siendo Normal
y )(hp siendo Gama, Koop (2003):
)()'(
2
1exp
)2(
1)(
12
1
2
VVpk
(5.1)
y
2
2
2
1
2exp)(
s
vhhchp
v
G (5.2)
donde Gc es la constante de integración para la f.d.p. Gamma. )|( yE es la media a priori
de y los grados de libertad de h son 2
s y v respectivamente. Sin embargo V es ahora
simplemente la matriz de covarianzas a priori de .
29
Posterior
La posterior es, Koop (2003):
22
2
1
2exp
)()()()'(2
1exp)|,(
s
vhh
Vxyxyhyhp
vN
(5.3)
Esta densidad posterior conjunta para y h no toma la forma de una densidad bien conocida y
entendida.
Las condicionales de la posterior son simples, es decir, ),|( hyp puede obtenerse tratando
(5.3) como una función de para un valor fijo de h . Si se hacen las manipulaciones matriciales
similares aquellos usados en la derivación de la posterior para la a priori conjugada natural, Koop
(2003):
QV
Vxyxyh
)()'(
)()()()'(
1
1
donde
11)'(
XhXVV (5.4)
)'(1
yhXVV (5.5)
y
11
'''
VVyhyQ
Ignorando los términos que no involucran a , se puede escribir
)()'(
2
1exp),|(
1 Vhyp
La cual es el núcleo de una densidad Normal, multivariada. En otros palabras,
),(~,| VNhy
),|( yhp se obtiene tratando (5.3) como una función de h . Puede verse que
22
2
)()'(2
exp),|( vsXyXyh
hyhp
vN
30
Comparando con la definición de la densidad Gamma puede verificarse que
),(~,|2
vsGyh
(5.8)
Donde
vNv (5.9)
y
v
vsXyXys
22 )()'(
(5.10)
Densidad Proporción Savage–Dickey
Así como la inferencia posterior no puede hacerse analíticamente, no existe ninguna forma
analítica para la verosimilitud marginal para el modelo de regresión lineal Normal con a priori
independiente Normal-gamma. Es decir, la verosimilitud marginal está dada por
dhdhphypyp ),(),|()(
Donde ),( hp esta dado en (5.1) y (5.2) y ),|( hyp es la verosimilitud dada en (4.3). Si se
multiplica la a priori y la verosimilitud y se intenta trabajar con las integrales en la ecuación
anterior, no es posible resolverlo analíticamente.
Si se toma la versión sin restricción del modelo 2M (tal como ese vio anteriormente), tiene un
vector de parámetros )'','( . La verosimilitud y la a priori para este modelo está dada por
),,|( 2Myp y )|,( 2Mp . La versión restringida del modelo 1M (tal como se vio
anteriormente), tiene 0 donde 0 es un vector de constantes. Los parámetros en son
irrestrictos en cada modelo. La verosimilitud y la a priori para este modelo están dados por
),|( 1Myp y )|( 1Mp . De aquí, es igual a 0 bajo 1M , no se necesita especificar una a
priori para este, Koop (2003).
Teorema 4.1: La Densidad proporción Savage–Dickey.
Se supone que los previos en los dos modelos satisfacen:
)|(),|( 120 MpMp (5.21)
entonces, comparando el factor de Bayes 1M y 2M , tiene la forma
31
)|(
),|(
20
2012
Mp
MypBF
(5.22)
donde ),|( 20 Myp y )|( 20 Mp son posteriores irrestrictas y la a priori para
evaluanda en el punto 0 .
La densidad proporción Savage–Dickey puede ser de gran ayuda para calcular el factor de Bayes.
En primer lugar, la densidad proporción Savage–Dickey involucra sólo a 2M . En (5.22)
involucra sólo las densidades de la a priori y las posteriores y esto es a menudo fácil de
manipular. No es requerido el cálculo directo de la probabilidad marginal.
Regresando al modelo de regresión lineal normal con previo Normal-gamma. Se considera el caso
dónde el modelo restringido, 1M impone 0 . El caso de otras restricciones de igualdad tal
como rR es una extensión simple. El modelo sin restricción 2M , con verosimilitud dada
por (4.3) y una a prior dado por (5.1) y (5.2). El factor Bayes que compara a estos dos modelos
esta dada por, Koop (2003)
)|(
),|(
20
2012
Mp
MypBF
(5.23)
El denominador de esta expresión puede calcularse fácilmente, la a priori marginal para es
Normal. Usando (5.1), el denominador es
)()'(
2
1exp
)2(
1)|( 0
102
1
2
20
VVMpk
(5.24)
El numerador de (5.23) es ligeramente más difícil de evaluar, aunque se conoce ),,|( 2Mhyp
que es Normal, no se conoce a ),|( 2Myp . Usando las reglas de probabilidad y los resultados
del muestreo de Gibbs, ),|( 20 Myp puede estimarse. El muestreo de Gibbs proporciona los
resultados )(s y
)(sh para SSs ,...,10 , y resulta, simplemente promediando
),,|( 2)(
0 Mhyp s por la extracción de )(sh producirá una estimación de
),|( 20 Myp . Es preciso
),|(),,|(1
201
2)(
01 0
MypMhypS
S
Ss
s
(5.25)
32
cuando 1S tiende a infinito. 01 SSS es el número de extracciones retenidos después de
desechar los primeros 0S extracciones. Ya que
)()'(
2
1exp
)2(
1),,|( 0
1
02
1
2
2)(
0
VVMhypk
s (5.26)
Predicción
La inferencia predictiva sobre T valores no observados de la variable dependiente que se denota
por *)'*,...,(* 1 Tyyy , que se genera según:
*** Xy (5.27)
donde * es independiente de y es ),0( 1TIhN
y X* es una matriz Txk análogo a X,
conteniendo el k las variables explicativas para cada uno de los T.
La densidad predictiva es calculada como, Koop (2003)
dhdyhphyypyyp )|,(),,|*()|*( (5.28)
El hecho de que * es independiente de implica que y y y* son independientes entre si y, aquí,
),|*(),,|*( hyphyyp la cual puede escribirse como
)**()'**(
2exp
)2(
),|*(
2
2
XyXyhh
hypT
T
(5.29)
Con la a priori conjugada natural, la integral en (5.28) podría resolverse analíticamente y la
densidad predictiva es una densidad t multivariada. Con un previo Normal-gamma independiente
este integral no puede resolverse analíticamente. No obstante, los métodos de la simulación
permiten hacer la inferencia predictiva.
Cualquier predictiva de características de interés puede escribirse en la forma yygE |*)( para
alguna función (.)g . Así el interés se centra en calcular:
*)|*(*)(|*)( dyyypygyygE (5.30)
33
El vector de parámetro y tendrá la forma
dypgygE )|()(|)( (5.31)
para algún )(g . Salvo el reemplazo de por *y (5.30) es idéntico a (5.31). Además, las
discusiones de la integración Monte Carlo y muestreo de Gibbs mostraron que, si )(s para
Ss ,...,2,1 son extracciones de la posterior, entonces
S
s
sgS
Sg1
)( )(1
ˆ
convergerá a ygE |)( cuando S incrementa, Raftery, Lewis (1996). Esto sugiere que, se puede
encontrar )(* sy para Ss ,...,2,1 la cual son extracciones de )|*( yyp , entonces
S
s
sygS
Yg1
)( )*(1
ˆ (5.32)
Convergerá a yygE |*)( .
34
Capítulo VI
Modelo de Regresión Lineal con Matriz de Covarianzas de Errores
Generales
Volvemos al modelo de la regresión lineal.
y Xβ ε (6.1)
en la sección anterior se supuso que 1( , )N NN hε 0 I . Esta afirmación es la combinación de
muchas suposiciones. El supuesto de que los errores tienen media cero es inocuo. Si un modelo
tiene los errores con media diferente de cero, éste se incorpora en el intercepto. Es un nuevo
modelo, que es idéntico al anterior salvo por el intercepto, la cual puede ser creado y tiene media
cero en los errores. Sin embargo, el supuesto de que la matriz de covarianzas de los errores es
NIh 1 no podría ser inocuo en muchas aplicaciones.
Modelo con Matriz de Varianzas y Covarianzas general Ω
Todos los modelos en este capítulo están basados en (6.1) y los siguientes supuestos:
1. tiene una distribución normal multivariada con media N0 y matriz de covarianzas 1h Ω
donde Ω es una matriz positiva definida NxN.
2. Todos los elementos de X son fijos o, si son variables aleatorias son independientes de todos
los elementos de con una función de densidad de probabilidad, )|( Xp donde es un
vector de parámetros que no incluyen y h .
Si es una matriz definida positiva de orden N x N, entonces, existe una matriz P de orden N x
N tal que NIPP ' . De forma que si se multiplica ambos lados de (6.1) por P, se obtiene el
modelo transformado
*** Xy (6.2)
donde Pyy * , PXX * y P* . Donde * 1(0 , )N NN h I . Ahora, el modelo
transformado dado en (6.2) es idéntico al modelo de regresión lineal Normal. Esto tiene dos
implicaciones importantes. Primero, si es conocido, el análisis Bayesiano del modelo de
regresión lineal Normal con matriz de covarianzas del error no escalar es simple. Segundo, si
35
es desconocido, (6.2) sugiere métodos para el cómputo Bayesiano. Es decir, condicionando en ,
(6.2) implica que las posteriores de y h serán de la misma forma que se han manejado en los
capítulos anteriores y, ahora, estos resultados pueden usarse para derivaciones que relacionan a
y h .
Función de Verosimilitud
Utilizando las propiedades de la distribución Normal multivariada, la función de probabilidad
para y está dada por:
)()'(
2exp
)2(
),,|( 12
1
2
2
XyXyhh
hypN
N
(6.3)
o, en términos de los datos transformados,
)**()'**(
2exp
)2(
),,|*(
2
2
XyXyhh
hypN
N
(6.4)
Aquí una derivación idéntica usando los resultados del modelo transformados produce una
función de verosimilitud escrita en términos de las cantidades de mínimos cuadrados
generalizados (MCG) Gujarati (1995), esto es, como
kNv (6.5)
yXXXyXXX 1111 ')'(**'*)*'()(ˆ (6.6)
y
v
XyXy
v
XyXys
))(ˆ())'(ˆ(
))(ˆ**())'(ˆ**()(
1
2
(6.7)
entonces
2
1( | , , )
(2 )N
p y h
36
1
12 ˆ ˆexp ( ( )) ' ' ( ( ))2
hh X
(6.8)
2
2exp
2 ( )
vhv
hs
A Priori
Usando a un previo Normal-gama independiente para y h , y la notación general )(p , para
indicar el previo para . Entonces, el previo usado en esta sección es
)()()(),,( phpphp
donde
),|()( Vfp N (6.9)
y
),|()(2
svhfhp G (6.10)
Posterior
La posterior es de la forma
22
2
1
2exp
)'()'()**()'**(2
1exp
)(),,(
s
vhh
VXyXy
php
vN
(6.11)
Esta posterior está escrita basada en la función de verosimilitud expresada como en (6.4).
Tambien pueden escribirse las expresiones basadas en (6.3) o (6.8), sin embargo, no se hace esto,
ya que esta densidad posterior conjunta para , h y no toma la forma de cualquier densidad
conocida y no puede usarse directamente en una manera simple para la inferencia posterior. La
posterior de , condicional en los otros parámetros del modelo es normal multivariada.
37
),(~,,| VNhy (6.12)
donde
111)'(
XhXVV (6.13)
y
))(ˆ'( 11
XhXVV (6.14)
La posterior para h condicionada en los otros parámetros es el modelo Gama:
),(~,,|2
vsGyh
(6.15)
donde
vNv (6.16)
y
v
vsXyXys
212 )()'(
(6.17)
La posterior para condicionada en y h tiene un núcleo de la forma
)()'(2
exp)(),,|( 12
1
XyXyh
phyp (6.18)
En general, esta posterior condicional no toma, fácilmente, alguna forma conocida.
Heteroscedasticidad
La Heteroscedasticidad ocurre cuando las variaciones del error difieren a través de las
observaciones. Todos los modelos en los capítulos anteriores tenían variaciones de los errores que
eran idénticos a través de las observaciones, a este hecho se le conoce como homoscedasticidad.
Por lo que se refiere al modelo de regresión, la heteroscedasticidad ocurre si
38
N
0.0.0
.
.
0..0
0..0
2
1
(6.19)
El modelo de la regresión lineal Normal con errores heteroscedasticos es idéntico al estudiado en
los temas anteriores, sólo que ahora se supone que la ii h 1)var( para Ni ,...,2,1 .
Se asume que
),( ii zh (6.20)
donde )(h es una función positiva la cual depende de los parámetros y un p-vector de datos
iz . iz pueden incluir algunas o todas las variables explicativas ix . Una elección común para
)(h , la cual asegura que las variaciones del error sean positivas es:
22211 )...1(),( ippiii zzzzh (6.21)
El previo, la verosimilitud y la posterior para este modelo son aquellos de la Sección 6.2 con la
expresión dada en (6.19).
Para llevar a cabo la inferencia Bayesiana en el modelo de heteroscedasticidad, se requiere la
simulación posterior.
Heteroscedasticidad de forma desconocida: Con errores t-student
La pregunta surge acerca de cómo proceder si se sospecha que la heteroscedasticidad está
presente, pero de forma desconocida. En otras palabras, uno está deseando asumir (6.19), pero es
inapropiado suponer una forma funcional como en (6.20). Con N observaciones y N + k + 1
parámetros a estimar (es decir , h y )',...,( 1 N ).
El método desarrollado para este caso es importante por dos razones. Primero, el método
involucra el uso de un previo jerárquico. Los previos jerárquicos han jugado un papel importante
en muchos desarrollos recientes de la teoría estadística Bayesiana y cada vez se vuelven más
39
populares en la econometría. Segundo, este modelo también permite introducir conceptos que
relacionan al modelado econométrico flexible y, en particular, permite la libre suposición de
errores Normales.
Se empieza tomando )(p , el previo para el vector N-dimensional . Es conveniente trabajar
con las precisiones del error en lugar de las variaciones y, aquí, se define
)',...,,()',...,,( 112
1121
NN . Si se considera el previo para , como:
N
iiG vfp
1
),1|()( (6.22)
El previo para depende sobre los hiperparametros v , que es seleccionado por el investigador
y supone que cada i viene de la misma distribución. En otras palabras, (6.22) implica que los i
son extracciones independientes e idénticamente distribuidos (i.i.d.) de la distribución Gamma.
Este supuesto es necesario con los problemas causados por la alta dimensión de . Si se trata
N ,...,1 con N parámetros completamente independientes y sin restricción, no se tendrán
bastantes observaciones para estimar cada uno de ellos. La ecuación (6.22) pone alguna estructura
que permite la estimación. Esto permite que todas las variaciones del error sean entre si diferentes,
pero todos ellos son extracciones de la misma distribución.
Este modelo, con verosimilitud dada por (6.3) y previo dado por (6.9), (6.10) y (6.22) es
exactamente el mismo como el modelo de la regresión lineal con errores independientes e
idénticamente distribuidos (i.i.d.) t student con v grados de libertad. En otras palabras, se
empieza suponiendo
),,0|()( 11 vhfp ii
(6.23)
para Ni ,..,1 , al derivar la verosimilitud y al usar (6.9) y (6.10) como previos para , h
respectivamente.
La distribución t-student es similar a la Normal, pero tiene más probabilidad en los extremos y es
más flexible. De hecho, la distribución Normal es un caso especial de la distribución t de student
40
la cual ocurre cuando v . Así, se tiene un modelo que permite una distribución del error
más flexible.
La discusión anterior supuso que v era conocido. En la práctica, ésto no sería normalmente un
supuesto razonable, y es deseable tratarlo como un parámetro desconocido. En el marco
Bayesiano, cada parámetro requiere una distribución previa y, se usará la notación general
)( vp . Note que, si se hace esto, el previo para se especifica en dos pasos, el primer es (6.22),
el otro es )( vp . El previo puede escribirse como )()|( vpvp . Los previos escritos en
dos (o más) pasos, de esta manera, son llamado previos jerárquicos. Escribir el previo como un
previo jerárquico es a menudo una manera conveniente de expresar la información anterior. Sin
embargo, se enfatiza el aspecto de conveniencia de los previos jerárquicos. No es necesario usar a
un previo jerárquico, puesto que las leyes de probabilidad implican que cada previo jerárquico
puede escribe en un modo no jerárquico. En el caso presente, el resultado
dvvpvpp )()|()( podría usarse para derivar la versión no jerárquica del previo para
.
La media y la desviación estándar no existen para todas las funciones de densidad de probabilidad
válidas. En particular, Geweke (1993) muestra que si se utiliza a un previo no informativo común
para (es decir 1)( p en el intervalo ),( ), entonces la media posterior no existe, a
menos que )( vp sea cero en el intervalo 2,0 . La desviación estándar posterior no existe a
menos que )( vp sea cero en el intervalo 4,0 .
41
Capitulo VII
Calculo Bayesiano
Integración Monte Carlo.
El algoritmo más simple para hacer la simulación posterior se llama integración Monte Carlo. En
el contexto del modelo de regresión lineal normal, el teorema básico de la integración de Monte
Carlo, puede escribirse como, Raftery, Lewis (1996):
Teorema 7.1: Integración Monte Carlo.
Sea )(s para Ss ,...,1 una muestra aleatoria de )|( yp , y se define
S
s
sgS
sg1
)( )(1
ˆ (7.1)
entonces sg converge a ygE |)( cuando S tiende a infinito.
La integración Monte Carlo puede ser utilizada para aproximar ygE |)( , pero sólo si la S
tiende a infinito el error de aproximación tiende a cero.
Teorema 7.2: Error estándar numérico
Usando la definiciones de teorema 7.1,
2ˆ ( ) | (0, )gS gs E g y N cuando S
donde ygg |)(var2 .
El Teorema 7.2, es usado para obtener una estimación del error de aproximación. Utilizando las
propiedades de la distribución normal el resultado aproximado es:
95.096.1|)(ˆ96.1Pr
SygEsg
S
gg
El término S
g es conocido como el error estándar numérico, y es una medida del error de
aproximación.
42
Pasos para la integración Monte Carlo:
Paso 1: Tome una muestra aleatoria, )(s de la posterior para dado en (3.14) usando
un generador de número aleatorio para la distribución t multivariada.
Paso 2: Calcule )( )(sg y mantenga este resultado.
Paso 3: Repita los pasos 1 y 2, S veces.
Paso 4: Tome el promedio de las S muestras )(),...( )()1( Sgg .
La integración Monte Carlo produce sólo una aproximación para ygE |)( . Sin embargo,
escogiendo S, se puede controlar el grado del error de aproximación. Además, podemos obtener
una medida numérica del error de aproximación usando el Teorema Central del Límite. En
particular, se obtiene, Raftery, Lewis (1996)
2ˆ ( ) | (0, )gS gs E g y n (7.2)
cuando S tiende a infinito, donde ygg |)(var2 . Usando esta estimación, (7.2) y las
propiedades de la densidad normal se puede escribir:
95.0ˆ
96.1|)((ˆˆ
96.1|)((Pr
S
yygEsgS
yygEgg
(7.3)
Arreglando (7.3) se encuentra un intervalo de confianza aproximado del 95% para yygE |)((
de la forma ˆ ˆ ˆ ˆ1.96 , 1.96g ggs S gs S
. Se puede presentar éste como una medida
de exactitud de la estimación de yygE |)(( o para usarlo como una guía para escoger S.
Alternativa, el error estándar numérico ˆg S , puede ser reportado como conteniendo la misma
información en una forma más compacta.
Muestreo de Gibbs
El muestreo de Gibbs es una herramienta poderosa para la simulación posterior la cual es usada en
muchos modelos econométricos. Temporalmente, se adopta la notación general, dónde es un p-
vector de parámetros y )|( yp , )(p y )|( yp son la verosimilitud, la a priori y la posterior,
respectivamente. En el modelo de regresión lineal, 1 kp y )','( h . Además, se divide
43
en varios bloques como ),...,( '
)(
'
)1( B dónde )( j es un escalar o vector, Bj ,...,2,1 . En el
modelo de la regresión lineal, es conveniente poner B=2 con )1( y h)2( .
En muchos modelos no es fácil extraer directamente de )|( yp . Sin embargo, es a menudo mas
fácil extraer aleatoriamente de (1) (2) ( )( | , ,..., )Bp y , (2) (1) (3) ( )( | , , ..., )Bp y ,..., ( ) (1)( | ,Bp y ...
( 1) )B . Las distribuciones precedentes son llamadas las distribuciones posteriores condicionales
completas, puesto que ellas definen una posterior para cada bloque condicional en todos los otros
bloques. En el modelo de regresión normal con previo independiente Normal-Gamma, ),|( hyp
es normal y ),|( yhp es gamma. El resultado de extraer de la condicional completa producirá
una sucesión )()2()1( ,...,, S la cual puede promediarse para producir estimaciones de
ygE |)( de la misma manera que con la integración Monte Carlo, Raftery, Lewis (1996).
El muestreo de Gibbs será escrito para el caso de dos bloques. Formalmente, el muestreo de Gibbs
involucra los siguientes pasos:
Paso 0. Seleccionar un valor inicial )0( . Para Ss ,...,2,1 :
Paso 1. Tomar una extracción aleatoria, )(
)1(
s de )1(
)(
)1(
)3(
)1(
)2()1( ,...,,,| s
B
ssyp .
Paso 2. Tomar una extracción aleatoria, )(
)2(
s de )1(
)(
)1(
)3(
)(
)1()2( ,...,,,| s
B
ssyp .
.
.
.
Paso B. Tomar una extracción aleatoria, )(
)(
s
B de )(
)1(
)(
)2(
)(
)1()( ,...,,,| s
B
ss
B yp .
Siguiendo estos pasos producirán un conjunto de S extracciones, )(s para Ss ,...,2,1 . Después
de dejar los primeros 0S eliminando el efecto )0( , las restantes extracciones 1S pueden
promediarse para crear estimaciones de características posteriores de interés. Esto es, la
integración Monte Carlo, la ley débil de los grandes números puede ser invocada para decir que,
si ( )g es una función de interés y
)(1
ˆ1
)(
1
1
0
S
Ss
sgS
sg (7.4)
44
Entonces 1ˆsg converge a ygE |)( cuando
1S tiende a infinito, Zellner, Min (1995).
En el modelo de regresión normal lineal con a priori independiente Normal-gamma, ),|( hyp
es Normal y ),|( yhp es Gamma. Esto sugiere que el bloque mencionado previamente, con
)1( y h)2( es natural. El muestreo de Gibbs involucra extracciones secuencialmente
obtenidas de las distribuciones, normales y gamas usando (5.7) y (5.8).
Cualquier acercamiento de la simulación posterior como el muestreo de Gibbs nos proporciona
1ˆsg que es una estimación de ygE |)( . Escogiendo S suficientemente grande, el error de
aproximación implícito en la estimación puede hacerse tan pequeño como las necesidades del
investigador.
Diagnósticos Cadenas de Markov Monte Carlo
El hecho de que el estado del muestreo de Gibbs en s extracciones ()(s ) depende sobre su estado
anterior s -1 ()1( s ) significa que la sucesión es una cadena de Markov.
Hay muchos otros simuladores posteriores que tienen esta propiedad. Tales simuladores
posteriores tienen el nombre general de algoritmos Cadena de Markov Monte Carlo (MCMC),
Gilks (1996).
El primer diagnóstico de MCMC es el error estándar numérico, que se deriva a través del uso del
Teorema Central del Límite. Brevemente, bajo las condiciones necesarias el muestreo de Gibbs
para converger a una sucesión de extracciones de )|( yp , se obtiene un Teorema Central del
Límite de la forma familiar:
),0(|)(ˆ2
11 gNygEsgS (7.5)
cuando 1S tiende a infinito. Sin embargo, 2g tiene una forma más complicada que en (7.3).
Intuitivamente, 2g tiene que compensar el hecho de que )(s para Ss ,...,2,1 es una sucesión
correlacionada. Geweke (1992) usa esta intuición para extraer las ideas de la literatura de series de
tiempo para desarrollar una estimación 2g de la forma
45
1
2 )0(ˆ
S
Sg (7.6)
La justificación para esta estimación es informal, pero trabaja bien en la práctica. Es así posible
calcular un error estándar numérico 1ˆg S .
Geweke (1992) sugiere otro diagnostico basado en la intuición que, si un numero suficientemente
grande de extracciones han sido tomados, el estimador de )(g basado en los primera mitad de
las extracciones, será esencialmente el mismo que la estimación sobre la ultima mitad. Si estas
dos estimaciones son muy diferentes, indica que muy pocas extracciones han sido tomadas o que
el efecto de la extracción inicial )0( no ha terminado y ha estado contaminando la estimación que
usa las primeras extracciones. Más generalmente, si se divide las S extracciones del muestreo de
Gibbs en un 0S inicial las cuales son desechadas como repeticiones consumidas y las extracciones
restantes 1S qué son incluidas. Estas últimas extracciones están divididas en un conjunto de
AS
extracciones, un conjunto medio de BS extracciones y el último conjunto de CS extracciones. Es
decir, se tiene )(s para Ss ,...,2,1 que esta dividido en los subconjuntos como
0 01,..., , 1,..., As S S S S , 0 01,....,A A BS S S S S , 0 01,...,A B A B CS S S S S S S . En la
práctica, se ha encontrado que colocando 11.0 SSA , 15.0 SSB y 10.4cS S trabajan bien en
muchas aplicaciones. Para los propósitos de calcular el diagnóstico MCMC, caen afuera medio
conjunto de las BS y hace probable que la primera extracción y la última sean independiente entre
si. Sea ASg y CSg los estimadores de ygE |)( usando las primeras repeticiones de AS
después del burn-in y las ultimas repeticiones de CS , respectivamente, usando (5.11). Se define
ˆA AS y ˆC CS que son los errores estándares numéricos de estas dos estimaciones.
Entonces el teorema central del limite análogo a (5.12) puede ser invocado como
)1,0(NCD
Donde CD es el diagnostico de convergencia dado por
C
C
A
A
CA
SS
SgSgCD
ˆˆ
ˆˆ
(7.7)
46
En una aplicación empírica que involucra el muestreo de Gibbs, este diagnóstico de convergencia
puede calcularse y compararse con los valores de tablas de una normal estándar. Los valores
grandes de CD indican que ASg y CSg son bastante diferentes entre si y, de, que no ha tomado
bastantes repeticiones. Si el diagnóstico de convergencia indica que un número suficientemente
grande de extracciones ha sido tomado, entonces los resultados finales pueden ser calculados
basados sobre el conjunto completo de 1S extracciones.
Es probable que los diagnósticos de MCMC anteriores sean bastante informativos evaluando, si el
muestreo de Gibbs está trabajando bien y si se ha tomado un número suficientemente grande de
repeticiones para lograr el grado deseado de exactitud. Sin embargo, no son seguros y, en algunos
modelos, raros, es posible que los diagnósticos de MCMC indiquen que todos estén bien cuando
ellos no lo están. Los errores estándares numéricos pueden parecer razonables, el diagnóstico de
la convergencia en (5.14) puede indicar que la convergencia se ha alcanzado, pero en la realidad
todos los resultados estarían perdidos.
Un segundo caso es cuando el muestreo de Gibbs produce resultados engañosos y los diagnósticos
de MCMC no advierten del problema cuando las repeticiones iniciales )0( , está sumamente lejos
de la región del espacio del parámetro donde la mayoría de las probabilidad posteriores están. Si
el grado de correlación en la extracción de Gibbs es muy alto, se toma un número grande de
extracciones para el muestreo de Gibbs y así mover hacia la región de probabilidad posterior más
alta. En la mayoría los casos, el diagnóstico de convergencia CD tomará este problema, ya que
ASg y CSg tienden a ser diferente entre sí cuando el muestreo de Gibbs se mueve gradualmente
lejos de )0( , pero en algunos casos no se puede.
Sea ),0( i para mi ,...,2,1 , m denotan valores iniciales la cual son tomados de regiones muy
diferentes del espacio de parámetro. Sea ),( is para Ss ,...,2,1 , S la extracción del muestreo de
Gibbs del i-ésimo valor inicial y sea )(
1ˆ
i
Sg la correspondiente estimación de ygE |)( usando
(5.11). Si el efecto del valor inicial ha estado alejado, cada una de estas m sucesiones debe ser la
mismo entre si. La variación calculada por las sucesiones no debe ser relativamente grande a la
variación dentro de una sucesión. Una estimación común de la varianza de una secuencia es, Gilks
(1996)
47
2
1
)(),(
1
2
01
ˆ)(1
1
S
Ss
iS
isi gg
Ss (7.8)
qué es llamado la variación dentro de la sucesión. Se define ahora
m
iiS
mW
1
21 (7.9)
Similarmente, puede mostrarse que la variación entre la sucesión puede estimarse por
m
i
iS
ggm
SB
1
2)(1 )ˆˆ(1 1
(7.10)
donde
m
i
iS
gm
g1
)(
1ˆ
1ˆ (7.11)
W es una estimación de var g(q) | y . Puede mostrarse que
BS
WS
Syg
11
1 11|)(var
(7.12)
también es una estimación de var g(q) | y . Sin embargo, si el muestreo de Gibbs no ha alcanzado
la convergencia entonces W subestimará var g(q) | y .
Así, una convergencia de MCMC normalmente presenta el diagnóstico:
W
ygR
|)(varˆ
(7.13)
tiende a ser mayor que uno, con valores cercanos a uno indica que el muestreo Gibbs ha
convergido con éxito. R es llamada la reducción de escala potencial estimada.
48
Calculo Bayesiano para Heteroscedasticidad.
El desarrollo del muestreo de Gibbs para el análisis posterior de ,, h y v , requiere la
derivación de las distribuciones posteriores condicionales completas de estos parámetros. Ya se
han derivado algunos de éstos en (6.12) y (6.15), respectivamente. El interés se enfoca en
),,,|( vhyp y ),,,|( hyvp . Se deriva el previo dado (6.22) en la forma general para
la posterior condicional dado en (6.18). Un reexamen de la densidad resultante muestra que los i
son independientes entre si (condicional en los otros parámetros del modelo) y cada una de las
posteriores condicionales para i tiene la forma de una densidad Gamma. Formalmente Geweke
(1989), se tiene.
N
ii vhypvhyp
1
),,,|(),,,|( (7.14)
y
1,
1|),,,|(
2
v
vh
vfvhyp
i
iGi (7.15)
El previo para v en su forma precisa no tiene ninguna relevancia para la posterior condicionada
para los otros parámetros. Sin embargo, la forma )( vp y el efecto ),,,|( hyvp aquí, se
deben especificar. Como se tiene 0v , se usa una distribución exponencial para el previo.
Como se nombra en el Apéndice I, la densidad exponencial simplemente es la Gamma con dos
grados de libertad. Se escribe
)2,|()( vvfvp G (7.16)
Otros previos pueden ocuparse con pequeños cambios en el algoritmo de simulación posterior
siguiente. ),,,|( hyvp es relativamente fácil de derivar, dado que v no entra en la
verosimilitud y puede confirmarse que )|(),,,|( vphyvp . Siguiendose del teorema
de Bayes que
)()|()|( vpvpvp
y así, el núcleo de la condicional posterior de v simplemente es (6.22) veces (6.26). Así, se
obtiene, Gilks (1996)
49
2( | , , , ) exp( )
2 2
NvN
v vp v y h v
(7.17)
donde
N
iiiIn
v 1
1 )(2
11
Siendo ésta una densidad impropia.
Para muchas hipótesis (por ejemplo 0j ) la densidad proporción Savage–Dickey puede
usarse para la comparación de modelos. Sin embargo, no todas las hipótesis son fácilmente
calculadas usando la proporción Savage–Dickey.
Alternativamente, los valores p posteriores predictivos y HPDI pueden calcularse para el ajuste y
adecuación del modelo. La inferencia Predictiva en este modelo puede llevarse a efecto usando la
estrategia utilizada en el Capítulo 4.
50
Capitulo VIII.
Ejemplos y Discusión.
En este capitulo se llevará acabo el análisis de dos conjuntos de datos, el primero de ellos
corresponde a un modelo con datos tomados del libro de Gujarati (1995). El segundo de ellos es
para el problema de heteroscedasticidad, tomado del libro de Salvatore (1982).
Para el método clásico todos los problemas se resolvieron con SPSS (statistical packet for social
science) y para el enfoque Bayesiano se utilizo MATLAB versión 5.3, con la ayuda de las rutinas
de LeSage (1999) que se encuentran en la página: www.spatial-econometrics.com, de la cual se
tomaron algunas de estas para calcular los estimadores.
MATLAB es un programa muy utilizado por los Bayesianos, además existen ya rutinas
programadas para resolver problemas específicos, los cuales se invocan desde el programa
principal.
Para ejecutar las rutinas de LeSage, es necesario primero descargar los archivos y crear una
carpeta para incluirlas ahí. Después se llaman de MATLAB por la siguiente instrucción:
cd C:\Matlab
Quiere decir que la carpeta esta en el disco C, con el nombre de Matlab. Ya estando cargada la
carpeta, entonces se ejecuta el programa que esta al final del documento.
51
Ejemplo 1
Desembolsos del presupuesto de defensa de los Estados Unidos, 1962-1981. Con el fin de
explicar el presupuesto de defensa de los Estados Unidos, se considera el siguiente modelo:
4433221 XXXY
Donde:
Y = Desembolsos del presupuesto de defensa, US$ miles de millones.
2X = PNB, US$ miles de millones.
3X = Ventas militares US$ miles de millones.
4X = Ventas de la industria aeroespacial, US $ miles de millones.
Cuadro 1. Desembolsos del presupuesto de defensa de los EU.
Año
Desembolsos del
presupuesto de Defensa. PNB
Ayudas militares de los
EU / ayuda
Ventas industriales
aeroespacial
1962 51.1 560.3 0.6 16
1963 52.3 590.5 0.9 16.4
1964 53.6 632.4 1.1 16.7
1965 49.6 684.9 1.4 17
1966 56.8 749.9 1.6 20.2
1967 70.1 793.9 1 23.4
1968 80.5 865 0.8 25.6
1969 81.2 931.4 1.5 24.6
1970 80.3 992.7 1 24.8
1971 77.7 1077.6 1.5 21.7
1972 78.3 1185.9 2.95 21.5
1973 74.5 1326.4 4.8 24.3
1974 77.8 1434.2 10.3 26.8
1975 85.6 1549.2 16 29.5
1976 89.4 1718 14.7 30.4
1977 97.5 1918.3 8.3 33.3
1978 105.2 2163.9 11 38
1979 117.7 2417.8 13 46.2
1980 135.9 2633.1 15.3 57.6
1981 162.1 2937.7 18 68.9
Fuente: Los datos fueron colectados por Albert Lucchino a partir de diversas publicaciones
gubernamentales.
52
Mínimos cuadrados ordinarios
En los cuadros 2 y 3 se muestran los resultados de mínimos cuadrados ordinarios. En el Cuadro 2,
el modelo es estadísticamente significativo con un 05.0 . En el Cuadro 3, los coeficientes de
regresión son significativos a un nivel de 05.0 , excepto la variable: ayudas militares de los
EEUU. Con un coeficiente de determinación de R2 = 0.97.
Cuadro 2. Análisis de Varianza
Suma de
cuadrados
Grados de
Libertad
Cuadrados
medios
F Valor
critico de F
Regresión 15493.17 3.00 5164.39 179.13 0.00
Residuos 461.28 16.00 28.83
Total 15954.45 19.00
Cuadro 3. Coeficientes de regresión.
Valor estimado Desv. Estándar t Valor Critico
Constante 22.775 3.312 6.877 0.000
PNB 0.017 0.007 2.380 0.030
Ayudas -0.696 0.454 -1.533 0.145
Ventas 1.468 0.278 5.287 0.000
En la Figura 1, se observa que existe un buen ajuste del modelo a los datos. En la Figura 2, los
residuales no siguen algún patrón característico (no tienen alguna tendencia), entonces se dice que
son independientes.
Figura 1. Valores actuales contra los valores predichos y residuales. Reales vs Ajustados
45
65
85
105
125
145
165
1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981
Año
Miles
de m
illone
s de U
S$
Reales Ajustados
53
Figura 2. Gráfica de residuales. Residuales
-10
-8
-6
-4
-2
0
2
4
6
8
10
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Año
Modelo de Regresión lineal normal con a priori no informativa y a priori informativa
Estos resultados posteriores basados en la a priori no informativa son calculados usando (3.19)-
(3.22). Los resultados son iguales para ambos enfoques debido a que para el enfoque Bayesiano
con a priori no informativa, produce resultados similares a los de mínimos cuadrados ordinarios
del enfoque clásico, como se muestra en el Cuadro 4.
Cuadro 4. Medias posteriores para .
En el Cuadro 5, )|0( yp j usa (3.13) y las propiedades de la distribución t-student para
calcular la probabilidad de que cada coeficiente sea positivo. Esta tabla indica que )|0( yp j
tiene probabilidad igual a uno para j=0,3, además para 1 su probabilidad es muy cercano a uno
y ninguno de los anteriores HPDI del 95 % contiene al cero. Sin embargo el parámetro 2 tiene
una probabilidad muy baja, quiere decir que su HPDI contiene al cero además, en el parámetro
1 con un HPDI del 99 % si contiene al cero. Los HPDI pueden ser usados para realizar pruebas
de restricciones de igualdad.
Posterior DS
0 22.7751 3.1223
1 0.0167 0.0066
2 -0.6962 0.428
3 1.4677 0.2617
54
Cuadro 5. Comparación de modelos envolviendo .
)|0( yp j 95 % HPDI 99 % HPDI
0 1 16.5964 28.9539 14.347 31.2032
1 0.9925 0.0036 0.0298 -0.0012 0.0346
2 0.0509 -1.5432 0.1508 -1.8515 0.4592
3 1 0.9498 1.9857 0.7612 2.1742
Si ahora consideramos que los valores para los hiperparametros previos 4v y 30/12s y
0
3
1
4
β
Con la a priori conjugada natural, se tiene
var( ) = Vβ
entonces,
100 0 0 0
0 2.25 0 0
0 0 .25 0
0 0 0 4
V
En Cuadro 6, se presentan los resultados posteriores con a priori informativa, estos son
calculados usando (3.9)-(3.12). Se observa en este caso, que las desviaciones estándar para cada
parámetro son menores que en el caso del uso de una distribución no informativa. Además indica
que ( 0 | )jp y es uno para j=0,3 y sus HPDI no contienen al cero.
La relación odds posterior comparó 1 2: 0 : 0j jM y M para j=0,3, donde son muy
pequeños, indican que el modelo sin restricciones recibe mas probabilidad que el modelo
restringido. Para j=2, la incertidumbre es reflejada en la relación odds posterior la cual indica que
el modelo restringido es 1.1795 veces el modelo sin restricción.
Cuadro 6. Resultado posteriores con a priori informativa
Posterior DS Probpos HPDI 95 % HPDI 99 % Postodds
0 22.6533 2.8426 1 17.0362 28.2705 15.0412 30.2655 0
1 0.0168 0.006 0.9962 0.0049 0.0287 0.0007 0.0329 32.6758
2 -0.7099 0.3862 0.0334 -1.473 0.0531 -1.744 0.3241 1.1795
3 1.4699 0.2393 1 0.9969 1.9428 0.829 2.1108 0
55
El Cuadro 7, presenta las a priori y los resultados posteriores para las a priori informativas y no
informativas, además se incluyen los resultados producidos por el acercamiento clásico, confirmo
que la a priori es relativamente no informativa dado que los resultados posteriores basados en la
a priori informativa son un similares a los resultados producidos con la a priori no informativa.
Debido a que se utilizo un v0=4 (los grados de libertad a priori) y con esto le damos poco peso a
la distribución a priori, sin embargo se gana mas precisión al tener las desviaciones estándar más
pequeños.
Cuadro 7. Coeficientes de y desviaciones estándar.
A priori Posterior
Informativa Est. Clasicos A priori no informativa A priori informativa
0 0 22.775 22.775 22.653
10 3.312 3.122 2.843
1 3 0.017 0.017 0.017
1.5 0.007 0.007 0.006
2 -1 -0.696 -0.696 -0.710
5 0.454 0.428 0.386
3 4 1.468 1.468 1.470
2 0.278 0.262 0.239
En el Cuadro 8, se muestran las precisiones h posteriores y la varianza estimada del acercamiento
clásico donde se encuentra una ligera ganancia en los estimadores Bayesianos, debido a que se
tomo una a priori relativamente informativa. Los estimadores Bayesianos son más eficientes, de
ahí su justificación, de por que sus desviaciones estándar son menores que los clásicos.
Cuadro 8. Propiedades posteriores de h y de
a priori
informativa
a priori no
informativa
Clásico
Media 0.0508 0.0434 ˆ 28.83
Des.
Estandar
0.0651 0.0658
56
Modelo de Regresión lineal normal con a priori independiente normal-gamma
Si ahora consideramos que los valores para los hiperparametros previos normal-gamma
independiente son 4v y 30/12s y
0
3
1
4
β
Con la a priori independiente normal-gamma, se tiene
var( ) = Vβ
entonces,
100 0 0 0
0 2.25 0 0
0 0 .25 0
0 0 0 4
V
La inferencia Bayesiana en este modelo se hizo usando el muestreo de Gibbs. La estructura de
este programa es muy similar a la integración Monte Carlo, si bien son extracciones secuenciales
de ),|( hyp y ),|( yhp en lugar de extraer simplemente de )|( yp . La Tabla 9, contiene
resultados para , incluyendo diagnósticos de convergencia MCMC para el modelo de regresión
lineal normal con previo independiente normal-gamma.
Los valores iniciales para el error de precisión es igual a la inversa de la estimación de MCO de
2 es decir 2)0( 1 sh . Se descartan S0=1000 repeticiones, burn-in y se incluyen S1=15000
repeticiones.
La columna “NSE” contiene el error estándar numérico para las aproximaciones de )|( yp j
para j = 1, 2, 3,4, se calculó usando (5.13). Si se desea un grado de ocurrencia más alto, se puede
incrementar 1S . La columna llamada CD de Geweke, que es un diagnostico de convergencia,
descrito en (5.14), compara las estimaciones de los )|( yp j basados en las primeras 1000
57
repeticiones (después de las repeticiones burn-in) basados en las 4000 repeticiones. CD es
asintoticamente normal estándar, una regla común es concluir que la convergencia de los
algoritmos de MCMC ha ocurrido si CD es menor que 1.96 en valor absoluto para todos los
parámetros. El Cuadro 9, indica que la convergencia de los algoritmos MCMC ha sido alcanzada.
En la Cuadro 9, contiene también la relación de odds posterior que compara los dos modelos:
0:
0:
2
1
j
j
M
M
En este caso no hay evidencia para que 0 y 3 sean iguales a cero.
Cuadro 9. Resultados previos y posteriores para (desviaciones estándar)
a priori Posterior NSE Cd de Geweke Post. Odd para i =0 HPDI 95 %
0 0 20.4088 0.0236 0.5104 0 15.5181 24.9672
10 2.8951
1 3 0.0177 0 0.2854 26.6113 0.008 0.0276
1.5 0.006
2 -1 -0.8925 0.0026 -0.1129 0.2283 -1.4238 -0.3655
5 0.3223
3 4 1.5361 0.0021 -0.487 0.0002 1.1194 1.9639
2 0.0137
h 0.033 0.0431 0.0001 -0.9703
0.0137
58
Ejemplo II
Ejemplo 2. En el cuadro 10 se presentan: el nivel de inventarios I, las ventas S, ambos en
millones de dólares y las tasas de endeudamiento de 35 firmas en una industria. Se espera que I
este directamente relacionada con S pero inversamente relacionada con R.
Cuadro 10. Inversiones para 35 firmas en una industria.
I S R
10 100 17
10 101 17
10 103 17
11 105 16
11 106 16
11 106 16
12 108 15
12 109 15
12 111 14
12 111 14
12 112 14
13 113 14
13 114 13
13 114 13
14 116 12
14 117 12
14 118 12
15 120 11
15 122 11
15 123 11
15 125 11
16 128 10
16 128 10
16 131 10
17 133 10
17 134 9
17 135 9
17 136 9
18 139 8
18 143 8
19 147 8
19 151 8
19 157 8
20 163 7
Heteroscedasticidad para el acercamiento clásico
En el caso del acercamiento clásico, se resolvió con el paquete estadístico SPSS (Statistical
Packet for social science). Los resultados se muestran a continuación.
Para el modelo completo sin tomar en cuenta la heteroscedasticidad, se relaciono I con S y R para
la muestra completa, y los resultados se muestran en los cuadros 11 y 12. El Cuadro 11, muestra
que el modelo es significativo con un α = 0.05. Además en el Cuadro 12, los coeficientes son
significativos con un α = 0.05. Con un coeficiente de determinación R2
= .99.
59
Cuadro 11. Análisis de Varianza.
Suma de
cuadrados
Grados de
Libertad
Cuadrados
medios
F Valor
critico de F
Regresión 311.246 2.000 155.623 1886.210 0.000
Residual 2.640 32.000 0.083
Total 313.886 34.000
Cuadro 12. Coeficientes de regresión.
Valor estimado Desv. Estándar Beta t Valor critico
Constante 14.421 1.446 9.971 0.000
S 0.061 0.008 0.365 8.021 0.000
R -0.626 0.044 -0.646 -14.176 0.000
Para corregir el problema de heteroscedasticidad, se supone que la varianza del error es
proporcional a S2 y entonces se dividió cada término de la regresión por Si. Reestimando la
regresión usando la variable transformada, los resultados son los siguientes: En el Cuadro 13, se
muestra que el modelo es significativo con un α = 0.05. Además en el cuadro 14, los coeficientes
son significativos con un α = 0.05. Con un coeficiente de determinación R2 = .94.
Cuadro 13. Análisis de Varianza para los datos transformados.
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
F Valor
critico de F
Regresión 0.0029 2.0 0.0014 273.1106 0.0000
Residual 0.0002 32.0 5.27E-06
Total 0.0030 34.0
Cuadro 14. Coeficientes de regresión con los datos transformados.
Valor estimado Desv. estandar t Valor Critico
Constante 0.066 0.009 7.599 0.000
S 13.469 1.599 8.423 0.000
R -0.599 0.046 -13.062 0.000
Por el supuesto I, de Gujarati pag. 205. Ahora b1 = 0.0663 es la pendiente asociada con la
variable S, mientras b2 = -0.5987 es la pendiente asociada con la variable R, el intercepto es
13.4687.
60
Heteroscedasticidad en el enfoque Bayesiano
El modelo de regresión que se implemento se muestra a continuación.
21 2
2
~ ( , ) ( , ,..., )
~ ( , )
~ (1/ )
/ ~ ( ) /
~ ( , )
n
i
N diag v v v
N c T
r v ID r r
r m k
y Xβ ε
ε 0 V V
β
Donde y es un vector n x 1 de observaciones de la variable dependiente y X es una matriz n x k
de variables independientes, los previos para y son difusos. Los parámetros estimados son
, y la varianza relativa 1 2( , ,... )nv v v , se asumió como fijos pero desconocidos. La idea de
estimar n parámetros 1 2( , ,... )nv v v y además a los k+1 parámetros y usando n datos puedes
ser problemático. Sin embargo, el acercamiento Bayesiano asigna una distribución a priori
independiente 2 ( ) /r r a los términos iv que dependen del hiperparametro r. Esto permite
estimar n parámetros adicionales del modelo agregando el r-esimo parámetro al modelo de
estimación. Al especificar con respecto a la asignación de los términos iv puede motivar a
considerar que la media a priori, la cual se asigno que es igual a la unidad, esto es: (1/ ) 1ijE v y
la varianza a priori es: var(1/ ) 2 /ijv r . Esto implica que como r llega a ser muy grande, la a
priori refleja el caso especial donde 2~ (0, )i nN I .
Se seleccionó el valor del hiperparametro r asignando una distribución a priori ( , )m k para este
parámetro. Esta distribución tiene una media /m k y varianza 2/m k , así se tomo m=8, k=2,
asignando una a priori r centrada sobre un pequeño r=4 con varianza de r igual a dos. Valores
pequeños del hiperparametro r permite a ijv tomar una forma de asimetría donde la media y la
moda son diferentes.
En el Cuadro 15, se tiene el valor de la R2=.99, además tenemos el valor de 2 =0.0508 que es
menor al que se obtuvo con el método anterior, así como también el numero de datos y de
variables que fueron utilizados. Se tomaron 10000 extracciones y se desecharon 1000 datos.
61
Cuadro 15.Modelo lineal Heteroscedastico Bayesiano con estimaciones de Gibbs. R2 0.9914
sigma2 0.0508
Nobs, Nvar 35, 3
ndraw, nomit 10000, 1000
r-value 4
El Cuadro 16, muestra los valores tomados para las a priori, que en este caso son difusas.
Cuadro 16. Valores a priori
Variable Media a priori Desv. Estándar
0 20 31.62
1 10 10
2 -10 10
El Cuadro 17, muestra las estimaciones posterior, que son poco diferentes a los que se obtuvieron
por el método clásico debido, también a que se tomaron previos difusos.
Cuadro 17. Estimaciones posteriores
Variable Coeficiente Desv. Estándar Valor critico
0 13.877 1.386 0
1 0.064 0.008 0
2 -0.061 0.039 0
En el Cuadro 18, se tiene las estimaciones por ambos acercamientos en el cual se observa que se
obtienen valor un poco diferentes a los de la estadística clásica, además que se tiene las
desviaciones estándar mas pequeños y además 2 =0.0508, esto quiere decir que los estimadores
Bayesianos que se obtuvieron son mas eficiente que los estimadores Clásicos.
Cuadro 18. Parámetros para ambos acercamientos y desviación Estándar.
Medias Posteriores Transformados Sin Transformar
0 13.877 13.4687 14.421
1.386 1.599 1.446
1 0.064 0.0663 0.061
0.008 0.009 0.008
2 -0.061 -0.5987 -0.626
0.039 0.046 0.044
62
CONCLUCIONES
I. El enfoque Bayesiano justifica el uso del conocimiento subjetivo del investigador. Así, esta
metodología aprovecha todas las fuentes de información: información a priori
(investigaciones anteriores, conocimiento subjetivo) y muestral.
II. Cuando no se cuenta con información a priori, la metodología Bayesiana y Clásica
proponen resultados similares. En este caso, la diferencia substancial entre ambos métodos
esta en el análisis y el enfoque del problema.
III. Cuando se usa una distribución a priori, los resultados Bayesianos diferirán de los obtenidos
por la metodología clásica. Por cuanto que se debe ser cuidadoso en la selección de estos.
IV. Al contar con más información (a priori, muestral) los estimadores obtenidos con la
metodología Bayesiana serán mas precisas.
V. El peso de la información a priori y muestral en la distribución posterior es directamente
proporcional a la cantidad de información (información) con que se cuente en cada caso.
Así, si se cuanta con información muestral intensa, la función de verosimilitud dominara a
la distribución a priori.
VI. La inferencia Bayesiana se basa exclusivamente en términos de las probabilidades
posteriores.
VII. El Enfoque Bayesiano es mas complicado que el método clásico a la ahora de calcular los
estimadores.
63
Bibliografía
Bayes, T. (1764) An essay toward solving a problem in the doctrine of changes, Philosophical
transactions of the Royal Society of London 53, 370-418.
Geweke, J. (1989) Bayesian Inference in Econometric Models using Monte Carlo Integration,
Econometrica, 57, 1317–1340.
Geweke, J. (1992) Evaluating the Accuracy of Sampling-Based Approaches to the Calculation of
Posterior Moments, in Bernardo, J., Berger, J., Dawid, A. and Smith, A. (eds.), Bayesian
Statistics 4, pp. 641–649. Oxford: Clarendon Press.
Geweke, J. (1993) Bayesian Treatment of the Independent Student-t Linear Model, Journal of
Applied Econometrics, 8, S19–S40.
Gilks, W., Richardson, S. and Speigelhalter, D. (1996) Markov Chain Monte Carlo in Practice.
New York: Chapman & Hall.
Greene, W. (2000) Econometric Analysis, fourth edition. New Jersey: Prentice-Hall.
Gujarati, D (1995), Econometría. McGraw Hill
Judge, G., Griffiths, W., Hill, R., Lutkepohl, H. and Lee, T. (1985) The Theory and Practice of
Econometrics. New York: John Wiley & Sons.
Koop, G. (2003) Bayesian Econometrics. New York: John Wiley & Sons.
Koop, G. (2000) Analysis of Economic Data. New York: John Wiley & Sons.
LeSage, J. (1999) Applied Econometrics Using MATLAB. Available at
http://www.spatialeconometrics.com/.
64
Poirier, D. (1995) Intermediate Statistics and Econometrics: A Comparative Approach.
Cambridge: The MIT Press.
Poirier, D. (1995) Intermediate Statistics and Econometrics: A Comparative Approach.
Cambridge: The MIT Press.
Press, S. J. (1989) Bayesian Statistics: Principles, Models and Applications. New York: Wiley.
Raftery, A. and Lewis, S. (1996) Implementing MCMC, in Gilks, Richardson and Speigelhalter.
Salvatore, D. (1982) Econometria. Schaum-McGraw-Hill.
Zellner, A. (1971) An Introduction to Bayesian Inference in Econometrics. New York: John
Wiley & Sons.
Zellner, A. and Min, C. (1995) Gibbs Sampler Convergence Criteria, Journal of the American
Statistical Association, 90, 921–927.
63
APÉNDICE I
Distribuciones de Probabilidad
Definición: Distribución Gama
Una variable aleatoria continúa Y tiene una distribución Gamma con media 0 y grados de
libertad 0v , denotado por ),(~ vGY si su f.d.p. es:
maneraotrade
ycvyfysi
yvv
GG
0
),|(0)
2exp(
2
2
1
Donde la constante de integración esta dado por
2
2 21 v
vc
v
G
donde )(a es la función
Gama
Teorema: Media y Varianza de la distribución Gamma
Si ),(~ vGY entonces )(YE y v
Y22
)var(
.
Definición: La Distribución Normal Multivariada
Un vector aleatorio continuo de k dimensiones )',...,( 1 kYYY tiene una distribución Normal con
media (un k vector) y matriz de covarianzas (una matriz positiva definida k x k) de notado
por ),(~ NY , si su f.d.p. esta dado por
)(')(2
1exp
2
1),|( 121
2
yyyfkN
Definición: Distribución t Multivariada
Un vector aleatorio continúo k dimensional )',...,( 1 kYYY , tiene una distribución t con
parámetros (un k vector), (una matriz positiva definida k x k) y v (un escalar positivo
referido como un parámetro de sus grados de libertad) denotado ),,(~ vtY , si su f.d.p. esta
dado por
212
1
)(')(1
),,|(
kv
tt yyv
cvyf
64
Donde
2
2
2
2
kvv
v
cv
k
t
Teorema: Media y Varianza de la distribución t
Si ),,(~ vtY entonces )(YE si 1v y
2
)var(v
vY si 2v .
Definición: Distribución Normal-Gamma
Sea Y un vector aleatorio k dimensional y H una variable aleatoria escalar. Si la distribución
condicional de Y dado H es normal y la distribución marginal para H es Gamma entonces (Y,H)
se dice que tiene una distribución normal-gamma. Formalmente, si ),(~| NHY y
),(~ vmGH entonces ),( HY tiene una distribución normal-gamma denotado por
),,,(~ vmNG . El correspondiente f.d.p. se denota por ),,,,( vmfNG .
Algunos conceptos
Teorema central del límite
Sea }{ TY una secuencia de variables a aleatorias, Y es una variable aleatoria y denota la media
muestral basado en la muestra de tamaño T como,
1
T
i
tT
t
YT
entonces TY satisface el teorema central del limite si }{ TY converge en probabilidad a una
constante Y denotado por lim Tp Y Y o YY d
T . Si
lim Pr( ) 0TT
Y Y
Algoritmo Cadena Metropolis-Hasting Caminata Aleatoria
Genera extracciones candidato de acuerdo a
* ( 1)s z (1)
Donde z es llamado la variable aleatoria incremento. La media de la probabilidad de aceptación
65
*
( 1) *
( 1)
( | ), min ,1
( | )
s
s
p y
p y
La cadena caminata aleatoria tiende a moverse hacia las regiones de la probabilidad posterior más
alto.
La selección de la densidad para z determina la forma precisa de las densidades candidatos
generados. Una selección común y conveniente es la normal multivariada. En este caso (1)
determina la media de la normal y se selecciona la matriz de covarianzas, la cual se denota por .
La notación para la densidad normal.
( 1) ( 1)( ; ) ( | , )s sNq f
Definición: Ley Débil de los Grandes Números.
Sea TY una secuencia de variables aleatorias con correspondiente secuencia de medias finitas
T , y denota la media muestral basado en una muestra de tamaño T como
1
T
t
tT
Y
YT
Y define
1
T
t
tT
T
Entonces TY satisface una Ley Débil de los Grandes Números, si pT TY .
Teorema: Ley Debil de los Grandes Numeros para una Variable Aleatoria.
Sea TY una secuencia de extracciones de variables aleatorias i.i.d. de alguna distribución con
media y varianza 2 entonces pTY .
66
ANEXO
Modelo de Regresión Lineal Normal con a priori no informativo y a priori informativo
load defens.txt;
n=size(defens,1);
y=defens(:,1);
x=defens(:,2:4);
x=[ones(n,1) x];
k=4;
%Hyperparametros para la a priori normal conjugada
v0=4;
b0=0*ones(k,1);
b0(2,1)=3;
b0(3,1)=-1;
b0(4,1)=4;
s02=1/30;
capv0=10^2*eye(k);
capv0(2,2)=1.5^2;
capv0(3,3)=.5^2;
capv0(4,4)=2^2;
capv0inv=inv(capv0);
%Cuadrados mínimos ordinarios
bols = inv(x'*x)*x'*y;
s2 = (y-x*bols)'*(y-x*bols)/(n-k);
bolscov = s2*inv(x'*x);
bolssd=zeros(k,1);
for i = 1:k
bolssd(i,1)=sqrt(bolscov(i,i));
end
v=n-k;
%Hyperparametros normal gamma posteriors
xsquare=x'*x;
v1=v0+n;
capv1inv = capv0inv+ xsquare;
capv1=inv(capv1inv);
b1 = capv1*(capv0inv*b0 + xsquare*bols);
if det(capv0inv)>0
v1s12 = v0*s02 + v*s2 + (bols-b0)'*inv(capv0 +
inv(xsquare))*(bols-b0);
else
v1s12 = v0*s02 + v*s2;
end
s12 = v1s12/v1;
bcov = capv1*v1s12/(v1-2);
bsd=zeros(k,1);
for i = 1:k
bsd(i,1)=sqrt(bcov(i,i));
end
%Probabilidades posteriores para cada elemento de beta sea
positivo
%HPDIs para cada elemento de beta
probpos=zeros(k,1);
bhpdi95=zeros(k,2);
bhpdi99=zeros(k,2);
%%Cantidades de t para calcular los HPDIs
invcdf95=tdis_inv(.975,v1);
invcdf99=tdis_inv(.995,v1);
for i = 1:k
tnorm = -b1(i,1)/sqrt(s12*capv1(i,i));
probpos(i,1) = 1 - tdis_cdf(tnorm,v1);
bhpdi95(i,1) = b1(i,1)-invcdf95*sqrt(s12*capv1(i,i));
bhpdi95(i,2) = b1(i,1)+invcdf95*sqrt(s12*capv1(i,i));
bhpdi99(i,1) = b1(i,1)-invcdf99*sqrt(s12*capv1(i,i));
bhpdi99(i,2) = b1(i,1)+invcdf99*sqrt(s12*capv1(i,i));
end
%media y varianza posterior del error de precision.
hmean = 1/s12;
hvar=2/(v1s12);
hsd=sqrt(hvar);
%log de la verosimilitud marginal para el modelo si la a
priori es informativa
if det(capv0inv)>0;
intcon=gammaln(.5*v1) + .5*v0*log(v0*s02)-
gammaln(.5*v0) -.5*n*log(pi);
lmarglik=intcon + .5*log(det(capv1)/det(capv0)) -
.5*v1*log(v1s12);
end
%Salvar el log de la verosimilitud marginal
lmargun=lmarglik;
%implimir lo que uno desea
'Hyperparametros para la a priori conjugada natural'
b0
capv0
v0
s02
'Resultados posteriors basados en la a priori informativa'
b1
bsd
probpos
bhpdi95
bhpdi99
hmean
hsd
lmarglik
ystarm
ystarsd
ystarcapv
%Hyperparametros para la a priori no informativa
v0=0;
67
capv0inv=0*eye(k);
%llamar post para hacer el analisis posterior
post;
%Imprimir lo que uno desea
'Resultados posteriors basados en la a priori no
imformativa'
b1
bsd
probpos
bhpdi95
bhpdi99
hmean
hsd
ystarm
ystarsd
ystarcapv
%relacion odds posterior
%evaluar la verosimilitud marginal para el modelo
restringuido con beta(j)=0
%analizar aqui cada uno de los modelos a la ves
postodds=zeros(k,1);
x=defens(:,2:4);
k=3;
%Hyperparametros para la a priori natural conjugada
v0=4;
b0=0*ones(k,1);
b0(1,1)=3;
b0(2,1)=-1;
b0(3,1)=4;
s02=1/30;
capv0=10^2*eye(k);
capv0(1,1)=1.5^2;
capv0(2,2)=.5^2;
capv0(3,3)=2^2;
capv0inv=inv(capv0);
ch3post;
postodds(1,1)=exp(lmarglik-lmargun);
x=defens(:,3:4);
x=[ones(n,1) x];
k=3;
% Hyperparametros para la a priori natural conjugada
v0=4;
b0=0*ones(k,1);
b0(2,1)=-1;
b0(3,1)=4;
s02=1/30;
capv0=10^2*eye(k);
capv0(2,2)=.5^2;
capv0(3,3)=2^2;
capv0inv=inv(capv0);
ch3post;
postodds(2,1)=exp(lmarglik-lmargun);
x1=defens(:,2);
x2=defens(:,4);
x=[ones(n,1) x1 x2];
k=3;
% Hyperparametros para la a priori natural conjugada
v0=4;
b0=0*ones(k,1);
b0(2,1)=3;
b0(3,1)=4;
s02=1/30;
capv0=10^2*eye(k);
capv0(2,2)=1.5^2;
capv0(3,3)=2^2;
capv0inv=inv(capv0);
ch3post;
postodds(3,1)=exp(lmarglik-lmargun);
x=defens(:,2:3);
x=[ones(n,1) x];
k=3;
% Hyperparametros para la a priori natural conjugada
v0=5;
b0=0*ones(k,1);
b0(2,1)=3;
b0(3,1)=-1;
s02=1/30;
capv0=10^2*eye(k);
capv0(2,2)=1.5^2;
capv0(3,3)=.5^2;
capv0inv=inv(capv0);
ch3post;
postodds(4,1)=exp(lmarglik-lmargun);
postodds
Modelo de Regresión Lineal Normal con a priori independiente norma gamma
%programa para el ejemplo impirico
%Gibbs sampling para la a priori independiente Normal-
Gammma
%El modelo de comparacion de componente usa la
proporcion de densidad de Savage Dickey
%calcular el Factor de Bayes para beta(i)=0 para i=1,...,k
68
load defens.txt;
n=size(defens,1);
y=defens(:,1);
x=defens(:,2:4);
x=[ones(n,1) x];
k=4;
%Hyperparametros para los a prioris independientes
Normal-Gamma
v0=4;
b0=0*ones(k,1);
b0(2,1)=3;
b0(3,1)=-1;
b0(4,1)=4;
s02=1/30;
capv0=(10^2)*eye(k);
capv0(2,2)=1.5^2;
capv0(3,3)=.5^2;
capv0(4,4)=2^2;
capv0inv=inv(capv0);
%Valor para la prediccion
xstar = [1 3000 20 70];
%Cantidades de Minimos Cuadrados Ordinarios
bols = inv(x'*x)*x'*y;
s2 = (y-x*bols)'*(y-x*bols)/(n-k);
v=n-k;
%Calcule unas cantidades para usarlos más tarde
xsquare=x'*x;
v1=v0+n;
v0s02=v0*s02;
post = zeros(k,1);
%para la proporción de densidad de Savage-Dickey las
cantidades a priori se evalúan
prior = zeros(k,1);
for j = 1:k
prior(j,1) = norm_pdf(0,b0(j,1),capv0(j,j));
end
%Ahora inicia Gibbs loop
%La condicinal de beta en h es normal
%h condicional en beta es Normal
%guarda todos las extraccioes en la siguiente matriz
%inicialízar aquí
b_=[];
h_=[];
bf_=[];
ystar_=[];
%Especificar el número de repeticiones
%número de repeticiones del burnin
s0=1000;
%número de repeticiones retenidas
s1=15000;
s=s0+s1;
%seleccionar un valor de arranque para h
hdraw=1/s2;
for i = 1:s
%extracciones de beta condicional en h
capv1inv = capv0inv+ hdraw*xsquare;
capv1=inv(capv1inv);
b1 = capv1*(capv0inv*b0 + hdraw*xsquare*bols);
bdraw=b1 + norm_rnd(capv1);
%extracciones de h condicional en beta
s12 = ((y-x*bdraw)'*(y-x*bdraw)+v0s02)/v1;
hdraw=gamm_rnd(1,1,.5*v1,.5*v1*s12);
if i>s0
%después de desechar el burnin, guarde todas las
extracciones
b_ = [b_ bdraw];
h_ = [h_ hdraw];
%para la proporción de densidad Savage-Dickey las
cantidades posteriores se evalúan
for j = 1:k
post(j,1) = norm_pdf(0,b1(j,1),capv1(j,j));
end
bfdraw = post./prior;
bf_ = [bf_ bfdraw];
%extracciones de la predictiva, condicional en beta y
h.
ystdraw = xstar*bdraw + norm_rnd(1/hdraw);
ystar_ = [ystar_ ystdraw];
end
end
alldraws = [b_' h_'];
%La funcion momentg es tomado de toolbox de LeSage
%entran todas las extracciones de Gibbs y produce la
posterior
%media, desviacion estandar, nse y rne
%calcula S(0) de varias maneras
%ver momentg.m para mas detalles
result = momentg(alldraws);
means=[result.pmean]';
stdevs=[result.pstd]';
nse=[result.nse]';
nse1=[result.nse1]';
nse2=[result.nse2]';
nse3=[result.nse3]';
%calcule el diagnostico de convergencia de Geweke basado
basado primero .1
%y último .4 de extracciones
idraw1= round(.1*s1);
result = momentg(alldraws(1:idraw1,:));
meansa=[result.pmean]';
nsea=[result.nse1]';
idraw2= round(.6*s1)+1;
result = momentg(alldraws(idraw2:s1,:));
meansb=[result.pmean]';
nseb=[result.nse1]';
cd = (meansa - meansb)./(nsea+nseb);
%imprimir lo que uno desea
'Hyperparametros para la a priori Normal-Gamma
independiente'
b0
capv0
v0
s02
69
'Resultados Posteriores basados en la a priori Informativa'
'numero de repeticiones de burnin'
s0
'numero de repeticiones incluidas'
s1
'media posterior, desviacion estandar and diagnostico de
convergencia, CD'
'beta seguido por h'
[means stdevs cd]
'nse asumiendo no, .04, .08 and .15 autocovarianzas
estimadas'
'beta seguido de h'
[nse nse1 nse2 nse3]
'factor de Bayes para la prueba de beta(i)=0 for i=1,..,k'
bfmean = mean(bf_')';
bfmean
'media predictiva y desviacion estandar'
predmean=mean(ystar_')';
predsd = std(ystar_')';
[predmean predsd]
hist(ystar_',25)
title('Figure 4.1: Densidad predictiva')
xlabel('Desembolsos del presupuesto de Defensa')
%ylabel('Factor de Bayes')
'95% HPDIs'
'beta seguido por h seguido por alpha'
hpdis=zeros(k+1);
for ii=1:k+1
hpdis(ii,1:2) = hpdi(alldraws(:,ii),.95);
end
hpdis
avar1=means(k+2:k+1,1)*means(k+2:k+1,1)';
save postvar.out avar1 -ASCII;
Modelo lineal Heteroscedastico Bayesiano con estimaciones de Gibbs.
load invers.txt;
n =size(invers,1);
y=invers(:,1);
x=invers(:,2:3);
x=[ones(n,1) x];
ndraw = 10000; nomit = 1000; % numero de extracciones y extracciones desechados
bmean = zeros(k,1); % Media a priori difusa de b
T = eye(k)*100; % varianza a priori difusa de b
rval = 4; % a priori heteroscedastico
mm=6; % a priori informativa para el valor de r
kk=2;
prior.beta = bmean;
prior.bcov = T;
prior.rval = rval; % usa una a priori impropio de el valor de r
result = ols_g(y,x,ndraw,nomit,prior);
prt(result);
Top Related