Download - Trucios Camarillo Jorge 2006

UNIVERSIDAD AUTÓNOMA CHAPINGO

DIVISIÓN DE CIENCIAS FORESTALES

DEPARTAMENTO DE ESTADÍSTICA, MATEMÁTICA Y CÓMPUTO

“UN ENFOQUE BAYESIANO DEL MODELO DE REGRESIÓN EN

ECONOMETRÍA”

TESIS PROFESIONAL

Que como requisito parcial

para obtener el título de:

LICENCIADO EN ESTADÍSTICA

PRESENTA:

JORGE TRUCIOS CAMARILLO

Chapingo, México, mayo del 2006

Índice de Contenido

RESUMEN ..................................................................................................................................................................... i

SUMMARY ...................................................................................................................................................................ii

Capítulo I ...................................................................................................................................................................... 1

Introducción. .............................................................................................................................................................. 1

Justificación. .............................................................................................................................................................. 2

Objetivos .................................................................................................................................................................... 3 General ................................................................................................................................................................... 3 Particulares ............................................................................................................................................................ 3

Capítulo II ..................................................................................................................................................................... 4

Teoría Bayesiana ....................................................................................................................................................... 4

Cálculo bayesiano. ..................................................................................................................................................... 5

Capítulo III ................................................................................................................................................................... 7

Modelo de regresión lineal normal con a priori conjugada natural: Caso Univariado ....................................... 7 Función de verosimilitud ...................................................................................................................................... 7 A priori. ................................................................................................................................................................. 10 Posterior. .............................................................................................................................................................. 11 Comparación de modelos. ................................................................................................................................... 13 Predicción. ............................................................................................................................................................ 16

Capítulo IV .................................................................................................................................................................. 18

Modelo de regresión lineal normal múltiple con a priori conjugada natural en notación matricial ................ 18 Función de verosimilitud .................................................................................................................................... 19 A priori .................................................................................................................................................................. 20 Posterior. .............................................................................................................................................................. 21 Comparación de modelos. ................................................................................................................................... 23

Comparación de modelos suponiendo restricciones de desigualdad. ................................................................ 23 Restricciones de igualdad .................................................................................................................................. 23 Intervalos de densidad posterior más altos. ....................................................................................................... 25

Predicción. ............................................................................................................................................................ 26

Capítulo V. .................................................................................................................................................................. 28

Modelo de regresión lineal normal con a priori independiente normal-gama. ................................................... 28 A priori .................................................................................................................................................................. 28 Posterior ............................................................................................................................................................... 29 Densidad Proporción Savage–Dickey ............................................................................................................... 30 Predicción ............................................................................................................................................................. 32

Capítulo VI .................................................................................................................................................................. 34

Modelo de Regresión Lineal con Matriz de Covarianzas de Errores Generales .................................................. 34

Modelo con Matriz de Varianzas y Covarianzas general Ω ............................................................................ 34 Función de Verosimilitud .................................................................................................................................. 35 A Priori .............................................................................................................................................................. 36

Posterior............................................................................................................................................................. 36 Heteroscedasticidad ............................................................................................................................................. 37 Heteroscedasticidad de forma desconocida: Con errores t-student ................................................................ 38

Capitulo VII ................................................................................................................................................................ 41

Calculo Bayesiano .................................................................................................................................................... 41 Integración Monte Carlo.................................................................................................................................... 41 Muestreo de Gibbs ............................................................................................................................................... 42 Diagnósticos Cadenas de Markov Monte Carlo ................................................................................................ 44 Calculo Bayesiano para Heteroscedasticidad.................................................................................................... 48

Capitulo VIII............................................................................................................................................................... 50

Ejemplos y Discusión. .............................................................................................................................................. 50 Ejemplo 1.............................................................................................................................................................. 51

Mínimos cuadrados ordinario ............................................................................................................................ 52 Modelo de Regresión lineal normal con a priori no informativa y a priori informativa................................... 53 Modelo de Regresión lineal normal con a priori independiente normal-gamma .............................................. 56

Ejemplo II ............................................................................................................................................................ 58 Heteroscedasticidad para el acercamiento clásico ............................................................................................. 58 Heteroscedasticidad en el enfoque Bayesiano ................................................................................................... 60

CONCLUCIONES ..................................................................................................................................................... 62

Bibliografía ................................................................................................................................................................. 63

APÉNDICE I .............................................................................................................................................................. 63

ANEXO ....................................................................................................................................................................... 66

Índice de Cuadros y Figuras

Cuadro 1. Desembolsos del presupuesto de defensa de los EU. .............................................................................. 51

Cuadro 2. Análisis de Varianza ................................................................................................................................. 52

Cuadro 3. Coeficientes de regresión. ........................................................................................................................ 52

Cuadro 4. Medias posteriores para . ..................................................................................................................... 53

Cuadro 5. Comparación de modelos envolviendo . ............................................................................................ 54

Cuadro 6. Resultado posteriores con a priori informativa ...................................................................................... 54

Cuadro 7. Coeficientes de y desviaciones estándar. ........................................................................................... 55

Cuadro 8. Propiedades posteriores de h y de ...................................................................................................... 55

Cuadro 9. Resultados previos y posteriores para (desviaciones estándar) ...................................................... 57

Cuadro 10. Inversiones para 35 firmas en una industria. ....................................................................................... 58

Cuadro 11. Análisis de Varianza. .............................................................................................................................. 59

Cuadro 12. Coeficientes de regresión........................................................................................................................ 59

Cuadro 13. Análisis de Varianza para los datos transformados. ........................................................................... 59

Cuadro 14. Coeficientes de regresión con los datos transformados. ...................................................................... 59

Cuadro 15.Modelo lineal Heteroscedastico Bayesiano con estimaciones de Gibbs............................................... 61

Cuadro 16. Valores a priori ........................................................................................................................................ 61

Cuadro 17. Estimaciones posteriores ........................................................................................................................ 61

Cuadro 18. Parámetros para ambos acercamientos y desviación Estándar. ........................................................ 61

Figura 1. Valores actuales contra los valores predichos y residuales. ................................................................... 52

Figura 2. Gráfica de residuales. ................................................................................................................................ 53

i

UN ENFOQUE BAYESIANO DEL MODELO DE REGRESIÓN EN

ECONOMETRÍA

Jorge Trucios Camarillo1

José Artemio Cadena Meneses2

RESUMEN

El presente trabajo propone el modelo de regresión lineal múltiple y un modelo de regresión

lineal con Heteroscedasticidad bajo el enfoque Bayesiano, como una herramienta para el análisis

de la información, ofrece las bases para el cálculo de estimadores y de cómo se integra la

información a priori al modelo de regresión.

El enfoque Bayesiano, integra la información a priori ( , | )p h y (que pueden ser: conocimiento

del investigador sobre el fenómeno, investigaciones anteriores u otras fuentes) con la función de

verosimilitud 2( | , )p y , a través del teorema de Bayes, obteniendo el resultado conocido como

la distribución posterior del modelo ( , | )p h y .

Para la obtención de los estimadores, en el presente trabajo se propusieron: una a priori no

informativa, una a priori conjugada natural y además se incluyó una a priori independiente

normal-gama. El programa utilizado para calcular dichos estimadores fue MATLAB versión 5.3,

se utilizaron las rutinas de LaSage (1999) que están en la página: www.spatial-econometrics.com,

para poder calcular los estimadores.

El enfoque Bayesiana y Clásica producen resultados similares cuando no se cuenta con

información a priori, la diferencia substancial entre ambos métodos esta en el análisis y el enfoque

del problema. Sin embargo, con información a priori los estimadores Bayesianos son más precisos

que los estimadores clásicos.

Palabras Clave: Distribución a priori, Distribución posterior, Función de verosimilitud,

Heteroscedasticidad, Regresión lineal.

1 Egresado del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales.

Universidad Autónoma Chapingo. México. 2 Profesor del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales. Universidad

Autónoma Chapingo. México.

http://www.spatial-econometrics.com/

ii

AN APPROACH OF THE BAYESIAN REGRESSION MODEL IN ECONOMETRICS

Jorge Trucios Camarillo1

José Artemio Cadena Meneses2

SUMMARY

The present paper proposes a multiple linear regression model and a Heteroskedasticity linear

regression model under the Bayesian approach, like a tool for the analysis of information; this

offers the bases for the calculation of estimators and how adds the prior information to the

regression model.

Bayesian approach, adds the prior information ( , | )p h y (it could can be: previous knowledge of

the investigator on the phenomenon, investigations or other sources) with the likelihood function

2( | , )p y through Bayes’ theorem, obtaining the result known like posterior distribution of the

model ( , | )p h y .

For obtaining the estimators, in the present paper are propose: a noninformative prior distribution,

a natural conjugate prior distribution, and in addition an independent normal-gamma prior

distribution. The program used to calculate these estimators was MATLAB version 5.3, LaSage

(1999) toolbox was used, and they are at the page: www.spatial-econometrics.com, to be able to

calculate the estimators.

The Bayesian approach and Classic approach produce similar results when the researcher don’t

have prior information, the substantial differences among both methods is the analysis and the

focus of the problem. However, with prior information the Bayesian estimators are more accurate

than the classical estimators.

Key words: Prior distribution, Posterior distribution, Likelihood function, Heteroskedasticity,

linear Regression model.

1 Egresado del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales.

Universidad Autónoma Chapingo. México. 2 Profesor del departamento de Estadística, Matemática y Computo de la División de Ciencias Forestales. Universidad

Autónoma Chapingo. México.

1

Capítulo I

Introducción.

En la segunda mitad del siglo XVIII fue publicado el teorema de Bayes (1764), así llamado por el

nombre del monje que lo desarrolló, en respuesta a los postulados de la inferencia Gausiana. El

estudio clásico de las distribuciones de probabilidad –o estadística Gausiana- supone funciones de

densidad simétricas y bien definidas, así como la ausencia de cualquier conocimiento previo por

parte del investigador. Bayes, en la justificación de su teoría argumenta que los datos no

necesariamente provenían de tales funciones de densidad, sino que probablemente eran generados

por leyes probabilísticas sujetas a formas asimétricas y sesgadas. En tanto que el investigador

conociera estas características, el procedimiento correcto de inferencia estadística debería

incorporar, decía Bayes, esta información y de esta forma, contar con un marco probabilístico más

apropiado para la inferencia estadística.

En el campo económico, la inferencia Bayesiana comienza a tomar un lugar importante. Según

Judge (1985) la econometría es la aplicación empírica de la teoría económica mediante la

inferencia estadística y los modelos matemáticos, es una rama de la economía que aglutina a la

teoría económica, las matemáticas, la estadística y la informática para estudiar y analizar

fenómenos económicos. Puede decirse que constituye en sí misma una disciplina dentro de la

economía y a la vez una potente herramienta que tanto los economistas como muchos otros

investigadores sociales utilizan para el estudio de sus problemas concretos. El principal propósito

de la econometría es proporcionar un sustento empírico a la teoría económica.

El análisis Bayesiano es aplicable a cualquier procedimiento estadístico. Este trabajo fue elegido

por su amplia utilización en diferentes disciplinas, en este caso en la econometría.

2

Justificación.

La diferencia fundamental entre el modelo clásico y el Bayesiano es que en este último los

parámetros son considerados aleatorios, por lo que pueden ser cuantificados en términos

probabilísticos. Por otro lado, es importante resaltar que la inferencia Bayesiana se basa en

probabilidades asociadas con diferentes valores del parámetro que podrían haber dado lugar a

la muestra x que se observó. Por el contrario, la inferencia clásica se basa en probabilidades

asociadas con las diferentes muestras x que se podrían observar para algún valor fijo, pero

desconocido, del parámetro . En relación con la obtención de estimaciones puntuales para los

parámetros poblacionales, en el caso del modelo clásico, la estimación se interpreta como el valor

de , que hace más probable haber obtenido la muestra observada, mientras en el modelo

Bayesiano, la estimación será el valor de que, puesto que se ha observado x, sea más verosímil

o más creíble.

Las principales características que se le pueden atribuir a la teoría Bayesiana son las siguientes:

1. Proporciona una manera satisfactoria de introducir explícitamente y de darle seguimiento a

los supuestos sobre el conocimiento previo.

2. La inferencia Bayesiana no presenta problemas en la selección de estimadores y de

intervalos de confianza.

3. El teorema de Bayes permite la actualización continua de la información sobre los

parámetros de la distribución conforme se generan más observaciones.

4. A diferencia de la inferencia clásica, la Bayesiana no requiere de la evaluación de las

propiedades de los estimadores obtenidos en un muestreo sucesivo.

5. La probabilidad de un evento está dada por el grado de confianza o creencia que tiene un

individuo sobre la ocurrencia del evento.

La principal objeción es que las conclusiones dependen de la selección específica de la

aproximación previa. Aunque para otros esto es lo interesante de la aproximación Bayesiana. Sin

embargo, se debe señalar que inclusive en inferencia clásica, y además en investigaciones

científica en general, estos conocimientos previos son utilizados implícitamente.

3

Objetivos

General

Presentar el punto de vista Bayesiano en la solución de problemas econométricos y contrastar los

resultados producidos por éste con los resultados de la estadística clásica.

Particulares

Resolver un modelo de regresión lineal normal con la metodología Bayesiana y con la

estadística clásica para contrastar los resultados producidos por ambas.

Resolver un modelo donde este presente la heteroscedasticidad con las dos metodologías.

Hacer uso de paquetes estadísticos computacionales para ambos casos.

4

Capítulo II

Teoría Bayesiana

Sean dos variables aleatorias, A y B. Las reglas de probabilidad implican que:

)()|(),( BpBApBAp

donde ),( BAp es la probabilidad conjunta de ocurrir A y B, )|( BAp es la probabilidad de

ocurrir A dado que B ha ocurrido (la probabilidad condicional de A dado B), y )(Bp es la

probabilidad marginal de B. Ahora se pueden cambiar los papeles de A y B y encontrar una

expresión para la probabilidad conjunta de A y B, esto es:

)()|(),( ApABpBAp

Igualando estas dos expresiones para ),( BAp y arreglando se llega a la forma más simple de

expresar la regla de Bayes, que yace en el corazón de la econometría Bayesiana:

)(

)()|()|(

Ap

BpBApABp (2.1)

Si se supone que 1 2, , kA A A son k sucesos mutuamente excluyentes, uno de los cuales ha de

ocurrir necesariamente; entonces la ley de la probabilidad total establece que:

1

( ) ( | ) ( )k

i ii

p A p A B p B

De modo que, se tiene:

1

( | ) ( )( | )

( | ) ( )

j jj k

i ii

p A B p Bp B A

p A B p B

La econometría está interesada en utilizar los datos para aprender algo sobre lo que le interesa al

investigador. Sólo que el “algo" depende del contexto. Sin embargo, la economía típicamente

trabaja con modelos, que dependen de los parámetros. Así el interés se centra en los coeficientes

del modelo de regresión y en la estimación de éstos.

Sea y un vector o matriz de datos y un vector o matriz que contienen los parámetros para el

modelo. El interés se centra en aprender acerca de (una vez obtenidos los datos, esto puede

hacerse a través de la expresión).

( | ) ( )( | )

( )

p pp

p

y θ θθ y

y (2.2)

5

o bien .

( | ) ( | ) ( )p p pθ y y θ θ (2.3)

El término ( | )p θ y es la densidad posterior ( | )p y θ , es la función de verosimilitud y ( )p θ es la

densidad a priori. La a priori ( )p θ , no depende de los datos contiene cualquier información que

no esta disponible en los datos acerca de .

La función de verosimilitud ( | )p y θ , es la densidad condicionada de los datos en los parámetros

del modelo. Siendo a menudo referido como el proceso generador de los datos.

La posterior ( | )p θ y , resume todo lo que nosotros conocemos de después de ver los datos,

combina la información de los datos y la información que no proviene de estos.

Cálculo bayesiano.

La elegancia teórica y conceptual del enfoque Bayesiano lo ha hecho atractivo por muchas

décadas. Sin embargo, los Bayesianos han sido una minoría en el campo de la econometría, que

ha sido dominado por el enfoque clásico. Existen dos razones principales para esto: la

información a priori y el cálculo. Muchos investigadores se oponen al uso de la información a

priori subjetiva en el supuesto objetivo de la ciencia económica.

El cálculo es el segundo y la razón principal para el estatus minoritario de la econometría

Bayesiana. Es decir, el cálculo en la econometría Bayesiana, históricamente, ha sido difícil o

imposible. Sin embargo, la revolución de la computación, de los últimos viente años, ha superado

esta valla y ha llevado a un florecimiento de los métodos Bayesianos en muchos campos.

La ecuación que define la posterior no envuelve integrales, pero la presentación de la información

acerca de los parámetros puede a menudo suponer cálculos importantes.

Para la media de la densidad posterior, se supone que es un vector con k elementos

1( ,..., )k θ . La media posterior de cualquier elemento de es calculado como

dypyE ii )|()|( (2.4)

Salvo algunos casos, no es posible evaluar analíticamente esta integral.

6

Y la varianza posterior es calculada como

22 )|()|()|var( yEyEy iii

que requiere la evaluación de la integral en (2.4), así como

dypyE ii )|()|( 22

Todas estas características posteriores tienen la forma:

dypgygE )|()(|)( (2.5)

donde )(g es una función de interés.

7

Capítulo III

Modelo de regresión lineal normal con a priori conjugada natural: Caso Univariado

Una discusión detallada del modelo de regresión puede encontrarse en cualquier libro de

econometría (Greene (2000), Gujarati (1995), Hill, Griffiths and Judge (1985), Koop (2000)).

Considere la relación entre un variable dependiente y, y k variables explicativas kxx ,...,1 de la

forma:

kk xxy ...221

donde es el error aleatorio, y x1 es igual a uno.

Función de verosimilitud

Sean yi y xi los datos observados, para i donde Ni ,...,2,1 . Por simplicidad matemática, no se

toma en cuenta la intersección, el modelo de regresión lineal es:

i i iy x (3.1)

Los supuestos acerca de i y xi determinan la forma de la función de verosimilitud, estos son:

1. i se distribuye normal con media 0 y varianza 2 , i y j son independientes el uno

del otro para ji . Esto es i es independiente e idénticamente distribuido (i.i.d.)

2(0, )N .

2. ix es fijó y si son variables aleatorias, son independientes de i con una función de

densidad de probabilidad, )|( ixp donde es un vector de parámetros que no incluye a

y 2 .

La suposición de que las variables explicativas no son aleatorias es común en las ciencias físicas,

donde los métodos experimentales son comunes. Es decir, como parte de la disposición

experimental, el investigador escoge valores particulares para las x . En muchas aplicaciones

económicas, tal suposición no es razonable. Sin embargo, la suposición de que la distribución de

las x es independiente del error y con una distribución, que no depende de los parámetros de

interés, es a menudo razonable. En el idioma de la economía, se puede considerar como que x es

una variable exógena.

8

La función de verosimilitud está definida como la función de densidad de probabilidad conjunta

para todos los datos en los parámetros desconocidos (vea (2.3)). El vector de observaciones de la

variable dependiente es un vector de longitud N:

1

2

.

N

y

y

y

y

o, equivalentemente 1 2( , ,..., )Ny y y y . De manera similar, para la variable explicativa, definimos

1 2( , ,..., )Nx x x x . Entonces la función de verosimilitud llega a ser 2( , | , , )p y x . El segundo

supuesto implica que podemos escribir la función de verosimilitud como:

2 2( , | , , ) ( | , , ) ( | )p p p y x y x x

Como la distribución de x no es de interés, se trabaja entonces con una función de verosimilitud

sobre 2( | , , )p y x .

Los supuestos sobre los errores pueden ser usados para trabajar en la forma precisa de la función

de verosimilitud. En particular, usando ciertas reglas básicas de probabilidad y (3.1),

encontramos:

),|( 2iyp es normal

ii xyE ),|( 2

22 ),|var( iy

Usando la definición de la densidad normal obtenemos

22

22

( )1( | , ) exp

22

i ii

y xp y

Finalmente, para ji , si i y j son independiente, se sigue que iy y jy son también

independiente y, así, 2 21

( | , ) ( | , )N

iip p y

y y, por lo tanto, la función de verosimilitud

esta dada por:

2 2

21

2

1 1( | , ) exp ( )

2(2 )

N

i iNiN

p y x

y (3.2)

Si se toma:

9

22

1 1

2 2 2

1

2 2 2

1 1

2

2 21

1

2 2 2

1

ˆ ˆ( ) ( ) ( )

ˆ ˆ( ) ( )

ˆ ˆ( ) ( )

ˆ( )

ˆ( 1) ( )1

ˆ( )

N N

i i i i ii i

N

i i ii

N N

i i ii i

N

i i Ni

ii

N

ii

y x y x x

y x x

y x x

y x

N xN

vs x

Entonces para futuras derivaciones, la verosimilitud se escribirá como, Green (2000):

N

i

i

N

i

ii xvsxy1

222

1

2 )ˆ()(

Donde

1 Nv (3.3)

2

ˆ

i

ii

x

yx (3.4)

y

v

xy

s

N

i

ii

1

2

2

)ˆ(

(3.5)

, 2s y v son los estimadores de mínimos cuadrados ordinarios (MCO) para , el error estándar

y los grados de libertad, respectivamente. Son estadísticas suficientes (Poirier, 1995) para (2.2).

Además, para muchas derivaciones técnicas, es más fácil trabajar con la precisión del error que

con la varianza. La precisión de error esta definida como 21h .

Usando estos resultados, podemos escribir la función de verosimilitud como:

22

1

222

1

22

exp)ˆ(2

exp

)2(

1),|(

s

hvhx

hhhyp

vN

iiN

(3.6)

El primer término en los corchetes es el núcleo de la densidad normal para , y el segundo

término es una densidad gamma para h.

10

A priori.

La a priori refleja cualquier información que el investigador tiene antes de ver los datos, que

desea incluir. Por lo tanto, los previos pueden tomar cualquiera forma. Sin embargo, es común

escoger clases particulares de previos que son fáciles de interpretar y/o hacer los cálculos más

fáciles. La a priori conjugada natural típicamente tiene tales ventajas. Una distribución a priori

conjugada es una que, cuando es combinada con la verosimilitud, produce una posterior que cae

en la misma clase de distribuciones, tiene la propiedad adicional de poseer la misma forma

funcional que la función de verosimilitud. Estas propiedades significan que la información a

priori puede interpretarse del mismo modo que la función de verosimilitud.

En el modelo de regresión lineal simple, se extrae una a priori para y h , que se denota por

),( hp . La densidad posterior se denotará por ( , | )p h y , es conveniente escribir

)()|(),( hphphp y pensar en términos de un previo para h| y uno para h . La forma de la

función de verosimilitud en (3.6) sugiere que el previo conjugado natural incluirá una distribución

normal para h| y una distribución de gamma para h . A una distribución tal como ésta, que es

un producto de una gamma y una normal, se le denomina una normal-gama, Koop (2003).

),(~| 1VhNh

y

),(~2

vsGh

),,,(~,2

vsVNGh

(3.7)

El investigador podría escoger entonces valores particulares de los llamados hiperparametros

previos , V , 2

s y v para reflejar su información previa.

Se usará la barra bajo el parámetros ( ) para denotar los parámetros de una densidad previa, y la

barra sobre el parámetros ( ) para denotar los parámetros de una densidad posterior.

11

Posterior.

La densidad posterior resume la información a priori y de los datos, que tenemos sobre los

parámetros desconocidos, y h . La densidad posterior es también de la forma normal-gama,

confirmando que la a priori es en realidad una conjugada natural.

Formalmente, tenemos la posterior de la forma, Koop (2003)

),,,(~|,2

vsVNGyh

(3.8)

donde

21

1

ixVV (3.9)

)ˆ( 21

ixVV (3.10)

Nvv (3.11)

y 2

s esta definido implícitamente a través de:

2

2222

1

)ˆ(

ixV

vsvsvs

(3.12)

En el modelo de regresión, el coeficiente de la variable explicativa , que es de interés

fundamental, es una medida de los efectos marginales de la variable explicativa en la variable

dependiente. La media posterior ( | )E y , es un punto de estimación y var( | ) y es usado para la

medida de la incertidumbre asociada con el punto de estimación. Usando las reglas básicas de

probabilidad, la media posterior puede ser calculada como:

( | ) ( , | ) ( | )E p h dhd p d y y y

Esta ecuación motiva el interés sobre la densidad marginal posterior ( | )p y . Puede ser calculado

analíticamente usando las propiedades de la distribución Normal-Gama. En particular, implica

que, si se integra respecto a h (usando el hecho de que ( | ) ( , | )p p h dh y y ), la distribución

marginal posterior para es una distribución t, Koop (2003).

2| ~ ( , , )t s V v y (3.13)

sigue de la definición de la distribución t

( | )E y (3.14)

12

y

2

var( | )2

vsV

v

y (3.15)

La precisión del error h , es usualmente de menos interés que , pero las propiedades de la

normal-gamma implican inmediatamente que, Press (1989):

2| ~ ( , )h G s v

y (3.16)

y por lo tanto

2( | )E h s

y (3.17)

y

22

var( | )s

hv

y (3.18)

El modelo de regresión lineal con el previo conjugado natural normal-gamma es un caso donde la

simulación posterior no es requerida.

Para ver las diferencias entre la econometría Bayesiana y la Clásica tómese en cuenta que este

último podría calcular y su varianza 2 2( )is x , y estimar 2 por 2s . Los Bayesianos calculan

la media y la varianza posterior de por ( y Vv

vs

2

2

) y se estima 2h por su media

posterior, 2

s . Éstas son estrategias muy similares, si no fuera por dos diferencias importantes. En

primer lugar, la fórmula Bayesiana combina la a priori y la información de los datos. En segundo

término, está la interpretación Bayesiana de como una variable aleatoria.

Tomando v relativamente pequeño, N y V valores grandes que asegure que la información previa

juegue un papel pequeño en la fórmula posterior (como (3.9)–(3.12)). Se refiere como un previo

relativamente no informativo.

Se establece un previo no informativo tomando 0v y 0V . Tales elecciones son hechas

comúnmente, e implican que ),,,(~|,2

vsVNGyh

Koop (2003), donde

2

1

ixV (3.19)

13

ˆ (3.20)

Nv (3.21)

22vsvs (3.22)

Que son los resultados de mínimos cuadrados ordinarios.

El previo no informativo tiene propiedades muy atractivas y, dada la relación cercana con los

resultados de MCO, proporciona un puente entre los enfoques Bayesiano y clásico. Sin embargo,

tiene una propiedad indeseable: esta densidad previa no es una densidad válida, pues que hace que

no integre a uno. Tales previos son denominados impropios.

Comparación de modelos.

Si hay dos modelos de regresión simple, 1M y 2M . Estos modelos difieren en sus variables

explicativas. Es decir, jM para 1, 2j está basado en el modelo de regresión lineal simple:

jijiji xy (3.24)

para Ni ,...,2,1 . Las suposiciones acerca de ji y jix son las mismas.

Para los dos modelos, se escribe el previo conjugado natural Normal-gama como, Koop (2003):

),,,(~|,2

jjjjjjj vsVNGMh

(3.25)

los posteriores de la forma:

),,,(~|,2

jjjjjjj vsVNGMh

(3.26)

donde

21

1

jij

jxV

V (3.27)

)ˆ( 21

jijjjjj xVV (3.28)

Nvv j (3.29)

y 2

js esta definido implícitamente a través de:

14

2

2

222

1

)ˆ(

ji

j

jj

jjjjjj

xV

svsvsv

(3.30)

Una herramienta básica en la comparación de modelos Bayesiano es la relación odds posterior:

)()|(

)()|(

22

1112

MpMyp

MpMypPO

El modelo de probabilidades previa, )( iMp para 2,1i , debe ser seleccionada antes de ver los

datos comúnmente se tiene, la elección no informativa 2

1)()( 21 MpMp . La verosimilitud

marginal )|( jMyp , se calcula como:

jjjjjjj dhdhphypMyp ),(),|()|( (3.31)

El modelo de regresión lineal normal con previo conjugado natural en la integral en (3.31) puede

ser calculado analíticamente. Poirier (1995) o Zellner (1971) proporcionan detalles de este

cálculo, que permite escribir:

222

1

)()|(

jv

jj

j

j

jj svV

VcMyp

(3.32)

para 2,1j , donde

2

22

2

)(2

Nj

v

jj

j

jv

svv

c

j

(3.33)

y () es la función gamma.

Al comparar la relación odds posterior 1M y 2M llega a ser, Koop (2003)

)()(

)()(

222

22

2

1

2

2

2

122

11

2

1

1

1

1

12

2

1

MpsvV

Vc

MpsvV

Vc

POv

v

(3.34)

15

La relación odds posterior puede ser usada para calcular los modelos de probabilidades

posteriores )|( yMp j , usando las relaciones:

12

121

1)|(

PO

POyMp

y

12

21

1)|(

POyMp

La relación odds previa )(

)(

2

1

Mp

Mp, es el más alto soporte para 1M . La suma de cuadrados del error

es una medida común del ajuste del modelo, con valores inferiores que indican un ajuste mejor.

Por lo tanto, la relación de desigualdad posterior premia a los modelos, la cual ajustan mejor los

datos. En tercer lugar, la relación odds posterior indicará soporte para el modelo donde hay la

coherencia máxima entre la a priori y la información de los datos (2)ˆ(

jj entre )(2jj sv ).

Finalmente,

1

1

V

V es la relación posterior para varianzas previas.

Bajo la variante no informativa de los previos conjugados naturales ( 0,01

jj Vv ), la

verosimilitud marginal no esta definida y, por lo tanto, la relación odds posterior esta indefinida.

Esto es un problema con el uso de previo no informativo para la comparación de modelos. Sin

embargo, en el contexto presente, una solución común a este problema es poner 21 vv igual a

un número arbitrariamente pequeño y hacer lo mismo con 1

1

V y 1

2

V . También, poner 22

21 ss .

Bajo estas suposiciones, la relación de desigualdad posterior está definida por, Koop (2003):

)()(1

)()(1

222

22

2

1

2

2

122

11

2

1

2

1

12

Mpsvx

Mpsvx

PON

i

N

i

(3.35)

En este caso, la relación de desigualdad posterior refleja sólo la relación de desigualdad a priori,

la bondad relativa del ajuste de los dos modelos, y la relación de los términos que envuelven

21 jix , que refleja la precisión de la posterior para jM .

16

Predicción.

Tenemos la ecuación:

*** xy (3.36)

donde *y no son observados. Aparte de esto, todas las suposiciones de este modelo son iguales

que para el modelo de regresión simple discutidó previamente. Es necesario suponer que *x es

observado.

La predicción Bayesiana está basado en:

dhdyhphyypyyp )|,(),,|()|( **

(3.37)

El hecho de que * es independiente de i implica que y y

*y son independientes el uno del

otro y, por lo tanto ),|(),,|( ** hyphyyp . Los términos dentro de la integral en (3.37)

son )|,( yhp y ),|( * hyp . Usando un razonamiento similar para esto se deriva la función de

verosimilitud

2**

2

1

2

1

* )(2

exp

)2(

),|( xyhh

hyp

(3.38)

Multiplicando (3.38) por la posterior dado en (3.8) e integrando como se describe en (3.37)

produce (Zellner, 1971):

2

)1(

12*22*** )1()()|(

v

xVsxyvyyp (3.39)

Que es una densidad t con media *x , varianza 2*

2

12

xVv

vs

, y grados de libertad v . En

otras palabras,

vxVsxtyy ,1,~| 2*2** (3.40)

Estos resultados pueden ser usados para proporcionar las predicciones y medidas de la

incertidumbre asociadas con el punto de predicción (la desviación estándar predictiva).

Un concepto Bayesianos importantes es el modelo promedio. Al calcular el modelo de

probabilidades posteriores )|( yMp j , para 2,1j . Éstos pueden ser usados para seleccionar un

modelo para trabajar. Sin embargo, no es siempre deseable escoger simplemente un modelo con

17

posterior más alta. El Modelo Bayesiano promedio supone mantener todos los modelos, pero

presenta resultados promedió de los modelos completos. Desde el punto de vista de la

probabilidad, es derivar, Koop (2003):

)|(),|()|(),|()|( 22

*

11

** yMpMyypyMpMyypyyp (3.41)

Con las propiedades del operador del valor esperado, se sigue inmediatamente que:

)|(),|()|(),|()|( 22

*

11

** yMpMyyEyMpMyyEyyE

que puede ser usado para calcular los puntos de predicción promedio sobre los dos modelos. Si

(.)g es cualquier función del interés, entonces el resultado es generalizado a

* * *1 1 2 2( ) | ( ) | , ( | ) ( ) | , ( | )E g y y E g y y M p M y E g y y M p M y

(3.42)

18

Capítulo IV

Modelo de regresión lineal normal múltiple con a priori conjugada natural en

notación matricial

Una discusión detallada del modelo de regresión puede encontrarse en cualquier libro de

econometría (Greene (2000), Gujarati (1995), Hill, Griffiths and Judge (1985), Koop (2000)). Se

tiene una variable dependiente iy , y k variables explicativas, iki xx ,...,1 para Ni ,...,1 . El

modelo de regresión lineal esta dado por

1 2 2 1.... 1 1,2,...,i i k ik i iy x x x para i N (4.1)

Se defines los siguientes vectores Nx1:

1

.

.

.

N

y

y

y

y

1

.

.

.

N

ε

el vector (k x 1)

1

.

.

.

k

β

19

y la matriz de (N x k)

12 1

22 2

2

1 . . .

1 . . .

.

.

.

1 . . .

k

k

N Nk

x x

x x

x x

X

y se escribe

= +y Xβ ε (4.2)

Función de verosimilitud

Los supuestos sobre y X determinan la forma de la función de verosimilitud. Las

generalizaciones son :

1. ε tiene distribución normal multivariada con media N0 y matriz de covarianzas 2N I . Es

decir, 1( , )N NN h 0 I donde

2h .

2. Todos los elementos de X son fijos y si son variables aleatorias, estos son independientes

de todos los elementos de ε con una función de densidad de probabilidad ( | )p X λ , donde

λ es un vector de parámetros que no incluye a ni h .

La matriz de covarianzas de un vector es una matriz que contiene las varianzas en la diagonal y

las covarianzas fuera de esta, esto significa:

1 1 2 1

1 2 2 2

1

var( ) cov( , ) . . cov( , )

cov( , ) var( ) . . cov( , )

var( ) .

.

cov( , ) . . . . var( )

N

N

N N

ε

1

1

1

..00

.

.

0..0

0..0

h

h

h

20

1var( ) Nhε I o 1)var( hi y 0),cov( ji para Nji ,...,1, para ji .

Usando la definición de la densidad normal multivariada, podemos escribir la función de

verosimilitud como:

2

2

( | , ) exp ( ) '( )2

(2 )

N

N

h hp h

y β y Xβ y Xβ (4.3)

Es conveniente escribir la función de verosimilitud desde el punto de vista de las cantidades de

MCO. Éstos son (Green (2000)):

kNv (4.4)

1ˆ ( )β X'X X'y (4.5)

y

2ˆ ˆ( ) '( )

sv

y - Xβ y - Xβ

(4.6)

La función de verosimilitud se escribe como

1

2 22

2

1 ˆ ˆ( | , ) exp ( ) ' ( )2 2

(2 )

v

N

h hvp h h

s

y β h β - β X'X β -β (4.7)

A priori

La a priori para condicional en h tiene la forma, Koop (2003)

1| ~ ( , )h N hβ β V

y un previo para la h de la forma

),(~2

vsGh

entonces la posterior tiene la forma

2, ~ ( , , , )NG s v

β h β V (4.8)

21

es ahora un k vector que contiene las medias previas para los k coeficientes de regresión,

k ,...,1 , y V es ahora una matriz de covarianzas positiva definida k x k. La notación para la

densidad previa es ),,,|,(),(2

vsVhfhp NG

.

Posterior.

Esta se deriva multiplicando la verosimilitud (4.7) por los previos (4.8), produciendo una

posterior de la forma, Koop (2003)

2, | ~ ( , , , )h NG s v

β y β V (4.9)

donde

-1 1( ) V V X'X (4.10)

1 ˆ( )

β V V β X'Xβ (4.11)

Nvv (4.12)

y 2

s está definido completamente por

12 2 2 1ˆ ˆ( ) ' ( ) ( )vs vs vs

β -β V X'X β -β (4.13)

Las expresiones anteriores describen la distribución posterior conjugada. En el caso de la

posterior marginal para , el resultado es una distribución t multivariada, Koop (2003)

2| ~ ( , )t s vβ y β V, (4.14)

y se sigue de la definición de la distribución t que:

( | )E β y β (4.15)

y

2

var( | )2

vs

v

β y V (4.16)

Las propiedades de la distribución normal gama implican inmediatamente esto, Press (1989):

),(~|2

vsGyh

(4.17)

22

y, por lo tanto

2)|(

syhE (4.18)

v

syh

22

)|var(

(4.19)

Para un previo relativamente no informativo, se toma un valor más pequeño para v que N y V un

valor grande. Cuando se trabaja con matrices, la interpretación del término grande no es

inmediatamente obvia. Se toman A y B donde A > B y A, B son matrices cuadradas, A-B es

positiva definida. Una medida de la magnitud de una matriz es su determinante. Por lo tanto,

cuando decimos que A debe ser relativamente más grande que B, quiere decir que A-B debe ser

una matriz positiva definida con un determinante grande.

Se puede crear un previo no informativo tomando 0v y 1V un valor pequeño. No existe una

vía única de hacer esto último. Una vía común es poner 1kc

V I , donde la c es un escalar, y

dejar entonces que c tienda a cero. Si se hace esto se encuentra, Koop (2003)

1( )V X'X (4.20)

ˆβ β (4.21)

v N (4.22)

y

22vssv (4.23)

Todas estas fórmulas suponen información de los datos, y son iguales a las cantidades de mínimos

cuadrados ordinarios.

En cuanto al caso de una variable explicativa, este previo no informativo es impropio y puede ser

escrito como:

hhp

1),( (4.24)

23

Comparación de modelos.

El marco de regresión lineal con k variables explicativas toma en cuenta una gran variedad de

modelos a comparar. Se consideran dos tipos de comparación de modelos. En el primero, los

modelos son diferenciados según las restricciones de desigualdad en el espacio de parámetro. En

el segundo modelo se distinguen por restricciones de igualdad.

Comparación de modelos suponiendo restricciones de desigualdad.

En algunos casos, el interés podría enfocarse en las regiones del espacio de parámetro. Se suponen

las restricciones de desigualdad de la forma:

Rβ r (4.25)

donde R es una matriz conocida Jxk y r es un j-vector conocido. Se supone ( )rango R J . Se

definen dos modelos de la forma, Koop (2003):

1 :M Rβ r

y

2 :M Rβ r

2M significa que uno o más de las restricciones de desigualdad en 1M son violados.

Para los modelos definidos de esta manera, las relaciones odds posterior calculados son

típicamente fáciles, y el uso del previo no informativo no es un problema. Es decir,

112

2

( | ) ( | )

( | ) ( | )

p M pPO

P M p

y Rβ r y

y Rβ r y (4.26)

La posterior para tiene una distribución t multivariada, se sigue que )|( yRp también tiene

una distribución t.

Restricciones de igualdad

Existen dos tipos de modelos a comparar, que caen en esta categoría. El primero, al comparar

1M , que asigna Rβ r para 2M , la cual no tiene esta restricción. En segundo término, comparar

1 1 (1) 1:M y X β ε y 2 2 (2) 2:M y X β ε , donde 1X y 2X son matrices que contiene las variables

24

explicativas completamente diferentes. Se supone que las restricciones de igualdad pueden

escribirse como:

( ):j j j j jM y X β ε (4.27)

donde 2,1j , jy esta definido, jX es un matriz jNxk de variables explicativas, ( )jβ es un jk -

vector de coeficientes de regresión y jε es un N-vector de errores distribuido 1( , )N j NN h0 I .

La a priori normal gamma para los dos modelos es, Koop (2003):

),,,(~|,2

)( jjjjjjj vsVNGMh

(4.28)

para 2,1j . La posterior toma la forma

),,,(~|,2

)( jjjjjjj vsVNGMh

(4.29)

Donde

1 1( ' )j j jj V V X X (4.30)

1 ˆ( ' )j j j jj j j

β V V β X X β (4.31)

Nvv jj (4.32)

y 2

js esta definido implícitamente por

12 2 2 1ˆ ˆ( ) ' ( ' ) ( )j j j j j j j jjj j j jv s v s v s

β β X X β βV (4.33)

2ˆ ,j jsβ y jv son las cantidades de mínimos cuadrados ordinarios.

La verosimilitud marginal es, Poirier (1995) o Zellner (1971) proporcionan detalles de este

cálculo.

1

22

2( | ) ( )

jvj

j jj j j

j

p M c v s

Vy

V (4.34)

para 2,1j , donde

2

22

2

)(2

Nj

v

jjj

jv

svv

c

j

(4.35)

25

Comparando la relación odds posterior 1M para 2M es, Koop (2003)

1

1

1

21 221 11 1

1

12 1

22 222 22 2

2

( ) ( )

( ) ( )

v

v

c v s p M

PO

c v s p M

V

V

V

V

(4.36)

El uso de los previos no informativos para los ( )jβ causan mayores problemas los cuales ocurren

principalmente cuando 21 kk .Cuando 21 kk , la a priori no informativa produce una relación

de desigualdad posterior:

1

22 21 1 1 1 1

121

22 22 2 2 2 2

( ' ) ( ) ( )

( ' ) ( ) ( )

N

N

v s p MPO

v s p M

X X

X X

Esta expresión depende de las unidades de medida.

Intervalos de densidad posterior más altos.

Las técnicas de comparación de Bayes están basadas en la idea de que )|( yMp j resume todo lo

que se conoce y la incertidumbre acerca jM después de ver los datos.

Se definen estos conceptos en el contexto del vector de parámetro en el modelo de regresión

lineal normal. Se supone que los elementos del vector de coeficientes de regresión , puedan

estar en cualquier parte en el intervalo ),( , la cual se denota por kR . Sea )(gw

cierto vector m de funciones de que está definido sobre una región , donde km . Sea C

una región dentro , denotado por C , Koop (2003).

Definición 4.1: Conjuntos creíbles

El conjunto C es un conjunto creíble 100(1-α)% con respecto a )|( ywp si:

1)|()|(C

dwywpyCwp

26

Entonces un intervalo creíble del 95% para j es cualquier intervalo ba, , tal que:

b

a jjj dypybap 95.0)|()|(

Definición 4.2: Intervalos de densidad posteriores más altos (HPDI)

Un intervalo 100(1-α)% de densidad posterior más alto para w es un 100(1-α)% intervalo creíble

para w con la propiedad de que tiene un área más pequeña que cualquier otro 100(1-α)% intervalo

creíble para w.

Es común presentar intervalos de densidad posteriores más altos además de los puntos estimación

al hacer la estimación Bayesiana. HPDI también puede ser usado en una manera ad hoc para hacer

comparación de modelos. Si se consideran dos modelos de regresión lineal normal como en (4.2),

y el interés se centra en decidir si la j-ésima variable explicativa debe incluirse. Así, los dos

modelos en consideración son, Koop (2003)

0: jjM

y

0: jjM

Un HPDI puede ser calculado para j usando las propiedades de la distribución t. Si este HPDI

no incluye el cero, entonces está es la evidencia contra 1M . Un hallazgo que el HPDI incluye el

cero se toma como la evidencia en favor de 1M .

Predicción.

Se supone que se tiene un modelo de regresión lineal normal como en (4.2), con verosimilitud y a

priori dado como en (4.3) y (4.8). La inferencia posterior puede ser llevada a cabo usando (4.9).

Se quiere llevar a cabo la inferencia predictiva sobre T valores que no son observados de la

variable dependiente, que denotamos por * * *1( ,..., ) 'Ty yy , que se genera según

* * * y X β ε (4.38)

donde *ε es independiente de ε y es 1(0, )TN h I y *

X es una matriz Txk análoga a X,

conteniendo k variables explicativas para cada uno de los T datos de la muestra.

27

La predicción Bayesiana esta basado en, Koop (2003)

* *( | ) ( | , , ) ( , | )p p h p h d dh y y y y β β y (4.39)

El hecho de que * es independiente de ε implica que y y *y son independientes y, por lo tanto

* *( | , , ) ( | , )p h p hy y β y β . Este último término puede ser escrito como

2

* * * * *

2

( | , ) exp '2

(2 )

S

S

h hp h

y β y X β y X β (4.40)

Multiplicando (4.38) por la posterior dado en (4.9), e integrando, produce una densidad predictiva

multivariado t de la forma

2* * * *| ~ , ' ,Tt s v

y y X β I X VX (4.41)

Este resultado puede ser utilizado para llevar a cabo la inferencia predictiva en el modelo de

regresión lineal normal con a priori conjugada natural.

28

Capítulo V.

Modelo de regresión lineal normal con a priori independiente normal-gama.

El previo conjugado natural no puede reflejar la información a priori con precisión en una

aplicación particular. Es deseable tener métodos Bayesianos disponibles que usen a otros previos,

en este caso se tiene el modelo de la regresión lineal Normal con una a priori independiente

Normal-gamma.

La función de verosimilitud que será usada es la misma que se ha utilizado anteriormente.

A priori

La a priori es similar, a la utilizada como en la sección anterior, pero se supone la independencia

a priori entre y h . En particular, se supone que ( , ) ( ) ( )p h p p h con )(p siendo Normal

y )(hp siendo Gama, Koop (2003):

)()'(

2

1exp

)2(

1)(

12

1

2

VVpk

(5.1)

y

2

2

2

1

2exp)(

s

vhhchp

v

G (5.2)

donde Gc es la constante de integración para la f.d.p. Gamma. )|( yE es la media a priori

de y los grados de libertad de h son 2

s y v respectivamente. Sin embargo V es ahora

simplemente la matriz de covarianzas a priori de .

29

Posterior

La posterior es, Koop (2003):

22

2

1

2exp

)()()()'(2

1exp)|,(

s

vhh

Vxyxyhyhp

vN

(5.3)

Esta densidad posterior conjunta para y h no toma la forma de una densidad bien conocida y

entendida.

Las condicionales de la posterior son simples, es decir, ),|( hyp puede obtenerse tratando

(5.3) como una función de para un valor fijo de h . Si se hacen las manipulaciones matriciales

similares aquellos usados en la derivación de la posterior para la a priori conjugada natural, Koop

(2003):

QV

Vxyxyh

)()'(

)()()()'(

1

1

donde

11)'(

XhXVV (5.4)

)'(1

yhXVV (5.5)

y

11

'''

VVyhyQ

Ignorando los términos que no involucran a , se puede escribir

)()'(

2

1exp),|(

1 Vhyp

La cual es el núcleo de una densidad Normal, multivariada. En otros palabras,

),(~,| VNhy

),|( yhp se obtiene tratando (5.3) como una función de h . Puede verse que

22

2

)()'(2

exp),|( vsXyXyh

hyhp

vN

30

Comparando con la definición de la densidad Gamma puede verificarse que

),(~,|2

vsGyh

(5.8)

Donde

vNv (5.9)

y

v

vsXyXys

22 )()'(

(5.10)

Densidad Proporción Savage–Dickey

Así como la inferencia posterior no puede hacerse analíticamente, no existe ninguna forma

analítica para la verosimilitud marginal para el modelo de regresión lineal Normal con a priori

independiente Normal-gamma. Es decir, la verosimilitud marginal está dada por

dhdhphypyp ),(),|()(

Donde ),( hp esta dado en (5.1) y (5.2) y ),|( hyp es la verosimilitud dada en (4.3). Si se

multiplica la a priori y la verosimilitud y se intenta trabajar con las integrales en la ecuación

anterior, no es posible resolverlo analíticamente.

Si se toma la versión sin restricción del modelo 2M (tal como ese vio anteriormente), tiene un

vector de parámetros )'','( . La verosimilitud y la a priori para este modelo está dada por

),,|( 2Myp y )|,( 2Mp . La versión restringida del modelo 1M (tal como se vio

anteriormente), tiene 0 donde 0 es un vector de constantes. Los parámetros en son

irrestrictos en cada modelo. La verosimilitud y la a priori para este modelo están dados por

),|( 1Myp y )|( 1Mp . De aquí, es igual a 0 bajo 1M , no se necesita especificar una a

priori para este, Koop (2003).

Teorema 4.1: La Densidad proporción Savage–Dickey.

Se supone que los previos en los dos modelos satisfacen:

)|(),|( 120 MpMp (5.21)

entonces, comparando el factor de Bayes 1M y 2M , tiene la forma

31

)|(

),|(

20

2012

Mp

MypBF

(5.22)

donde ),|( 20 Myp y )|( 20 Mp son posteriores irrestrictas y la a priori para

evaluanda en el punto 0 .

La densidad proporción Savage–Dickey puede ser de gran ayuda para calcular el factor de Bayes.

En primer lugar, la densidad proporción Savage–Dickey involucra sólo a 2M . En (5.22)

involucra sólo las densidades de la a priori y las posteriores y esto es a menudo fácil de

manipular. No es requerido el cálculo directo de la probabilidad marginal.

Regresando al modelo de regresión lineal normal con previo Normal-gamma. Se considera el caso

dónde el modelo restringido, 1M impone 0 . El caso de otras restricciones de igualdad tal

como rR es una extensión simple. El modelo sin restricción 2M , con verosimilitud dada

por (4.3) y una a prior dado por (5.1) y (5.2). El factor Bayes que compara a estos dos modelos

esta dada por, Koop (2003)

)|(

),|(

20

2012

Mp

MypBF

(5.23)

El denominador de esta expresión puede calcularse fácilmente, la a priori marginal para es

Normal. Usando (5.1), el denominador es

)()'(

2

1exp

)2(

1)|( 0

102

1

2

20

VVMpk

(5.24)

El numerador de (5.23) es ligeramente más difícil de evaluar, aunque se conoce ),,|( 2Mhyp

que es Normal, no se conoce a ),|( 2Myp . Usando las reglas de probabilidad y los resultados

del muestreo de Gibbs, ),|( 20 Myp puede estimarse. El muestreo de Gibbs proporciona los

resultados )(s y

)(sh para SSs ,...,10 , y resulta, simplemente promediando

),,|( 2)(

0 Mhyp s por la extracción de )(sh producirá una estimación de

),|( 20 Myp . Es preciso

),|(),,|(1

201

2)(

01 0

MypMhypS

S

Ss

s

(5.25)

32

cuando 1S tiende a infinito. 01 SSS es el número de extracciones retenidos después de

desechar los primeros 0S extracciones. Ya que

)()'(

2

1exp

)2(

1),,|( 0

1

02

1

2

2)(

0

VVMhypk

s (5.26)

Predicción

La inferencia predictiva sobre T valores no observados de la variable dependiente que se denota

por *)'*,...,(* 1 Tyyy , que se genera según:

*** Xy (5.27)

donde * es independiente de y es ),0( 1TIhN

y X* es una matriz Txk análogo a X,

conteniendo el k las variables explicativas para cada uno de los T.

La densidad predictiva es calculada como, Koop (2003)

dhdyhphyypyyp )|,(),,|*()|*( (5.28)

El hecho de que * es independiente de implica que y y y* son independientes entre si y, aquí,

),|*(),,|*( hyphyyp la cual puede escribirse como

)**()'**(

2exp

)2(

),|*(

2

2

XyXyhh

hypT

T

(5.29)

Con la a priori conjugada natural, la integral en (5.28) podría resolverse analíticamente y la

densidad predictiva es una densidad t multivariada. Con un previo Normal-gamma independiente

este integral no puede resolverse analíticamente. No obstante, los métodos de la simulación

permiten hacer la inferencia predictiva.

Cualquier predictiva de características de interés puede escribirse en la forma yygE |*)( para

alguna función (.)g . Así el interés se centra en calcular:

*)|*(*)(|*)( dyyypygyygE (5.30)

33

El vector de parámetro y tendrá la forma

dypgygE )|()(|)( (5.31)

para algún )(g . Salvo el reemplazo de por *y (5.30) es idéntico a (5.31). Además, las

discusiones de la integración Monte Carlo y muestreo de Gibbs mostraron que, si )(s para

Ss ,...,2,1 son extracciones de la posterior, entonces

S

s

sgS

Sg1

)( )(1

ˆ

convergerá a ygE |)( cuando S incrementa, Raftery, Lewis (1996). Esto sugiere que, se puede

encontrar )(* sy para Ss ,...,2,1 la cual son extracciones de )|*( yyp , entonces

S

s

sygS

Yg1

)( )*(1

ˆ (5.32)

Convergerá a yygE |*)( .

34

Capítulo VI

Modelo de Regresión Lineal con Matriz de Covarianzas de Errores

Generales

Volvemos al modelo de la regresión lineal.

y Xβ ε (6.1)

en la sección anterior se supuso que 1( , )N NN hε 0 I . Esta afirmación es la combinación de

muchas suposiciones. El supuesto de que los errores tienen media cero es inocuo. Si un modelo

tiene los errores con media diferente de cero, éste se incorpora en el intercepto. Es un nuevo

modelo, que es idéntico al anterior salvo por el intercepto, la cual puede ser creado y tiene media

cero en los errores. Sin embargo, el supuesto de que la matriz de covarianzas de los errores es

NIh 1 no podría ser inocuo en muchas aplicaciones.

Modelo con Matriz de Varianzas y Covarianzas general Ω

Todos los modelos en este capítulo están basados en (6.1) y los siguientes supuestos:

1. tiene una distribución normal multivariada con media N0 y matriz de covarianzas 1h Ω

donde Ω es una matriz positiva definida NxN.

2. Todos los elementos de X son fijos o, si son variables aleatorias son independientes de todos

los elementos de con una función de densidad de probabilidad, )|( Xp donde es un

vector de parámetros que no incluyen y h .

Si es una matriz definida positiva de orden N x N, entonces, existe una matriz P de orden N x

N tal que NIPP ' . De forma que si se multiplica ambos lados de (6.1) por P, se obtiene el

modelo transformado

*** Xy (6.2)

donde Pyy * , PXX * y P* . Donde * 1(0 , )N NN h I . Ahora, el modelo

transformado dado en (6.2) es idéntico al modelo de regresión lineal Normal. Esto tiene dos

implicaciones importantes. Primero, si es conocido, el análisis Bayesiano del modelo de

regresión lineal Normal con matriz de covarianzas del error no escalar es simple. Segundo, si

35

es desconocido, (6.2) sugiere métodos para el cómputo Bayesiano. Es decir, condicionando en ,

(6.2) implica que las posteriores de y h serán de la misma forma que se han manejado en los

capítulos anteriores y, ahora, estos resultados pueden usarse para derivaciones que relacionan a

y h .

Función de Verosimilitud

Utilizando las propiedades de la distribución Normal multivariada, la función de probabilidad

para y está dada por:

)()'(

2exp

)2(

),,|( 12

1

2

2

XyXyhh

hypN

N

(6.3)

o, en términos de los datos transformados,

)**()'**(

2exp

)2(

),,|*(

2

2

XyXyhh

hypN

N

(6.4)

Aquí una derivación idéntica usando los resultados del modelo transformados produce una

función de verosimilitud escrita en términos de las cantidades de mínimos cuadrados

generalizados (MCG) Gujarati (1995), esto es, como

kNv (6.5)

yXXXyXXX 1111 ')'(**'*)*'()(ˆ (6.6)

y

v

XyXy

v

XyXys

))(ˆ())'(ˆ(

))(ˆ**())'(ˆ**()(

1

2

(6.7)

entonces

2

1( | , , )

(2 )N

p y h

36

1

12 ˆ ˆexp ( ( )) ' ' ( ( ))2

hh X

(6.8)

2

2exp

2 ( )

vhv

hs

A Priori

Usando a un previo Normal-gama independiente para y h , y la notación general )(p , para

indicar el previo para . Entonces, el previo usado en esta sección es

)()()(),,( phpphp

donde

),|()( Vfp N (6.9)

y

),|()(2

svhfhp G (6.10)

Posterior

La posterior es de la forma

22

2

1

2exp

)'()'()**()'**(2

1exp

)(),,(

s

vhh

VXyXy

php

vN

(6.11)

Esta posterior está escrita basada en la función de verosimilitud expresada como en (6.4).

Tambien pueden escribirse las expresiones basadas en (6.3) o (6.8), sin embargo, no se hace esto,

ya que esta densidad posterior conjunta para , h y no toma la forma de cualquier densidad

conocida y no puede usarse directamente en una manera simple para la inferencia posterior. La

posterior de , condicional en los otros parámetros del modelo es normal multivariada.

37

),(~,,| VNhy (6.12)

donde

111)'(

XhXVV (6.13)

y

))(ˆ'( 11

XhXVV (6.14)

La posterior para h condicionada en los otros parámetros es el modelo Gama:

),(~,,|2

vsGyh

(6.15)

donde

vNv (6.16)

y

v

vsXyXys

212 )()'(

(6.17)

La posterior para condicionada en y h tiene un núcleo de la forma

)()'(2

exp)(),,|( 12

1

XyXyh

phyp (6.18)

En general, esta posterior condicional no toma, fácilmente, alguna forma conocida.

Heteroscedasticidad

La Heteroscedasticidad ocurre cuando las variaciones del error difieren a través de las

observaciones. Todos los modelos en los capítulos anteriores tenían variaciones de los errores que

eran idénticos a través de las observaciones, a este hecho se le conoce como homoscedasticidad.

Por lo que se refiere al modelo de regresión, la heteroscedasticidad ocurre si

38

N

0.0.0

.

.

0..0

0..0

2

1

(6.19)

El modelo de la regresión lineal Normal con errores heteroscedasticos es idéntico al estudiado en

los temas anteriores, sólo que ahora se supone que la ii h 1)var( para Ni ,...,2,1 .

Se asume que

),( ii zh (6.20)

donde )(h es una función positiva la cual depende de los parámetros y un p-vector de datos

iz . iz pueden incluir algunas o todas las variables explicativas ix . Una elección común para

)(h , la cual asegura que las variaciones del error sean positivas es:

22211 )...1(),( ippiii zzzzh (6.21)

El previo, la verosimilitud y la posterior para este modelo son aquellos de la Sección 6.2 con la

expresión dada en (6.19).

Para llevar a cabo la inferencia Bayesiana en el modelo de heteroscedasticidad, se requiere la

simulación posterior.

Heteroscedasticidad de forma desconocida: Con errores t-student

La pregunta surge acerca de cómo proceder si se sospecha que la heteroscedasticidad está

presente, pero de forma desconocida. En otras palabras, uno está deseando asumir (6.19), pero es

inapropiado suponer una forma funcional como en (6.20). Con N observaciones y N + k + 1

parámetros a estimar (es decir , h y )',...,( 1 N ).

El método desarrollado para este caso es importante por dos razones. Primero, el método

involucra el uso de un previo jerárquico. Los previos jerárquicos han jugado un papel importante

en muchos desarrollos recientes de la teoría estadística Bayesiana y cada vez se vuelven más

39

populares en la econometría. Segundo, este modelo también permite introducir conceptos que

relacionan al modelado econométrico flexible y, en particular, permite la libre suposición de

errores Normales.

Se empieza tomando )(p , el previo para el vector N-dimensional . Es conveniente trabajar

con las precisiones del error en lugar de las variaciones y, aquí, se define

)',...,,()',...,,( 112

1121

NN . Si se considera el previo para , como:

N

iiG vfp

1

),1|()( (6.22)

El previo para depende sobre los hiperparametros v , que es seleccionado por el investigador

y supone que cada i viene de la misma distribución. En otras palabras, (6.22) implica que los i

son extracciones independientes e idénticamente distribuidos (i.i.d.) de la distribución Gamma.

Este supuesto es necesario con los problemas causados por la alta dimensión de . Si se trata

N ,...,1 con N parámetros completamente independientes y sin restricción, no se tendrán

bastantes observaciones para estimar cada uno de ellos. La ecuación (6.22) pone alguna estructura

que permite la estimación. Esto permite que todas las variaciones del error sean entre si diferentes,

pero todos ellos son extracciones de la misma distribución.

Este modelo, con verosimilitud dada por (6.3) y previo dado por (6.9), (6.10) y (6.22) es

exactamente el mismo como el modelo de la regresión lineal con errores independientes e

idénticamente distribuidos (i.i.d.) t student con v grados de libertad. En otras palabras, se

empieza suponiendo

),,0|()( 11 vhfp ii

(6.23)

para Ni ,..,1 , al derivar la verosimilitud y al usar (6.9) y (6.10) como previos para , h

respectivamente.

La distribución t-student es similar a la Normal, pero tiene más probabilidad en los extremos y es

más flexible. De hecho, la distribución Normal es un caso especial de la distribución t de student

40

la cual ocurre cuando v . Así, se tiene un modelo que permite una distribución del error

más flexible.

La discusión anterior supuso que v era conocido. En la práctica, ésto no sería normalmente un

supuesto razonable, y es deseable tratarlo como un parámetro desconocido. En el marco

Bayesiano, cada parámetro requiere una distribución previa y, se usará la notación general

)( vp . Note que, si se hace esto, el previo para se especifica en dos pasos, el primer es (6.22),

el otro es )( vp . El previo puede escribirse como )()|( vpvp . Los previos escritos en

dos (o más) pasos, de esta manera, son llamado previos jerárquicos. Escribir el previo como un

previo jerárquico es a menudo una manera conveniente de expresar la información anterior. Sin

embargo, se enfatiza el aspecto de conveniencia de los previos jerárquicos. No es necesario usar a

un previo jerárquico, puesto que las leyes de probabilidad implican que cada previo jerárquico

puede escribe en un modo no jerárquico. En el caso presente, el resultado

dvvpvpp )()|()( podría usarse para derivar la versión no jerárquica del previo para

.

La media y la desviación estándar no existen para todas las funciones de densidad de probabilidad

válidas. En particular, Geweke (1993) muestra que si se utiliza a un previo no informativo común

para (es decir 1)( p en el intervalo ),( ), entonces la media posterior no existe, a

menos que )( vp sea cero en el intervalo 2,0 . La desviación estándar posterior no existe a

menos que )( vp sea cero en el intervalo 4,0 .

41

Capitulo VII

Calculo Bayesiano

Integración Monte Carlo.

El algoritmo más simple para hacer la simulación posterior se llama integración Monte Carlo. En

el contexto del modelo de regresión lineal normal, el teorema básico de la integración de Monte

Carlo, puede escribirse como, Raftery, Lewis (1996):

Teorema 7.1: Integración Monte Carlo.

Sea )(s para Ss ,...,1 una muestra aleatoria de )|( yp , y se define

S

s

sgS

sg1

)( )(1

ˆ (7.1)

entonces sg converge a ygE |)( cuando S tiende a infinito.

La integración Monte Carlo puede ser utilizada para aproximar ygE |)( , pero sólo si la S

tiende a infinito el error de aproximación tiende a cero.

Teorema 7.2: Error estándar numérico

Usando la definiciones de teorema 7.1,

2ˆ ( ) | (0, )gS gs E g y N cuando S

donde ygg |)(var2 .

El Teorema 7.2, es usado para obtener una estimación del error de aproximación. Utilizando las

propiedades de la distribución normal el resultado aproximado es:

95.096.1|)(ˆ96.1Pr

SygEsg

S

gg

El término S

g es conocido como el error estándar numérico, y es una medida del error de

aproximación.

42

Pasos para la integración Monte Carlo:

Paso 1: Tome una muestra aleatoria, )(s de la posterior para dado en (3.14) usando

un generador de número aleatorio para la distribución t multivariada.

Paso 2: Calcule )( )(sg y mantenga este resultado.

Paso 3: Repita los pasos 1 y 2, S veces.

Paso 4: Tome el promedio de las S muestras )(),...( )()1( Sgg .

La integración Monte Carlo produce sólo una aproximación para ygE |)( . Sin embargo,

escogiendo S, se puede controlar el grado del error de aproximación. Además, podemos obtener

una medida numérica del error de aproximación usando el Teorema Central del Límite. En

particular, se obtiene, Raftery, Lewis (1996)

2ˆ ( ) | (0, )gS gs E g y n (7.2)

cuando S tiende a infinito, donde ygg |)(var2 . Usando esta estimación, (7.2) y las

propiedades de la densidad normal se puede escribir:

95.0ˆ

96.1|)((ˆˆ

96.1|)((Pr

S

yygEsgS

yygEgg

(7.3)

Arreglando (7.3) se encuentra un intervalo de confianza aproximado del 95% para yygE |)((

de la forma ˆ ˆ ˆ ˆ1.96 , 1.96g ggs S gs S

. Se puede presentar éste como una medida

de exactitud de la estimación de yygE |)(( o para usarlo como una guía para escoger S.

Alternativa, el error estándar numérico ˆg S , puede ser reportado como conteniendo la misma

información en una forma más compacta.

Muestreo de Gibbs

El muestreo de Gibbs es una herramienta poderosa para la simulación posterior la cual es usada en

muchos modelos econométricos. Temporalmente, se adopta la notación general, dónde es un p-

vector de parámetros y )|( yp , )(p y )|( yp son la verosimilitud, la a priori y la posterior,

respectivamente. En el modelo de regresión lineal, 1 kp y )','( h . Además, se divide

43

en varios bloques como ),...,( '

)(

'

)1( B dónde )( j es un escalar o vector, Bj ,...,2,1 . En el

modelo de la regresión lineal, es conveniente poner B=2 con )1( y h)2( .

En muchos modelos no es fácil extraer directamente de )|( yp . Sin embargo, es a menudo mas

fácil extraer aleatoriamente de (1) (2) ( )( | , ,..., )Bp y , (2) (1) (3) ( )( | , , ..., )Bp y ,..., ( ) (1)( | ,Bp y ...

( 1) )B . Las distribuciones precedentes son llamadas las distribuciones posteriores condicionales

completas, puesto que ellas definen una posterior para cada bloque condicional en todos los otros

bloques. En el modelo de regresión normal con previo independiente Normal-Gamma, ),|( hyp

es normal y ),|( yhp es gamma. El resultado de extraer de la condicional completa producirá

una sucesión )()2()1( ,...,, S la cual puede promediarse para producir estimaciones de

ygE |)( de la misma manera que con la integración Monte Carlo, Raftery, Lewis (1996).

El muestreo de Gibbs será escrito para el caso de dos bloques. Formalmente, el muestreo de Gibbs

involucra los siguientes pasos:

Paso 0. Seleccionar un valor inicial )0( . Para Ss ,...,2,1 :

Paso 1. Tomar una extracción aleatoria, )(

)1(

s de )1(

)(

)1(

)3(

)1(

)2()1( ,...,,,| s

B

ssyp .

Paso 2. Tomar una extracción aleatoria, )(

)2(

s de )1(

)(

)1(

)3(

)(

)1()2( ,...,,,| s

B

ssyp .

.

.

.

Paso B. Tomar una extracción aleatoria, )(

)(

s

B de )(

)1(

)(

)2(

)(

)1()( ,...,,,| s

B

ss

B yp .

Siguiendo estos pasos producirán un conjunto de S extracciones, )(s para Ss ,...,2,1 . Después

de dejar los primeros 0S eliminando el efecto )0( , las restantes extracciones 1S pueden

promediarse para crear estimaciones de características posteriores de interés. Esto es, la

integración Monte Carlo, la ley débil de los grandes números puede ser invocada para decir que,

si ( )g es una función de interés y

)(1

ˆ1

)(

1

1

0

S

Ss

sgS

sg (7.4)

44

Entonces 1ˆsg converge a ygE |)( cuando

1S tiende a infinito, Zellner, Min (1995).

En el modelo de regresión normal lineal con a priori independiente Normal-gamma, ),|( hyp

es Normal y ),|( yhp es Gamma. Esto sugiere que el bloque mencionado previamente, con

)1( y h)2( es natural. El muestreo de Gibbs involucra extracciones secuencialmente

obtenidas de las distribuciones, normales y gamas usando (5.7) y (5.8).

Cualquier acercamiento de la simulación posterior como el muestreo de Gibbs nos proporciona

1ˆsg que es una estimación de ygE |)( . Escogiendo S suficientemente grande, el error de

aproximación implícito en la estimación puede hacerse tan pequeño como las necesidades del

investigador.

Diagnósticos Cadenas de Markov Monte Carlo

El hecho de que el estado del muestreo de Gibbs en s extracciones ()(s ) depende sobre su estado

anterior s -1 ()1( s ) significa que la sucesión es una cadena de Markov.

Hay muchos otros simuladores posteriores que tienen esta propiedad. Tales simuladores

posteriores tienen el nombre general de algoritmos Cadena de Markov Monte Carlo (MCMC),

Gilks (1996).

El primer diagnóstico de MCMC es el error estándar numérico, que se deriva a través del uso del

Teorema Central del Límite. Brevemente, bajo las condiciones necesarias el muestreo de Gibbs

para converger a una sucesión de extracciones de )|( yp , se obtiene un Teorema Central del

Límite de la forma familiar:

),0(|)(ˆ2

11 gNygEsgS (7.5)

cuando 1S tiende a infinito. Sin embargo, 2g tiene una forma más complicada que en (7.3).

Intuitivamente, 2g tiene que compensar el hecho de que )(s para Ss ,...,2,1 es una sucesión

correlacionada. Geweke (1992) usa esta intuición para extraer las ideas de la literatura de series de

tiempo para desarrollar una estimación 2g de la forma

45

1

2 )0(ˆ

S

Sg (7.6)

La justificación para esta estimación es informal, pero trabaja bien en la práctica. Es así posible

calcular un error estándar numérico 1ˆg S .

Geweke (1992) sugiere otro diagnostico basado en la intuición que, si un numero suficientemente

grande de extracciones han sido tomados, el estimador de )(g basado en los primera mitad de

las extracciones, será esencialmente el mismo que la estimación sobre la ultima mitad. Si estas

dos estimaciones son muy diferentes, indica que muy pocas extracciones han sido tomadas o que

el efecto de la extracción inicial )0( no ha terminado y ha estado contaminando la estimación que

usa las primeras extracciones. Más generalmente, si se divide las S extracciones del muestreo de

Gibbs en un 0S inicial las cuales son desechadas como repeticiones consumidas y las extracciones

restantes 1S qué son incluidas. Estas últimas extracciones están divididas en un conjunto de

AS

extracciones, un conjunto medio de BS extracciones y el último conjunto de CS extracciones. Es

decir, se tiene )(s para Ss ,...,2,1 que esta dividido en los subconjuntos como

0 01,..., , 1,..., As S S S S , 0 01,....,A A BS S S S S , 0 01,...,A B A B CS S S S S S S . En la

práctica, se ha encontrado que colocando 11.0 SSA , 15.0 SSB y 10.4cS S trabajan bien en

muchas aplicaciones. Para los propósitos de calcular el diagnóstico MCMC, caen afuera medio

conjunto de las BS y hace probable que la primera extracción y la última sean independiente entre

si. Sea ASg y CSg los estimadores de ygE |)( usando las primeras repeticiones de AS

después del burn-in y las ultimas repeticiones de CS , respectivamente, usando (5.11). Se define

ˆA AS y ˆC CS que son los errores estándares numéricos de estas dos estimaciones.

Entonces el teorema central del limite análogo a (5.12) puede ser invocado como

)1,0(NCD

Donde CD es el diagnostico de convergencia dado por

C

C

A

A

CA

SS

SgSgCD

ˆˆ

ˆˆ

(7.7)

46

En una aplicación empírica que involucra el muestreo de Gibbs, este diagnóstico de convergencia

puede calcularse y compararse con los valores de tablas de una normal estándar. Los valores

grandes de CD indican que ASg y CSg son bastante diferentes entre si y, de, que no ha tomado

bastantes repeticiones. Si el diagnóstico de convergencia indica que un número suficientemente

grande de extracciones ha sido tomado, entonces los resultados finales pueden ser calculados

basados sobre el conjunto completo de 1S extracciones.

Es probable que los diagnósticos de MCMC anteriores sean bastante informativos evaluando, si el

muestreo de Gibbs está trabajando bien y si se ha tomado un número suficientemente grande de

repeticiones para lograr el grado deseado de exactitud. Sin embargo, no son seguros y, en algunos

modelos, raros, es posible que los diagnósticos de MCMC indiquen que todos estén bien cuando

ellos no lo están. Los errores estándares numéricos pueden parecer razonables, el diagnóstico de

la convergencia en (5.14) puede indicar que la convergencia se ha alcanzado, pero en la realidad

todos los resultados estarían perdidos.

Un segundo caso es cuando el muestreo de Gibbs produce resultados engañosos y los diagnósticos

de MCMC no advierten del problema cuando las repeticiones iniciales )0( , está sumamente lejos

de la región del espacio del parámetro donde la mayoría de las probabilidad posteriores están. Si

el grado de correlación en la extracción de Gibbs es muy alto, se toma un número grande de

extracciones para el muestreo de Gibbs y así mover hacia la región de probabilidad posterior más

alta. En la mayoría los casos, el diagnóstico de convergencia CD tomará este problema, ya que

ASg y CSg tienden a ser diferente entre sí cuando el muestreo de Gibbs se mueve gradualmente

lejos de )0( , pero en algunos casos no se puede.

Sea ),0( i para mi ,...,2,1 , m denotan valores iniciales la cual son tomados de regiones muy

diferentes del espacio de parámetro. Sea ),( is para Ss ,...,2,1 , S la extracción del muestreo de

Gibbs del i-ésimo valor inicial y sea )(

1ˆ

i

Sg la correspondiente estimación de ygE |)( usando

(5.11). Si el efecto del valor inicial ha estado alejado, cada una de estas m sucesiones debe ser la

mismo entre si. La variación calculada por las sucesiones no debe ser relativamente grande a la

variación dentro de una sucesión. Una estimación común de la varianza de una secuencia es, Gilks

(1996)

47

2

1

)(),(

1

2

01

ˆ)(1

1

S

Ss

iS

isi gg

Ss (7.8)

qué es llamado la variación dentro de la sucesión. Se define ahora

m

iiS

mW

1

21 (7.9)

Similarmente, puede mostrarse que la variación entre la sucesión puede estimarse por

m

i

iS

ggm

SB

1

2)(1 )ˆˆ(1 1

(7.10)

donde

m

i

iS

gm

g1

)(

1ˆ

1ˆ (7.11)

W es una estimación de var g(q) | y . Puede mostrarse que

BS

WS

Syg

11

1 11|)(var

(7.12)

también es una estimación de var g(q) | y . Sin embargo, si el muestreo de Gibbs no ha alcanzado

la convergencia entonces W subestimará var g(q) | y .

Así, una convergencia de MCMC normalmente presenta el diagnóstico:

W

ygR

|)(varˆ

(7.13)

tiende a ser mayor que uno, con valores cercanos a uno indica que el muestreo Gibbs ha

convergido con éxito. R es llamada la reducción de escala potencial estimada.

48

Calculo Bayesiano para Heteroscedasticidad.

El desarrollo del muestreo de Gibbs para el análisis posterior de ,, h y v , requiere la

derivación de las distribuciones posteriores condicionales completas de estos parámetros. Ya se

han derivado algunos de éstos en (6.12) y (6.15), respectivamente. El interés se enfoca en

),,,|( vhyp y ),,,|( hyvp . Se deriva el previo dado (6.22) en la forma general para

la posterior condicional dado en (6.18). Un reexamen de la densidad resultante muestra que los i

son independientes entre si (condicional en los otros parámetros del modelo) y cada una de las

posteriores condicionales para i tiene la forma de una densidad Gamma. Formalmente Geweke

(1989), se tiene.

N

ii vhypvhyp

1

),,,|(),,,|( (7.14)

y

1,

1|),,,|(

2

v

vh

vfvhyp

i

iGi (7.15)

El previo para v en su forma precisa no tiene ninguna relevancia para la posterior condicionada

para los otros parámetros. Sin embargo, la forma )( vp y el efecto ),,,|( hyvp aquí, se

deben especificar. Como se tiene 0v , se usa una distribución exponencial para el previo.

Como se nombra en el Apéndice I, la densidad exponencial simplemente es la Gamma con dos

grados de libertad. Se escribe

)2,|()( vvfvp G (7.16)

Otros previos pueden ocuparse con pequeños cambios en el algoritmo de simulación posterior

siguiente. ),,,|( hyvp es relativamente fácil de derivar, dado que v no entra en la

verosimilitud y puede confirmarse que )|(),,,|( vphyvp . Siguiendose del teorema

de Bayes que

)()|()|( vpvpvp

y así, el núcleo de la condicional posterior de v simplemente es (6.22) veces (6.26). Así, se

obtiene, Gilks (1996)

49

2( | , , , ) exp( )

2 2

NvN

v vp v y h v

(7.17)

donde

N

iiiIn

v 1

1 )(2

11

Siendo ésta una densidad impropia.

Para muchas hipótesis (por ejemplo 0j ) la densidad proporción Savage–Dickey puede

usarse para la comparación de modelos. Sin embargo, no todas las hipótesis son fácilmente

calculadas usando la proporción Savage–Dickey.

Alternativamente, los valores p posteriores predictivos y HPDI pueden calcularse para el ajuste y

adecuación del modelo. La inferencia Predictiva en este modelo puede llevarse a efecto usando la

estrategia utilizada en el Capítulo 4.

50

Capitulo VIII.

Ejemplos y Discusión.

En este capitulo se llevará acabo el análisis de dos conjuntos de datos, el primero de ellos

corresponde a un modelo con datos tomados del libro de Gujarati (1995). El segundo de ellos es

para el problema de heteroscedasticidad, tomado del libro de Salvatore (1982).

Para el método clásico todos los problemas se resolvieron con SPSS (statistical packet for social

science) y para el enfoque Bayesiano se utilizo MATLAB versión 5.3, con la ayuda de las rutinas

de LeSage (1999) que se encuentran en la página: www.spatial-econometrics.com, de la cual se

tomaron algunas de estas para calcular los estimadores.

MATLAB es un programa muy utilizado por los Bayesianos, además existen ya rutinas

programadas para resolver problemas específicos, los cuales se invocan desde el programa

principal.

Para ejecutar las rutinas de LeSage, es necesario primero descargar los archivos y crear una

carpeta para incluirlas ahí. Después se llaman de MATLAB por la siguiente instrucción:

cd C:\Matlab

Quiere decir que la carpeta esta en el disco C, con el nombre de Matlab. Ya estando cargada la

carpeta, entonces se ejecuta el programa que esta al final del documento.

http://www.spatial-econometrics.com/

51

Ejemplo 1

Desembolsos del presupuesto de defensa de los Estados Unidos, 1962-1981. Con el fin de

explicar el presupuesto de defensa de los Estados Unidos, se considera el siguiente modelo:

4433221 XXXY

Donde:

Y = Desembolsos del presupuesto de defensa, US$ miles de millones.

2X = PNB, US$ miles de millones.

3X = Ventas militares US$ miles de millones.

4X = Ventas de la industria aeroespacial, US $ miles de millones.

Cuadro 1. Desembolsos del presupuesto de defensa de los EU.

Año

Desembolsos del

presupuesto de Defensa. PNB

Ayudas militares de los

EU / ayuda

Ventas industriales

aeroespacial

1962 51.1 560.3 0.6 16

1963 52.3 590.5 0.9 16.4

1964 53.6 632.4 1.1 16.7

1965 49.6 684.9 1.4 17

1966 56.8 749.9 1.6 20.2

1967 70.1 793.9 1 23.4

1968 80.5 865 0.8 25.6

1969 81.2 931.4 1.5 24.6

1970 80.3 992.7 1 24.8

1971 77.7 1077.6 1.5 21.7

1972 78.3 1185.9 2.95 21.5

1973 74.5 1326.4 4.8 24.3

1974 77.8 1434.2 10.3 26.8

1975 85.6 1549.2 16 29.5

1976 89.4 1718 14.7 30.4

1977 97.5 1918.3 8.3 33.3

1978 105.2 2163.9 11 38

1979 117.7 2417.8 13 46.2

1980 135.9 2633.1 15.3 57.6

1981 162.1 2937.7 18 68.9

Fuente: Los datos fueron colectados por Albert Lucchino a partir de diversas publicaciones

gubernamentales.

52

Mínimos cuadrados ordinarios

En los cuadros 2 y 3 se muestran los resultados de mínimos cuadrados ordinarios. En el Cuadro 2,

el modelo es estadísticamente significativo con un 05.0 . En el Cuadro 3, los coeficientes de

regresión son significativos a un nivel de 05.0 , excepto la variable: ayudas militares de los

EEUU. Con un coeficiente de determinación de R2 = 0.97.

Cuadro 2. Análisis de Varianza

Suma de

cuadrados

Grados de

Libertad

Cuadrados

medios

F Valor

critico de F

Regresión 15493.17 3.00 5164.39 179.13 0.00

Residuos 461.28 16.00 28.83

Total 15954.45 19.00

Cuadro 3. Coeficientes de regresión.

Valor estimado Desv. Estándar t Valor Critico

Constante 22.775 3.312 6.877 0.000

PNB 0.017 0.007 2.380 0.030

Ayudas -0.696 0.454 -1.533 0.145

Ventas 1.468 0.278 5.287 0.000

En la Figura 1, se observa que existe un buen ajuste del modelo a los datos. En la Figura 2, los

residuales no siguen algún patrón característico (no tienen alguna tendencia), entonces se dice que

son independientes.

Figura 1. Valores actuales contra los valores predichos y residuales. Reales vs Ajustados

45

65

85

105

125

145

165

1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981

Año

Miles

de m

illone

s de U

S$

Reales Ajustados

53

Figura 2. Gráfica de residuales. Residuales

-10

-8

-6

-4

-2

0

2

4

6

8

10

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Año

Modelo de Regresión lineal normal con a priori no informativa y a priori informativa

Estos resultados posteriores basados en la a priori no informativa son calculados usando (3.19)-

(3.22). Los resultados son iguales para ambos enfoques debido a que para el enfoque Bayesiano

con a priori no informativa, produce resultados similares a los de mínimos cuadrados ordinarios

del enfoque clásico, como se muestra en el Cuadro 4.

Cuadro 4. Medias posteriores para .

En el Cuadro 5, )|0( yp j usa (3.13) y las propiedades de la distribución t-student para

calcular la probabilidad de que cada coeficiente sea positivo. Esta tabla indica que )|0( yp j

tiene probabilidad igual a uno para j=0,3, además para 1 su probabilidad es muy cercano a uno

y ninguno de los anteriores HPDI del 95 % contiene al cero. Sin embargo el parámetro 2 tiene

una probabilidad muy baja, quiere decir que su HPDI contiene al cero además, en el parámetro

1 con un HPDI del 99 % si contiene al cero. Los HPDI pueden ser usados para realizar pruebas

de restricciones de igualdad.

Posterior DS

0 22.7751 3.1223

1 0.0167 0.0066

2 -0.6962 0.428

3 1.4677 0.2617

54

Cuadro 5. Comparación de modelos envolviendo .

)|0( yp j 95 % HPDI 99 % HPDI

0 1 16.5964 28.9539 14.347 31.2032

1 0.9925 0.0036 0.0298 -0.0012 0.0346

2 0.0509 -1.5432 0.1508 -1.8515 0.4592

3 1 0.9498 1.9857 0.7612 2.1742

Si ahora consideramos que los valores para los hiperparametros previos 4v y 30/12s y

0

3

1

4

β

Con la a priori conjugada natural, se tiene

var( ) = Vβ

entonces,

100 0 0 0

0 2.25 0 0

0 0 .25 0

0 0 0 4

V

En Cuadro 6, se presentan los resultados posteriores con a priori informativa, estos son

calculados usando (3.9)-(3.12). Se observa en este caso, que las desviaciones estándar para cada

parámetro son menores que en el caso del uso de una distribución no informativa. Además indica

que ( 0 | )jp y es uno para j=0,3 y sus HPDI no contienen al cero.

La relación odds posterior comparó 1 2: 0 : 0j jM y M para j=0,3, donde son muy

pequeños, indican que el modelo sin restricciones recibe mas probabilidad que el modelo

restringido. Para j=2, la incertidumbre es reflejada en la relación odds posterior la cual indica que

el modelo restringido es 1.1795 veces el modelo sin restricción.

Cuadro 6. Resultado posteriores con a priori informativa

Posterior DS Probpos HPDI 95 % HPDI 99 % Postodds

0 22.6533 2.8426 1 17.0362 28.2705 15.0412 30.2655 0

1 0.0168 0.006 0.9962 0.0049 0.0287 0.0007 0.0329 32.6758

2 -0.7099 0.3862 0.0334 -1.473 0.0531 -1.744 0.3241 1.1795

3 1.4699 0.2393 1 0.9969 1.9428 0.829 2.1108 0

55

El Cuadro 7, presenta las a priori y los resultados posteriores para las a priori informativas y no

informativas, además se incluyen los resultados producidos por el acercamiento clásico, confirmo

que la a priori es relativamente no informativa dado que los resultados posteriores basados en la

a priori informativa son un similares a los resultados producidos con la a priori no informativa.

Debido a que se utilizo un v0=4 (los grados de libertad a priori) y con esto le damos poco peso a

la distribución a priori, sin embargo se gana mas precisión al tener las desviaciones estándar más

pequeños.

Cuadro 7. Coeficientes de y desviaciones estándar.

A priori Posterior

Informativa Est. Clasicos A priori no informativa A priori informativa

0 0 22.775 22.775 22.653

10 3.312 3.122 2.843

1 3 0.017 0.017 0.017

1.5 0.007 0.007 0.006

2 -1 -0.696 -0.696 -0.710

5 0.454 0.428 0.386

3 4 1.468 1.468 1.470

2 0.278 0.262 0.239

En el Cuadro 8, se muestran las precisiones h posteriores y la varianza estimada del acercamiento

clásico donde se encuentra una ligera ganancia en los estimadores Bayesianos, debido a que se

tomo una a priori relativamente informativa. Los estimadores Bayesianos son más eficientes, de

ahí su justificación, de por que sus desviaciones estándar son menores que los clásicos.

Cuadro 8. Propiedades posteriores de h y de

a priori

informativa

a priori no

informativa

Clásico

Media 0.0508 0.0434 ˆ 28.83

Des.

Estandar

0.0651 0.0658

56

Modelo de Regresión lineal normal con a priori independiente normal-gamma

Si ahora consideramos que los valores para los hiperparametros previos normal-gamma

independiente son 4v y 30/12s y

0

3

1

4

β

Con la a priori independiente normal-gamma, se tiene

var( ) = Vβ

entonces,

100 0 0 0

0 2.25 0 0

0 0 .25 0

0 0 0 4

V

La inferencia Bayesiana en este modelo se hizo usando el muestreo de Gibbs. La estructura de

este programa es muy similar a la integración Monte Carlo, si bien son extracciones secuenciales

de ),|( hyp y ),|( yhp en lugar de extraer simplemente de )|( yp . La Tabla 9, contiene

resultados para , incluyendo diagnósticos de convergencia MCMC para el modelo de regresión

lineal normal con previo independiente normal-gamma.

Los valores iniciales para el error de precisión es igual a la inversa de la estimación de MCO de

2 es decir 2)0( 1 sh . Se descartan S0=1000 repeticiones, burn-in y se incluyen S1=15000

repeticiones.

La columna “NSE” contiene el error estándar numérico para las aproximaciones de )|( yp j

para j = 1, 2, 3,4, se calculó usando (5.13). Si se desea un grado de ocurrencia más alto, se puede

incrementar 1S . La columna llamada CD de Geweke, que es un diagnostico de convergencia,

descrito en (5.14), compara las estimaciones de los )|( yp j basados en las primeras 1000

57

repeticiones (después de las repeticiones burn-in) basados en las 4000 repeticiones. CD es

asintoticamente normal estándar, una regla común es concluir que la convergencia de los

algoritmos de MCMC ha ocurrido si CD es menor que 1.96 en valor absoluto para todos los

parámetros. El Cuadro 9, indica que la convergencia de los algoritmos MCMC ha sido alcanzada.

En la Cuadro 9, contiene también la relación de odds posterior que compara los dos modelos:

0:

0:

2

1

j

j

M

M

En este caso no hay evidencia para que 0 y 3 sean iguales a cero.

Cuadro 9. Resultados previos y posteriores para (desviaciones estándar)

a priori Posterior NSE Cd de Geweke Post. Odd para i =0 HPDI 95 %

0 0 20.4088 0.0236 0.5104 0 15.5181 24.9672

10 2.8951

1 3 0.0177 0 0.2854 26.6113 0.008 0.0276

1.5 0.006

2 -1 -0.8925 0.0026 -0.1129 0.2283 -1.4238 -0.3655

5 0.3223

3 4 1.5361 0.0021 -0.487 0.0002 1.1194 1.9639

2 0.0137

h 0.033 0.0431 0.0001 -0.9703

0.0137

58

Ejemplo II

Ejemplo 2. En el cuadro 10 se presentan: el nivel de inventarios I, las ventas S, ambos en

millones de dólares y las tasas de endeudamiento de 35 firmas en una industria. Se espera que I

este directamente relacionada con S pero inversamente relacionada con R.

Cuadro 10. Inversiones para 35 firmas en una industria.

I S R

10 100 17

10 101 17

10 103 17

11 105 16

11 106 16

11 106 16

12 108 15

12 109 15

12 111 14

12 111 14

12 112 14

13 113 14

13 114 13

13 114 13

14 116 12

14 117 12

14 118 12

15 120 11

15 122 11

15 123 11

15 125 11

16 128 10

16 128 10

16 131 10

17 133 10

17 134 9

17 135 9

17 136 9

18 139 8

18 143 8

19 147 8

19 151 8

19 157 8

20 163 7

Heteroscedasticidad para el acercamiento clásico

En el caso del acercamiento clásico, se resolvió con el paquete estadístico SPSS (Statistical

Packet for social science). Los resultados se muestran a continuación.

Para el modelo completo sin tomar en cuenta la heteroscedasticidad, se relaciono I con S y R para

la muestra completa, y los resultados se muestran en los cuadros 11 y 12. El Cuadro 11, muestra

que el modelo es significativo con un α = 0.05. Además en el Cuadro 12, los coeficientes son

significativos con un α = 0.05. Con un coeficiente de determinación R2

= .99.

59

Cuadro 11. Análisis de Varianza.

Suma de

cuadrados

Grados de

Libertad

Cuadrados

medios

F Valor

critico de F

Regresión 311.246 2.000 155.623 1886.210 0.000

Residual 2.640 32.000 0.083

Total 313.886 34.000

Cuadro 12. Coeficientes de regresión.

Valor estimado Desv. Estándar Beta t Valor critico

Constante 14.421 1.446 9.971 0.000

S 0.061 0.008 0.365 8.021 0.000

R -0.626 0.044 -0.646 -14.176 0.000

Para corregir el problema de heteroscedasticidad, se supone que la varianza del error es

proporcional a S2 y entonces se dividió cada término de la regresión por Si. Reestimando la

regresión usando la variable transformada, los resultados son los siguientes: En el Cuadro 13, se

muestra que el modelo es significativo con un α = 0.05. Además en el cuadro 14, los coeficientes

son significativos con un α = 0.05. Con un coeficiente de determinación R2 = .94.

Cuadro 13. Análisis de Varianza para los datos transformados.

Suma de

cuadrados

Grados de

libertad

Cuadrados

medios

F Valor

critico de F

Regresión 0.0029 2.0 0.0014 273.1106 0.0000

Residual 0.0002 32.0 5.27E-06

Total 0.0030 34.0

Cuadro 14. Coeficientes de regresión con los datos transformados.

Valor estimado Desv. estandar t Valor Critico

Constante 0.066 0.009 7.599 0.000

S 13.469 1.599 8.423 0.000

R -0.599 0.046 -13.062 0.000

Por el supuesto I, de Gujarati pag. 205. Ahora b1 = 0.0663 es la pendiente asociada con la

variable S, mientras b2 = -0.5987 es la pendiente asociada con la variable R, el intercepto es

13.4687.

60

Heteroscedasticidad en el enfoque Bayesiano

El modelo de regresión que se implemento se muestra a continuación.

21 2

2

~ ( , ) ( , ,..., )

~ ( , )

~ (1/ )

/ ~ ( ) /

~ ( , )

n

i

N diag v v v

N c T

r v ID r r

r m k

y Xβ ε

ε 0 V V

β

Donde y es un vector n x 1 de observaciones de la variable dependiente y X es una matriz n x k

de variables independientes, los previos para y son difusos. Los parámetros estimados son

, y la varianza relativa 1 2( , ,... )nv v v , se asumió como fijos pero desconocidos. La idea de

estimar n parámetros 1 2( , ,... )nv v v y además a los k+1 parámetros y usando n datos puedes

ser problemático. Sin embargo, el acercamiento Bayesiano asigna una distribución a priori

independiente 2 ( ) /r r a los términos iv que dependen del hiperparametro r. Esto permite

estimar n parámetros adicionales del modelo agregando el r-esimo parámetro al modelo de

estimación. Al especificar con respecto a la asignación de los términos iv puede motivar a

considerar que la media a priori, la cual se asigno que es igual a la unidad, esto es: (1/ ) 1ijE v y

la varianza a priori es: var(1/ ) 2 /ijv r . Esto implica que como r llega a ser muy grande, la a

priori refleja el caso especial donde 2~ (0, )i nN I .

Se seleccionó el valor del hiperparametro r asignando una distribución a priori ( , )m k para este

parámetro. Esta distribución tiene una media /m k y varianza 2/m k , así se tomo m=8, k=2,

asignando una a priori r centrada sobre un pequeño r=4 con varianza de r igual a dos. Valores

pequeños del hiperparametro r permite a ijv tomar una forma de asimetría donde la media y la

moda son diferentes.

En el Cuadro 15, se tiene el valor de la R2=.99, además tenemos el valor de 2 =0.0508 que es

menor al que se obtuvo con el método anterior, así como también el numero de datos y de

variables que fueron utilizados. Se tomaron 10000 extracciones y se desecharon 1000 datos.

61

Cuadro 15.Modelo lineal Heteroscedastico Bayesiano con estimaciones de Gibbs. R2 0.9914

sigma2 0.0508

Nobs, Nvar 35, 3

ndraw, nomit 10000, 1000

r-value 4

El Cuadro 16, muestra los valores tomados para las a priori, que en este caso son difusas.

Cuadro 16. Valores a priori

Variable Media a priori Desv. Estándar

0 20 31.62

1 10 10

2 -10 10

El Cuadro 17, muestra las estimaciones posterior, que son poco diferentes a los que se obtuvieron

por el método clásico debido, también a que se tomaron previos difusos.

Cuadro 17. Estimaciones posteriores

Variable Coeficiente Desv. Estándar Valor critico

0 13.877 1.386 0

1 0.064 0.008 0

2 -0.061 0.039 0

En el Cuadro 18, se tiene las estimaciones por ambos acercamientos en el cual se observa que se

obtienen valor un poco diferentes a los de la estadística clásica, además que se tiene las

desviaciones estándar mas pequeños y además 2 =0.0508, esto quiere decir que los estimadores

Bayesianos que se obtuvieron son mas eficiente que los estimadores Clásicos.

Cuadro 18. Parámetros para ambos acercamientos y desviación Estándar.

Medias Posteriores Transformados Sin Transformar

0 13.877 13.4687 14.421

1.386 1.599 1.446

1 0.064 0.0663 0.061

0.008 0.009 0.008

2 -0.061 -0.5987 -0.626

0.039 0.046 0.044

62

CONCLUCIONES

I. El enfoque Bayesiano justifica el uso del conocimiento subjetivo del investigador. Así, esta

metodología aprovecha todas las fuentes de información: información a priori

(investigaciones anteriores, conocimiento subjetivo) y muestral.

II. Cuando no se cuenta con información a priori, la metodología Bayesiana y Clásica

proponen resultados similares. En este caso, la diferencia substancial entre ambos métodos

esta en el análisis y el enfoque del problema.

III. Cuando se usa una distribución a priori, los resultados Bayesianos diferirán de los obtenidos

por la metodología clásica. Por cuanto que se debe ser cuidadoso en la selección de estos.

IV. Al contar con más información (a priori, muestral) los estimadores obtenidos con la

metodología Bayesiana serán mas precisas.

V. El peso de la información a priori y muestral en la distribución posterior es directamente

proporcional a la cantidad de información (información) con que se cuente en cada caso.

Así, si se cuanta con información muestral intensa, la función de verosimilitud dominara a

la distribución a priori.

VI. La inferencia Bayesiana se basa exclusivamente en términos de las probabilidades

posteriores.

VII. El Enfoque Bayesiano es mas complicado que el método clásico a la ahora de calcular los

estimadores.

63

Bibliografía

Bayes, T. (1764) An essay toward solving a problem in the doctrine of changes, Philosophical

transactions of the Royal Society of London 53, 370-418.

Geweke, J. (1989) Bayesian Inference in Econometric Models using Monte Carlo Integration,

Econometrica, 57, 1317–1340.

Geweke, J. (1992) Evaluating the Accuracy of Sampling-Based Approaches to the Calculation of

Posterior Moments, in Bernardo, J., Berger, J., Dawid, A. and Smith, A. (eds.), Bayesian

Statistics 4, pp. 641–649. Oxford: Clarendon Press.

Geweke, J. (1993) Bayesian Treatment of the Independent Student-t Linear Model, Journal of

Applied Econometrics, 8, S19–S40.

Gilks, W., Richardson, S. and Speigelhalter, D. (1996) Markov Chain Monte Carlo in Practice.

New York: Chapman & Hall.

Greene, W. (2000) Econometric Analysis, fourth edition. New Jersey: Prentice-Hall.

Gujarati, D (1995), Econometría. McGraw Hill

Judge, G., Griffiths, W., Hill, R., Lutkepohl, H. and Lee, T. (1985) The Theory and Practice of

Econometrics. New York: John Wiley & Sons.

Koop, G. (2003) Bayesian Econometrics. New York: John Wiley & Sons.

Koop, G. (2000) Analysis of Economic Data. New York: John Wiley & Sons.

LeSage, J. (1999) Applied Econometrics Using MATLAB. Available at

http://www.spatialeconometrics.com/.

http://www.spatialeconometrics.com/

64

Poirier, D. (1995) Intermediate Statistics and Econometrics: A Comparative Approach.

Cambridge: The MIT Press.

Poirier, D. (1995) Intermediate Statistics and Econometrics: A Comparative Approach.

Cambridge: The MIT Press.

Press, S. J. (1989) Bayesian Statistics: Principles, Models and Applications. New York: Wiley.

Raftery, A. and Lewis, S. (1996) Implementing MCMC, in Gilks, Richardson and Speigelhalter.

Salvatore, D. (1982) Econometria. Schaum-McGraw-Hill.

Zellner, A. (1971) An Introduction to Bayesian Inference in Econometrics. New York: John

Wiley & Sons.

Zellner, A. and Min, C. (1995) Gibbs Sampler Convergence Criteria, Journal of the American

Statistical Association, 90, 921–927.

63

APÉNDICE I

Distribuciones de Probabilidad

Definición: Distribución Gama

Una variable aleatoria continúa Y tiene una distribución Gamma con media 0 y grados de

libertad 0v , denotado por ),(~ vGY si su f.d.p. es:

maneraotrade

ycvyfysi

yvv

GG

0

),|(0)

2exp(

2

2

1

Donde la constante de integración esta dado por

2

2 21 v

vc

v

G

donde )(a es la función

Gama

Teorema: Media y Varianza de la distribución Gamma

Si ),(~ vGY entonces )(YE y v

Y22

)var(

.

Definición: La Distribución Normal Multivariada

Un vector aleatorio continuo de k dimensiones )',...,( 1 kYYY tiene una distribución Normal con

media (un k vector) y matriz de covarianzas (una matriz positiva definida k x k) de notado

por ),(~ NY , si su f.d.p. esta dado por

)(')(2

1exp

2

1),|( 121

2

yyyfkN

Definición: Distribución t Multivariada

Un vector aleatorio continúo k dimensional )',...,( 1 kYYY , tiene una distribución t con

parámetros (un k vector), (una matriz positiva definida k x k) y v (un escalar positivo

referido como un parámetro de sus grados de libertad) denotado ),,(~ vtY , si su f.d.p. esta

dado por

212

1

)(')(1

),,|(

kv

tt yyv

cvyf

64

Donde

2

2

2

2

kvv

v

cv

k

t

Teorema: Media y Varianza de la distribución t

Si ),,(~ vtY entonces )(YE si 1v y

2

)var(v

vY si 2v .

Definición: Distribución Normal-Gamma

Sea Y un vector aleatorio k dimensional y H una variable aleatoria escalar. Si la distribución

condicional de Y dado H es normal y la distribución marginal para H es Gamma entonces (Y,H)

se dice que tiene una distribución normal-gamma. Formalmente, si ),(~| NHY y

),(~ vmGH entonces ),( HY tiene una distribución normal-gamma denotado por

),,,(~ vmNG . El correspondiente f.d.p. se denota por ),,,,( vmfNG .

Algunos conceptos

Teorema central del límite

Sea }{ TY una secuencia de variables a aleatorias, Y es una variable aleatoria y denota la media

muestral basado en la muestra de tamaño T como,

1

T

i

tT

t

YT

entonces TY satisface el teorema central del limite si }{ TY converge en probabilidad a una

constante Y denotado por lim Tp Y Y o YY d

T . Si

lim Pr( ) 0TT

Y Y

Algoritmo Cadena Metropolis-Hasting Caminata Aleatoria

Genera extracciones candidato de acuerdo a

* ( 1)s z (1)

Donde z es llamado la variable aleatoria incremento. La media de la probabilidad de aceptación

65

*

( 1) *

( 1)

( | ), min ,1

( | )

s

s

p y

p y

La cadena caminata aleatoria tiende a moverse hacia las regiones de la probabilidad posterior más

alto.

La selección de la densidad para z determina la forma precisa de las densidades candidatos

generados. Una selección común y conveniente es la normal multivariada. En este caso (1)

determina la media de la normal y se selecciona la matriz de covarianzas, la cual se denota por .

La notación para la densidad normal.

( 1) ( 1)( ; ) ( | , )s sNq f

Definición: Ley Débil de los Grandes Números.

Sea TY una secuencia de variables aleatorias con correspondiente secuencia de medias finitas

T , y denota la media muestral basado en una muestra de tamaño T como

1

T

t

tT

Y

YT

Y define

1

T

t

tT

T

Entonces TY satisface una Ley Débil de los Grandes Números, si pT TY .

Teorema: Ley Debil de los Grandes Numeros para una Variable Aleatoria.

Sea TY una secuencia de extracciones de variables aleatorias i.i.d. de alguna distribución con

media y varianza 2 entonces pTY .

66

ANEXO

Modelo de Regresión Lineal Normal con a priori no informativo y a priori informativo

load defens.txt;

n=size(defens,1);

y=defens(:,1);

x=defens(:,2:4);

x=[ones(n,1) x];

k=4;

%Hyperparametros para la a priori normal conjugada

v0=4;

b0=0*ones(k,1);

b0(2,1)=3;

b0(3,1)=-1;

b0(4,1)=4;

s02=1/30;

capv0=10^2*eye(k);

capv0(2,2)=1.5^2;

capv0(3,3)=.5^2;

capv0(4,4)=2^2;

capv0inv=inv(capv0);

%Cuadrados mínimos ordinarios

bols = inv(x'*x)*x'*y;

s2 = (y-x*bols)'*(y-x*bols)/(n-k);

bolscov = s2*inv(x'*x);

bolssd=zeros(k,1);

for i = 1:k

bolssd(i,1)=sqrt(bolscov(i,i));

end

v=n-k;

%Hyperparametros normal gamma posteriors

xsquare=x'*x;

v1=v0+n;

capv1inv = capv0inv+ xsquare;

capv1=inv(capv1inv);

b1 = capv1*(capv0inv*b0 + xsquare*bols);

if det(capv0inv)>0

v1s12 = v0*s02 + v*s2 + (bols-b0)'*inv(capv0 +

inv(xsquare))*(bols-b0);

else

v1s12 = v0*s02 + v*s2;

end

s12 = v1s12/v1;

bcov = capv1*v1s12/(v1-2);

bsd=zeros(k,1);

for i = 1:k

bsd(i,1)=sqrt(bcov(i,i));

end

%Probabilidades posteriores para cada elemento de beta sea

positivo

%HPDIs para cada elemento de beta

probpos=zeros(k,1);

bhpdi95=zeros(k,2);

bhpdi99=zeros(k,2);

%%Cantidades de t para calcular los HPDIs

invcdf95=tdis_inv(.975,v1);

invcdf99=tdis_inv(.995,v1);

for i = 1:k

tnorm = -b1(i,1)/sqrt(s12*capv1(i,i));

probpos(i,1) = 1 - tdis_cdf(tnorm,v1);

bhpdi95(i,1) = b1(i,1)-invcdf95*sqrt(s12*capv1(i,i));

bhpdi95(i,2) = b1(i,1)+invcdf95*sqrt(s12*capv1(i,i));

bhpdi99(i,1) = b1(i,1)-invcdf99*sqrt(s12*capv1(i,i));

bhpdi99(i,2) = b1(i,1)+invcdf99*sqrt(s12*capv1(i,i));

end

%media y varianza posterior del error de precision.

hmean = 1/s12;

hvar=2/(v1s12);

hsd=sqrt(hvar);

%log de la verosimilitud marginal para el modelo si la a

priori es informativa

if det(capv0inv)>0;

intcon=gammaln(.5*v1) + .5*v0*log(v0*s02)-

gammaln(.5*v0) -.5*n*log(pi);

lmarglik=intcon + .5*log(det(capv1)/det(capv0)) -

.5*v1*log(v1s12);

end

%Salvar el log de la verosimilitud marginal

lmargun=lmarglik;

%implimir lo que uno desea

'Hyperparametros para la a priori conjugada natural'

b0

capv0

v0

s02

'Resultados posteriors basados en la a priori informativa'

b1

bsd

probpos

bhpdi95

bhpdi99

hmean

hsd

lmarglik

ystarm

ystarsd

ystarcapv

%Hyperparametros para la a priori no informativa

v0=0;

67

capv0inv=0*eye(k);

%llamar post para hacer el analisis posterior

post;

%Imprimir lo que uno desea

'Resultados posteriors basados en la a priori no

imformativa'

b1

bsd

probpos

bhpdi95

bhpdi99

hmean

hsd

ystarm

ystarsd

ystarcapv

%relacion odds posterior

%evaluar la verosimilitud marginal para el modelo

restringuido con beta(j)=0

%analizar aqui cada uno de los modelos a la ves

postodds=zeros(k,1);

x=defens(:,2:4);

k=3;

%Hyperparametros para la a priori natural conjugada

v0=4;

b0=0*ones(k,1);

b0(1,1)=3;

b0(2,1)=-1;

b0(3,1)=4;

s02=1/30;

capv0=10^2*eye(k);

capv0(1,1)=1.5^2;

capv0(2,2)=.5^2;

capv0(3,3)=2^2;


ch3post;

postodds(1,1)=exp(lmarglik-lmargun);

x=defens(:,3:4);

x=[ones(n,1) x];

k=3;

% Hyperparametros para la a priori natural conjugada

v0=4;

b0=0*ones(k,1);

b0(2,1)=-1;

b0(3,1)=4;

s02=1/30;

capv0=10^2*eye(k);

capv0(2,2)=.5^2;

capv0(3,3)=2^2;


ch3post;


x1=defens(:,2);

x2=defens(:,4);

x=[ones(n,1) x1 x2];

k=3;


v0=4;

b0=0*ones(k,1);

b0(2,1)=3;

b0(3,1)=4;

s02=1/30;

capv0=10^2*eye(k);

capv0(2,2)=1.5^2;

capv0(3,3)=2^2;


ch3post;


x=defens(:,2:3);

x=[ones(n,1) x];

k=3;


v0=5;

b0=0*ones(k,1);

b0(2,1)=3;

b0(3,1)=-1;

s02=1/30;

capv0=10^2*eye(k);

capv0(2,2)=1.5^2;

capv0(3,3)=.5^2;


ch3post;


postodds

Modelo de Regresión Lineal Normal con a priori independiente norma gamma

%programa para el ejemplo impirico

%Gibbs sampling para la a priori independiente Normal-

Gammma

%El modelo de comparacion de componente usa la

proporcion de densidad de Savage Dickey

%calcular el Factor de Bayes para beta(i)=0 para i=1,...,k

68

load defens.txt;

n=size(defens,1);

y=defens(:,1);

x=defens(:,2:4);

x=[ones(n,1) x];

k=4;

%Hyperparametros para los a prioris independientes

Normal-Gamma

v0=4;

b0=0*ones(k,1);

b0(2,1)=3;

b0(3,1)=-1;

b0(4,1)=4;

s02=1/30;

capv0=(10^2)*eye(k);

capv0(2,2)=1.5^2;

capv0(3,3)=.5^2;

capv0(4,4)=2^2;


%Valor para la prediccion

xstar = [1 3000 20 70];

%Cantidades de Minimos Cuadrados Ordinarios

bols = inv(x'*x)*x'*y;

s2 = (y-x*bols)'*(y-x*bols)/(n-k);

v=n-k;

%Calcule unas cantidades para usarlos más tarde

xsquare=x'*x;

v1=v0+n;

v0s02=v0*s02;

post = zeros(k,1);

%para la proporción de densidad de Savage-Dickey las

cantidades a priori se evalúan

prior = zeros(k,1);

for j = 1:k

prior(j,1) = norm_pdf(0,b0(j,1),capv0(j,j));

end

%Ahora inicia Gibbs loop

%La condicinal de beta en h es normal

%h condicional en beta es Normal

%guarda todos las extraccioes en la siguiente matriz

%inicialízar aquí

b_=[];

h_=[];

bf_=[];

ystar_=[];

%Especificar el número de repeticiones

%número de repeticiones del burnin

s0=1000;

%número de repeticiones retenidas

s1=15000;

s=s0+s1;

%seleccionar un valor de arranque para h

hdraw=1/s2;

for i = 1:s

%extracciones de beta condicional en h

capv1inv = capv0inv+ hdraw*xsquare;

capv1=inv(capv1inv);

b1 = capv1*(capv0inv*b0 + hdraw*xsquare*bols);

bdraw=b1 + norm_rnd(capv1);

%extracciones de h condicional en beta

s12 = ((y-x*bdraw)'*(y-x*bdraw)+v0s02)/v1;

hdraw=gamm_rnd(1,1,.5*v1,.5*v1*s12);

if i>s0

%después de desechar el burnin, guarde todas las

extracciones

b_ = [b_ bdraw];

h_ = [h_ hdraw];

%para la proporción de densidad Savage-Dickey las

cantidades posteriores se evalúan

for j = 1:k

post(j,1) = norm_pdf(0,b1(j,1),capv1(j,j));

end

bfdraw = post./prior;

bf_ = [bf_ bfdraw];

%extracciones de la predictiva, condicional en beta y

h.

ystdraw = xstar*bdraw + norm_rnd(1/hdraw);

ystar_ = [ystar_ ystdraw];

end

end

alldraws = [b_' h_'];

%La funcion momentg es tomado de toolbox de LeSage

%entran todas las extracciones de Gibbs y produce la

posterior

%media, desviacion estandar, nse y rne

%calcula S(0) de varias maneras

%ver momentg.m para mas detalles

result = momentg(alldraws);

means=[result.pmean]';

stdevs=[result.pstd]';

nse=[result.nse]';

nse1=[result.nse1]';



%calcule el diagnostico de convergencia de Geweke basado

basado primero .1

%y último .4 de extracciones

idraw1= round(.1*s1);

result = momentg(alldraws(1:idraw1,:));

meansa=[result.pmean]';

nsea=[result.nse1]';

idraw2= round(.6*s1)+1;

result = momentg(alldraws(idraw2:s1,:));

meansb=[result.pmean]';

nseb=[result.nse1]';

cd = (meansa - meansb)./(nsea+nseb);

%imprimir lo que uno desea

'Hyperparametros para la a priori Normal-Gamma

independiente'

b0

capv0

v0

s02

69

'Resultados Posteriores basados en la a priori Informativa'

'numero de repeticiones de burnin'

s0

'numero de repeticiones incluidas'

s1

'media posterior, desviacion estandar and diagnostico de

convergencia, CD'

'beta seguido por h'

[means stdevs cd]

'nse asumiendo no, .04, .08 and .15 autocovarianzas

estimadas'

'beta seguido de h'

[nse nse1 nse2 nse3]

'factor de Bayes para la prueba de beta(i)=0 for i=1,..,k'

bfmean = mean(bf_')';

bfmean

'media predictiva y desviacion estandar'

predmean=mean(ystar_')';

predsd = std(ystar_')';

[predmean predsd]

hist(ystar_',25)

title('Figure 4.1: Densidad predictiva')

xlabel('Desembolsos del presupuesto de Defensa')

%ylabel('Factor de Bayes')

'95% HPDIs'

'beta seguido por h seguido por alpha'

hpdis=zeros(k+1);

for ii=1:k+1

hpdis(ii,1:2) = hpdi(alldraws(:,ii),.95);

end

hpdis

avar1=means(k+2:k+1,1)*means(k+2:k+1,1)';

save postvar.out avar1 -ASCII;

Modelo lineal Heteroscedastico Bayesiano con estimaciones de Gibbs.

load invers.txt;

n =size(invers,1);

y=invers(:,1);

x=invers(:,2:3);

x=[ones(n,1) x];

ndraw = 10000; nomit = 1000; % numero de extracciones y extracciones desechados

bmean = zeros(k,1); % Media a priori difusa de b

T = eye(k)*100; % varianza a priori difusa de b

rval = 4; % a priori heteroscedastico

mm=6; % a priori informativa para el valor de r

kk=2;

prior.beta = bmean;

prior.bcov = T;

prior.rval = rval; % usa una a priori impropio de el valor de r

result = ols_g(y,x,ndraw,nomit,prior);

prt(result);