Criterios Para Elegir El Mejor Modelo CAPI8

39
329 CAPÍTULO 8 CRITERIOS PARA ELEGIR EL MEJOR MODELO. 8.1. INTRODUCCIÓN En el Capítulo 3 hemos hecho referencia a un marco general en el que se derivaban y se evaluaban diferentes procedimientos de contraste. Todo giraba en torno a dos puntos. El primero, hacía referencia a cómo llegar a los procedimientos admisibles que eran los que utilizaban eficientemente la evidencia disponible en los datos. El segundo, consistía en elegir un par (ε 0 , δ 0 ) de las infinitas combinaciones posibles de los tamaños de los dos errores. La solución de la primera cuestión admite un tratamiento estadístico-matemático sobre el cual la Econometría ha proporcionado pautas claras. Sobre el segundo, las orientaciones son más escasas. Hemos comentado dos vías seguidas en la literatura econométrica: Verificacionista y Preferencialista. En la primera, se especificaba a priori el nivel del tamaño del error Tipo 1 fijando un valor muy pequeño; en la segunda no hay ninguna fijación a priori y los tamaños de los dos errores son el resultado de un proceso de toma de decisiones de forma que ambos tamaños dependen de la evidencia muestral. La evolución de todos los criterios se hacía dentro de un paradigma con dos rasgos distintivos: Uno de los modelos que se comparan es el verdadero Proceso Generador de Datos (PGD). Todo procedimiento de contraste debe perseguir seleccionar siempre el modelo verdadero. La evaluación comparada se hace utilizando procedimientos analíticos y métodos de Monte-Carlo. Puede hablarse, incluso, de una cierta “perversidad implícita” en el uso de estos últimos métodos de simulación por la necesidad de asumir de forma “realista” el modelo PGD. En este Capítulo seguiremos en este marco comentado aunque a lo largo del mismo también consideraremos una situación en la que el PGD no es ninguno de los modelos que se compara y lo que se trata es, no tanto de llegar siempre al modelo verdadero, sino de obtener aproximaciones que sean razonables y aceptables desde algún punto de vista que se especificará.

Transcript of Criterios Para Elegir El Mejor Modelo CAPI8

Page 1: Criterios Para Elegir El Mejor Modelo CAPI8

329

CAPÍTULO 8

CRITERIOS PARA ELEGIR EL MEJOR MODELO.

8.1. INTRODUCCIÓN

En el Capítulo 3 hemos hecho referencia a un marco general en el que se derivaban y se evaluaban diferentes procedimientos de contraste. Todo giraba en torno a dos puntos. El primero, hacía referencia a cómo llegar a los procedimientos admisibles que eran los que utilizaban eficientemente la evidencia disponible en los datos. El segundo, consistía en elegir un par (ε0, δ0) de las infinitas combinaciones posibles de los tamaños de los dos errores. La solución de la primera cuestión admite un tratamiento estadístico-matemático sobre el cual la Econometría ha proporcionado pautas claras. Sobre el segundo, las orientaciones son más escasas. Hemos comentado dos vías seguidas en la literatura econométrica: Verificacionista y Preferencialista. En la primera, se especificaba a priori el nivel del tamaño del error Tipo 1 fijando un valor muy pequeño; en la segunda no hay ninguna fijación a priori y los tamaños de los dos errores son el resultado de un proceso de toma de decisiones de forma que ambos tamaños dependen de la evidencia muestral.

La evolución de todos los criterios se hacía dentro de un paradigma con dos rasgos distintivos:

− Uno de los modelos que se comparan es el verdadero Proceso Generador de Datos (PGD).

− Todo procedimiento de contraste debe perseguir seleccionar siempre el modelo verdadero.

La evaluación comparada se hace utilizando procedimientos analíticos y métodos de Monte-Carlo. Puede hablarse, incluso, de una cierta “perversidad implícita” en el uso de estos últimos métodos de simulación por la necesidad de asumir de forma “realista” el modelo PGD.

En este Capítulo seguiremos en este marco comentado aunque a lo largo del mismo también consideraremos una situación en la que el PGD no es ninguno de los modelos que se compara y lo que se trata es, no tanto de llegar siempre al modelo verdadero, sino de obtener aproximaciones que sean razonables y aceptables desde algún punto de vista que se especificará.

Page 2: Criterios Para Elegir El Mejor Modelo CAPI8

330

8.2. MODELOS Y CONTRASTES

Los resultados que vamos a presentar en esta sección se han derivado dentro de un marco con dos modelos lineales anidados lo cual, creemos, no resta generalidad a los mismos.

Los dos modelos lineales anidados pueden escribirse como:

M1: y = X1β

1 + u1 (8.1)

M2: y = X2β

2 + u

2 (8.2)

en donde y es el vector Tx1 de observaciones de la variable dependiente; X2 es la matriz

Txk2 de observaciones de las k

2 variables que aparecen en M

2 y X

1 es la matriz Txk

1 de

observaciones de las k1 variables que aparecen en M1; por el carácter anidado de ambos

modelos se tiene que: X2 = (X1, X*) en donde X* es una matriz Tx (k

2- k

1) de las

observaciones de las (k2-k

1) variables que aparecen en M2 pero no en M1; u

1 y u

2 son,

cada uno de ellos, vectores de T perturbaciones aleatorias. Cuando asumimos que el Proceso Generador de Datos (PGD) es M1 entonces se cumple que:

u1 ~ N(0, 2

1σ IT)

y cuando suponemos que el PGD es M2 entonces se tiene:

u2 ~ N(0, 2

2σ IT)

El modelo M2 puede escribirse como:

y = X1β1 + X*β* + u2 (8.3)

Asumiremos que se dispone de T1 observaciones extramuestrales y que, para

cada una de ellas, podemos escribir:

M1: yp = '

px1β1

+ up1

p = 1, ..., T1 (8.4)

M2: yp = '

px2 β2 + u

p2 = '

px 1 β1 + *'

px β* + up2 p = 1, ..., T

1 (8.5)

Si el PGD es M1 entonces ( )2

1 p1 ,0~u σN y se distribuye independientemente

del resto de las perturbaciones de los periodos extramuestrales de M1 y de los elementos del vector u

1. Si el PGD es M2 entonces ( )2

2 p2 ,0~u σN y se distribuye

independientemente del resto de las perturbaciones de los periodos extramuestrales de M2 y de los elementos de u

2.

Page 3: Criterios Para Elegir El Mejor Modelo CAPI8

331

Para cada modelo se define el vector de residuos MCO como:

iiiˆXyu β−= (8.6)

con 2,1iyX)XX(ˆ 'i

1i

'ii ==β − (8.7)

Los estimadores MCO de las varianzas de las perturbaciones de los modelos vienen dados por:

2,1ikT

uuˆi

i'i2

i =−

=σ (8.8)

y los estimadores Máximo-Verosímiles (MV) por:

2,1iTuu~ i

'i2

i ==σ (8.9)

Para cada modelo y periodo extramuestral obtenemos el predictor MCO y el correspondiente error de predicción que escribiremos como:

epi

= yp - y

pi = y

p - i

'pi

ˆx β i = 1, 2 (8.10)

en donde suponemos que para cada período extramuestral que hemos denotado con el subíndice p, cuando se calculan los estimadores MCO de β

i, i = 1, 2, utilizando la

expresión escrita en (8.7) en Xi e y se incluyen todas las observaciones previas al

correspondiente periodo extramuestral.

Nuestro punto de partida es que los dos modelos son esféricos. Una vez que se garantiza el cumplimiento de esta característica, en la literatura econométrica se ha propuesto el uso de determinados criterios para comparar modelos alternativos.

En el marco de este trabajo sería imposible analizar las características de todos los criterios desarrollados en dicha literatura. Nosotros vamos a limitar nuestro análisis a los criterios que aparecen en el Cuadro 8.1. Otros análisis comparados con diferentes criterios pueden verse en Leamer (1978), Geweke y Meese (1981), Aparicio (1985), Engle y Brown (1985), Aznar (1989), Gourieroux y Monfort (1989), Mills y Prassad (1992) y García-Olaverri (1993).

En el Cuadro 8.1 aparece la denominación del criterio, el estadístico en el que se basa y la regla de decisión que se utiliza. Todos los términos que aparecen en el Cuadro han sido ya definidos; simplemente, indicar que Fε [(k

2-k

1), T-k

2] y

)kk( 122 −χε hacen referencia a los puntos críticos correspondientes al nivel de

significación y grados de libertad indicados y que Cpi

toma la forma siguiente:

Page 4: Criterios Para Elegir El Mejor Modelo CAPI8

332

Cpi

= 'pix ( '

iX Xi)-1

xpi

y Ci. = ∑

=

1T

1ppiC (8.11)

La justificación de la mayor parte de los criterios que aparecen en el Cuadro 8.1 puede encontrarse en Aznar (1989) y Aznar y Trívez (1993). La justificación de los criterios PIC y PICF dentro de un marco bayesiano puede verse en Phillips (1996) y en Phillips y Ploberger (1994, 1996). Estos autores derivan el criterio PIC como una aproximación asintótica a la densidad predictiva de la razón de verosimilitud de las dos hipótesis que se contrastan. El criterio PICF se obtiene condicionando la aproximación anterior a la información correspondiente a un primer periodo muestral.

Page 5: Criterios Para Elegir El Mejor Modelo CAPI8

333

CUADRO 8.1. Criterios y Regla de Decisión. CRITERIO ESTADÍSTICO REGLA DE DECISIÓN: SE

ACEPTA M1 frente a M2 cuando:

Coeficiente de Determinación

( )∑ −−= 2

t

i'i2

i yyuu1R

22

21 RR >

Cef.Det.Corregido

( ) ⎟⎟⎠

⎞⎜⎜⎝

−−−

−=∑ 2

t

i'i

i

2i yy

uukT1T1R

22

21 RR >

Contrastes t y F ( ) ( )( )22

'2

122'21

'1

kTuukkuuuuF

−−−

= F< ( )[ ]212 kT,kkF −−ε

Wald 22

22

21~

~~TW

σσ−σ

= ( )12

2 kkW −χ< ε

Multiplicadores de Lagrange 21

22

21~

~~TLM

σσ−σ

= ( )12

2 kkLM −χ< ε

Razón de Verosimilitud

⎟⎟⎠

⎞⎜⎜⎝

⎛σσ

= 22

21

~~

lnTLR ( )12

2 kkLR −χ< ε

Cp de Mallows

2

i22

21

pi kTk2

~~

C−

+σσ

= 2p1p CC <

Akaike

Tk2~lnAIC i2

ii +σ= 21 AICAIC <

Densidad Predictiva ( )

( )i'i

2

2'2

22

2

2'212

i'ii

XXlnkT

uu

~lnkT

uu kkuuPIC

−+

+σ−

−+=

21 PICPIC <

Información 22

2

i2ii

~KT

Tlnk~BEC σ−

+σ= 21 BEcBEC <

Schwarz

TTlnk~lnSBIC i2

ii +σ= 21 SBICSBIC <

Error Cuadrático Medio de Predicción ∑

=

=1T

1p

2pi

1i e

T1ECMP 21 ECMPECMP <

Densidad Predictiva Condicional ( )( )

( )∑

=

=

+σ+

++σ=

i

i

T

1p pi2pi

2pi

T

1Ppi

2p1i

C1~e

C1~lnPICF

21 PICFPICF <

Varianza estimada ( )2i1 ki iAVE f Tσ ⎡ ⎤= +⎣ ⎦%

21 AVEAVE <

Page 6: Criterios Para Elegir El Mejor Modelo CAPI8

334

A continuación, vamos a formular, de forma alternativa, la regla de decisión expresando cada criterio como una combinación de un factor de ajuste y de un factor de parsimonia, destacando cómo es este factor de parsimonia el que marca la diferencia entre los criterios.

La expresión genérica que nos va a servir para formular la regla de decisión de todos los criterios es la siguiente: se elige el modelo M1 frente al modelo M2 cuando:

)(h.uuuu 2'21

'1 < (8.12)

h( ) es lo que hemos llamado factor de parsimonia. Es una función cuyos argumentos dependen del criterio que se considere pero que siempre toma un valor superior a 1 y es creciente de la medida que se toma del tamaño del modelo.

La forma que adopta h( ) para todos los criterios formulados en términos de las sumas de cuadrados de residuos puede verse en la columna 2 del Cuadro 8.2. Obviando los criterios 2R y PIC se pueden distinguir tres grupos: el primero está formado por los criterios F, Cp y BEC; el segundo está formado por los criterios W y LM y el tercero

abarca a los criterios LR, AIC, SBIC. El criterio AVE tiene una estructura más particular a la que nos referiremos posteriormente.

Derivemos ahora h( ) para el 2R y uno de cada uno de los tres grupos.

Utilizando el criterio 2R se elige M1 frente a M2 cuando:

2

t

2'2

22

t

1'1

1 )yy(uu

kT1T1

)yy(uu

kT1T1

−Σ⋅

−−

−>−Σ

⋅−−

Eliminando términos comunes y agrupando se obtiene:

2

12

'21

'1 kT

kTuuuu

−−

⋅<

Utilizando el criterio W, se elige M1 frente a M2 cuando:

)kk(uu

uuuuT 12

2

2'2

2'21

'1 −χ<

−ε

que es equivalente a:

⎟⎟⎠

⎞⎜⎜⎝

⎛ χ+⋅< ε

T1uuuu

2

2'21

'1

Page 7: Criterios Para Elegir El Mejor Modelo CAPI8

335

Para el criterio F, se elige M1 cuando:

]kT),kk[(F)kT/(uu

)kk/()uuuu(212

22'2

122'21

'1 −−<

−−−

ε

que es equivalente a:

ε−−

+< FkTkk

1uuuu

2

12

2'2

1'1

o bien

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

+< εFkTkk

1uuuu2

122

'21

'1

Por último, con el criterio LR se elige M1 frente a M2 cuando:

T ln $ $

$ $

′′

⎛⎝⎜

⎞⎠⎟

u uu u

1 1

2 2 < χε

2 (k - k ) 2 1

Esta expresión es equivalente a:

$ $

$ $

′′

⎛⎝⎜

⎞⎠⎟

u uu u

1 1

2 2< exp

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧χε

T

2

de donde se obtiene la expresión para h( ).

Vamos a terminar esta sección reescribiendo todas las expresiones h( ) en la forma que corresponde al criterio F redefiniendo la forma que toma el punto crítico Fε. Los resultados aparecen en la última columna del Cuadro 8.2.

Escribimos h( ) en la forma siguiente:

FkT

)kk(12

12−−

+ (8.13)

Para el criterio 2R podemos escribir:

2R2

12

2

1 FkTkk1

kTkT

−−

+=−−

con 1F 2R=

A partir de estos resultados se pueden concretar los valores que toman puntos críticos implícitos correspondientes a los diferentes criterios.

Page 8: Criterios Para Elegir El Mejor Modelo CAPI8

336

CUADRO 8.2. Formas Alternativas de La Regla de Decisión

CRITERIO FORMA 1: )(huuuu 2'21

'1 <

h ( ) h(F) = 1 + F

kTkk

2

12

−−

F

2R ( ) ( ) k-TkT 21− 1F 2R=

F ε−

−+ F

kT)kk(1

2

12 ε= FFF

W T

12εχ+

12

22

W kkTkTF

−χ−

= ε

LM 2T

T

εχ−

2

2

12

2LM

TkkkTF

ε

ε

χ−

χ−−

=

LR ⎟⎟

⎜⎜

⎛ χεT

exp2

12

22

LR kkkT

1T

expF−−

⎟⎟

⎜⎜

⎛−

⎟⎟

⎜⎜

⎛ χ= ε

Cp 2

12kT

)kk(21−−

+ F

Cp = 2

AIC ⎟⎠⎞

⎜⎝⎛ −

T)kk(2exp 12

12

212AIC kk

kT1

T)kk(2

expF−−

⎟⎟⎠

⎞⎜⎜⎝

⎛−⎟

⎞⎜⎝

⎛ −=

PIC 1 12 1

222

2

2 2

1 1

+−−

+−

k kT k T k

X X

X X

ln ~

ln'

'

σ

F

k kX X

X XPIC = − +−

ln ~ ln'

'σ22

2 1

2 2

1 1

1

BEC ( )1 2 1

2+

−−

lnT k kT k

F TBEC = ln

SBIC ( ) ⎟⎠⎞

⎜⎝⎛ −

TTn1kkexp 12

12

212SBIC kk

kT1

T)kk(Tn1

expF−−

⎟⎟⎠

⎞⎜⎜⎝

⎛−⎟

⎞⎜⎝

⎛ −=

AVE 2

1

1 ( )1 ( )

f T kf T k

++

( )2

1

( )1 ( )T k f T

f T k−+

Podemos fijar un nivel de significación, tal como ε = 0,05, y teniendo en cuenta los grados de libertad obtener el correspondiente punto crítico F0,05. A partir de este valor, podemos decir que cualquier criterio que tenga un valor de la F –tal como aparecen en la última columna del Cuadro 8.2- superior a F0,05 dicho criterio garantizará un nivel del ε inferior al 5%. Por el contrario, para el criterio para el que el valor de la F sea inferior a F0,05 podemos decir que la garantía no llegará a ese nivel del 5%.

Page 9: Criterios Para Elegir El Mejor Modelo CAPI8

337

Una ilustración numérica de estos resultados puede verse en el Cuadro 8.3. En este cuadro se calculan los valores de la F que corresponden a los diferentes criterios, suponiendo 2 tamaños muestrales y dos diferencias de tamaños entre los dos modelos.

CUADRO 8.3. Punto Crítico Implícito T = 45(T = 125) ε = 0,05

PUNTO CRÍTICO 1k ,2k 12 == 1k ,5k 12 ==

2RF 1 1

F0 05, 4,08(3,92) 2,61(2,45)

FW 3,67(3,78) 2,11(2,27)

FLM 4,01(3,89) 2,67(2,46)

FLR 3,83(3,84) 2,34(2,36)

FCp 2 2

FAIC 1,95(1,98) 1,94(1,98)

FBEC 3,89(4,82) 3,80(4,82)

FSBIC 3,79(4,84) 4,01(5,01)

A partir del contenido del Cuadro 8.3 se observa que los resultados son diferentes según sean los valores que toman (k2 - k1) y el tamaño muestral.

En general, podemos decir que los contrastes W, LM y LR se comportan de forma similar a como lo hace el contraste F. Los criterios 2R , Cp y AIC son menos parsimoniosos que el contraste F aunque la diferencia tiende a decrecer conforme la diferencia (k2 - k1) tiende a ser mayor. Por último, los criterios BEC y SBIC tienden a ser más parsimoniosos que el criterio F, haciéndose la distancia mayor conforme la diferencia (k2 - k1) se hace mayor.

Cualquiera que sea la aproximación que se siga, la conclusión a la que se llega es que la diferencia entre los diferentes criterios radica en el diferente peso que asignan al factor de parsimonia; según sea la ponderación asignada, la combinación que resulta de los dos tamaños de error difiere. Una ilustración gráfica de este hecho puede verse en la Figura 8.1.

Page 10: Criterios Para Elegir El Mejor Modelo CAPI8

338

1 δ

BEC,SBIC,AVE2

F,W,LR,LM,AVE1

AIC y Cp

R2

AVE3

ε

1

50%

35%30%

15%

5%

FIGURA 8.1 Escala de Parsimonia

A la vista de estos resultados parece claro que la cuestión relevante a contestar es la siguiente: ¿Qué nivel de parsimonia voy a permitir en el proceso de selección de modelos? o, equivalentemente ¿cómo se determina la función h( )?.

En la literatura econométrica se han seguido, al menos, tres líneas para justificar la forma que debe adoptar la función h( ). Utilizaremos el criterio AVE para ilustrar estas tres alternativas.

Supongamos, en primer lugar, que el investigador está interesado en garantizar que, si se toma el modelo M1 como hipótesis nula, la probabilidad de rechazar esa hipótesis nula sea un valor especificado a priori, ε. En general, este valor se tomará pequeño, digamos el 1% ó el 5%.

Sea Fε el punto crítico correspondiente al criterio F tal como puede verse en el Cuadro 8.2. Entonces, igualando las funciones h( ) correspondientes a los criterios F y AVE se obtiene:

2 1 2

2 1

1 ( )11 ( )

k k f T kFT k f T kε− +

+ =− +

de donde:

Page 11: Criterios Para Elegir El Mejor Modelo CAPI8

339

2 1

( ) Ff TT k k F

ε

ε

=− −

El criterio AVE definido de esta manera garantiza que el tamaño del Error Tipo 1 es igual a ε. Esta definición hace al criterio AVE equivalente al criterio F y asociados como el LR, W y LM.

Supongamos ahora que pretendemos definir el criterio AVE de forma tal que se garantice que, asintóticamente, los dos tamaños de error sean cero. Como se verá en la sección siguiente este resultado se garantiza si se cumplen las dos condiciones siguientes conforme T → ∞:

h(T) – 1 → 0

T(h(T) – 1) → ∞

Una función f(T) que garantiza el cumplimiento de estas dos condiciones es la siguiente:

f(T) = TTln

Supongamos, por último, que lo que se pretende es que la regla de decisión basada en el AVE sea la consecuencia de la minimización de la comparación de la estimación de las funciones de riesgo correspondientes a ambos modelos después de adoptar una función de pérdida.

Suponiendo que el proceso generador de datos es uno de los dos modelos que se comparan y que la función de pérdida es el cuadrado del error de predicción menos su esperanza matemática, entonces las funciones de riesgo son las respectivas varianzas del error de predicción que podemos escribir como:

( ) 1,2j 1,2,i x)XX(x1 pj1

j'j

'pj

2i ==+σ −

haciendo:

Tk

x)XX(x jpj

1j

'j

'pj =−

se puede escribir:

Tk

1( j2i +σ )

Page 12: Criterios Para Elegir El Mejor Modelo CAPI8

340

Como la varianza 2iσ es desconocida, cada modelo se estima utilizando el

estimador máximo-verosímil. La regla de decisión resultante es: se elige M1 frente a M2 cuando se tiene que:

⎟⎠⎞

⎜⎝⎛ +σ<⎟

⎠⎞

⎜⎝⎛ +σ

Tk1~

Tk1~ 22

212

1

o, equivalentemente, cuando:

1

22

'21

'1 kT

kTxuuuu++

<

que es la regla de decisión correspondiente al criterio AVE haciendo:

f(T) = 1T

La literatura nos brinda, por lo tanto, tres opciones. En la primera, se garantiza un tamaño del Error Tipo 1 fijado a priori. En la segunda, la garantía gira en torno a hacer muy pequeños los tamaños de los dos errores cuando la muestra se hace grande. En la tercera, se minimiza un riesgo estimado. Podiamos considerar tres criterios AVE diferentes: AVE1, AVE2 y AVE3. La diferencia entre ellos radica en la posición que ocupan en la línea de combinaciones de los tamaños de los dos errores de la Figura 8.1. Es decir, se diferencian en la forma de determinar el tamaño de ambos errores, resultando cada uno de ellos con un grado de parsimonia diferente

Utilizando el mismo procedimiento empleado para derivar los valores de la F implícitos que aparecen en la segunda columna del Cuadro 8.2 se obtiene que:

ε= FF1AVE

T

kTxTFAVE2ln

2

−=

1

2AVE kT

kTF3 +

−=

En general, para los valores habituales de T, 2k y 1k podemos escribir:

1FFF 3AVE1AVE2AVE <>>

Page 13: Criterios Para Elegir El Mejor Modelo CAPI8

341

Esta desigualdad nos indica que el criterio AVE2 es el más parsimonioso y que el menos parsimonioso es el AVE3. Como su valor de F implícito es menor que 1 este criterio es incluso menos parsimonioso que el 2R .

8.3. ANÁLISIS COMPARADO DE LOS CRITERIOS

A la hora de comparar los contrastes analizados en la sección anterior vamos a distinguir dos escenarios. En el primero, se considera que uno de los modelos que se compara es el PGD. En el segundo, se supone que ninguno de los modelos que se compara es el PGD.

Situados en el primer escenario las preguntas relevantes han sido ya formuladas en el Capítulo 3: ¿Son admisibles los procedimietos de contraste estudiados en la sección anterior? ¿Cómo se elige el par de los tamaños de los dos errores?.

Respecto a si son admisibles o no ya se ha visto en el Capítulo 3 que la derivación de un contraste a partir de la Razón de Verosimilitud, Wald o Multiplicadores de Lagrange garantizaba, al menos asintóticamente, su admisibilidad. En la sección anterior se ha demostrado que la expresión general escrita en (8.12) podía identificarse con cualquiera de los tres principios redefiniendo adecuadamente h( ).

Siendo todos admisibles la diferencia entre ellos radica en la diferente forma que toma el par (ε, δ), tal como se ilustra en la Figura 8.1.

Dentro del escenario en el que estamos situados en el que uno de los modelos que se compara es el PGD, entonces la aspiración máxima de todo procedimiento de selección es determinar siempre el modelo verdadero sin ningún tipo de error. Esto, en muestras finitas, en general es imposible de obtener, pero para muestras de tamaño infinito se hace factible como se verá al final de esta sección.

Veamos ahora algunos resultados que nos ayudarán a entender la forma y tamaño de los dos errores.

Si, genéricamente, para un criterio escribimos: 1'11 uu)M(C = y

)T(hxuu)M(C 2'22 = entonces teniendo en cuanta la regla escrita en (8.12) el tamaño

del error Tipo 1 puede escribirse como:

Prob {C(M1) – C(M2) > 0 / M1} = ε (8.14)

El tamaño del error Tipo 2 viene dado por:

Prob {C(M1) – C(M2) < 0 / M2} = δ (8.15)

Page 14: Criterios Para Elegir El Mejor Modelo CAPI8

342

A lo largo de esta sección vamos a derivar algunos resultados sobre estos dos tamaños, en primer lugar para cualquier tamaño muestral y, a continuación, derivaremos los resultados en un marco asintótico.

Respecto al tamaño del error Tipo 1 bastaría tener en cuenta lo que hemos dicho en la parte final de la sección anterior. Hemos demostrado que a cada criterio le corresponde un punto crítico implícito, de la distribución F tal como puede verse en el Cuadro 8.3 y que cuanto mayor es este punto crítico implícito menor es el tamaño del error Tipo 1. También se ha destacado que el valor que toma el punto crítico implícito depende del tamaño muestral y de los valores que toman k1 y k2.

En lo que respecta al tamaño del error Tipo 2 hay que tener en cuenta que si M2 es el PGD entonces se tiene que:

=+β−+β=β−= − )uX(X)XX(XuXˆXyu 222'1

11

'11222111

2'1

11

'112212122 uX)XX(XuBXX −−+β−β= (8.16)

en donde:

2'1

11

'112 XX)XX(B −=

A partir de (8.16) se tiene:

*121 huE =

y 221

2*121

'1 )kT(huuE σ−+=

en donde:

221'2

'2

2*12 XMXh ββ= y 221

*12 XMh β=

A continuación, vamos a demostrar que el tamaño del error Tipo 2 escrito en (8.15) depende de 2

2σ y 2*12h e indicaremos la dirección de la dependencia.

Sean μc y sc la media y desviación típica de C(M1) – C(M2). Entonces la expresión (8.15) puede escribirse como:

Prob {C(M1) – C(M2) < 0 / M2} =

Prob {Z < Ac}

Page 15: Criterios Para Elegir El Mejor Modelo CAPI8

343

en donde:

Ac = c

c

sμ− (8.17)

y Z es una variable aleatoria con media cero y varianza la unidad. Vamos a demostrar que Ac es una función creciente de 2

2σ y decreciente de 2*12h .

En primer lugar hay que tener en cuenta que:

μc = E [C(M1) – C(M2)] =

= )T(h)kT()kT(h 222

221

2*12 σ−−σ−+

que también puede escribirse como:

( ) ( ) =σ−σ−+=μ F kk - kkh 2212

2212

2*12c

⎥⎥⎦

⎢⎢⎣

σ+−−σ= 2

2

2*12

1222

h)F1)(kk(x

En lo que respecta a la varianza se tiene que:

−⎟⎟⎠

⎞⎜⎜⎝

⎛−−

++=2

2

122

'21

'1

2c F

kTkk1)uu(Var)uu(Vars

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

+− FkTkk

1)uu,uu(Cov22

122

'21

'1 (8.18)

Para derivar el primer término, reescribamos (8.16) como:

212211 uMXMu +β=

Definamos ahora un nuevo vector con T-k1 elementos de la forma siguiente:

11 uPV =

en donde P es una matriz (T- k1) x T que cumple:

1kT1 I'PPyMP'P −==

Ahora podemos escribir:

V1 ∼ )I,XPM(N1kT

22221 −σβ

Page 16: Criterios Para Elegir El Mejor Modelo CAPI8

344

Utilizando un resultado standard en estadística se tiene que:

1'

11'1 VVuu = ∼ )kT,h( 1

2*12

2 −χ (8.19)

en donde 2*12h es el parámetro de no centralidad.

A partir de (8.19) se tiene que:

⎟⎟⎠

⎞⎜⎜⎝

⎛−+

σσ= 12

2

2*124

21'1 kT

h22)uu(Var

Para la suma de cuadrados de los residuos del segundo modelo se tiene que:

)kT(2)uu(Var 2422

'2 −σ=

Utilizando el resultado que sirve para establecer la independencia del numerador y denominador del contraste standard de la F, podemos escribir:

0)]uu)(uuuu[(Cov 2'22

'21

'1 =−

de donde:

)uu(Var)]uu,uu(Cov 2'22

'21

'1 =

Utilizando todos estos resultados, (8.18) puede escribirse como:

⎥⎥

⎢⎢

⎡−⎟⎟

⎞⎜⎜⎝

⎛−−

−σ+⎟⎟⎠

⎞⎜⎜⎝

⎛−+

σσ= 1F

kTkk)kT(2kTh22s

2

2

122

4212

2

2*124

22c

⎥⎦

⎤⎢⎣

⎡−−

+−+σ

σ=)kT(F)kk(kkh22

2

2212

1222

2*124

2

Sustituyendo las expresiones obtenidas de cμ y cs en (8.17) se llega a:

2/1

2

2212

1222

2*12

22

2*12

12

c

cc

kTF)kk()kk(h22

h)1F)(kk(

sA

⎥⎥⎦

⎢⎢⎣

−−

+−+σ

σ−−−

=μ−

= (8.20)

En esta expresión se ve que el valor de Ac depende de (k2 - k1), F, 2*12h y 2

2σ .

Utilizando las reglas standard de derivación se obtiene que:

Page 17: Criterios Para Elegir El Mejor Modelo CAPI8

345

0h

Ay0

A2*

12

c22

c <∂

∂>

σ∂

Un resultado importante a partir de (8.20) es que para poder calcular el tamaño del error Tipo 2 es necesario conocer los valores que toman 2

2σ y 2*12h supuesto

conocido F. Por lo tanto, no podemos decir nada con carácter general respecto de este error de Tipo 2 para todo tamaño muestral.

Debido a esta dificultad de determinar con carácter general el tamaño del error Tipo 2, el análisis ha seguido una línea asintótica que permite llegar a resultados más concretos.

Un resultado importante es que el tamaño del error Tipo 1, asintóticamente, tiende a cero cuando el punto crítico implícito (F) que aparece en el Cuadro 8.3 tiende a infinito. Los criterios 2R , F, W, LM, LR, Cpi y AVE1 claramente no lo cumplen.

Para el criterio AIC podemos escribir:

=−

⎟⎟⎠

⎞⎜⎜⎝

⎛−⎟

⎞⎜⎝

⎛ −=

− 1k2

212AIC k

kTx1

T)kk(2

expF

2kk

kTx1

kT)kk(2

112

2

2

12 =−−

⎥⎦

⎤⎢⎣

⎡−

−−

+=

por lo que el criterio AIC tampoco lo cumple.

El criterio BEC se ve de forma inmediata que cumple la exigencia y en lo que respecta al criterio SBIC se tiene que:

=−

⎟⎟⎠

⎞⎜⎜⎝

⎛−⎟

⎞⎜⎝

⎛ −=

− 1k2

212SBIC k

kTx1

T)kk(Tn1

expF

∞→=−−

⎥⎦

⎤⎢⎣

⎡−

−−

+= Tn1kk

kTx1

kT)kk(Tn1

112

2

2

12

y, por lo tanto, también cumple el requisito. También es inmediato demostrar que el criterio AVE2 cumple el requisito.

Hay que hacer notar que, aunque los criterios t, F, LR, W y LM no cumplen el requisito, teniendo en cuenta que fijan el nivel de significación tan pequeño como se quiera podemos decir que, a efectos prácticos, también garantizan un tamaño del error Tipo 1 muy pequeño, próximo a cero. Y esto es así para todo tamaño muestral.

Page 18: Criterios Para Elegir El Mejor Modelo CAPI8

346

Respecto al error Tipo 2 la condición suficiente es que F/T tienda a cero conforme el tamaño muestral crece.

Teniendo en cuenta que 2*12h es Op(T), dividimos numerador y denominador de

(8.20) por T de forma que el numerador de esta expresión tenderá a una cantidad negativa y el denominador tenderá a cero resultando que Ac tenderá a -∞, cumpliéndose el resultado. Puede verse como este requisito lo cumplen todos los criterios recogidos en los Cuadros 8.1 y 8.2.

Teniendo en cuenta (8.13), las condiciones comentadas para garantizar que, asintóticamente, los tamaños de los dos errores se hagan cero se pueden establecer prestando atención a la función h( ).

A partir de (8.13) podemos escribir:

12

2

kkkT

x]1)(h[F−−

−=

Las condiciones de que 0TF→ y F → ∞ son equivalentes, respectivamente, a:

h( )-1 → 0

(h( )-1)T→ ∞

Como ya hemos indicado, el criterio que cumple estas condiciones garantiza asintóticamente que los tamaños de los dos errores tenderán a cero.

Supongamos ahora que cambiamos de escenario y que nos situamos en un marco en el que ninguno de los modelos que se comparan es el PGD. En este caso, el objetivo de cualquier procedimiento de contraste ya no es seleccionar el PGD, porque este no es ninguno de los que se comparan, sino obtener una aproximación razonable al PGD.

¿Qué es una aproximación razonable?. Para dar respuesta a esta pregunta debemos adoptar una medida de distancia o función de pérdida que nos pondere la calidad de la aproximación a un PGD que es desconocido.

En la literatura se han considerado varias medidas de distancia pero las dos más utilizadas han sido:

Page 19: Criterios Para Elegir El Mejor Modelo CAPI8

347

− Distancia de Kullback-Liebler.

− Error cuadrático de Predicción (ECP).

La Distancia de Kullback-Liebler ha sido ampliamente utilizada en Econometría para discriminar entre modelos. El criterio AIC de Akaike adopta esta función de pérdida. Recientemente, el libro de Burnham y Anderson (1998) proporciona un tratamiento completo de los temas relacionados con este tipo de distancia.

Nosotros adoptaremos la segunda función de pérdida. Tomamos esta decisión porque nos parece que es una función de pérdida más estrechamente asociada con los usos potenciales de todo modelo econométrico.

Tomaremos T1 observaciones extramuestrales y siempre consideraremos que la predicción es de un periodo hacia delante.

La función de pérdida la escribiremos como:

2,1ieT1ECMP 2

pi1

i =Σ= (8.21)

Los errores de predicción han sido definidos en (7.7) y (7.8).

Suponiendo que el PGD puede ser cualquiera de los tres modelos contemplados en la Sección 7.2., entonces podemos derivar las correspondientes funciones de riesgo aplicando a (8.21) el operador expectativa. Este riesgo será el Error Cuadrático Medio de Predicción (ECMP) que, genéricamente, podemos escribir como:

⎥⎦

⎤⎢⎣

⎡Σ= 2

pi1

jji eT1E)M(ECMP i= 1,2 j=1, 2, 3 (8.22)

Teniendo en cuenta que, en esta sección, suponemos que M1 está anidado en M2, que ECMP = Sesgo Varianza2 + y considerando los resultados contenidos en el

Cuadro 7.1 se llega a los resultados contenidos en el Cuadro 8.4.

En un marco estacionario puede asumirse la siguiente equivalencia:

Tk

x)XX(xC ipi

1i

'i

'pipi ≈= −

Page 20: Criterios Para Elegir El Mejor Modelo CAPI8

348

CUADRO 8.4 Error Cuadrático Medio de Predición

M1 M2 M3

M1 ECMP(M1)=

= )C1(T1

1p21

1∑ +σ

ECMP(M1)=

= )C1(T

h 1p1

222

12 +Σσ

+

ECMP(M1)=

= )C1(T

h 1p1

232

13 +Σσ

+

M2 ECMP(M2)=

= )C1(T1

2p21

1+Σσ

ECMP(M2)=

= )C1(T1

2p22

1+Σσ

ECMP(M2)=

= )C1(T

h 2p1

232

23 +Σσ

+

Cpi ha sido definido en (8.11) y ∑==

1T

1p

2ijp

1

2ij h

T1h

( ).7 Capítuloen definido hijp

Aunque en el Cuadro 8.4 se ha abierto la posibilidad de que cualquiera de los tres modelos puede ser el PGD, para una disciplina como la Economía en la que no cabe casi la experimentación y las relaciones objeto de estudio tienen una gran complejidad de efectos a lo largo del tiempo y en el espacio, la opción más razonable es suponer que el PGD es un modelo muy amplio, desconocido, que abarca a los otros dos modelos que se comparan.

Supongamos entonces que el PGD es el modelo M3. Decimos que el modelo M1 proporciona una aproximación a M3 más razonable que la que proporciona el modelo M2 cuando:

ECMP(M1) < ECMP(M2)

o, equivalentemente, cuando:

T

kTh

TkT

h 223

223

123

213

+σ+<

+σ+

o, también cuando:

( ) 0T

kkhhW 2123

223

213 <

−σ+−= (8.23)

El primer término siempre es positivo mientras que el segundo siempre tiene signo negativo.

Page 21: Criterios Para Elegir El Mejor Modelo CAPI8

349

Se trata ahora de encontrar un estadístico tal que su media coincida con W y su varianza tiende a cero conforme la evidencia muestral sea mayor.

En las secciones anteriores se ha visto que había dos tipos de criterios. El primer grupo estaba basado en el uso de la expresión (8.12) que realiza una combinación explícita de una medida de ajuste y otra de parsimonia. El segundo grupo se limitaba al Error Cuadrático Medio de Predicción y este combinaba implícitamente las dos medidas mencionadas

A partir de la expresión (8.12) podía pensarse en el siguiente estadístico:

Tuu 1

'1 - )T(h

Tuu 2

'2 ⋅ (8.24)

A continuación, hacemos h(T) = 1+g(T) y extendemos el resultado (8.12) en dos direcciones: la primera, al caso en que el PGD sea el modelo M3 y, la segunda, al caso en que tomemos los residuos del modelo M2. Tomando esperanzas se tiene que:

23

12*

131'1

TkT

Th

Tuu

E σ−

+=

23

22*

232'2

TkT

Th

Tuu

E σ−

+=

Introduciendo estos resultados en (8.24) y haciendo: h(T) = 1+g(T) se tiene que:

=⎥⎦

⎤⎢⎣

⎡−− )T(g

Tuu

Tuu

Tuu

E 2'22

'21

'1

)(223

2*23122

3

2*23

2*13 Tg

TkT

Th

Tkk

Thh

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+−

−+

−= σσ (8.25)

Se ve claramente que la esperanza difiere de W por lo que ninguno de los estadísticos basados en la expresión (8.12) proporciona un método razonable para elegir la aproximación más útil.

Considerar ahora el siguiente estadístico:

ECM = ECMP1 – ECMP2 (8.26)

en donde ECMP1 y ECMP2 han sido definidos en (8.21). Notar la diferencia entre ECMP(Mi) y ECMPi.

Page 22: Criterios Para Elegir El Mejor Modelo CAPI8

350

Resultado 8.1: La esperanza matemática de ECM es W; es decir:

E(ECM) = W (8.27)

Prueba: Basta tener en cuenta los desarrollos utilizados para derivar las casillas de la última columna del Cuadro 8.4

Resultado 8.2: Las varianzas de ECMP1 y ECMP2 vienen dadas respectivamente por:

[ ]⎟⎟

⎜⎜

σ+

σ= 2

3

213

1

43

1h2

1T

2ECMPVar (8.28)

[ ]⎟⎟

⎜⎜

σ+

σ= 2

3

223

1

43

2h2

1T

2ECMPVar (8.29)

Prueba: Para el primer modelo se tiene:

)ee(CovT1)e(Var

T1)ECMP(Var 1'p

'pp1p2

1

T

1p

2pi2

11

,

1

∑∑ +==

(8.30)

Teniendo en cuenta que estos errores de predicción pueden interpretarse como residuos recursivos, su covarianza es cero tal como puede verse en el Capítulo 4 de Aznar (1989). Ver también el Ejercicio 8.3.

Respecto a las varianzas se tiene que, aplicando (7.28) al modelo M1, se puede escribir:

ep1 ~ ⎥⎦

⎤⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ +σ

Tk

1,hN 123p13

de donde:

2

1

13

1p

Tk

1

e

⎟⎠⎞

⎜⎝⎛ +σ

~

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎟⎠⎞

⎜⎝⎛ +σ

1,

Tk1

hN

21

13

p13

Page 23: Criterios Para Elegir El Mejor Modelo CAPI8

351

Por lo tanto, el cuadrado del término de la izquierda será una variable χ2 con

parámetro de no centralidad igual a ⎟⎠⎞

⎜⎝⎛ +σ

Tk

1

h

123

2p13 y 1 grado de libertad.

Su varianza toma la forma siguiente:

⎥⎥⎥⎥

⎢⎢⎢⎢

⎟⎠⎞

⎜⎝⎛ +σ

+=

⎥⎥⎥⎥

⎢⎢⎢⎢

⎟⎠⎞

⎜⎝⎛ +σ

Tk

1

h212

Tk

1

eVar

123

2p13

123

21p

A partir de aquí se obtiene que:

( )⎥⎥⎥⎥

⎢⎢⎢⎢

⎟⎠⎞

⎜⎝⎛ +σ

+⎟⎠⎞

⎜⎝⎛ +σ=

Tk1

h21

Tk

12eVar12

3

2p13

214

321p

Si el tamaño muestral es grande,Tk1 estará próximo a cero y podemos escribir:

( )⎥⎥

⎢⎢

σ+σ= 2

3

2p134

321p

h212eVar

Sustituyendo en (8.30) se tiene que:

[ ] ⎥⎦

⎤⎢⎣

σ+

σ= 2

3

213

1

43

1h2

1T

2ECMPVar

llegándose a (8.28).

La derivación de (8.29) se obtiene aplicando el mismo proceso.

La conclusión a la que se llega es que las dos varianzas y, por tanto, la covarianza son Op(T1

-1). Eso significa que si T1 es grande entonces la varianza de ECM tiene a hacerse cero cumpliéndose la exigencia anteriormente formulada.

8.4. RESULTADOS A PARTIR DE EJERCICIOS DE MONTE-CARLO

En esta sección vamos a presentar los resultados obtenidos a partir de dos ejercicios de Monte-Carlo, uno para un marco estacionario y otro para un marco no estacionario.

Page 24: Criterios Para Elegir El Mejor Modelo CAPI8

352

En el marco estacionario consideramos los dos modelos siguientes:

t1t110t uXY :1M +β+β=

t2t22t110t uXXY :2M +β+β+β=

Se trata de discriminar entre estos dos modelos suponiendo, primero, que los datos los genera M1 y, después, que los genera M2.

Cuando genera los datos M1, hacemos β0 = 1 y β1 = 0,5; t1u es una variable

distribuida normalmente con media cero y para su varianza se suponen tres valores: 0,001, 0,1 y 10.

Si los datos los genera M2 entonces se tiene que: β0 = 1 y β1 = 1 y para β2 se permiten dos valores: 0,1 y 0,7. Para t2u se supone el mismo proceso comentado para

t1u .

En ambos casos, los valores de las variables t1X y t2X se generan a partir de

una variable distribuida normalmente con media cero y varianza la unidad siendo las dos independientes. El ejercicio se lleva a cabo para tres tamaños muestrales: 50, 100 y 500 y el número de simulaciones es igual a 1.000. El programa utilizado para llevar a cabo todos los cálculos ha sido Gauss versión 3.2.12.

Los resultados para el caso en que genera el modelo restringido aparecen en el Cuadro 8.5. En la primera columna aparecen los tres tamaños muestrales, en la segunda, los tres valores supuestos para la varianza de la perturbación del modelo y en las restantes columnas aparecen, para el criterio indicado, el número de veces que se elige el modelo amplio. El nivel de significación adoptado para los criterios F y LR es el 1%. La razón de no incluir otros criterios de los ya estudiados a lo largo de este capítulo es que se comportan de forma similar a alguno de los ya incluídos en el cuadro. Así, por ejemplo, los criterio W y LM reproducen los resultados del criterio LR; el criterio BEC reproduce los resultados del criterio SBIC y el criterio Cp se comporta como el criterio AIC.

Los datos del Cuadro 8.5 nos ponen de manifiesto todas las cuestiones comentadas previamente. Existe una escala de más a menos parsimonia; la distinción es clara entre los cuatro primeros y los restantes. Entre los cuatro primeros, para tamaños muestrales más pequeños se ve que los criterios más parsimoniosos son el F y el LR. Para T=500, los cuatro tienden a igualarse mientras que si hubiéramos considerado tamaños muestrales mayores, los más parsimoniosos hubieran sido los criterios AVE2 y SBIC que es la situación reflejada en la Figura 8.1.

Page 25: Criterios Para Elegir El Mejor Modelo CAPI8

353

Solo los criterios AVE2 y SBIC son sensibles al tamaño muestral. Conforme este crece el tamaño del error Tipo 1 de ambos se hace más pequeño.

En la última columna aparecen los datos correspondientes al Error Cuadrático Medio de Predicción. No es sensible al tamaño muestral y en la escala de parsimonia se situa entre los criterios AIC y 2R . Se han distinguido dos casos según sea el número de observaciones extramuestrales. El error se hace menor cuando se pasa a un número mayor de observaciones extramuestrales.

Los resultados para el caso en que los datos los genere el modelo amplio pueden verse en el Cuadro 8.6. La estructura es similar a la del Cuadro 8.5 añadiendo la tercera columna que recoge los dos valores del parámetro de la variable X2 , β .

En este caso, todos los criterios son sensibles al tamaño muestral; el tamaño del error se hace menor al crecer la evidencia muestral.

Un hecho destacable es la diferencia existente para todos los criterios según sea el valor de β. Esto es lógico porque este valor determina el sesgo en el que incurre el modelo restringido. Cuanto mayor es el valor de este parámetro menor es el tamaño del error.

Page 26: Criterios Para Elegir El Mejor Modelo CAPI8

354

CUADRO 8.5. Marco Estacionario. PGD: Modelo Restringido ε = 0,01

TM VP F(=AVE1) LR AVE2 SBIC AIC 2R AVE3 ECM

T TM1 2=⎛

⎝⎜⎞⎠⎟

⎟⎠⎞

⎜⎝⎛ = TM

106T

ECM

1

50 0,001 12 14 68 61 168 310 339 227 187

0,1 14 16 58 50 167 307 333 236 188

10 13 16 84 79 177 311 333 220 183

100 0,001 7 8 42 36 155 325 336 211 183

0,1 10 14 40 38 149 313 322 222 201

10 6 8 37 34 162 327 335 211 190

500 0,001 7 7 11 11 141 316 319 220 177

0,1 14 18 22 21 170 322 325 198 183

10 8 9 13 12 158 321 324 214 183

Page 27: Criterios Para Elegir El Mejor Modelo CAPI8

355

CUADRO 8.6. Marco Estacionario. PGD: Modelo Amplio. TM VP β F(=AVE1) LR AVE2 SBIC AIC 2R AVE3 ECM1 ECM2

50 0,001 0,1 31 34 125 113 262 425 447 265 278

0,7 973 978 998 998 999 1000 1000 976 944

0,1 0,1 31 31 114 101 251 409 436 266 295

0,7 967 973 999 998 1000 1000 1000 958 970

10 0,1 25 29 113 100 255 426 444 262 288

0,7 969 974 999 998 999 1000 1000 969 946

100 0,001 0,1 42 48 123 116 337 502 512 345 339

0,7 1000 1000 1000 1000 1000 1000 1000 994 997

0,1 0,1 46 57 136 123 362 527 535 320 362

0,7 1000 1000 1000 1000 1000 1000 1000 997 995

10 0,1 54 59 147 136 355 525 537 341 350

0,7 1000 1000 1000 1000 1000 1000 1000 994 994

500 0,001 0,1 325 358 393 388 788 892 892 684 683

0,7 1000 1000 1000 1000 1000 1000 1000 1000 1000

0,1 0,1 335 354 391 389 791 877 879 709 663

0,7 1000 1000 1000 1000 1000 1000 1000 1000 1000

10 0,1 347 378 423 419 822 912 913 689 680

0,7 1000 1000 1000 1000 1000 1000 1000 1000 1000

Page 28: Criterios Para Elegir El Mejor Modelo CAPI8

356

CUADRO 8.7. Suma de los Tamaños de los Dos Errores (%)

F(=AVE1)

LR

AVE2

SBIC

AIC

R2

AVE3

ECM T TM11

2=

⎛⎝⎜

⎞⎠⎟

ECM T TM1

6

10=

⎛⎝⎜

⎞⎠⎟

TM VP 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 50 0,1

98,3 4,7

98,5 4,3

95,4 5,9

94,9 5,2

91,6 16,7

89,8 30,7

89,4 33,3

94,1 26,6

92,2 23

10

98,8 4,4

98,7 4,2

98,1 8,5

97,9 8,1

92,5 17,8

88,5 31,1

88,9 33,3

93,2 27,4

92,0 21,3

100 0,1

96,4 1

95,7 1,4

90,4 4

91,5 3,8

78,7 14,9

78,6 31,3

78,7 32,2

86 22,7

80 20,5

10

95,1 0,6

94,9 0,8

88,0 3,7

89,8 3,4

80,7 16,2

80,5 32,7

79,8 33,5

86,1 21,6

85 19,6

500 0,1

67,9 1,4

66,4 1,8

63,1 2,2

63,2 2,1

47,9 17

44,5 32,2

44,6 32,5

55,7 22

50,2 20,5

10

66,1 0,8

64,1 0,9

59 1,3

59,3 1,2

33,6 15,8

40,9 32,1

41,1 32,4

53,4 21,4

49,4 18,3

Page 29: Criterios Para Elegir El Mejor Modelo CAPI8

357

Por último, en el Cuadro 8.7 se recoge la suma de los tamaños de los dos errores para cada criterio y cada combinación tamaño muestral – varianza de la perturbación. Para cada criterio aparecen dos columnas una para cada valor del parámetro β .

En todos los casos un tamaño muestral mayor lleva a que la suma sea menor, lo cual es lógico pues a mayor evidencia en la muestra mayor es la probabilidad de acertar. Un segundo hecho destacable es que la suma es mucho mayor para β = 0,1 (1) que para β = 0,7 (2). Esto también es lógico porque el proceso generador de datos está enviando una señal más clara en el segundo caso. Un último hecho destacable es que conforme nos desplazamos de un criterio más parsimonioso a otro menos parsimonioso el sumatorio para β = 0,1 decrece mientras que el sumatorio para β = 0,7 crece; además, no lo hacen los dos al mismo ritmo pues mientras el decrecimiento del primero es muy ligero, el crecimiento del segundo es más brusco. El resultado es que la diferencia del primer sumatorio entre los criterios F y AVE3 es de 10 puntos siendo mayor el primero, mientras que la diferencia del segundo sumatorio es de casi 30 puntos siendo mayor el segundo.

A la vista de estos resultados y de lo comentado en secciones anteriores cabría pensar en recomendaciones respecto a qué criterios utilizar en el trabajo aplicado. Estas recomendaciones dependen del marco que se adopte en el contraste y el objetivo que se plantee para el mismo.

Respecto al marco caben dos alternativas según que se considere que el proceso generador de datos sea uno de los modelos que se compara u otro modelo diferente de mayor complejidad. En una ciencia social como es la Economía en la que no es posible la experimentación, existen muchas razones para pensar en que lo más normal es el escenario en el que ninguno de los modelos que se compara genere los datos.

Podemos pensar en una primera estrategia en la que o bien por la información a priori o bien por la información que proporciona la evidencia muestral disponible, el investigador está dispuesto a mantener que el PGD es uno de los dos modelos que se comparan. En este caso, si genera los datos el modelo restringido, entonces los criterios menos parsimoniosos siempre van a cometer más error; si los datos los genera un modelo amplio muy distante (midiendo la distancia por el valor que toma el parámetro de la variable X2), del restringido, entonces todos los criterios van a comportarse de forma similar cometiendo un error muy pequeño; si los datos los genera un modelo amplio muy próximo al restringido entonces los criterios menos parsimoniosos se

Page 30: Criterios Para Elegir El Mejor Modelo CAPI8

358

comportarán mejor cometiendo un error más pequeño. A la vista de estos resultados la mejor opción sería utilizar un criterio parsimonioso del tipo AVE2 ó asociados, SBIC y BEC. Con esta opción se garantiza que el porcentaje de acierto será elevado en dos situaciones: cuando genera los datos el modelo restringido o cuando los genera un modelo amplio distante del restringido. El porcentaje de fallos será mayor relativamente a otros criterios menos parsimoniosos cuando genere los datos un modelo amplio que esté próximo al modelo restringido. Desde nuestro punto de vista, la conclusión a la que se llega en este caso no tiene mucha relevancia porque no es muy diferente concluir que la variable X2 no tiene ningún efecto sobre la variable y o que tiene un efecto pero muy pequeño. Sabemos que si el efecto de la variable X2 sobre y es relevante será detectado con toda seguridad y que solamente puede cometerse algún error si dicho efecto es poco relevante.

Es importante destacar que la única decisión con garantias que puede adoptarse es el rechazo del modelo restringido utilizando un criterio muy parsimonioso (digamos el criterio SBIC o el contraste F con un nivel de significación en torno al 1%). Ese rechazo indicaría que la diferencia entre las verosimilitudes de los dos modelos es tan grande que aún penalizando mucho la del modelo amplio es este el modelo elegido. En el caso en que se acepte la hipótesis nula con un critero muy parsimonioso se está indicando que las verosimilitudes de los dos modelos no son muy diferentes; eso significa que la evidencia contenida en los datos no envian un mensaje claro respecto a que modelo mantener. O bien los datos son malos o bien los dos modelos están próximos de acuerdo con alguna métrica. En este caso, sería útil prestar atención al valor de probabilidad del contraste de la F y si este valor no supera el 10-15%, decidir rechazar la hipótesis nula alertando de que la evidencia de los datos no es muy concluyente. Cuando el valor de probabilidad supere el nivel de significación implícito del criterio menos parsimonioso (digamos el 30% que corresponde al criterio 2R ) entonces no hay evidencia ni para rechazar, ni para aceptar la hipótesis nula. Lo que podría hacerse en este caso es estimar ambos modelos, estudiar su proximidad y llevar a cabo con ellos algún ejercicio de simulación y predicción. Con base en los resultados de estos ejercicios se podría tomar una decisión sobre qué modelo mantener pero siempre, poniendo de manifiesto que la decisión está abierta a todo tipo de dudas porque la evidencia contenida en los datos no permite una discriminación clara.

Si consideramos un último escenario en el que ninguno de los modelos que se compara es el PGD, entonces la recomendación hay que formularla no en base al tamaño que toman los dos errores sino en base a la calidad de la aproximación al PGD desconocido que cada uno de los modelos proporciona. En este marco, los criterios a utilizar son los basados en la estimación de una función de riesgo que coinciden con los

Page 31: Criterios Para Elegir El Mejor Modelo CAPI8

359

cuatro menos parsimoniosos mencionados. La decisión última dependerá de la función de pérdida que se decida adoptar.

Examinados los resultados para el marco estacionario pasemos ahora a analizar los correspondientes al ejercicio en un marco no estacionario.

Considerar el siguiente PGD:

t1tt uXy +β= t21t2t uXX ++δ= − t11t21211t1111t1 uuu ε+ρ+ρ= −− t21t22211t1211t2 uuu ε+ρ+ρ= −−

con tε iid ∼ N ⎥⎥

⎢⎢

⎟⎟⎟

⎜⎜⎜

σ

σ22

21

0

0,0

El número de simulaciones es de 1000. Siempre se han considerado tres tamaños muestrales: 50, 100 y 500. Los valores para las varianzas 2

221 y σσ , 0,1 y 2

y dos valores para el coeficiente de la relación de cointegración, 0,1 y 1.

Los modelos que se comparan son:

t3t1t1tt

t22t121t11t

t11t11t

vXuX y :3Mvyyy :2M

vyy :1M

+Δδ+φ+β=+Δφ+Δφ=Δ

+Δφ=Δ

−−

Page 32: Criterios Para Elegir El Mejor Modelo CAPI8

360

CUADRO 8.8. Marco No Estacionario. PGD: Modelo Con Cointegracion

TM VP β (1) (2) (3)

50 0,1 0,1 687 767 734

1 996 996 997

2 0,1 691 776 731

1 992 994 993

100 0,1 0,1 891 945 908

1 1000 1000 1000

2 0,1 911 949 919

1 1000 1000 1000

500 0,1 0,1 1000 1000 1000

1 1000 1000 1000

2 0,1 1000 1000 1000

1 1000 1000 1000

en donde:

ttt1 Xˆyu β−=

2t

tt yˆΣΧΣΧ

La comparación se lleva a cabo utilizando el error cuadrático medio de predicción (ECMP). Se elige aquel modelo con un menor valor de este estadístico.

En el Cuadro 8.8 pueden verse los resultados para el caso en que δ2 = 0 y 5,0111 =ρ y 1,0211 =ρ . La estructura del cuadro es la siguiente. En la primera columna

aparecen los tres tamaños muestrales, en la segunda, los valores supuestos para las varianzas, en la tercera, los valores supuestos para el coeficiente de la relación de cointegración y, en las tres restantes, como sigue:

(1) Número de veces que el ECMP del modelo M3 es simultáneamente, menor que los correspondientes a los otros dos modelos.

(2) Número de veces que el ECMP de M3 es menor que el M1.

(3) Número de veces que el ECMP de M3 es menor que el de M2.

Page 33: Criterios Para Elegir El Mejor Modelo CAPI8

361

Como puede verse, los resultados son sensibles al tamaño muestral y al valor del coeficiente de la relación de cointegración pero no a la varianza de las perturbaciones. Cuanto mayor es el tamaño muestral y cuanto mayor es el coeficiente de la relación de cointegración mayor es el número de veces en que se toma la decisión correcta de elegir el modelo con cointegración. Incluso aunque la cointegración sea pequeña (β = 0,1) si el tamaño muestral es grande se puede llegar con mucha probabilidad a la decisión correcta. Los resultados no varían para valores de δ diferentes de cero pero si que varían conforme lo hacen los coeficientes autorregresivos,

111ρ y 221ρ ; conforme estos coeficientes se aproximan a 1 (digamos 0,8) entonces la

probabilidad de tomar una decisión correcta disminuye notablemente.

Por último consideramos un PGD sin cointegración del siguiente tipo:

t21t2t

t11t1t

uXXuyy++δ=++δ=

Para u1t y u2t suponemos el mismo proceso autorregresivo comentado para el modelo con cointegración. Para δ1 y δ2 supondremos dos valores, 0 y 1 y el resto de los parámetros toman los mismos valores ya supuestos en el caso anterior.

Los resultados de este ejercicio pueden verse en el Cuadro 8.9. La estructura es la misma que la del Cuadro 8.8 cambiando β por δ1 y δ2 .

Estos resultados muestran con claridad que el método funciona bien incluso para tamaños muestrales como 50. Cuando el tamaño muestral está en torno a 100 ya se elige siempre el modelo sin cointegración.

Page 34: Criterios Para Elegir El Mejor Modelo CAPI8

362

CUADRO 8.9. Marco No Estacionario. PGD: Modelo Sin Cointegracion

TM VP δ1 = δ2 (1) (2) (3)

50 0,1 0 40 40 58

0,1 1 4 4 7

2 0 36 38 55

2 1 13 15 15

100 0,1 0 7 7 10

0,1 1 0 0 1

2 0 5 5 11

2 1 1 1 1

500 0,1 0 0 0 0

0,1 1 0 0 0

2 0 0 0 0

2 1 0 0 0

Page 35: Criterios Para Elegir El Mejor Modelo CAPI8

363

EJERCICIOS

8.1). Se dispone de T =100 observaciones para una variable dependiente (y) , y seis variables explicativas. Para la variable y se sabe que: ( )y yt − =∑ 2 20 .

Se consideran los modelos anidados M1 , M2, el primero con 3 variables y el segundo con las seis variables, con los siguientes coeficientes de determinación:

9,0R y,8,0R 22

21 == .

1).Suponiendo que la hipótesis nula es M1 escribir la región crítica que corresponde a los siguientes criterios: R2 , AIC , LR y SBIC e indicar la decisión que se tomaría utilizando cada uno de los cuatro criterios.

2). Interpretar cada uno de los anteriores contrastes como un contraste de la F derivando el correspondiente punto crítico.

3). Derivar cual sería el tamaño del error tipo 1 que corresponde a cada uno de los cuatro criterios cuando el tamaño muestral tiende a infinito. 8.2). Sea M1 un modelo lineal anidado en otro modelo lineal, M2. Sean $u1 y $u2 los respectivos vectores de residuos MCO.

1). Obtener las esperanzas y matrices de varianzas y covarianzas de ambos vectores de residuos generando los datos M2.

2). Demostrar que si genera los datos M2, se cumple que :

$ $ $ $' 'u u u u2 2 1 1≤

¿Se cumple esta desigualdad si genera los datos M1?.

3). Para discriminar entre M1 y M2 un investigador propone utilizar el criterio AIC de Akaike alegando que dicho criterio garantiza un tamaño del error tipo 1 igual al 5% que,en este caso, corresponde a un punto crítico del contraste de la F igual a 3,5. Evaluar esta propuesta demostrando los resultados que sean necesarios.

4). Otro investigador propone utilizar conjuntamente los criterios R2 y el contraste de la F tomando un nivel de significación del 5%. Evaluar la coherencia de esta propuesta. 8.3). Sea M1 un modelo con k1 regresores que está anidado en otro modelo M2 con k2 regresores. Tomando toda la información hasta el periodo T ,y utilizando el modelo M1 se hace una predicción MCO para el periodo siguiente; sea eT+1 el error de predicción correspondiente. A continuación, usando la información hasta T+1 se

Page 36: Criterios Para Elegir El Mejor Modelo CAPI8

364

formula la predicción para el periodo T+2; sea eT+2 el error de predicción corespondiente. Suponiendo que genera los datos M2 se pide:

1). Derivar Ee eT T+ ++⎛

⎝⎜

⎠⎟1

22

2

2

2). Derivar Vare eT T+ ++⎛

⎝⎜

⎠⎟1

22

2

2

3). Utilizando los resultados de los dos puntos anteriores comentar la utilidad de utilizar el promedio de los cuadrados de dos errores de predicción sucesivos con un periodo de horizonte para discriminar entre M1 y M2. 8.4). Para un modelo lineal con tres regresores se conoce que: y =4; y y' =200; y X X X X y' ' '( )−1 =190; T=10; Se pide:

1). Calcular los valores que tomarían los estadísticos R2 , SBIC y AIC.

2). Suponiendo que el modelo anterior se va a comparar con otro modelo lineal que tiene cinco regresores derivar y calcular el valor de los factores de parsimonia y de los puntos críticos implicitos de la F correspondientes a cada uno de los tres criterios comentados.

3). Determinar qué valor debería tomar la suma de cuadrados de los residuos del modelo con cinco regresores para que dicho modelo fuera aceptado utilizando el criterio AIC y fuera rechazado utilizando el criterio SBIC. Determinar qué valor debería tomar dicha suma para que el modelo con cinco regresores fuera rechazado por los tres criterios. 8.5). Suponer que se están comparando tres modelos, M1, M2 y M3. El primero está anidado en el segundo y éste en el tercero. Con 96 observaciones se han obtenido los siguientes estadísticos: k $ $'u u $σ AIC SBIC M1 5 11.62 ? -2.00 -1.87 M2 7 ? .33 ? -1.95 M3 9 9.58 .33 -2.11 ? en k se incluye como parámetro la varianza de la perturbación del modelo. Se pide:

1). Calcular las casillas que faltan.

2). Discriminar entre M1 y M2 utilizando los siguientes criterios: 22 R,R y el contraste de la F con un nivel de significación del 5% sabiendo que F (0.05) = 3.09.

Page 37: Criterios Para Elegir El Mejor Modelo CAPI8

365

3). Derivar y calcular el factor de parsimonia de los criterios 22 R,R y AIC cuando se discrimina entre M1 y M2. 8.6). Sean yt y x t dos variables I(1) que están cointegradas. Demostrar que el coeficiente de determinación de la regresión de yt sobre x t tiende siempre a ser superior al de la regresión de Δyt sobre Δxt . Demostrar que ese resultado no tiene porque cumplirse si las dos variables son I(0). 8.7). El criterio AIC esta basado en la función de pérdida de la distancia de Kullback-Leibler.Utilizando este concepto resolver las dos cuestiones siguientes:

1). Dos expertos predicen que la proporción de consumidores de un determinado producto será respectivamente .7 y .5. Si la verdadera proporción es .6 ¿Qué predicción de las dos está más próxima de la verdadera?.

2). Suponer que la verdadera distribución viene dada por la distribución Normal estandar N( 0, 1) ¿ Qué modelo, el N( .5, 1) o el N (0, 1.5) está más próximo de la verdadera distribución?. 8.8). El criterio AIC de Akaike se escribe alternativamente como: AIC = l k(~)θ − o como: AIC = − +2 2l k(~)θ en donde l(~)θ es el valor que toma el logaritmo de la función de verosimilitud sustituyendo los parámetros por sus estimadores máximo-verosímiles, y k es el número de parámetros que se estiman. Utilizando el criterio AIC resolver la siguiente cuestión planteada en Sakamoto, Ishiguro y Kitagawa (1986): Una máquina produce bolas esféricas. Se conoce que los diámetros de estas bolas, si la máquina funciona normalmente, tienen una media de un centímetro y una desviación típica de .01 cm. . Un dia se eligen aleatoriamente 20 bolas y se miden sus diámetros. Los resultados son los siguientes. .999 1.013 .974 .993 .989 1.001 1.008 1.003 .989 1.009 1.001 .977 1.023 .994 .988

Page 38: Criterios Para Elegir El Mejor Modelo CAPI8

366

1.005 1.006 .995 1.003 1.027 ¿ Podemos concluir, a partir de esta información, diciendo que la máquina sigue funcionando normalmente?.

Page 39: Criterios Para Elegir El Mejor Modelo CAPI8

367