Ejemplo_MODELO (EL GASTO DE CONSUMO PRIVADO PER CÁPITA EN MÉXICO)
-
Upload
santiago-marquina -
Category
Documents
-
view
78 -
download
0
description
Transcript of Ejemplo_MODELO (EL GASTO DE CONSUMO PRIVADO PER CÁPITA EN MÉXICO)
Santiago Marquina Benítez 20 de noviembre
de 2006
1
“MODELO SOBRE EL GASTO DE CONSUMO PRIVADO PER CÁPITA EN MÉXICO,
DEL PERIODO DE 1980 AL 2002 A PRECIOS DE 1993, BASADO EN EL ENFOQUE DEL
GASTO”.
PARTE I: MARCO TEÓRICO
1.1. PRESENTACIÓN
El objetivo de este caso práctico es elaborar un modelo econométrico para explicar el gasto de
consumo privado de la economía de México utilizando datos trimestrales para el período del primer
trimestre de 1980 al segundo trimestre de 2002. Los datos aparecen en el Cuadro No.1. La
justificación, desde el punto de vista teórico, de la relación que pone a la variable GCPP (Gasto de
Consumo Privado Per cápita) en función de los IDPP(Ingreso Disponible Personal Privado), RN (
Riqueza Neta), TIM (Tasa de Interés del Mercado) y NP ( Nivel de Precios), se efectúa en el marco
de el tratamiento teórico de la función de consumo que se sitúa entre un planteamiento “ad hoc” que
arranca del propio Keynes, y que se ha extendido a otros trabajos que algunos autores han dado en
llamar línea ortodoxa.
Blinder y Deaton (1985) señalan, que los desarrollos en la investigación económica, así como los
hechos recientes, ponen de manifiesto nuevas cuestiones fundamentales sobre la función de
consumo. Y mencionan, la aportación que hace Lucas (1976) con respecto al carácter estructural de
la función de consumo, a la hipótesis del paseo aleatorio desarrollada por Hall (1978), a la hipótesis
de equivalencia de Barro (1974) y al tratamiento teórico de la sustitución intertemporal.
En lo que toca a los hechos relevantes, se refieren fundamentalmente a ciertas experiencias
observadas en la economía estadounidense, como los cambios impositivos de carácter no definitivo,
la volatilidad reciente comparada con periodos anteriores de los tipos de interés y de la tasa de
inflación, y el aumento en el nivel del déficit del sector público. Nosotros en este trabajo, no
pretendemos dar cuenta de todos estos aspectos, sino solamente dar una visión más parcial pero que
sea suficiente para ilustrar el proceso teórico-práctico apuntado en el desarrollo del método de
predicción (modelo econométrico).
A la hora de analizar el orden de integración de las cinco variables, así como de las relaciones a
largo plazo entre ellas, hay que tener en cuenta que a lo largo del período en que se efectúa el
análisis, los casi veintidós años que van desde el primer trimestre de 1980 a el segundo trimestre de
2002, la economía mexicana, como la mayor parte de las economías del mundo, estuvo sujeta a una
serie de convulsiones que hace que las variables macroeconómicas más relevantes sigan pautas de
comportamiento poco estables.
Esto dificulta encontrar una estructura que permita identificar un orden de integración bien definido
o de una relación de equilibrio a largo plazo sin ningún carácter errático. Trataremos de ilustrar estas
dificultades con un análisis detallado de las pautas seguidas en el periodo bajo estudio por la
variable consumo.
La información recabada es a partir de el sistema de Cuentas Nacionales en México el cual se basa
valga la redundancia en un sistema contable de doble entrada, donde las ventas del producto
Santiago Marquina Benítez 20 de noviembre
de 2006
2
agregado se registran en un lado y los pagos a los recursos se registran en el otro lado. El PIB mide
el valor de mercado de todos los bienes y servicios finales producidos en un año por los recursos
ubicados en México, sin considerar quienes son los dueños de esos recursos. El PIB puede medirse
ya sea por el gasto total de la producción de México o por el ingreso total recibido por esa
producción. El enfoque del gasto incluye la suma del gasto agregado de todos los bienes y servicios
finales producidos durante un año. El enfoque del ingreso incluye la suma del ingreso agregado
ganado durante el año por los que produjeron ese producto. La manera más fácil de entender el
enfoque del gasto del PIB es dividir el gasto agregado en cuatro componentes: consumo, inversión,
compras del gobierno y exportaciones netas. Vamos a describir un poco la variable de interés, para
nuestro caso el consumo privado.
Consumo, o más específicamente gasto en el consumo personal, consiste en la compra de bienes y
servicios finales de las familias durante un año. El consumo es el rublo en el que más se gasta y el
más sencillo de entender. Junto con los servicios como son digamos el de tintorería, restaurantes y el
de corte de cabello, el consumo incluye las compras de bienes no durables, como es el jabón, el
papel sanitario y la pasta de dientes, por ejemplo, y los bienes durables, como son los televisores,
automóviles, computadoras, relojes de pulso, videos, etc.
Resumiendo, respecto al enfoque del gasto, el gasto agregado de México es igual a la suma del
consumo, inversión (Formación bruta de capital fijo + inventarios o variaciones de existencias),
compras del gobierno y las exportaciones netas. Entonces si sumamos estos cuatro componentes se
obtiene el gasto agregado o PIB:
)( MXVEFBCFGCGGCP = Gasto agregado (GA) = PIB. (1)
Para el caso que pretendemos modelizar, vamos a tomar solo uno de los componentes del Gasto
agregado, que sería el Gasto de Consumo Privado per cápita (GCPP) de México durante el primer
trimestre de 1980 al segundo trimestre de 2002. En función de las variables explicativas que se
describen en el párrafo siguiente.
1.2. ESPECIFICACIÓN DEL MODELO ECONOMETRICO
Para estimar un modelo de este tipo para México y para dar cabida a relaciones inexactas entre las
variables económicas se ha especificado la siguiente función:
ttttttt UXXXXXY 66554433221 o (2)
GCPPt = ttttt UNPTIMRNIDPP 554433221 (3)
donde:
GCPP = Gasto de Consumo Privado Per cápita en el periodo t en Miles de Pesos a Precios de 1993.
IDPP = Ingreso Disponible Personal Per cápita en el periodo t en Miles de Pesos a Precios de 1993.
RN = Riqueza Nacional en el periodo t en Miles de Pesos a Precios de 1993.
TIM = Tasa de Interés del Mercado en el periodo t en Miles de Pesos a Precios de 1993.
NP = Nivel de Precios en el periodo t en Miles de Pesos a Precios de 1993.
Santiago Marquina Benítez 20 de noviembre
de 2006
3
Variable dependiente = GCPP
Variables independientes = IDPP, RN, TIM y NP.
Variable aleatoria estocástica = U
1 = Ordenada al origen o intercepto
2 , 3 , 4 y 5 = Parámetros del modelo o pendientes parciales.
La ecuación (3), es un ejemplo de un modelo econométrico o en términos más técnicos sería un
modelo de regresión lineal múltiple.
1.3. OBTENCIÓN DE LA INFORMACIÓN
Para poder llevar a cabo la estimación del modelo econométrico dado en (3), esto es para obtener los
valores de 1 , 2 , 3 , 4 y 5 , necesitamos información (datos). En la tabla No.1 podemos
observar cifras trimestrales relacionadas con la economía de México durante el periodo
comprendido de 1980 a 2002, todos estos indicadores económicos están medidos en miles de pesos
a precios de 1993. Por consiguiente, los datos están en términos reales, es decir , han sido medidos
en precios constantes de 1993.
Tabla No.1: INDICADORES ECONÓMICOS DE MÉXICO DE 1980 A 2002. (Series trimestrales: A Precios Constantes) Valores Absolutos (Miles de Pesos a Precios de 1993)
PERIODO
Gasto de Consumo Personal Privado
Ingreso Disponible Personal Privado Riqueza Neta Tasa de Interés del Mercado Nivel de Precios
GCPP IDPP RN TIM NP
1980/01 622669.659 862660.371 214997.348 ND
ND
1980/02 656003.875 860201.261 210482.728
ND ND
1980/03 685265.248 850807.26 214998.932
ND ND
1980/04 704087.875 915490.04 225175.17
ND ND
1981/01 669779.528 933803.093 249165.828 28.82
ND
1981/02 705334.53 948182.994 251413.053 28.29
ND
1981/03 735406.243 923284.242 248253.39 32.78
ND
1981/04 741145.209 981360.57 254284.094 33.48
ND
1982/01 700813.644 962230.371 248812.869 35.23
ND
1982/02 717005.55 953281.169 220750.843 44.08
ND
1982/03 706672.169 916543.737 201590.068 53.24
ND
1982/04 698525.88 934854.544 164164.338 50.67
ND
1983/01 650790.495 923492.835 152586.502 61.99 0.83333333
1983/02 679915.915 907078.637 146534.647 63.09 1.14666667
1983/03 687656.408 878795.045 145776.445 58.45 1.72666667
1983/04 686710.952 926212.938 159334.399 54.25 2.16333333
1984/01 670203.522 953719.86 152063.606 50.21 3.58666667
1984/02 692880.841 933673.909 151697.448 49.39 3.11666667
1984/03 715406.142 919963.437 170030.01 50.76 3.85
1984/04 703133.583 952225.108 170048.106 48.42 4.08
1985/01 691959.753 969957.65 177116.01 52.05 4.10333333
1985/02 721202.526 967781.447 173849.237 61.93 4.79333333
1985/03 731260.485 930791.147 174525.048 71.88 6.57666667
1985/04 721416.782 973300.194 171010.13 70.95 10.5466667
Santiago Marquina Benítez 20 de noviembre
de 2006
4
1986/01 688204.521 940724.975 166096.404 77.35 13.91
1986/02 716682.988 963573.595 161816.162 82.6 14.4933333
1986/03 707108.338 886661.757 145145.162 ND 23.4666667
1986/04 692840.293 932581.864 143022.015 105.96 41.34
1987/01 657738.851 931166.382 140745.894 103.85 79.5433333
1987/02 708041.309 965581.358 158209.705 98.8 142.426667
1987/03 719141.012 912230.238 158746.436 96.25 285.976667
1987/04 724679.621 978699.968 160846.601 116.27 139.773333
1988/01 672262.518 955083.192 160327.937 129.91 171.536667
1988/02 710845.565 975997.095 165035.528 44.1 175.266667
1988/03 716630.239 913362.87 164713.395 32.45 194.156667
1988/04 746074.194 991840.584 164282.888 ND 212.976667
1989/01 714711.791 982796.857 166479.987 49.52 216.846667
1989/02 773052.669 1022173.92 180420.001 53.4 304.386667
1989/03 784973.793 966359.205 170210.833 36.06 393.86
1989/04 780341.211 1022452.75 174817.501 39.28 401.346667
1990/01 754406.265 1025451.72 180853.727 42.79 469.13
1990/02 808002.71 1063513.65 194472.01 38.13 597.076667
1990/03 838931.119 1014122.76 196801.879 31.52 592.066667
1990/04 848004.002 1097403.55 210259.179 27.43 622.293333
1991/01 783901.985 1064418.27 202039.48 23.27 695.17
1991/02 852071.388 1123470 222157.753 20.02 1018.44333
1991/03 867844.26 1048396.37 210179.867 18.28 1235.17333
1991/04 897554.91 1141247.46 233711.28 17.68 1395.55
1992/01 818616.79 1114349.8 228417.961 14.22 1786.61
1992/02 893219.89 1149376.17 242475.099 13.26 1776.63
1992/03 906955.063 1095453.2 243833.963 17.61 1432.39
1992/04 941726.357 1173365.82 247109.786 18.34 1690.82
1993/01 889347.324 1148262.58 232635.221 18.31 1657.20333
1993/02 899450.199 1158953.83 232102.96 16.33 1649.56333
1993/03 893663.046 1114105.41 231953.864 14.28 1838.67333
1993/04 930233.618 1199206.93 241050.303 12.96 2279.52667
1994/01 907974.264 1175075.35 240758.498 10.29 2592.39667
1994/02 951211.611 1224362.14 256539.605 16.61 2346.80333
1994/03 936377.229 1165464.15 252817.533 15.26 2637.03667
1994/04 982646.792 1261795.77 266114.121 15.94 2506.36
1995/01 864750.493 1169873.44 194109.352 49.06 1825.55
1995/02 838975.837 1111785 169631.692 57.62 2033.91667
1995/03 835828.068 1071816.32 167986.329 36.64 2428.14
1995/04 879199.203 1172883.99 190963.26 47.82 2589.82667
1996/01 844447.848 1170629.35 186705.239 41.77 2979.86333
1996/02 862585.015 1183799.94 199032.768 32.58 3201.17667
1996/03 863923.283 1148180.99 211946.468 29.54 3183.01
1996/04 923666.114 1256342.08 242932.954 27.71 3288.68333
1997/01 864595.343 1224440.46 221829.804 22.97 3745.37667
1997/02 933325.352 1283060.31 248874.053 21.45 4061.13
1997/03 928401.438 1234131.77 259965.479 20.06 5012.58
Santiago Marquina Benítez 20 de noviembre
de 2006
5
1997/04 994287.151 1340087.63 286046.396 20.6 4950.58667
1998/01 937817.033 1316480.54 271266.965 19.92 4790.01
1998/02 991717.765 1338329.24 275197.851 19.77 4637.05333
1998/03 981189.421 1299073.2 284973.049 29.36 3602.25667
1998/04 1011517.96 1376299.51 289510.483 35.38 3934.8
1999/01 958390.769 1343372.36 287020.106 28.28 4383.03333
1999/02 1023691.53 1383309.78 297028.704 21.14 5573.87
1999/03 1022823.22 1354865.95 304447.128 21.2 5132.56
1999/04 1086168.58 1448472.13 318632.33 18.88 6238.90667
2000/01 1041473.23 1443482.45 322539.312 16.11 7142.49
2000/02 1115145.47 1485361.62 333011.596 15.52 6516.71667
2000/03 1116114.51 1450929.07 340991.788 15.49 6504.53
2000/04 1157861.62 1517171.63 347481.302 17.49 5899.68667
2001/01 p/ 1110456.45 1471857.08 324112.436 17.68 6085.62667
2001/02 1160699.97 1487113.57 314847.063 12.76 6416.27
2001/03 1133851.74 1428659.48 310851.665 9.89 6062.87667
2001/04 1175550.44 1493023.64 315930.735 8.63 5914.05
2002/01 1093833.3 1442613.82 301866.291 7.61 7074.72333
2002/02 1194190.42 1517752.31 321754.841 ND 6991.11
P/ Cifras preliminares a partir de la fecha que se indica
FUENTE: INEGI. Sistema de Cuentas Nacionales de México.
1.4. METODOLOGÍA:
La función de regresión poblacional (FRP) y la función de regresión muestral (FRM) utilizando el
enfoque matricial.
1.4.1. ENFOQUE MATRICIAL EN EL MODELO DE REGRESIÓN LINEAL.
MODELO DE REGRESIÓN LINEAL CON K VARIABLES.
Generalizando el modelo de regresión lineal de dos variables, el modelo de regresión poblacional
(FRP) de k variables que tiene la variable dependiente Y y K-1 variables explicatorias, X2, X3,...,Xk,
puede escribirse de la forma siguiente:
FRP: Yi = β1 + β2X2i + β3X3i +…+ βkXki + Ui con i = 1,2,….,N (4)
donde β1 = intercepto, β2 a βk = Coeficientes (pendientes) parciales, U = perturbación estocástica y,
finalmente i = i-enésima observación, siendo N el tamaño de la población.
Esta FRP nos proporciona la media o valor esperado de Y condicional a los valores fijos (en
muestras repetidas) de X2,X3,....,Xk, es decir; E(Y/X2i,X3i,....,Xki).
La ecuación 4) es una expresión abreviada del siguiente conjunto de N ecuaciones simultáneas:
Santiago Marquina Benítez 20 de noviembre
de 2006
6
Y1 = β1 + β2X21 + β3X31 +...+ βKXK1 + U1
Y2 = β1 + β2X22 + β3X32 +...+ βKXK2 + U2
. .
. . (5)
. . YN = β1 + β2X2N + β3X3N +...+ βKXKN + UN
Escribamos el sistema de ecuaciones 5) en forma alterna pero más ilustrativa:
NkkNNN
k
k
N U
U
U
XXX
XXX
XXX
Y
Y
Y
.
.
.
.
.
.
...1
....
....
....
...1
...1
.
.
.
2
1
32
23222
13121
2
1
2
1
6)
YNX1 XNXK βKX1+ UNX1
donde:
Y= un vector columna Nx1 de observaciones de la variable dependiente Y.
X= Una matriz Nxk que contiene N observaciones sobre los k-1 variables X2 a Xk. La primera
columna de números uno representan el intercepto. (Esta matriz se conoce también como la matriz
de observaciones o información).
β = un vector columna kx1 de los parámetros desconocidos β1, β2,..., βk.
U = un vector columna Nx1 de las N perturbaciones Ui.
El sistema 6) se conoce como la representación matricial del modelo de regresión lineal
general (de k variables). Se puede escribir en forma más compacta como:
Y = X β + U (7) NX1 NXK KX1 NX1
1.4.2. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO (CMO).
Para hallar el estimador de
β de CMO escribimos primero la regresión muestral (FRM).
XXXY ki3i32i21i
iK e (8)
Lo cual puede escribirse de manera condensada en notación matricial como:
Y = X
β +
e (9)
Santiago Marquina Benítez 20 de noviembre
de 2006
7
y en forma de matrices como:
nkknnn
k
k
n e
e
e
XXX
XXX
XXX
Y
Y
Y
.
.
.
.
.
.
...1
....
....
....
...1
...1
.
.
. 2
1
2
1
32
23222
!3121
2
1
(10)
Y = X
β +
e (11)
nx1 nxk kx1 nx1
donde
β es un vector columna de k elementos que son los estimadores CMO de los coeficientes de
regresión donde
e es un vector columna nx1 de n residuales.
De la misma forma que en los modelos de dos y tres variables, en el caso de k variables los
estimadores CMO se obtienen minimizando:
2
221
2 )...( kikiii XXYe (12)
donde:
ei
2 es la suma residual de cuadrados (SRC). En notación matricial, esto equivale a minimizar t
e
e dado que:
t
e
e
e e e
e
.
.
.
e
1 2
2
3
... ...
e
e e e en i
i
n
1
1
2
2
2 2 2
1
(13)
Ahora, de la ecuación (11) obtenemos:
e = Y- X
β (14)
por lo tanto
Santiago Marquina Benítez 20 de noviembre
de 2006
8
t
e
e = (Y- X
β )t(Y- X
β )
= YtY-YX
t
βt-YX
t
βt+
βtX
tX
β
= YtY-2YX
t
βt-YX
t
βt+
βtX
tX
β (15)
en la notación escalar, el método de CMO consiste en estimar β1, β2,... βk de tal manera que ei
2sea lo más pequeña posible. Esto se logra derivando la ecuación (12) parcialmente con respecto a β1, β2,... βk e igualando los resultados a cero.
Este procedimiento nos resulta en k ecuaciones simultáneas para k incógnitas, las ecuaciones
normales de la teoría de CMO. Estas ecuaciones son:
ikikiii YXXXXn ...4433221
YiXXXXXXX ikiikiii 22323
2
221 ... 2i
YiXXXXXXX ikiikiii 33
2
332321 ... 3i (16)
. .
. .
. .
YiXXXXXXX kikikikiikiki
2
33221 ...
En forma de matrices, las ecuaciones anteriores pueden representarse como:
nknkk
n
n
kkiikiikiki
kiiiiii
kiiiiii
kiii
Y
Y
Y
Y
XXX
XXX
XXX
XXXXXX
XXXXXX
XXXXXX
XXXn
.
.
.
...
.
.
.
1...11
.
.
.
...
..
..
..
...
...
...
3
2
1
11
33231
22221
3
2
1
2
32
3
2
3233
232
2
22
32
(XtX)
β Xt
Y
(17), o de manera condensada como:
(XtX)
β = Xt Y (18)
Porque (X
β )t =
βtX
t
Nota: dado que
βtX
tY es un escalar
(un número real), igual a su
transposición YtX
βt
Santiago Marquina Benítez 20 de noviembre
de 2006
9
En esta ecuación los valores conocidos son (XtX) y (X
tY) (el producto cruzado, entre las variables X
y Y) y la incógnita es
β .
Usando ahora el álgebra matricial, si la inversa de (XtX) existe, digamos (X
tX)
-1, premultiplicando
ambos lados de a(18) por esta inversa, obtenemos:
(XtX)
-1(X
tX)
β = (XtX)
-1 X
t Y
pero dado que (XtX)
-1(X
tX ) = I, una matriz identidad de orden kxk, tendremos que:
I
β = (XtX)
-1 X
t Y ó
β = (XtX)
-1 X
t Y (19)
kx1 kxk kxn nx1
Esta ecuación es un resultado fundamental de la teoría CMO en notación matricial, que nos muestra
cómo el vector
β puede estimarse a partir de la información dada.
1.4.3. MATRIZ VARIANZA-COVARIANZA DE
β
El método matricial nos permite desarrollar fórmulas, no sólo para la varianza de i, cualquier
elemento del vector
β , sino además para las covarianzas entre dos elementos de
β . Digamos i y
j. Estas varianzas y covarianzas se necesitan para la inferencia estadística.
Por definición, la matriz varianza covarianza de
β es:
var-cov = (
β ) = E{[
β -E(
β )][
β -E(
β )]t}
Lo cual se puede escribir explicativamente como:
kkk
k
k
var,cov,cov
,covvar,cov
,cov,covvar
)cov(var
21
2212
1211
(20)
la anterior matriz var-cov puede obtenerse a partir de la siguiente fórmula:
Santiago Marquina Benítez 20 de noviembre
de 2006
10
var-cov = (
β ) = σ2(XtX)
-1 (21)
donde σ2 es la varianza homocedástica de Ui y donde (XtX)
-1 es la matriz inversa, que nos da el
estimador
β de CMO:
En el modelo de regresión lineal de dos y tres variables, un estimador insesgado de σ2 estaba
dado por:
σ2
2
2
n
ei y σ2
3
2
n
ei para tres variables.
En el caso de k variables la fórmula correspondiente es:
σ2
kn
ei
2
= σ2
kn
ee t
(22)
donde hay n-k g. de l.
Aunque en principio ete puede calcularse a partir de los residuos estimados, en la práctica
puede obtenerse directamente de la siguiente manera. Recordando que:
e SRC STC SECi
2 ( ) , en el caso de dos variables:
2
2
1
22
iii XYe
y en el caso de tres variables.
kiiiiii XYXYYe322
22
Extendiendo este principio al modelo de k variables se puede ver:
kiikiiii XYXYYe ...22
22 (23)
en notación matricial tenemos:
22 YnY t
i YYSTC (24)
2
22... YnXYXY tt
kiikii YXβSEC (25)
donde el término 2
Yn se conoce como la corrección de la media. Entonces:
YXβYYeet
t
tt
(26)
Santiago Marquina Benítez 20 de noviembre
de 2006
11
Una vez estimado ete, σ2 puede calcularse fácilmente de
kn
eet
2 lo que a su vez nos permitirá
estimar la matriz varianza-covarianza, var-cov = (
β ) = σ2(XtX)
-1.
1.4.4. PRUEBAS DE HIPÓTESIS CON NOTACIÓN MATRICIAL
Si nuestro objetivo es la inferencia además de la estimación, debemos suponer que las
perturbaciones Ui siguen alguna distribución de probabilidad. Por las mismas razones, en el análisis
de regresión usualmente suponemos que cada Ui sigue la distribución normal con media cero y
varianza constante de σ2.
U~N(0, σI) donde U y 0 son vectores columna de nx1 e I es una matriz identidad de nxn, siendo 0 el
vector nulo.
Según el compuesto de normalidad, sabemos que en los casos de dos y tres variables:
1) Los estimadores
i de CMO y los estimadores i~
de MV son idénticos, pero el estimador 2~ de
MV es sesgado aunque este sesgo puede eliminarse usando el estimador insesgado 2ˆ i CMO.
2) Los estimadores
i están también normalmente distribuidos.
Generalizando, en el caso de k variables se puede mostrar que:
β ~N 12 )(, XXβ
t (27)
esto es, cada elemento de
β está distribuido normalmente con media igual al correspondiente
elemento del verdadero β y la varianza dada por σ2 multiplicada por el correspondiente elemento de
la diagonal matriz inversa (XtX)
-1.
Debido a que en la práctica σ2 es desconocida, esta se estima por 2ˆ i . Luego, por el cambio común
a la distribución t, se sigue que cada elemento de
β sigue la distribución t con n-k g. de l.
Para la componente
i se tiene, en la hipótesis nula
i = 0,
iii
ii
Ca
knt
2
i
= (28)
donde: aii es el i-ésimo elemento de la diagonal principal de (xT x)
-1.
Para el conjunto de los coeficientes de regresión, excluido el término independiente y, por lo tanto,
trabajando con variables decisiva, se tiene:
Santiago Marquina Benítez 20 de noviembre
de 2006
12
ee
YXβt
tt
oRk
Rkn
k
knF n-k)k
)1)(1(
)(
)1( 2
2
,1(
(29)
)(/)
1)( 2
1
kn
)(k-YnF k)(n
)(k-
YXβY(Y
/YXβ
ttt
tt
(30)
1.4.5. ANÁLISIS DE VARIANZA EN NOTACIÓN MATRICIAL
El ADV nos sirve para:
1). Para probar la significación de la regresión estimada, es decir, para probar la hipótesis nula según
la cual los verdaderos coeficientes parciales (pendientes) son simultáneamente iguales a cero.
2). Para estimar la contribución incremental de una variable explicatoria.
La técnica de ADV se puede hacer extensiva al caso de K variables. Recordemos que la técnica de
ADV consiste en descomponer la STC en dos componentes: SEC y la SRC. Así, el numerador
de F, explica la variación de Yt debida a la regresión, es decir, debida a la introducción de las
variables explicativas X2,...,Xk.
En el denominador, la expresión ete “explica” el residuo. Si el numerador es significativamente
distinto del denominador, medido estadísticamente por la F de Fischer-Snedicor, entonces se acepta
al conjunto de variables explicativas X2,...,Xk o sea, se considera que la bondad del ajustamiento es
aceptable al nivel de significación dado.
Estas ideas se resumen en la siguiente tabla de análisis de la varianza, donde el cociente de los
resultados de la última columna define la F con los grados de libertad especificados en la columna
anterior.
FORMULACIÓN MATRICIAL DEL CUADRO DE ADV PARA EL MODELO DE REGRESIÓN LINEAL EN K-VARIABLES.
FUENTE DE
VARIACIÓN.
SUMA DE
CUADRADOS
(SC)
GRADOS DE
LIBERTAD
(g.l)
SUMA DE
CUADRADOS
MEDIOS (SCM)
DEBIDO A LA
REGRESIÓN.
(ESTO ES, DEBIDO A X2,
X3,...,XK).
DEBIDO A LOS
RESIDUOS.
YXβtt
– 2Yn
YXβYYttt
k-1
n-k
YXβtt
– 2Yn / k-1
YXβYYttt
/ n-k
TOTAL
2t
YYY n
n-1
Santiago Marquina Benítez 20 de noviembre
de 2006
13
Suponiendo que los errores Ui están distribuidos normalmente y la hipótesis nula 2=3=,...,=k=0,
se puede mostrar que:
)(/)
1)( 2
1
kn
)(k-YnF k)(n
)(k-
YXβY(Y
/YXβ
ttt
tt
sigue la distribución F con k-1 y n-k g.de l.
1.4.6. EL COEFICIENTE DE DETERMINACIÓN R2 EN NOTACIÓN MATRICIAL.
El coeficiente de determinación R2 se ha definido como:
RSEC
STC
2
En el caso de dos variables tenemos:
2
22
22
i
i
Y
XR
Y en el caso de tres variables se tiene:
i
iiii
y
XyXyR
2
33222
Generalizando por el caso de tres variables tenemos:
2
33222...
i
kiikiiii
y
XyXyXyR
Usando STC y SEC, con el caso de k-variables, podemos definir la siguiente ecuación en su
forma matricial:
2
22
Yn
YnR
YY
YXβt
t
(31)
de esta manera mostramos la representación matricial de R2.
Santiago Marquina Benítez 20 de noviembre
de 2006
14
FUENTE DE VARIACIÓN SUMA DE CUADRADOS
(SC)
GRADOS DE
LIBERTAD
(g de l.)
SUMA DE CUADRADOS
MEDIOS (SCM)
DEBIDO A LA REGRESIÓN
(ESTO ES, DEBIDO A
X2,....,XK)
DEBIDO A LOS RESIDUOS
)( 22 YnR YYt
))(1( 22 YnR YYt
k-1
n-k
1
( 22
k
YnR YYt
kn
YnR
))(1( 22YY
t
TOTAL YtY-
2Yn
n-1
Bajo los supuestos formulados anteriormente, existe una relación muy cercana entre F y R2:
explícitamente,
)/()1(
)1/(2
2
knR
kRF
(32)
Una vez planteado el marco teórico del modelo econométrico, el paso siguiente es analizar la
información disponible, o como se le llama técnicamente, tratamiento previo de datos.
Comenzaremos por hacer el análisis exploratorio de la variable explicada o dependiente como paso
previo a la estimación del modelo planteado, para poder garantizar la bondad y significatividad de
los resultados obtenidos en las diferentes aplicaciones.
PARTE II: ANÁLISIS EXPLORATORIO DE LA INFORMACIÓN
2.1. ANALIZAR LOS DATOS DE LA VARIABLE ENDÓGENA.
Se ha seleccionado la serie GCPP (Gasto de Consumo Privado Per cápita). Para explorar las
características estadísticas de esta variable vemos el grafico No.1. En el periodo que se analiza la
serie presentó un valor medio (Mean) $841,746.6 (miles de pesos a precios de 1993) y un valor de la
mediana (Median) muy parecido, $837,379.6 (miles de pesos a precios de 1993). Un valor máximo
(Maximum) $1,194,190.0 (miles de pesos a precios de 1993) en el segundo trimestre del 2002, y un
valor mínimo (Minimum) $622,669.7 (miles de pesos a precios de 1993) que corresponde al primer
trimestre de 1980. La desviación típica (Std. Dev.) alcanza un valor $149,932.5 (miles de pesos a
precios de 1993).
Los estadísticos de asimetría (Skewness) y curtosis (Kurtosis), con valores respectivos del 0.63 y
2.38 aproximadamente, señalan que nos encontramos con un proceso asimétrico (para que fuese
simétrico debería de tomar el valor de cero; al ser un valor positivo, la distribución es asimétrica a la
derecha) y mesocúrtico al ser muy cercano a 3 el valor obtenido (la curtosis de una distribución
normal es 3 (mesocúrtica); si el valor obtenido excede de 3 tenemos una distribución leptocúrtica y
si es menor que 3, platicúrtica).
Santiago Marquina Benítez 20 de noviembre
de 2006
15
El estadístico Jarque-Bera se utiliza para determinar si la serie sigue una distribución normal. Bajo
la hipótesis nula de una distribución normal, el estadístico Jarque-Bera se distribuye como una ji-
cuadrada con dos g. de l., que en términos aproximados, toma el valor 6.
El valor de Probability es la probabilidad de que el estadístico Jarque-Bera exceda, en valor
absoluto, el valor observado bajo la hipótesis nula, Ho: La variable analizada se distribuye como una
normal. Así, un valor bajo de la probabilidad conduce a rechazar la hipótesis nula de una
distribución normal. Para nuestro caso, como el valor de la probabilidad asociada del estadístico
Jarque-Bera es 0.024 que es menor a 0.05, o sea, que se rechaza Ho, es decir, existen dudas de que
nuestra serie presente una distribución con características que se asemejen a una normal, por lo que
se seguirá con la exploración de la serie de datos.
Gráfico No.1. Histograma y estadísticos de la serie consumo privado percápita de México..
Gráfico No.2. Diagrama de barras de la serie consumo privado percápita de México..
2.2. TRATAMIENTO DE LA ESTACIONARIEDAD DE LA VARIABLE GCPP.
En el gasto de consumo personal privado per cápita se aprecia una evolución creciente, en el
transcurso del tiempo (1980 a 2002), podemos observar que después de superar la crisis económica
del año de 1994. Esto quiere decir que la serie no presenta un valor promedio constante en todo el
periodo muestral, es decir no oscila en torno al mismo valor. Por lo que podemos suponer a priori
que, probablemente, no será estacionaria, luego entonces presentará al menos una raíz unitaria.
0
5
10
15
20
600000 700000 800000 900000 1000000 1100000 1200000
Series: GCPP
Sample 1980:1 2002:2
Observations 90
Mean 841746.6
Median 837379.6
Maximum 1194190.
Minimum 622669.7
Std. Dev. 149932.5
Skewness 0.629666
Kurtosis 2.376305
Jarque-Bera 7.405918
Probability 0.024650
600000
700000
800000
900000
1000000
1100000
1200000
80 82 84 86 88 90 92 94 96 98 00 02
GCPP
Santiago Marquina Benítez 20 de noviembre
de 2006
16
Gráfico No.3. Diagrama de línea de la serie consumo privado per cápita de México.
2.3. PRUEBA DE ESTACIONARIEDAD BASADA EN EL CORRELOGRAMA
Una prueba sencilla de estacionariedad está basada en la denominada función de autocorrelación
(AC). La tabla No.2 presenta el correlograma muestral de la serie de tiempo Gasto de consumo
Privado Per cápita GCPP y obtenida de Eviews, versión 3.1. Se muestra el correlograma hasta el
rezago 36.. En la tabla podemos ver los valores de los 36 primeros coeficientes de autocorrelación y
autocorrelación parcial, así como su representación gráfica, que corresponde como ya se menciono
anteriormente a la serie de datos de GCPP.
Una pregunta importante que nos planteamos primeramente es ¿cómo se indica en correlograma
muestral si la serie de tiempo de GCPP es estacionaria?. Podemos observar en el gráfico de la
función de autocorrelación, un coeficiente muy alto (alrededor de 0.92 en el rezago 1) y se va
desvaneciendo gradualmente. Aun en el rezago 12 (es decir, la correlación entre valores del GCPP
separados por 12 trimestres) el coeficiente de autocorrelación es considerable: 0.509. Este tipo de
patrón es por lo general un indicador de que la serie es no estacionaria. En contraste, si un proceso
estocástico es puramente aleatorio, su autocorrelación en cualquier rezago mayor que cero es cero.
Gráfico No.4. Residuos de la serie consumo privado percápita de México.
600000
700000
800000
900000
1000000
1100000
1200000
80 82 84 86 88 90 92 94 96 98 00 02
GCPP
GASTO DE CONSUMO PRIVADO PERCAPITA
-100000
-50000
0
50000
100000
600000
800000
1000000
1200000
84 86 88 90 92 94 96 98 00 02
Residual Actual Fitted
Santiago Marquina Benítez 20 de noviembre
de 2006
17
Tabla No.2: Correlograma, GCPP, México, 1980:I a 2002:II. CORRELOGRAMA DE GCPP
Autocorrelation
Partial Correlation
Rezagos
AC
PAC
Q-Stat
Prob
. |*******| . |*******| 1 0.919 0.919 78.589 0.000
. |*******| . |** | 2 0.895 0.326 154.02 0.000
. |****** | .*| . | 3 0.838 -0.119 220.80 0.000
. |****** | . |*. | 4 0.827 0.194 286.57 0.000
. |****** | **| . | 5 0.751 -0.303 341.46 0.000
. |****** | . | . | 6 0.721 0.045 392.65 0.000
. |***** | . | . | 7 0.667 0.028 437.10 0.000
. |***** | . |*. | 8 0.655 0.087 480.40 0.000
. |**** | .*| . | 9 0.585 -0.186 515.34 0.000
. |**** | . |*. | 10 0.563 0.070 548.14 0.000
. |**** | . | . | 11 0.513 -0.012 575.76 0.000
. |**** | . |*. | 12 0.509 0.092 603.23 0.000
. |*** | .*| . | 13 0.449 -0.112 624.86 0.000
. |*** | . | . | 14 0.432 0.004 645.17 0.000
. |*** | . | . | 15 0.388 -0.001 661.81 0.000
. |*** | . | . | 16 0.380 -0.001 677.99 0.000
. |** | .*| . | 17 0.324 -0.074 689.90 0.000
. |** | . | . | 18 0.307 -0.003 700.74 0.000
. |** | . | . | 19 0.267 0.014 709.07 0.000
. |** | . |*. | 20 0.270 0.086 717.66 0.000
. |** | . | . | 21 0.228 -0.011 723.92 0.000
. |** | . | . | 22 0.228 0.031 730.24 0.000
. |** | . | . | 23 0.201 0.005 735.26 0.000
. |** | . | . | 24 0.213 0.032 740.94 0.000
. |*. | . | . | 25 0.185 0.006 745.30 0.000
. |*. | . | . | 26 0.186 -0.046 749.78 0.000
. |*. | . | . | 27 0.166 0.018 753.41 0.000
. |*. | . | . | 28 0.177 -0.001 757.58 0.000
. |*. | . | . | 29 0.147 -0.047 760.52 0.000
. |*. | .*| . | 30 0.139 -0.080 763.19 0.000
. |*. | .*| . | 31 0.099 -0.121 764.55 0.000
. |*. | . | . | 32 0.091 -0.018 765.74 0.000
. | . | .*| . | 33 0.043 -0.070 766.01 0.000
. | . | . | . | 34 0.021 -0.047 766.07 0.000
. | . | . | . | 35 -0.018 0.033 766.12 0.000
. | . | . | . | 36 -0.026 -0.009 766.23 0.000
La significancia estadística de cualquier k
puede ser evaluada por su error estándar. Bartlett ha
demostrado que si una serie de tiempo es puramente aleatoria, es decir presenta ruido blanco (white
noise) los coeficientes de Autocorrelación muestral están distribuidos en forma aproximadamente
normal con media cero y varianza 1/n, donde n es el tamaño de la muestra. Para la serie n = 90, lo
que implica una varianza de 1/90 o un erro estándar de 1/ 90 = 0.1054. Entonces, siguiendo las
propiedades de la distribución normal estándar, el intervalo de confianza del 95% para cualquier k
será 1.96 (0.1054) = 0.2066 a cualquier lado del cero.
Santiago Marquina Benítez 20 de noviembre
de 2006
18
Así, si un k estimado se encuentra dentro del intervalo (-0.2066, 0.2066), no se rechaza la hipótesis
de que el verdadero k sea cero. El intervalo de confianza se muestra como dos líneas punteadas de
la figura que se encuentra dentro de la tabla uno.
En esta tabla podemos ver que todos los coeficientes k estimados hasta el rezago 24 son
estadísticamente significativos de manera individual, es decir, significativamente diferentes de cero.
Para poder probar la hipótesis conjunta de que todos los coeficientes de Autocorrelación k son
simultáneamente iguales a cero, se puede utilizar la estadística Q desarrollada por Box y Pierce, que
está definida como:
Q = n
m
k
k
1
2
(33)
Donde n = tamaño de la muestra
m = longitud del rezago
La estadística Q está repartida aproximadamente (es decir, en grandes muestras) como la
distribución ji-cuadrada con m g. de l. En una aplicación si la Q calculada excede el valor de la Q
crítico de la tabla de ji-cuadrado al nivel de significancia seleccionado, se puede rechazar la
hipótesis nula de que todos los k son iguales a cero; por lo menos alguno de ellos deben ser
diferentes de cero. Una variante de la estadística Q de Box y Perce es la estadística de Ljung-Box
(LB) que está definida como:
LB = n (n + 2)
m
k
k
kn1
2
2
m (34)
Aunque en muestras grandes tanto la estadístico Q como la LB siguen la distribución ji-cuadrada
con m g de l, se ha encontrado que la estadística LB posee mejores propiedades de muestra pequeña
(más potente en el sentido estadístico) que la estadístico Q. Para la información de nuestra serie de
tiempo de GCPP, la estadística Q (Q-stat en la tabla) basada en 36 rezagos es alrededor de 766,
siendo altamente significativo, los valores de de obtener tales valores ji-cuadrado son
prácticamente cero. En consecuencia, la conclusión es que no todos los k de nuestro GCPP son
cero.
Resumiendo, a través del correlograma me permite comprobar la posible existencia de una raíz
unitaria en la serie de datos que estamos explorando (aquí el programa te da por default 36 retardos).
Como podemos observar en la tabla 2, la función de Autocorrelación decrece exponencialmente y de
manera paulatina. Por otro lado la función de Autocorrelación parcial presenta un valor significativo
en el retardo uno, con un coeficiente de Autocorrelación cercano a la unidad (0.919). Este grafico
puede considerarse como un indicativo de la no estacionariedad de la serie GCPP, es decir presenta
una raíz unitaria.
Santiago Marquina Benítez 20 de noviembre
de 2006
19
2.4. PRUEBA DE RAIZ UNITARIA SOBRE ESTACIONARIEDAD (CONTRASTES DE
COMPROBACION DE LA ESTACIONARIEDAD EN LAS SERIES TEMPORALES).
Para comprobar de forma más exhaustiva si la serie temporal es estacionaria o no, procedemos a
aplicar el test de raíces unitarias. El planteamiento teórico de los modelos ARIMA se basa en su
aplicación sobre series temporales no estacionarias. La forma más sencilla de introducir esta prueba
es considerando el siguiente modelo:
yt = yt-1 + et (35)
Donde et es el término de error estocástico que cumple los supuestos clásicos, o sea, cumple las
propiedades de ser ruido blanco (white noise): tiene media cero, varianza constante 2
y no esta
autocorrelacionado. La ecuación (35) es una regresión de primer orden, o AR(1), en la cual se
efectúa la regresión del valor de y en el tiempo t sobre su valor en el tiempo (t-1). Ahora bien, si el
coeficiente de yt-1 es en realidad igual a 1, surge lo que se conoce como el problema de raíz unitaria,
es decir una situación de no estacionariedad. Por consiguiente si se efectúa la regresión:
yt = yt-1 + et o yt - yt-1 = (1-L)yt = et (36)
y se encuentra que = 1, entonces se dice que la variable estocástica yt tiene una raíz unitaria. En
econometría (de series de tiempo) una serie de tiempo que tiene una raíz unitaria se conoce como
una caminata aleatoria. Una caminata aleatoria es un ejemplo de una serie de tiempo no estacionaria.
La ecuación (36) también la podemos expresar en la siguiente forma alternativa:
yt = ( - 1)yt-1 + et
= yt-1 + et (37)
donde = ( - 1) y donde , como es sabido, es el operador de primera diferencia. Observemos que
yt = (yt -yt-1), y haciendo uso de esta definición, podemos ver fácilmente que la ecuación (36) y
(37) son idénticas. Sin embargo, ahora la hipótesis nula es de que = 0. Si es en realidad 0, se
puede escribir la ecuación (37) como:
yt = (yt -yt-1) = et (38)
La ecuación (38) dice que la primera diferencia de una serie de tiempo de caminata aleatoria (=et) es
una serie de tiempo estacionaria porque, por supuestos, et es puramente aleatoria. Ahora bien, si una
serie de tiempo ha sido diferenciada una vez y la serie diferenciada resulta ser estacionaria, se dice
que la serie original (caminata aleatoria) es integrada de orden 1, y se denota por I(1). De manera
similar si la serie original debe ser diferenciada dos veces (es decir debe tomarse la primera
diferencia de la primera diferencia) para hacerla estacionaria, se dice que la serie original es
integrada de orden 2, o I(2). En términos generales, si una serie de tiempo debe ser diferenciada d
veces, se dice que ésta integrada de orden d o I(d). Así, siempre que se disponga de una serie de
tiempo integrada de 1 orden o más, se tiene una serie de tiempo no estacionaria.
Santiago Marquina Benítez 20 de noviembre
de 2006
20
Entonces, para averiguar si una serie de tiempo yt es no estacionaria, se efectúa la regresión (36) y se
determina si
es igual a1 o, en forma equivalente, estimemos (37) y determinemos si = 0 con
base en, por ejemplo el estadístico t. Desafortunadamente, el valor de t calculado no sigue la
distribución t de Student aun en muestras grandes. Bajo la hipótesis nula de que = 1, el estadístico
t calculado convencionalmente se conoce como el estadístico (tau), cuyos valores críticos han sido
tabulados por Dickey-Fuller (DF), en honor a sus descubridores.
Obsérvese que, si la hipótesis nula de que = 1 es rechazada (es decir, la serie de tiempo es
estacionaria), se puede utilizar la prueba t usual. Si se estima en su forma más simple, una regresión
como (36), se divide el coeficiente estimado por su error estándar para calcular el estadístico de
Dickey-Fuller y se consultan las tablas de Dickey-Fuller para ver si la hipótesis nula = 1 es
rechazada. Sin embargo, estas tablas no son totalmente adecuadas y han sido ampliadas por
MacKinnon en 1991, este estima los valores de respuesta del test utilizando los resultados de la
simulación, permitiendo que se calculen los valores críticos de Dickey-Fuller para cualquier tamaño
muestral y cualquier número de variables explicativas en el lado derecho de la ecuación. Si el valor
absoluto calculado del estadístico excede los valores absolutos de críticos de DF o de
MacKinnon, DF, entonces no se rechaza la hipótesis de que la serie de tiempo dada es estacionaria.
Si, por el contrario, éste es menor que el valor crítico, la serie de tiempo es no estacionaria.
Está prueba de Dickey-Fuller por razones teóricas y prácticas solo es aplicada a regresiones
efectuadas de la manera siguiente:
yt = yt-1 + et (37)
yt = 1 + yt-1 + et (39)
yt = 1 + 2t + yt-1 + et (40)
donde t es la variable de tiempo o tendencia. En cada caso, la hipótesis nula es de que = 0, es decir,
que hay una raíz unitaria. La diferencia entre la ecuación (37) y las otras dos regresiones se
encuentra la inclusión del intercepto y el término de tendencia.
Si el término de error et está correlacionado, se modifica (40) de la siguiente forma:
yt = 1 + 2t + yt-1 +
m
1i
1ti Δyα + et (41)
donde, por ejemplo, yt-1 = (yt-1- yt-2), yt-2 = (yt-2- yt-3), etc., es decir, se utilizan términos en
diferencia rezagados. El número de términos en diferencia rezagados que debe incluirse con
frecuencia se determina empíricamente, siendo la idea incluir suficientes términos, de tal manera
que el término de error en (41) sea serialmente independiente. La hipótesis nula continúa siendo que
= 0 o = 1, es decir, que existe una raíz unitaria en y (es decir, y es no estacionaria).
Cuando se aplica la prueba DF a modelos como (41), está se llama prueba de Dickey-Fuller
aumentada (ADF). El estadístico de prueba ADF posee la misma distribución asintótica que el
estadístico DF, de manera que pueden utilizarse los mismos valores críticos. Para ilustrar el uso de
la prueba DF, se utiliza la información de GCPP, e utilizando el paquete Eviews 3.1 para los
cálculos.
Santiago Marquina Benítez 20 de noviembre
de 2006
21
2.5. ¿Es el GCPP de México una serie estacionaria?
En la tabla No.3, se puede ver que el estadístico del test ADF (-2.061414) coincide con el estadístico
de la variable dependiente retardada, GCPP(-1), incluida como regresor en la ecuación estimada. La
hipótesis nula (Ho: existe una raíz unitaria) se acepta si el estadístico t es menor que los valores
críticos de MacKinnon.
Para el caso que nos ocupa, comprobamos que la hipótesis nula se acepta a cualquiera de los tres
niveles de significación presentados (1%, 5% y 10%), es decir, la serie GCPP, Gasto de Consumo
Privado Per cápita, presenta una raíz unitaria, luego entonces, es integrada de orden 1, o I(1), o sea,
que no es estacionaria.
Tabla No.3: Test de raíces unitarias de Dickey-Fuller aumentada (ADF): Datos en niveles, constante y
término independiente en la regresión del test y dos retardos para las primeras diferencias de la serie .
Vamos a repetir el test incluyendo solo el término constante y manteniendo la opción de dos
retardos de las primeras diferencias. De nueva cuenta, de acuerdo a los resultados que nos presenta
la tabla No.4, podemos seguir aceptando la hipótesis nula de la existencia de una raíz unitaria en la
serie temporal de GCPP.
Tabla No.4: Test de raíces unitarias de Dickey-Fuller aumentada (ADF): Datos en niveles,
constante y dos retardos para las primeras diferencias de la serie.
ADF Test Statistic -2.061414 1% Critical Value* -4.0661
5% Critical Value -3.4614
10% Critical Value -3.1567
*MacKinnon critical values for rejection of hypothesis of a unit root.
Augmented Dickey-Fuller Test Equation Dependent Variable: D(GCPP) Method: Least Squares Date: 01/06/03 Time: 18:05 Sample(adjusted): 1980:4 2002:2 Included observations: 87 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
GCPP(-1) -0.154522 0.074959 -2.061414 0.0424
D(GCPP(-1)) -0.419347 0.119023 -3.523236 0.0007
D(GCPP(-2)) 0.108737 0.114203 0.952136 0.3438
C 92431.75 45420.30 2.035032 0.0451
@TREND(1980:1) 978.2302 417.5496 2.342788 0.0216
R-squared 0.327782 Mean dependent var 5849.715
Adjusted R-squared 0.294991 S.D. dependent var 41282.53
S.E. of regression 34662.80 Akaike info criterion 23.80048
Sum squared resid 9.85E+10 Schwarz criterion 23.94219
Log likelihood -1030.321 F-statistic 9.996058
Durbin-Watson stat 1.891545 Prob(F-statistic) 0.000001
ADF Test Statistic 0.348947 1% Critical Value* -3.5064
5% Critical Value -2.8947
10% Critical Value -2.5842
*MacKinnon critical values for rejection of hypothesis of a unit root.
Augmented Dickey-Fuller Test Equation Dependent Variable: D(GCPP) Method: Least Squares Date: 01/06/03 Time: 18:28 Sample(adjusted): 1980:4 2002:2 Included observations: 87 after adjusting endpoints
Santiago Marquina Benítez 20 de noviembre
de 2006
22
2.6. EVALUACIÓN DE LA APLICACIÓN DEL MODELO.
La estimación resultante se puede ver en la tabla No.5, en la que se aprecia una especificación valida
de las variables, a priori, pues los signos de los parámetros se corresponden con lo esperado por la
teoría económica: un crecimiento del ingreso disponible personal y la riqueza neta propiciara un
incremento del gasto de consumo privado. Por otro lado, un aumento en el nivel de precios y en la
tasa de interés de mercado contribuye a disminuir el consumo privado.
Con respecto a la significación estadística individual, casi todas las variables presentan valores
superiores en valor absoluto al 2 de referencia. A excepción del término independiente C y NP que
tienen valores menores al de referencia. La bondad del ajuste (Adjusted R-squared), es muy elevada,
pues explica el 96% de la variación de la variable endógena o dependiente y el estadístico de
Durbin-Watson presenta un valor (1.144) lo cual nos indica una posible autocorrelación de los
residuos del modelo.
Tabla No.5: Estimación del modelo de regresión lineal múltiple con datos originales
Dependent Variable: GCPP Method: Least Squares Date: 11/23/02 Time: 17:47 Sample(adjusted): 1983:1 2002:1 Included observations: 75 Excluded observations: 2 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob. C 113533.5 79799.09 1.422742 0.1593 IDPP 0.539575 0.100891 5.348113 0.0000 RN 0.735696 0.224282 3.280232 0.0016 TIM -492.5035 175.2850 -2.809731 0.0064 NP -4.658052 5.723901 -0.813790 0.4185 R-squared 0.963432 Mean dependent var 863561.5 Adjusted R-squared 0.961342 S.D. dependent var 144436.9 S.E. of regression 28398.50 Akaike info criterion 23.41040 Sum squared resid 5.65E+10 Schwarz criterion 23.56490 Log likelihood -872.8900 F-statistic 461.0608 Durbin-Watson stat 1.143891 Prob(F-statistic) 0.000000
Por lo que la ecuación de predicción seria en un inicio:
GCPP = 113533.5 + 0.539575 IDPP + 0.735696 RN – 492.5035 TIM – 4.658052 NP (42)
Variable Coefficient Std. Error t-Statistic Prob.
GCPP(-1) 0.009568 0.027419 0.348947 0.7280 D(GCPP(-1)) -0.524414 0.113193 -4.632928 0.0000 D(GCPP(-2)) 0.053695 0.114742 0.467957 0.6410
C 88.23169 23171.61 0.003808 0.9970
R-squared 0.282787 Mean dependent var 5849.715 Adjusted R-squared 0.256864 S.D. dependent var 41282.53 S.E. of regression 35587.75 Akaike info criterion 23.84228 Sum squared resid 1.05E+11 Schwarz criterion 23.95565 Log likelihood -1033.139 F-statistic 10.90859 Durbin-Watson stat 1.939258 Prob(F-statistic) 0.000004
Santiago Marquina Benítez 20 de noviembre
de 2006
23
2.7. TRANSFORMACIONES BASICAS Y SUS APLICACIONES SOBRE EL MODELO
La forma funcional se refiere tanto a la forma en que entran las variables en la relación, como la
forma que adopta dicha relación. Entonces el modelo lineal general se escribía como:
tktktt uxxy .....221 t = 1,2,...,T (43)
Ahora, se puede pensar en una forma alternativa del tipo:
ut
kttt exxey k.....21
2 (44)
y tomando logaritmos a ambos lados:
tktktt uxxy ln.....lnln 221 (45)
Vemos claramente que se trata de un modelo no lineal en las variables originales del que se obtiene
un modelo lineal, pero no con las variables originales, sino con estas variables transformadas en
logaritmos.
Una vez obtenidas las estimaciones de las diferentes series de datos a utilizar en el modelo
econométrico planteado inicialmente, y de acuerdo a los resultados presentados de la variable
dependiente (GCPP) de manera individual en la exploración que se hizo de esta, para observar su
comportamiento y, las pruebas en conjunto con las variables independientes (el modelo completo),
surge la necesidad de realizar diversas transformaciones sobre las variables originales con el fin de
adaptarlas a las especificaciones iníciales del modelo.
Una práctica común en los trabajos econométricos consiste en la utilización del logaritmo neperiano
en lugar del valor directo de la variable observada. Este tipo de transformaciones, cuya operatividad
esta implementada en la práctica totalidad del software que se trabaja en la informática y que se
utiliza generalmente en el análisis económico cuantitativo, una de las ventajas que tiene es la de
mantener la evolución temporal de la variable original, pero reduciendo proporcionalmente la
variación relativa entre los distintos valores de la serie.
Pero una de las principales ventajas de la transformación logarítmica, además de la citada
anteriormente, se centra en la interpretación que puede realizarse de las relaciones establecidas entre
variables transformadas logarítmicamente, ya que dichas relaciones pueden identificarse al concepto
de la elasticidad marginal, definida como:
YδY
XδX
yx,ε (46)
Así, el cociente entre dos variables transformadas logarítmicamente puede interpretarse como la
elasticidad marginal de la primera frente a la segunda.
Santiago Marquina Benítez 20 de noviembre
de 2006
24
)(
)(
YLn
XLnyx,ε (47)
En un modelo econométrico estimado sobre las variables transformadas con logaritmos neperianos,
tal como se verá más adelante, los parámetros obtenidos pueden ser interpretados cuantitativamente,
y de forma directa, como elasticidades parciales de la variable endógena (cuyo comportamiento se
pretende analizar de manera más profunda) y las variables explicativas (las que determinan su
evolución).
En los gráficos 5 y 6, se refleja el efecto de la transformación logarítmica sobre la serie de Gasto de
Consumo Privado Per cápita (GCPP) de México, medida en miles de millones de pesos, y donde
podemos comprobar que la variabilidad de la serie original, figura de arriba, oscila entre 600000 y
1200000, mientras que la serie transformada, figura de abajo, sólo oscila entre 13.2 y 14.0,
manteniéndose el perfil de evolución temporal.
En la tabla No.6, se presentan los resultados obtenidos en la estimación del modelo de regresión
lineal múltiple con datos transformados en logaritmos neperianos. Podemos observar, haciendo un
análisis exploratorio de la tabla de resultados, en la que se aprecia pues signos de los parámetros
que se corresponden con lo esperado por la teoría económica: un crecimiento del ingreso disponible
personal y la riqueza neta propiciara un incremento del gasto de consumo privado. Por otro lado, un
aumento en el nivel de precios contribuye a disminuir el consumo privado. El coeficiente de la
variable TIM aparece con signo negativo y es acorde con la teoría, pues a menor tasa de interés el
consumo tiende a incrementarse.
Gráficos 5 y 6. Efectos de la transformación logarítmica en el gasto de consumo privado.
600000
700000
800000
900000
1000000
1100000
1200000
80 82 84 86 88 90 92 94 96 98 00 02
GCPP
13.2
13.4
13.6
13.8
14.0
80 82 84 86 88 90 92 94 96 98 00 02
LGCPP
Santiago Marquina Benítez 20 de noviembre
de 2006
25
Con respecto a la significación estadística individual, todas las variables presentan valores
superiores en valor absoluto al 2 de referencia. A excepción del término independiente C y NP que
tienen valores menores al de referencia. La bondad del ajuste R2
(Adjusted R-squared), es muy
elevada, pues explica aproximadamente el 97% de la variación de la variable endógena o
dependiente y el estadístico de Durbin-Watson presenta un valor (1.40) lo cual nos indica una
posible autocorrelación de los residuos del modelo.
Podríamos resumir, en términos generales de que los resultados obtenidos con este modelo,
presentan casi todos los coeficientes una elevada significación estadística de las variables que
intervendrán en la ecuación, y un buen ajuste en términos generales, aunque existen todavía indicios
de una posible autocorrelación de residuos.
Tabla No.6: Estimación del modelo de regresión lineal múltiple con datos transformados Dependent Variable: LOG(GCPP) Method: Least Squares Date: 02/05/03 Time: 06:36 Sample(adjusted): 1983:1 2002:1 Included observations: 75 Excluded observations: 2 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 4.064417 0.741369 5.482312 0.0000 LOG(IDPP) 0.535757 0.091589 5.849606 0.0000 LOG(RN) 0.177897 0.058213 3.055972 0.0032 LOG(TIM) -0.029917 0.010190 -2.936062 0.0045 LOG(NP) 0.006908 0.002531 2.729520 0.0080
R-squared 0.967652 Mean dependent var 13.65525 Adjusted R-squared 0.965803 S.D. dependent var 0.165343 S.E. of regression 0.030576 Akaike info criterion -4.072876 Sum squared resid 0.065442 Schwarz criterion -3.918377 Log likelihood 157.7328 F-statistic 523.4910 Durbin-Watson stat 1.402501 Prob(F-statistic) 0.000000
La autocorrelación puede ser un signo de especificación incorrecta del modelo, aunque pudiera
corregirse por una estimación incluyendo un término autorregresivo AR(1), en línea con la
propuesta de Cochrane-Orcutt. Esta estimación con un AR(1) equivale a trabajar con las variables en
diferencias <generalizadas> con el coeficiente estimado para el proceso autorregresivo. Así, una
opción alternativa es introducir un retardo en la variable dependiente, puesto que de acuerdo a la
teoría económica se justifica, puesto que el consumo de un año puede depender de hábitos de
consumo precedentes. Por ello, ahora ensayaremos con:
LOG(GCPP) C LOG(IDPP) LOG(RN) LOG(TIM) LOG(NP) LOG(GCPP)(-1) (48)
Santiago Marquina Benítez 20 de noviembre
de 2006
26
Tabla No.7: Estimación del modelo de regresión lineal múltiple con datos transformados y agregando
un retardo en la variable dependiente
Dependent Variable: LGCPP Method: Least Squares Date: 02/05/03 Time: 08:07 Sample(adjusted): 1983:1 2002:1 Included observations: 75 Excluded observations: 2 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 3.382888 0.770920 4.388121 0.0000 LIDPP 0.413457 0.102106 4.049279 0.0001 LRN 0.167785 0.056468 2.971327 0.0041 LTIM -0.023193 0.010244 -2.264000 0.0267 LNP 0.005532 0.002514 2.200353 0.0311
LGCPP(-1) 0.182838 0.075880 2.409561 0.0186
R-squared 0.970163 Mean dependent var 13.65525 Adjusted R-squared 0.968000 S.D. dependent var 0.165343 S.E. of regression 0.029577 Akaike info criterion -4.127000 Sum squared resid 0.060362 Schwarz criterion -3.941601 Log likelihood 160.7625 F-statistic 448.7071 Durbin-Watson stat 1.838603 Prob(F-statistic) 0.000000
LOG(GCPP) C LOG(IDPP) LOG(RN) LOG(TIM) LOG(NP) LOG(GCPP)(-2) (49)
Tabla No.8: Estimación del modelo de regresión lineal múltiple con datos transformados y agregando
dos retardos en la variable dependiente
Dependent Variable: LGCPP Method: Least Squares Date: 02/05/03 Time: 08:10 Sample(adjusted): 1983:1 2002:1 Included observations: 75 Excluded observations: 2 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 3.924310 0.719671 5.452918 0.0000 LIDPP 0.283405 0.137402 2.062600 0.0429 LRN 0.225601 0.059719 3.777696 0.0003 LTIM -0.019250 0.010812 -1.780359 0.0794 LNP 0.006569 0.002453 2.678063 0.0092 LGCPP(-2) 0.222607 0.092631 2.403175 0.0189
R-squared 0.970150 Mean dependent var 13.65525 Adjusted R-squared 0.967987 S.D. dependent var 0.165343 S.E. of regression 0.029583 Akaike info criterion -4.126590 Sum squared resid 0.060387 Schwarz criterion -3.941190 Log likelihood 160.7471 F-statistic 448.5170 Durbin-Watson stat 1.625555 Prob(F-statistic) 0.000000
Al analizar los resultados de las tablas 7 y 8, podemos ver que ambos modelos se mantienen más o
menos igual entre ellos (modelo 3 y modelo 4), pero que han empeorado en relación con el modelo 2
(sin retardos en la variable dependiente), puesto que como ya se menciono anteriormente en M2
todas las variables son significativas, la bondad de ajuste (R2
y F son mayores, sobre todo el
segundo, tiene un menor error de regresión y un menor logaritmo de verosimilitud),. Así, a pesar de
que pueda existir un problema de autocorrelación en los residuos y la función aun se pueda seguir
perfeccionando la ecuación de consumo, los resultados parecen ya relativamente satisfactorios, al
menos para un ejercicio como este.
Santiago Marquina Benítez 20 de noviembre
de 2006
27
Tabla No.9 : descripción y valoración aproximada de los resultados básicos de la estimación de los cuatro modelos considerados
Modelos Observaciones
Significación
individual
M1 M2 M3 M4
Cuantía si si si si n-k = 90-5=85
Signo si si si si
Contraste t no si no no Significación a un 0.05
Significación
conjunta
R2
0.963 0.967 0.970 0.970
R2 ajustado 0.961 0.966 0.968 0.967
F-Snedecor 461.60 523.49 448.70 448.51
Prob (F) 0.000 0.000 0.000 0.000 Significación a un 0.05
L -872.89 157.733 157.732 160.747
AIC 23.41 -4.072 -4.127 -4.126
SC 23.56 -3.91 -3.94 -3.94
SE 28398.5 0.03058 0.0295 0.0295
D.W. 1.143 1.402 1.83 1.625
Estimation Command:
===================== LS LOG(GCPP) C LOG(IDPP) LOG(RN) LOG(TIM) LOG(NP)
Estimation Equation: Modelo 2:
===================== LOG(GCPP) = C(1) + C(2)*LOG(IDPP) + C(3)*LOG(RN) + C(4)*LOG(TIM) + C(5)*LOG(NP)
Substituted Coefficients del modelo 2:
===================== LOG(GCPP) = 4.064416564 + 0.5357567421*LOG(IDPP) + 0.1778974561*LOG(RN) - 0.0299174505*LOG(TIM) + 0.006908276303*LOG(NP) (50)
PARTE III: VALIDACIÓN Y CONTRASTACIÓN DEL MODELO
3.1. Validación y contrastación del modelo:
Así pues, dado que el modelo dos (M2) es el que presenta mejores resultados será el que
utilizaremos para realizar las predicciones, no sin antes hacer una serie de pruebas para medir mejor
su funcionamiento. Comenzaremos por constatar que tenemos un número de grados de libertad
suficiente, puesto que sobre un total de 90 observaciones (n) hemos estimado 5 parámetros (k) con
lo que los grados de libertad del modelo (n –k = 85) son suficientes a efectos estadísticos.
Seguidamente recordemos el análisis individual de este modelo realizado anteriormente, al observar
los coeficientes estimados, podemos darnos cuenta que presentan signos acordes con la teoría
económica a excepción de la variable tasas de interés del mercado TIM y nivel de precios (NP) que
presentan signos contrarios. Sin embargó y como puede comprobarse por los valores del estadístico t
todas las variables resultan significativas existiendo una probabilidad nula (Prob=0.000) de rechazar
la hipótesis nula siendo cierta, es decir que los verdaderos parámetros fuesen cero.
Santiago Marquina Benítez 20 de noviembre
de 2006
28
En lo que se refiere al análisis conjunto del modelo (M2), comenzando con la evaluación general de
la capacidad explicativa del modelo que, de acuerdo con los estadísticos R2 y R
2 corregido sería
capaz de explicar en torno al 97% de la varianza de la variable endógena, resultado que seria muy
satisfactorio teniendo en cuenta las características de la variable endógena. Adicionalmente, si
vemos el estadístico de Durbin Watson (1.402), el modelo parece presentar problemas de
autocorrelación.
3.2. Medidas sobre los valores:
Una vez que se realizo la valoración estadística del modelo, podemos llevar acabo el análisis de los
errores cometidos por el mismo durante el periodo de estimación. Observando el gráfico de los
residuos que obtuvimos mediante la selección en EViews (View -> Actual, Fitted, Residual ->
Actual, Fitted, Residual Table) que en el período considerado (submuestra de 1998:1 a 200:2)
destacan los años de 1998 en el primer trimestre y 2001 en el segundo trimestre como puntos en el
que el modelo comete un error mayor de estimación.
En el año de 1998 (en el primer trimestre) el fallo posible puede deberse a la crisis económica del
país en 1997 (por el famoso error de diciembre) y el de 2001 que puede ser debido al cambio de
poderes en México, osea, a la transición política que se da en el 2000.
Tabla No.10. obs Actual Fitted Residual Residual Plot
1998:1 13.7513 13.8082 -0.05686 |* . | . | 1998:2 13.8072 13.8196 -0.01236 | . * | . | 1998:3 13.7965 13.7962 0.00029 | . * . | 1998:4 13.8270 13.8250 0.00195 | . * . | 1999:1 13.7730 13.8179 -0.04494 | * . | . | 1999:2 13.8389 13.8501 -0.01118 | . * | . | 1999:3 13.8381 13.8427 -0.00463 | . *| . | 1999:4 13.8982 13.8914 0.00675 | . |* . | 2000:1 13.8561 13.8974 -0.04127 | * . | . | 2000:2 13.9245 13.9189 0.00559 | . |* . | 2000:3 13.9254 13.9106 0.01476 | . | * . | 2000:4 13.9621 13.9336 0.02852 | . | * | 2001:1 13.9203 13.9048 0.01545 | . | * . | 2001:2 13.9645 13.9153 0.04922 | . | . * | 2001:3 13.9411 13.8988 0.04234 | . | . * | 2001:4 13.9772 13.9292 0.04806 | . | . * | 2002:1 13.9052 13.9077 -0.00249 | . * . |
A partir de la ecuación del modelo (M2) estimado seleccionamos el test (View -> Residual -> Test)
e indicamos que nos calcule el correlograma de los residuos para, 24 coeficientes. La representación
gráfica de los coeficientes de autocorrelación y autocorrelación parcial muestra unos coeficientes
que se distribuyen alrededor del promedio (valor cero) todos ellos dentro de las bandas de confianza.
El valor reducido del estadístico Q de Lung-Box (el valor acumulado en el último coeficiente es
34.910), acompañado de un valor bajo de su probabilidad (0.003), nos dice que al parecer los
residuos no presentan una correlación serial o autocorrelación.
Santiago Marquina Benítez 20 de noviembre
de 2006
29
Tabla No.11.
Date: 02/12/03 Time: 06:19 Sample: 1998:1 2002:1 Included observations: 17
Autocorrelation Partial Correlation AC PAC Q-Stat Prob
. |***. | . |***. | 1 0.405 0.405 3.3154 0.069 . |** . | . |* . | 2 0.281 0.140 5.0151 0.081 . |* . | . | . | 3 0.137 -0.021 5.4498 0.142 . |***. | . |***. | 4 0.416 0.409 9.7584 0.045 . *| . | ****| . | 5 -0.067 -0.511 9.8794 0.079 . *| . | . *| . | 6 -0.136 -0.083 10.423 0.108 . **| . | . | . | 7 -0.213 -0.002 11.891 0.104 . |* . | . |* . | 8 0.091 0.085 12.191 0.143 . **| . | . *| . | 9 -0.235 -0.135 14.413 0.108 . **| . | . *| . | 10 -0.242 -0.091 17.113 0.072 . **| . | . | . | 11 -0.262 -0.021 20.822 0.035 . *| . | . **| . | 12 -0.089 -0.261 21.331 0.046 . **| . | . |* . | 13 -0.230 0.149 25.585 0.019 . **| . | . *| . | 14 -0.201 -0.076 29.951 0.008 . *| . | . | . | 15 -0.175 -0.044 34.910 0.003
3.3. Contraste de hipótesis sobre perturbación aleatoria:
3.3.1. No normalidad:
En esta sección se tratará la metodología básica para analizar ayudados por Eviews el
comportamiento de la perturbación aleatoria. Comenzaremos por el análisis de la distribución de los
errores, el programa incorpora de forma automática una rutina para calcular el histograma de
frecuencias del error de un determinado modelo que genera una presentación similar a la que
veíamos en las estadísticas descriptivas del objeto serie, y donde además de los estadísticos básicos,
se presenta el resultado de un contraste de tipo Jarque-Bera para analizar la normalidad de la
distribución de errores.
Para llegar ha estos resultados bastará con situarnos en el menú de visualización (View) del objeto
ecuación, seleccionar contrastes de residuos (Residual Test), y dentro de éste, la opción de
histograma y test de normalidad (Histogram-Normality Test), aplicado, a la ecuación de la función
de consumo utilizada en los apartados previos.
Santiago Marquina Benítez 20 de noviembre
de 2006
30
Gáfico No.7. Normalidad de los residuos.
El test de Jarque-Bera, analiza la relación entre los coeficientes de apuntamiento y curtosis de los
residuos del modelo, y los correspondientes a los de una distribución normal, de forma tal que si
estas relaciones son suficientemente diferentes se rechazaría la hipótesis nula de normalidad de los
residuos.
Como en otras ocasiones el valor del contraste viene acompañado con el correspondiente nivel de
probabilidad asociado al rechazo de la hipótesis nula siendo cierta, de forma tal que si dicho valor de
probabilidad fuera inferior al 5%, rechazaríamos la hipótesis nula, con el 95% de confianza, y
deberíamos admitir la no normalidad del residuo. En el caso que venimos representando esta
probabilidad es muy elevada, 0,558392, por lo que debemos asumir la hipótesis nula y afirmar que
la distribución de residuos es normal.
3.3.2. Autocorrelación:
El fenómeno de la Autocorrelación residual consiste, en la existencia de un determinado nivel de
correlación entre las perturbaciones (errores) de los sucesivos períodos. La ausencia de
Autocorrelación es una de la hipótesis que más frecuentemente se incumple en las especificaciones
iníciales de un modelo ya que muchos de los incumplimientos del resto de hipótesis (especificación
errónea, cambio estructural,...etc.) se pueden manifestar como correlaciones entre los errores de
períodos adyacentes.
La forma más habitual de contrastar la existencia de Autocorrelación, además de la observación
directa del gráfico de residuos, es mediante el conocido estadístico de Durbin-Watson para la
Autocorrelación de primer orden, y que como hemos visto a lo largo de los apartados anteriores, se
presenta de forma automática en el grupo de estadísticos conjuntos del objeto ecuación.
Así, por ejemplo, la función de gasto de consumo privado, que hemos venido utilizando
repetidamente presenta un valor del estadístico de Durbin-Watson, de 1.4025, alejado del valor de
referencia 2, que nos indicaría la existencia de zona de duda, de Autocorrelación positiva en los
0
2
4
6
8
10
-0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06
Series: Residuals
Sample 1983:1 2002:1
Observations 75
Mean -4.74E-16
Median 0.001489
Maximum 0.056773
Minimum -0.076179
Std. Dev. 0.029738
Skewness -0.202660
Kurtosis 2.543228
Jarque-Bera 1.165389
Probability 0.558392
Histograma de normalidad de la distribución de errores
Santiago Marquina Benítez 20 de noviembre
de 2006
31
residuos, lo que se manifiesta en un gráfico de residuos que presenta un claro perfil sinusoidal, tal
como se muestra en la gráfica No.8:
Gráfico No.8. Residuos de la variable consumo privado.
3.4. Tratamiento del riesgo y la volatilidad:
3.4.1. Tratamiento de la varianza en modelos uniecuacionales: Heterocedasticidad
Una primera alternativa que nos puede indicar la presencia de Heterocedasticidad en un modelo es la
observación directa del gráfico de residuos que, en presencia de varianzas no constantes tendería a
presentar períodos con amplia volatilidad agrupados en el tiempo. Para ilustrar este análisis vamos a
utilizar de nuevo la ecuación de consumo privado que venimos analizando.
El gráfico de residuos de dicha ecuación, que presentamos en el gráfico No.8 anterior, parece
mostrar una mayor volatilidad a mediados de la muestra (en la década de los 90´s), lo que nos puede
dar un primer indicio de la existencia de heterocedasticidad.
Para poder confirmar la presencia real de heterocedasticidad podemos proceder a la aplicación de
alguno de los contrastes propuestos por Goldfeld y Quandt. Adicionalmente Eviews ofrece dos tipos
diferentes de contrastes de heterocedasticidad incorporados directamente en el menú de
herramientas del objeto ecuación.
Ambos contrastes (Tes de White y Test ARCH de heterocedasticidad autorregresiva) tienen en
común el planteamiento de una regresión auxiliar en la que el cuadrado de los residuos
(aproximación a la varianza) se hace depender de un conjunto de variables explicativas de forma tal
que si el modelo, o las variables en su conjunto, son significativas debemos rechazar la hipótesis
nula de homocedasticidad.
-0.08
-0.06
-0.04
-0.02
0.00
0.02
0.04
0.06
84 86 88 90 92 94 96 98 00 02
LOG(GCPP) Residuals
Santiago Marquina Benítez 20 de noviembre
de 2006
32
Para el primero de los contrastes el test de White, las variables explicativas del modelo auxiliar son
las mismas del modelo original y sus cuadrados, o bien incluyendo los productos cruzados en la
modalidad del test ampliado. Por su parte el Test ARCH utiliza como variables explicativas de la
regresión auxiliar los propios valores desplazados del residuo al cuadrado.
La forma de acceder a estos contrastes es mediante la herramienta de visualización (View) del objeto
ecuación , seleccionando, dentro de ésta, el apartado de contrastes sobre los residuos (Residual
Test), optando a continuación por alguna de las tres alternativas (ARCH LM Test, White
Heteroskedasticity – no cross terms; White Heteroskedasticity – cross terms). Aplicamos
directamente la prueba de homocedasticidad o varianza constante (White Heteroskedasticity Test), la
cual se obtiene a través de Eviews con la orden: Residual test -> White Heteroskedasticity Test (No croos
terms). Los resultados se presentan en la tabla No.12.
El planteamiento de hipótesis que se hace es:
Ho: homocedasticidad o Varianza constante
La regla de decisión es: Si la Prob. Asoc. > 0.05 entonces se acepta Ho.
Como la Prob. Asoc. es 0.388467 > 0.05, por lo que se acepta Ho, es decir que no existe
heterocedasticidad.
Tabla No.12. Prueba de Heterocedasticidad
White Heteroskedasticity Test: F-statistic 1.079332 Probability 0.388467 Obs*R-squared 8.676922 Probability 0.370279
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 02/11/03 Time: 05:38 Sample: 1983:1 2002:1 Included observations: 75 Excluded observations: 2
Variable Coefficient Std. Error t-Statistic Prob.
C 4.397478 2.217164 1.983380 0.0515 LOG(IDPP) -0.757434 0.406910 -1.861429 0.0671
(LOG(IDPP))^2 0.026988 0.014587 1.850131 0.0688 LOG(RN) 0.151296 0.134945 1.121174 0.2663
(LOG(RN))^2 -0.006233 0.005505 -1.132316 0.2616 LOG(TIM) -0.000826 0.001991 -0.414879 0.6796
(LOG(TIM))^2 6.56E-05 0.000292 0.224130 0.8233 LOG(NP) -0.000196 0.000321 -0.609278 0.5444
(LOG(NP))^2 5.61E-05 4.43E-05 1.265954 0.2100
R-squared 0.115692 Mean dependent var 0.000873 Adjusted R-squared 0.008503 S.D. dependent var 0.001091 S.E. of regression 0.001087 Akaike info criterion -10.69937 Sum squared resid 7.79E-05 Schwarz criterion -10.42127 Log likelihood 410.2263 F-statistic 1.079332 Durbin-Watson stat 2.343369 Prob(F-statistic) 0.388467
Santiago Marquina Benítez 20 de noviembre
de 2006
33
Ahora procedemos a realizar el segundo test, teniendo en cuenta que, si la opción elegida es la del
test ARCH debemos indicar además el número de retardos (Lags) que se van a incluir en la ecuación
de contraste. Los resultados obtenidos se muestran en la tabla No.13.
El planteamiento de hipótesis que se hace es:
Ho: Los residuos no siguen un comportamiento tipo ARCH
La regla de decisión es: Si la Prob. Asoc. > 0.05 entonces se acepta Ho.
Como la Prob. Asoc. es 0.080 > 0.05, por lo que se acepta Ho, es decir que los residuos no siguen un
comportamiento tipo ARCH.
Tabla No.13. Test de ARCH.
ARCH Test:
F-statistic 2.621575 Probability 0.080247 Obs*R-squared 5.078065 Probability 0.078943
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 02/11/03 Time: 05:55 Sample(adjusted): 1983:3 2002:1 Included observations: 69 Excluded observations: 6 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 0.000920 0.000217 4.240476 0.0001 RESID^2(-1) -0.195389 0.122271 -1.597997 0.1148 RESID^2(-2) 0.154056 0.123836 1.244035 0.2179
R-squared 0.073595 Mean dependent var 0.000881 Adjusted R-squared 0.045522 S.D. dependent var 0.001129 S.E. of regression 0.001103 Akaike info criterion -10.73841 Sum squared resid 8.03E-05 Schwarz criterion -10.64127 Log likelihood 373.4751 F-statistic 2.621575 Durbin-Watson stat 1.896713 Prob(F-statistic) 0.080247
3.5. Contraste de hipótesis estructurales:
3.5.1. Especificación errónea del modelo:
En esta sección se presentan los contrastes básicos ofrecidos por Eviews para detectar la posible
presencia de una especificación errónea en el modelo, y que se puede deber a tres causas
fundamentales:
Omisión de variables relevantes.
Inclusión de variables irrelevantes.
Forma funcional incorrecta.
Una primera aproximación al análisis de una especificación errónea podemos llevarlo a cabo,
analizando los resultados básicos de la estimación. Así, un elevado coeficiente de autocorrelación en
los residuos (D.W próximo a cero) puede ser un primer indicio de una omisión de alguna variable
Santiago Marquina Benítez 20 de noviembre
de 2006
34
relevante, mientras que un contraste t, poco significativo puede indicarnos la presencia de una
variable irrelevante. Eviews nos proporciona dentro del menu (View) del objeto ecuación, una serie
de contrastes directos (Coefficient test) para la determinación de existencia de variables omitidas
(Omitted variables) o variables redundantes (Redundant variables). Ambos contrastes están basados
en el Ratio de Verosimilitud, cuya idea básica consiste en comparar los resultados obtenidos en dos
modelos alternativos, uno restringido y el otro sin restringir, de forma que si la diferencia entre
ambos modelos es demasiado amplia se tomará como valido el modelo sin restringir.
Al contrastar la posible omisión de alguna variable relevante, por ejemplo; NP, accederemos al
menú del objeto ecuación y seleccionaremos:
View-> Coefficient test -> Omitted variables
Tabla No.14. Prueba de la omisión de la variable NP
En la parte superior de las tabla 14 aparece la hipótesis nula que estamos contrastando, en nuestro
caso la omisión de las variables NP. Aparecen también los resultados de dos test alternativos, tipo F,
y tipo ratio de verosimilitud, junto con los niveles de probabilidad asociados al rechazo de la
hipótesis nula siendo cierta.
Teniendo en cuenta que la hipótesis nula a rechazar es la irrelevancia de la nueva variable sobre
nuestra ecuación estimada (su coeficiente no es estadísticamente distinto de cero) y con los niveles
habituales de significatividad con los que normalmente se trabaja que es de 95% rechazaríamos la
hipótesis nula, si el nivel de probabilidad asociado es inferior a 0.05. Para nuestro caso, suponiendo
que no hayamos nosotros incluido esta variable en el modelo el resultado dado nos indicaría que
tendríamos una probabilidad de 85% y 84% respectivamente, de rechazar dicha hipótesis nula
siendo cierta, por lo que admitiremos como valida dicha hipótesis nula y diremos que la variable NP
no ha sido omitida de la ecuación, es decir no tenemos que incluirla en nuestra especificación.
Omitted Variables: NP
F-statistic 0.034519 Probability 0.853153 Log likelihood ratio 0.037511 Probability 0.846429
Test Equation: Dependent Variable: LOG(GCPP) Method: Least Squares Date: 02/08/03 Time: 09:27 Sample: 1983:1 2002:1 Included observations: 75 Excluded observations: 2
Variable Coefficient Std. Error t-Statistic Prob.
C 4.301019 1.476168 2.913637 0.0048 LOG(IDPP) 0.517344 0.135378 3.821480 0.0003 LOG(RN) 0.179297 0.059100 3.033760 0.0034 LOG(TIM) -0.029987 0.010267 -2.920569 0.0047
NP 1.06E-06 5.70E-06 0.185792 0.8532
R-squared 0.967668 Mean dependent var 13.65525 Adjusted R-squared 0.965325 S.D. dependent var 0.165343 S.E. of regression 0.030789 Akaike info criterion -4.046709 Sum squared resid 0.065409 Schwarz criterion -3.861310 Log likelihood 157.7516 F-statistic 413.0235 Durbin-Watson stat 1.400298 Prob(F-statistic) 0.000000
Santiago Marquina Benítez 20 de noviembre
de 2006
35
Ahora, para hacer la contrastación de la posible inclusión de variables irrelevantes, el procedimiento
que se sigue es similar al anterior, solo que en este caso, por la contrastación de variables
redundantes.
View-> Coefficient test -> Redundant variables
En nuestro ejemplo, y teniendo en cuenta que la probabilidad asociada al estadístico t de la variable
nivel de precios (NP) esta cercana al nivel de significación, podemos contrastar su inclusión errónea
dentro de nuestro modelo, obteniéndose unos resultados como los que se presentan en la tabla
No.15.
Tabla No.15. Prueba sobre variables redundantes
Redundant Variables: LOG(NP)
F-statistic 7.450278 Probability 0.008016 Log likelihood ratio 7.585569 Probability 0.005884
Test Equation: Dependent Variable: LOG(GCPP) Method: Least Squares Date: 02/08/03 Time: 10:17 Sample: 1983:1 2002:1 Included observations: 75 Excluded observations: 2
Variable Coefficient Std. Error t-Statistic Prob.
C 2.815439 0.609228 4.621324 0.0000 LOG(IDPP) 0.657089 0.083637 7.856475 0.0000 LOG(RN) 0.147415 0.059671 2.470487 0.0159 LOG(TIM) -0.037132 0.010278 -3.612761 0.0006
R-squared 0.964209 Mean dependent var 13.65525 Adjusted R-squared 0.962697 S.D. dependent var 0.165343 S.E. of regression 0.031934 Akaike info criterion -3.998401 Sum squared resid 0.072407 Schwarz criterion -3.874802 Log likelihood 153.9401 F-statistic 637.5810 Durbin-Watson stat 1.361886 Prob(F-statistic) 0.000000
Siguiendo con nuestro caso, podemos comprobar que la probabilidad asociada al rechazo de la
hipótesis nula siendo verdadera es muy baja (0.8% en el test F y 0.5% en el ratio de verosimilitud),
por lo que rechazaríamos dicha hipótesis nula y admitiríamos la significatividad de la variable nivel
de precios (NP). Podemos observar que ambos contrastes, son similares en cuanto a su construcción,
ya que admiten como hipótesis nula la irrelevancia de la variable analizada, pero mientras que en el
primer caso el rechazo de la Ho, supondría la existencia de una especificación errónea, es decir que
se ha omitido una variable irrelevante, en el segundo caso dicho rechazo validaría los resultados del
modelo, es decir, no se ha incluido ninguna variable de forma errónea. Por lo que nuestro modelo
seguirá siendo:
LOG(GCPP) = 4.064416564 + 0.5357567421*LOG(IDPP) + 0.1778974561*LOG(RN) -
0.0299174505*LOG(TIM) + 0.006908276303*LOG(NP) (51)
Ahora, sin queremos realizar un contraste para verificar la homogeneidad de la función, la cual
consiste en analizar si la suma de los coeficientes asociados a los distintos factores de consumo es
unitaria o no. Para realizar este contraste, seleccionamos la opción:
View -> Coefficient test -> Wald Coefficient restrictions
Santiago Marquina Benítez 20 de noviembre
de 2006
36
El resultado de este contraste aparece en la tabla No.16. en donde se muestra la hipótesis nula del
contraste, en nuestro caso la suma unitaria de coeficientes, y los estadísticos calculados, en este caso
una F y una ji-cuadrada, junto con sus respectivas probabilidades asociadas. Se rechazará la Ho, si el
valor de probabilidad asociada es inferior al 5%.
En el ejemplo que nos ocupa, se tiene; rechazaríamos la hipótesis nula, con nivel de significancia
cercano al 100%, lo que supondría que la suma de coeficientes no es unitaria, y por tanto la función
estimada no sería homogénea de grado 1.
Tabla No.16: Contrastación de Wald.
Wald Test: Equation: LGCPPEQ02
Null Hypothesis: C(1)=1 C(2)=1 C(3)=1 C(4)=1 C(5)=1
F-statistic 8744060. Probability 0.000000 Chi-square 43720298 Probability 0.000000
3.5.2. Cambio estructural:
Una de las hipótesis básicas que mayores implicaciones tiene sobre la posterior utilización de los
modelos econométricos es la de la permanencia estructural, que supone que los valores de los
parámetros permanecen constantes a lo largo del todo el período de estimación. Teniendo en cuenta
que el proceso básico de estimación asume como hipótesis dicha permanencia, estimando por tanto
un único parámetro para todo el período, cualquier contrastación de un posible cambio estructural
pasa necesariamente por la realización de varias estimaciones alternativas utilizando el mismo
período muestral y alterando alguna de las condiciones de partida (período muestral, variables
incluidas, etc.).
La contrastación del posible cambio estructural puede comenzar por una simple observación directa
del gráfico de residuos, detectando posibles alteraciones en los valores de los parámetros (cambio de
estructura) en aquellos puntos muéstrales en los que los errores son especialmente significativos,
bien por su cuantía, o bien por presentar un comportamiento sistemático.
A continuación, y para realizar una contrastación directa de los posibles cambios de estructura
Eviews nos provee de un conjunto de herramientas, basadas respectivamente en el Test de Chow y
las estimaciones recursivas planteadas por Brown, Durbin y Evans; herramientas a las que se accede
desde la ventana del objeto ecuación, en la opción de visualización (View), y dentro de esta en
contrastes de estabilidad (Stability Test). Comenzando con el primer grupo de contrastes, los
basados en el test de Chow, Eviews nos ofrece dos posibilidades alternativas que se corresponden,
respectivamente, con la formulación de Chow para dos submuestras suficientemente grandes (Chow
Breakpoint test), y la formulación alternativa cuando una de las submuestras no tiene suficientes
observaciones (Chow Forecast test).
Para el primero de los contrastes, seleccionaremos la opción correspondiente desde la ventana del
objeto ecuación mediante la siguiente secuencia de elecciones:
Santiago Marquina Benítez 20 de noviembre
de 2006
37
View -> Stability Test -> Chow Breakpoint Test
En la ventana que aparece, debemos indicar el punto de ruptura para el que pretendemos ejecutar el
test de Chow, y que marcará el inicio de la segunda submuestra. Como puede comprobarse en la
citada imagen, se puede seleccionar más de una punto de ruptura, generándose entonces tantas
submuestras como puntos hayamos marcado más una.
Así, por ejemplo si estamos trabajando con un período muestral desde 1970 hasta 1999 e indicamos
como puntos de ruptura 1980 y 1990, se generarán tres submuestras correspondiendo
respectivamente con los siguientes períodos: 1970-1979, 1980-1989, y 1990-1999.
En cualquier caso debemos asegurarnos de que cada una de las submuestras seleccionadas presenta
un número mínimo de observaciones, al menos tantas como variables explicativas hallamos incluido
en el modelo.
Si se ha seleccionado adecuadamente el punto de ruptura, es decir, todas las submuestras son
suficientemente amplias, nos aparecerá una tabla como la que presentamos a continuación, y donde
se ha contrastado un posible cambio de estructura en la función de consumo utilizada en el apartado
previo para ilustrar el test de restricción paramétrica.
Tabla No.17: Contrastación estructural de Chow
Chow Breakpoint Test: 1995:1
F-statistic 3.600089 Probability 0.006176
Log likelihood ratio 18.33440 Probability 0.002555
Como puede comprobarse el formato del contraste es similar a los anteriores, teniendo en cuenta
que, en esta ocasión, la hipótesis nula es la igualdad entre los coeficientes de ambas submuestras, es
decir, la permanencia estructural. Si, como en el caso que se presenta en la tabla anterior, el valor de
los estadísticos, y su probabilidad asociada no nos permite aceptar la hipótesis nula, deberíamos
concluir que se ha producido un cambio de estructura en nuestro modelo en torno al año 1995.
Para llevar a cabo el segundo tipo de contraste basado en la formulación de Chow, debemos seguir
una secuencia similar a la ejecutada en el caso anterior, pero eligiendo, ahora la segunda de las
alternativas del menú de contrastes de estabilidad.
View -> Stability Test -> Chow Forecast Test
Al igual que en el caso anterior debemos elegir el punto muestral a partir del cual consideramos que
se ha producido el cambio de estructura, y que, como norma práctica, deberá ser un punto cercano al
final de la muestra.
Los resultados del contraste se presentarán en forma similar al anterior, pero incluyendo, en esta
ocasión, los resultados de la regresión auxiliar utilizada para realizar el contraste y que será la del
modelo general pero estimada desde el inicio de la muestra hasta la observación inmediatamente
Santiago Marquina Benítez 20 de noviembre
de 2006
38
anterior al punto de ruptura seleccionado, tal como se recoge en la tabla No.18, donde se presentan
los resultados del test aplicado al modelo de la función de consumo a partir del primer trimestre de
1995.
Tabla No.18: Contrastación estructural de el test de predicción de Chow
Chow Forecast Test: Forecast from 1995:1 to 2002:1
F-statistic 1.336272 Probability 0.193815 Log likelihood ratio 49.90114 Probability 0.009256
Test Equation: Dependent Variable: LOG(GCPP) Method: Least Squares Date: 02/08/03 Time: 17:47 Sample: 1983:1 1994:4 Included observations: 46 Excluded observations: 2
Variable Coefficient Std. Error t-Statistic Prob.
C 6.738471 1.627066 4.141486 0.0002 LOG(IDPP) 0.129510 0.166894 0.776003 0.4422 LOG(RN) 0.415393 0.096199 4.318071 0.0001 LOG(TIM) -0.014624 0.014445 -1.012369 0.3173 LOG(NP) 0.008597 0.002909 2.955272 0.0052
R-squared 0.949856 Mean dependent var 13.56341 Adjusted R-squared 0.944964 S.D. dependent var 0.122104 S.E. of regression 0.028645 Akaike info criterion -4.165320 Sum squared resid 0.033643 Schwarz criterion -3.966554 Log likelihood 100.8024 F-statistic 194.1606 Durbin-Watson stat 1.729671 Prob(F-statistic) 0.000000
Nuevamente la interpretación del contraste es directa y rechazaremos la hipótesis nula, no existencia
de cambio estructural, si la probabilidad asociada a los estadísticos es inferior al 5%. Al igual que
sucedía con el test de puntos de ruptura, el test de predicción de Chow nos estaría marcando un
cambio estructural gradual a partir de 1995 en el modelo analizado, ya que de los valores de
probabilidad, uno de ellos es claramente inferior al 5% y el otro no lo es.
El segundo grupo de contrastes de cambio estructural que incorpora de forma automática Eviews
son, los contrastes basados en las estimaciones recursivas, y a los que se accede también desde el
menú de visualización (View) de la ventana del objeto ecuación, y a partir de la opción de test de
estabilidad (Stability Test), estimaciones recursivas (Recursive Estimates). De esta forma y
siguiendo una secuencia de selecciones como la siguiente:
View -> Stability Test-> Recursive Estimates
Esta selección de coeficientes solo tendrá efecto en el caso de haber seleccionado como output,
precisamente la opción de coeficientes recursivos. Para ilustrar el contenido e interpretación de cada
una de las alterativas vamos a ir aplicando cada uno de ellos a la ecuación de la función de consumo
en la que, recordamos, el test de Chow había detectado cambio de estructura.
3.5.3. Errores recursivos (Recursive Residuals)
Presenta un gráfico de los errores recursivos a lo largo de la muestra, pudiendo identificarse posible
cambios de estructura en aquellos puntos en los que los errores superan los valores definidos por las
bandas confianza, calculadas éstas como +/- dos veces la desviación típica. Si se ha activado la
opción de guardar resultados como series, se generará un nuevo objeto grupo, con denominación
Santiago Marquina Benítez 20 de noviembre
de 2006
39
genérica (Untitled), que contiene dos series, R_RES, con el valor del residuo recursivo, y R_RESSE,
con el valor de la desviación típica.
Gráfico No.9. Errores recursivos.
3.5.4. Coeficientes recursivos (N_step forecast test):
En esta ocasión el resultado será un gráfico múltiple con una representación individual de cada uno
de los coeficientes del modelo, los que hayamos seleccionado en la ventana previa, junto con sus
respectivas bandas de confianza. En estos gráficos no observaremos, en general, puntos anómalos,
fuera de las bandas de confianza, pero si que podremos inferir si se detecta algún comportamiento
sistemático en la evolución de cada uno de los parámetros.
-0.08
-0.06
-0.04
-0.02
0.00
0.02
0.04
0.06
0.08
86 88 90 92 94 96 98 00 02
Recursive Residuals ± 2 S.E.
Errores recursivos
Santiago Marquina Benítez 20 de noviembre
de 2006
40
Gráfico No.10. a 14. Gráfico múltiple con una representación individual de cada uno de los coeficientes del modelo
En el ejemplo analizado parece bastante evidente que el parámetro asociado al factor ingreso
disponible privado per cápita (IDPP) aumenta a finales del período muestral, mientras que los otros
cuatro se reducen en el mismo período, lo que estaría suponiendo un aumento de la elasticidad
relativa del ingreso en nuestra función de consumo. Si seleccionamos la opción de almacenar
resultados, se creará un nuevo grupo genérico que contiene una serie para cada coeficiente estimado
y otra serie adicional para cada uno de ellos con las desviaciones típicas, denominándose
respectivamente como R_C1, R_C1SE, R_C2, R_C2SE, etc.
Una vez detectada la presencia de cambio estructural en el modelo debemos optar por alguna de las
vías de corrección que existen en la teoría econométrica. Alguna de estas alternativas, la más
sencilla, consistía, en la re-especificación del modelo incluyendo alguna variable ficticia, de tipo
determinista que recoja la evolución inferida de los parámetros.
Eviews incorpora de forma automática dos funciones que generan de forma automática dos de las
variantes más utilizadas de variables ficticias, las estaciónales y las de tendencia. Así por ejemplo, la
función @TREND(n) genera una variable determinista tendencial que toma el valor 0 en la
observación n, que debe ser una expresión válida de acuerdo con el workfile utilizado, y sucesivos
valores enteros en las observaciones siguientes (1,2,3,.....).
Por otra parte la función @SEAS(p) genera una variable ficticia que toma el valor 1 para las
observaciones correspondientes al período estacional seleccionado p, y cero en el resto; debiendo ser
0
5
1 0
1 5
2 0
2 5
3 0
8 6 8 8 9 0 9 2 9 4 9 6 9 8 0 0 0 2
Re c u rs i v e C(1 ) Es t i m a te s ± 2 S.E.
-1 .5
-1 .0
-0 .5
0 .0
0 .5
1 .0
8 6 8 8 9 0 9 2 9 4 9 6 9 8 0 0 0 2
Re c u rs i v e C(2 ) Es t i m a te s ± 2 S.E.
0 .0
0 .2
0 .4
0 .6
0 .8
8 6 8 8 9 0 9 2 9 4 9 6 9 8 0 0 0 2
Re c u rs i v e C(3 ) Es t i m a te s ± 2 S.E.
-0 .1 5
-0 .1 0
-0 .0 5
0 .0 0
0 .0 5
0 .1 0
0 .1 5
8 6 8 8 9 0 9 2 9 4 9 6 9 8 0 0 0 2
Re c u rs i v e C(4 ) Es t i m a te s ± 2 S.E.
-0 .0 2
0 .0 0
0 .0 2
0 .0 4
0 .0 6
8 6 8 8 9 0 9 2 9 4 9 6 9 8 0 0 0 2
Re c u rs i v e C(5 ) Es t i m a te s ± 2 S.E.
Santiago Marquina Benítez 20 de noviembre
de 2006
41
dicho valor p una expresión válida de acuerdo con el tipo de workfile utilizado (De 1 a 12 en
mensuales y de 1 a 4 en trimestrales).
Otro tipo de variables ficticias habitualmente utilizadas en la práctica econométrica con las
denominadas ficticias de impacto o de escalón, que son aquellas que toman el valor 1 en un período
concreto y cero en el resto (impacto), o que toma el valor cero hasta una determinada observación y
1 de ahí en adelante (escalón). Para generar este tipo de variables ficticias, se pueden utilizar las
herramientas básicas de generación de series mediante una secuencia de comandos.
3.5.5. Multicolinealidad
La última de las hipótesis estructurales que vamos a abordar dentro de este apartado es la relativa a
la multicolinealidad entre los regresores del modelo y que llevada a su extremo, multicolinealidad
exacta, impide la estimación del mismo. La multicolinealidad exacta suele producirse en situaciones
de mala especificación del modelo incluyéndose entre la lista de variables independientes alguna
combinación lineal.
El caso más típico es, la conocida como "Trampa de las variables ficticias" y que puede producirse,
en un modelo trimestral ante una especificación del tipo:
LS Y C X Z @SEAS(1) @SEAS(2) @SEAS(3) @SEAS(4) (53)
En la que la suma de las cuatro variables ficticias estaciónales es igual al término constante:
@SEAS(1)+@SEAS(2)+@SEAS(3)+@SEAS(4)= 1 =C (54)
La solución a esta situación es bastante simple y consistiría únicamente en la eliminación de una de
las variables ficticias de la especificación. Un caso más complejo se presenta cuando existe un alto
grado de correlación entre las variables explicativas pero que no llega a suponer la no invertibilidad
de la matriz. Una primera forma de detectar un nivel elevado de correlación (multicolinealidad)
entre los regresores consiste en la observación de los efectos que esta situación induce sobre los
estadísticos básicos del modelo, y que, tal como recogíamos en el desarrollo teórico, se manifiesta
mediante unos estadísticos conjuntos (R2 y F) muy significativos, junto con unos resultados
individuales muy pobres (test t poco significativos).
Si una vez estimado un modelo se detectan estos síntomas, debemos realizar un análisis más
detallado del nivel de colinealidad utilizando alguno de los siguientes procedimientos:
1. Coeficientes de correlación simple
2. Coeficientes de determinación múltiple.
El primero de los coeficientes consiste en comparar la raíz cuadrada del coeficiente de
determinación R2 obtenido en el modelo, con todos y cada uno de los coeficientes de correlación
entre cada par de variables independientes, admitiendo que existe un problema grave de
multicolinealidad si alguno de los coeficientes de correlación parcial supera al coeficiente de
correlación múltiple (raíz cuadrada del coeficiente de determinación).
Santiago Marquina Benítez 20 de noviembre
de 2006
42
Para ilustrar este procedimiento, partiremos nuevamente de la ecuación que recoge la función de
consumo privado per cápita (GCPP), y cuyos resultados estimados parecen mostrar ciertos indicios
de multicolinealidad en los regresores, ya que los contrastes conjuntos son muy significativos y las
variables individuales no lo son tanto (ver tabla No.5).
A partir de este momento crearemos un nuevo objeto, tipo grupo, con todos los regresores incluidos
en la ecuación, mediante un comando del tipo:
SHOW LOG(GCPP) LOG(IDPP) LOG(RN) LOG(TIM) LOG(NP) (55)
En el menú de visualización de este objeto grupo (View), seleccionaremos la opción de correlaciones
(Correlation), obteniéndose una matriz de correlación como la que se recoge a continuación:
Tabla No.19. Matriz de correlación.
LGCPP LIDPP LNP LRN LTIM
LGCPP 1.000000 0.970951 0.851574 0.965044 -0.832707 LIDPP 0.970951 1.000000 0.836889 0.957799 -0.768213 LNP 0.851574 0.836889 1.000000 0.793368 -0.707798 LRN 0.965044 0.957799 0.793368 1.000000 -0.839051 LTIM -0.832707 -0.768213 -0.707798 -0.839051 1.000000
En Dicha tabla podemos comprobar que existe una elevada correlación entre LGCPP con respecto a
LIDPP y LRN con (0.970 y 0.965) respectivamente. O sea que la variable consumo se encuentra
muy relacionada con el ingreso (ingreso disponible y riqueza neta) lo resulta lógico. Por otra parte,
si calculamos la raíz cuadrada del coeficiente de determinación del modelo (R2
), utilizando una
expresión del tipo:
SCALAR R = @SQR(@R2) (56)
Comprobaremos que el coeficiente de correlación múltiple del modelo es de 0.9676, que al ser
inferior al coeficiente de correlación entre las variables de LGCPP y LIDPP, nos estaría
confirmando el problema de multicolinealidad.
Las posibles soluciones al problema de la multicolinealidad pasan, o bien por la ampliación de la
muestra, situación poco factible en la mayoría de las aplicaciones puesto que, en general tendemos a
utilizar toda la información disponible, o bien por la transformación del modelo para reducir los
problemas de correlación.
Un caso particular del problema de la multicolinealidad lo constituye la inclusión de valores
retardados de las variables explicativas y que, necesariamente, están correlacionadas entre ellas.
Así, en una especificación genérica con variables retardadas del tipo:
Yt = ß0 + ß1 * Xt + ß2 * Xt–1 + ß3 * Xt–2 + ß4 * Xt–4 +...+ ut (57)
Parece muy probable que exista un elevado grado de correlación entre los distintos regresores, que
será tanto más elevado cuanto mayor sea el nivel de autocorrelación que presente la variable
Santiago Marquina Benítez 20 de noviembre
de 2006
43
exógena Xt. En la literatura existen diferentes soluciones propuestos para este problema, algunas de
las soluciones que se han propuesto para estimar este tipo de modelos evitando el problema de la
multicolinealidad, y que recordamos consistían básicamente en la construcción de distribuciones de
retardos.
En esta línea, Eviews incorpora de forma automática la posibilidad de incluir polinomios de retardos
en modelos estimados mediante Mínimos cuadrados ordinarios o Mínimos cuadrados bietápicos,
mediante el comando PDL (Polynomial Distributed Lag).
En el caso iniciado del modelo de gasto de consumo privado, (GCPP) comprobaremos que ésta
depende del crecimiento del excedente del ingreso disponible (IDPP), de las expectativas de
aumento de la producción (RN) y de las expectativas de evolución de tipos de interés (TIM) y de la
expectativa de evolución del nivel de precio (NP), junto con la propia variable endógena desplazada,
con una expresión lineal del tipo:
LGCPP = C(1)*LIDPP + C(2)*LRN(-1) + C(3)*LTIM(-1) + C(4)*LNP(-1)
+C(5)*ILGCPP(-1) (58)
Se va a aplicar la distribución polinomial de Almon, para ello podemos utilizar la función PDL
aplicada sobre dicha variable de excedentes, y donde debemos indicar, tanto el número de retardos
(l), como el orden del polinomio (o) y, opcionalmente, las restricciones a incluir en el polinomio de
retardos (r), con una expresión del tipo: PDL(LGCPP,l,o,r).
Para incluir este comando debemos tener en cuenta las siguientes características:
El número de retardos a incluir debe ser mayor o igual que el orden del polinomio l >o.
Si se omite el valor de restricciones sobre el polinomio (r) no se efectuará ninguna
restricción, generándose tantas series auxiliares, como orden del polinomio más una.
Si el valor de la restricción es igual 1 (r=1), se restringe a cero el valor del retardo más
cercano, generándose tantas series auxiliares como orden del polinomio seleccionado.
Si el valor de la restricción es igual a 2 (r=2), se restringe a cero el valor del retardo más
lejano, generándose tantas series auxiliares como orden del polinomio de retardos.
Si el valor de la restricción es igual 3 (r=3) se restringen a cero ambos extremos del
polinomio de retardos, generándose, por tanto, tantas series auxiliares como orden del
polinomio menos 1.
Así por ejemplo, si quisiéramos estimar el modelo anterior incluyendo tres retardos de la variable de
excedente, mediante un polinomio de segundo orden, y sin restringir, incluiríamos la siguiente
expresión en la ventana de selección de la especificación del objeto ecuación:
LGCPP PDL(LIDPP,3,2) LRN(-1) LTIM(-1) LNP(-1) LGCPP(-1) (59)
Obteniéndose un resultado como que el que presentamos a continuación, donde la parte superior
responde al formato general de presentación de resultados del objeto ecuación, incluyendo como
variables explicativas las tres variables auxiliares generadas (orden del polinomio más una)
denominadas respectivamente como PDL01 PDL02 y PDL03.
Santiago Marquina Benítez 20 de noviembre
de 2006
44
En la parte inferior se presentan los coeficientes transformados en términos de los distintos desfases
de la variable original (IDPP) junto con sus respectivas desviaciones típicas y estadísticos t
asociados.
Tabla No.20. Resultados del modelo incluyendo tres retardos de la variable excedente.
Dependent Variable: LGCPP Method: Least Squares Date: 02/10/03 Time: 15:42 Sample(adjusted): 1983:2 2002:2 Included observations: 75 Excluded observations: 2 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
LRN(-1) -0.121310 0.052131 -2.327038 0.0229 LTIM(-1) -0.044342 0.010577 -4.192262 0.0001 LNP(-1) -0.001158 0.002114 -0.547563 0.5858
LGCPP(-1) 0.151509 0.127087 1.192170 0.2373 PDL01 0.373720 0.088527 4.221512 0.0001 PDL02 -0.071845 0.095250 -0.754274 0.4533 PDL03 -0.066841 0.085664 -0.780272 0.4379
R-squared 0.965188 Mean dependent var 13.66419 Adjusted R-squared 0.962117 S.D. dependent var 0.165927 S.E. of regression 0.032295 Akaike info criterion -3.939101 Sum squared resid 0.070923 Schwarz criterion -3.722802 Log likelihood 154.7163 F-statistic 314.2274 Durbin-Watson stat 1.855300 Prob(F-statistic) 0.000000
De los resultados obtenidos en el cuadro anterior, podemos ver que solo la primer variable auxiliar
incluida es estadísticamente significativa (PDL01), un R2
bastante aceptable y un Durbin-Watson
muy cercano a 2 de referencia (1.855), siendo muy estrictos nos metería en la zona de duda de
autocorrelación, pero sin embargo, el contraste DW una de las dificultades que presenta es
precisamente con respecto a la existencia o no de zonas de dudas no conclusivas de la presencia de
autocorrelación.
Para efectos de nuestro caso nos limitaremos a aceptar los resultados obtenidos en el modelo
estimado que a continuación se presenta:
LGCPP = -0.1213102024*LRN(-1) - 0.04434247797*LTIM(-1) - 0.001157693444*LNP(-1) + 0.1515087681*LGCPP(-1) +
0.3787235267*LIDPP + 0.3737195747*LIDPP(-1) + 0.2350336439*LIDPP(-2) - 0.03733426549*LIDPP(-3) (60)
Una información adicional que presenta Eviews (en caso de aplicarse polinomios Almon), son los
coeficientes en términos de la distribución original de retardos.
Tabla No.21. Coeficientes de polinomios de Almos.
Lag Distribution of LIDPP
i Coefficient Std. Error T-Statistic
. *| 0 0.37872 0.11281 3.35709 . *| 1 0.37372 0.08853 4.22151 . * | 2 0.23503 0.08797 2.67177 * . | 3 -0.03733 0.13750 -0.27152
Sum of Lags 0.95014 0.12309 7.71887
Santiago Marquina Benítez 20 de noviembre
de 2006
45
PARTE IV: REALIZACIÓN DE LAS PREDICCIONES PARA EL MODELO
ECONOMETRICO DOS (M2):
4.1. PREDICCIÓN:
Una vez definido el modelo adecuado (al menos por el momento) que cumple con los criterios de evaluación
establecidos, puede pasarse a la etapa de predicción. Cabe mencionar, que la verdadera predicción será la
realizada a partir del último dato del periodo muestral, aunque también puede resultar de utilidad analizar
cómo se habría comportado el modelo si se hubiera tenido que realizar una predicción dentro del periodo
histórico conocido, que sirvió de base para la estimación del modelo y su posterior contraste.
Para el periodo histórico de referencia pueden efectuarse dos tipos diferentes de predicción o pronóstico:
La estática, o paso a paso, y
La dinámica, o en cadena.
En el primer caso se utilizan los valores verdaderos de las variables desplazadas. En términos del programa
de Eviews, estimamos el modelo correspondiente con QUICK / ESTIMATE EQUATION. Para predecir
utilizamos la instrucción FORECAST del menú de la ventana de ecuación, inmediatamente después de haber
estimado el modelo. (Ver gráfico No.16).
Por el contrario, la predicción dinámica utiliza el valor estimado y no real del período precedente. La
predicción estática nos informa, pues, de los errores que se hubieran cometido de utilizar el modelo para
predecir sólo un período por delante. En cambió, la predicción dinámica deja al modelo que vaya
realimentando sus propias predicciones. Continuando con nuestro caso, procedemos a realizar las
predicciones para le serie de observaciones GCPP en el marco de predicción considerado que es de el tercer
trimestre de 2002 hasta el segundo trimestre del 2003. El procedimiento que se sigue en Eviews es el
siguiente: Una vez que se está en la ventana de ecuación, se pulsa FORECAST y aparece una ventana en la
que hay que especificar varios puntos:
Primero, la serie para la que queremos predicciones (Forecast of), donde indicamos GCPP para que,
automáticamente, tengamos los datos de predicción sin necesidad de deshacer ninguna transformación
(recordemos que el modelo con el que trabajamos tiene como variable endógena LOG(GCPP), es decir, con
transformación logarítmica.
Segundo, el nombre para la serie que contiene los datos de predicción, en nuestro caso, GCPPF (Eviews
añade, por defecto, la letra F al final del nombre de la serie original, después, al método de predicción, donde
seleccionamos dinámico (Dynamic) y, finalmente, indicamos el período muestral (Sample) para la
predicción; desde: 1998:1 hasta 2003:2. Como resultado, Eviews genera la variable GCPPF que contiene los
datos de predicción y que visualizaremos en el gráfico No.15.
900000
950000
1000000
1050000
1100000
1150000
1200000
1250000
98:1 98:3 99:1 99:3 00:1 00:3 01:1 01:3 02:1
GCPPF ± 2 S.E.
Forecast: GCPPF
Actual: GCPP
Sample: 1998:1 2002:1
Include observations: 17
Root Mean Squared Error 31867.93
Mean Absolute Error 24337.59
Mean Abs. Percent Error 2.273310
Theil Inequality Coefficient 0.014952
Bias Proportion 0.014619
Variance Proportion 0.595805
Covariance Proportion 0.389576
Predicción dinámica del consumo privado con la ecuación 2
Santiago Marquina Benítez 20 de noviembre
de 2006
46
Gráfica No.15. Predicción dinámica del GCPPF
Gráfica No.16. Predicción estática del PGCPP
4.2. ALISADO EXPONENCIAL
Ahora, y a manera de comparación, se calculan unas nuevas predicciones con el método de alisado
exponencial con triple parámetro multiplicativo (Holt-Winters-Multiplicativo) que, como se sabe, no
requiere de realizar ninguna transformación sobre la serie original. Para acceder a este análisis en el
programa de Eviews, en el menú principal, seleccionamos: QUICK / SERIES STATISTICS /
EXPONENTIAL SMOOTHING, después en la ventana que se abre indicamos que la serie que
contendrá las predicciones por este método se denominará GCPPSM. El resultado del alisado
exponencial se presenta en la tabla No.22.
Tabla No.22. Predicciones por el método de Alisado exponencial
Date: 02/12/03 Time: 04:31 Sample: 1998:1 2002:2 Included observations: 18 Method: Holt-Winters Multiplicative Seasonal Original Series: GCPP Forecast Series: GCPPSM
Parameters: Alpha 0.8900 Beta 0.0000 Gamma 0.2900
Sum of Squared Residuals 4.17E+09 Root Mean Squared Error 15219.85
End of Period Levels: Mean 1173170. Trend 13714.93 Seasonals: 2001:3 0.993506 2001:4 1.021870 2002:1 0.969626 2002:2 1.014998
Ahora, ya se pueden comparar las distintas predicciones obtenidas que se recogen en la tabla No.22,
en tasas de variación calculadas con Eviews con la orden @PCH. Así, @PCH(GCPP) calcula las
tasas de variación de la serie PGCPP que, como se recordará, contiene las predicciones estáticas, es
900000
950000
1000000
1050000
1100000
1150000
1200000
1250000
98:1 98:3 99:1 99:3 00:1 00:3 01:1 01:3 02:1
PGCPPF ± 2 S.E.
Forecas t: PGCPPF
Actual: GCPP
Sample: 1998:1 2002:1
Inc lude observations : 17
Root Mean Squared Error 31867.93
Mean Absolute Error 24337.59
Mean Abs . Percent Error 2.273310
Theil Inequali ty Coeffic ient 0.014952
Bias Proportion 0.014619
Variance Proportion 0.595805
Covariance Proportion 0.389576
PREDICCIÓN ESTATICA DEL GCPP CON LA ECUACIÓN 2
Santiago Marquina Benítez 20 de noviembre
de 2006
47
decir, equivale a la expresión (PGCPP - PGCPP(-1) / PGCPP(-1), que si se multiplica por cien,
expresaremos la variación en porcentaje, (@PCH(PGCPP)*100); con (@PCH(GCPPF) indicamos
tasas de crecimiento para la serie GCPPF, que contiene las predicciones dinámicas hasta el segundo
trimestre de 2003 y, finalmente, @PCH(GCPPSM) que genera las tasas de variación de la serie de
predicción obtenida con el alisado exponencial triple (GCPPSM).
La instrucción completa en el submenu (show) es:
@ PCH(PGCPP)*100 @PCH(GCPPF)*100 @PCH(GCPPSM)*100 (61)
Para la elaboración de la tabla No.23, se ha seleccionado el año de 1998, 1999, 2000 y 2001
completos y las predicciones hasta el segundo trimestre del año 2003. La columna de las
observaciones de la variable PGCPP obtenida con predicción estática, es decir, paso a paso, tan sólo
abarca hasta el tercer trimestre del 2002 (que es predicción, al no disponerse aún del dato real) dado
que sólo se cuenta con información real hasta el segundo trimestre del 2002.
Tabla No.23. Comparación de las distintas predicciones obtenidas
Períododo
Tasas de crecimiento
@PCH(PGCPP)*100
@PCH(GCPPF)*100
@PCH(GCPPSM)*100
1998:1 NA NA NA
1998:2 1.144492 5.747468 6.814783
1998:3 -2.304670 -1.061627 -0.998112
1998:4 2.919683 3.090997 3.959128
1999:1 -0.703895 -5.252224 -4.742448
1999:2 3.268188 6.813584 4.449906
1999:3 -0.736999 -0.084821 -0.335992
1999:4 4.991539 6.193187 4.910374
2000:1 0.601853 -4.114955 -2.143484
2000:2 2.172209 7.073849 5.973974
2000:3 -0.827355 0.086897 -0.024425
2000:4 2.323045 3.740397 5.138788
2001:1 -2.833081 -4.094200 -4.209574
2001:2 1.054247 4.524582 5.854973
2001:3 -1.638894 -2.313107 -2.159260
2001:4 3.086446 3.677615 2.630796
2002:1 -2.127221 -6.719738 -4.426693
2002:2 NA NA 2.966587
2002:3 NA NA 1.386720
2002:4 NA NA 4.043411
2003:1 NA NA -4.028581
2003:2 NA NA 5.861564
La variable GCPPF recoge valores reales del GCPP, en tasa de variación, hasta el primer trimestre
del 2002 (para los que no se ha hecho predicción dinámica) y predicciones para el período
comprendido desde el tercer trimestre del 2002 hasta el segundo trimestre del 2003. Por lo que
respecta, a la variable GCPPSM incluye las predicciones que, automáticamente, genera el programa
para Holt-winters con triple parámetro (paso a paso para el período histórico y dinámico para el de
predicción). En la tabla siguiente se presentan los calculados efectuados en Eviews.
Santiago Marquina Benítez 20 de noviembre
de 2006
48
La descripción de las ventanas guardadas con un nombre en el archivo de trabajo llamado CONSUMO
PERSONAL PRIVADO-FINAL1 se detalla en la siguiente tabla:
NOMBRE CONTENIDO
GCPP Serie original de datos del gasto de consumo privado per cápita de
México
IDPP Serie original de datos del ingreso disponible privado per cápita
de México
RN Serie original de datos de la riqueza nacional de México
TIM Serie original de datos de la tasa de interés de mercado
NP Serie original de datos del nivel de precios al consumidor
LGCPP GCPP en logaritmos
LIDPP IDPP en logaritmos
LRN RN en logaritmos
LTIM TIM en logaritmos
LNP NP en logaritmos
Ecuación 01 Estimación de la ecuación 1 de series originales de la función de
consumo
Ecuación 02 Estimación de la ecuación 2 de la función de consumo en
logaritmos
Ecuación 03 Estimación de la ecuación 3: LGCPP C LIDPP LRN LTIM LNP
LGCPP(-1)
Ecuación 04 Estimación de la ecuación 4: LGCPP C LIDPP LRN LTIM LNP
LGCPP(-2)
Ecuación 05 Estimación de la ecuación 5: LGCPP PDL(LIDPP,3,2) LRN(-1)
Santiago Marquina Benítez 20 de noviembre
de 2006
49
LTIM(-1) LNP(-1) LGCPP(-1)
GráficoGCPP Histograma de la serie original de GCPP
GráficobarrasGCPP Gráfico de barras de la serie original GCPP
GráficolineaGCPP Gráfico de línea de la serie original GCPP
GráficoconjuntoGCPP Gráfico de línea de las series GCPP y LGCPP
Gráfico de residuos Gráfico de residuos, actual y estimada
Gráfresiduos Gráfico de residuos de LOG(GCPP)
Gráfresidrecursi Gráfico de errores recursivos
Gráfprediceq2mdi Gráfico de predicción dinámica del consumo (GCPPF) con el
modelo 2
Gráfpredicmoesta Gráfico de predicción estática del consumo (PGCPP) con el
modelo 2
Tabla 1 (cuadro 1) Cuadro con los datos de las series originales
Tabla2
CORRELOGRAMAGCPP
Correlograma de la serie GCPP
Tabla3 (Test Dickey-Fuller) Prueba sobre la existencia de raíz unitaria
Tabla4 (Test Dickey-
Fuller2)
Prueba sobre la existencia de raíz unitaria incluyendo solo el
término constante y manteniendo los dos retardos de las primeras
diferencias
Tabla5 (Tablaresulecua01) Resultados de la estimación de la ecuación 1
Tabla6 (ecuaciónln2) Resultados de la estimación de la ecuación 2
Tabla7 (Tablaresultado03) Resultados de la estimación de la ecuación 3
Tabla8 (Tablaresultado04) Resultados de la estimación de la ecuación 4
Tabla (Tablaresultado05) Resultados de la estimación de la ecuación 5, incluyendo tres
retardos de la variable excedente
Tabla (Tablaheterocedas) Resultado de la prueba de heterocedasticidad
Tabla (pruebaarch) Resultado de el test de ARCH
Tabla (pruebvaromitida2) Prueba de la omisión de la variable NP
Tabla (pruebvarredundan1) Prueba sobre variables redundantes
Tabla (tabladewald) Contrastación de Wald
Tabla (pruebadechowcest) Contrastación estructural de Chow
Tabla (pruebdechowcest2) Contrastación estructural de el test de predicción de Chow
Tabla (correlación) Resultado de la matriz de correlación de las variables
transformadas en logaritmo
Tabla (tabpredicconjunt) Comparación de las distintas predicciones obtenidas
Santiago Marquina Benítez 20 de noviembre
de 2006
50
BIBLIOGRAFÍA
Ana María López, y Antonio Pulido.: Predicción y simulación aplicada a la economía y
gestión de empresas, Ed. Pirámide, Madrid, 1999.
Antonio Pulido San Román y Julián Pérez García.: Modelos econométricos, Ed. Pirámide,
Madrid, 2001.
Antonio Aznar y Francisco Javier Trivez, Métodos de predicción en economía I y II.
Análisis de series temporales, Ed. Ariel Economía, Barcelona, 1993.
Damodar, N. Gujarati, Econometría, 3° ed. Ed. Mc Graw-Hill, Bogota, Colombia, 1999.