DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial...

95
DPTO. DE TEOR ´ IA DE LA SENAL Y COMUNICACIONES UNIVERSIDAD CARLOS III FRANCISCO-JAVIER GONZ ´ ALEZ SERRANO 2004

Transcript of DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial...

Page 1: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

DPTO. DE TEORIA DE LA SENAL Y COMUNICACIONES

UNIVERSIDAD CARLOS III

FRANCISCO-JAVIER GONZALEZ SERRANO

2004

Page 2: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

0

Page 3: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Capıtulo 1

Enfoques al problema deprediccion

Para entender el abanico de enfoques al problema de prediccion disponibleen la actualidad, es necesaria una (breve) revison historica.

Antes de los anos 50 no hubo un desarrollo importante de las tecnicas deprediccion, debido a la falta de datos historicos y a la enorme dificultad desu tratamiento. Sin embargo, a mediados de los 50, dos avances significativosdieron un vuelco a la situacion.

El primero de ellos fue la aparicion de una amplia variedad de tecnicasde alisado (smoothing). Las grandes ventajas de estos metodos, basados enun sustrato empırico y de clara orientacion practica, fueron la simplicidadde su concepto y la facilidad en su uso. Precisamente fue esa simplicidadla que atrajo (y repelio, en proporciones similares) la atencion de muchosinvestigadores (sobre todo de firmes convicciones practicas). Aun cuando susimplicidad pudiera parecer un impedimento para su aplicacion, las tecni-cas de alisado exponencial obtienen resultados similares a los de otras massofisticadas.

Obviamente, el segundo factor que influyo en la aparicion de una ingentecantidad de tecnicas predictivas fue (como no) la aparicion de los calculadoreselectronicos.

No mucho despues, se desarrollaron los metodos de descomposicion. Aunqueno estaban cimentados en una solida teorıa estadıstica, tuvieron un granatractivo. Naturalmente, el continuo incremento de la capacidad de calcu-lo catalizo el nacimiento de metodos estadısticos mas sofisticados, como laregresion multiple y los modelos econometricos.

Durante los anos 50 y 60 se inicio la busqueda de una teorıa unificadora.No lo fue tal, pero el trabajo elaborado por Box y Jenkins proporciono un pro-cedimiento sistematico que permitıa procesar virtualmente todos los patrones

1

Page 4: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

2 Capıtulo 1. Enfoques al problema de prediccion

observados en series temporales fısicas. La popularidad de esta metodologıase disparo cuando en los anos 70 se demostro que podıan ser tan certera comolos esquemas econometricos. A mediados de los 70 emergieron una gran can-tidad de variaciones que permitieron corregir algunas deficiencias del modeloBox-Jenkins (modelos ARARMA, filtros de Kalman, modelos vectoriales au-torregresivos, etc.)

1.1. Tipos de modelo

Con la construccion de modelos se puede examinar y comprender la nat-uraleza de los sistemas fısicos sin que sea necesario acceder directamente aestos; por ejemplo, los disenadores de equipos de seguridad en automovilesrealizan sus pruebas con maniquıes (crash test dummies) que imitan el com-portamiento del cuerpo humano (a pesar de que, por lo que parece, algunasindustrias automovilısticas hayan dejado de creer en el modelado).

1.1.1. Modelo de serie temporal

El primer modelo de prediccion cuantitativa, y quizas el mas comun, es elmodelo de serie temporal. En el Modelo de Serie Temporal (MST) influyendos factores principales: la serie de datos que se desea predecir (por ejemploun ındice de ventas semanal en un supermercado) y el periodo de tiempo enel que se lleva a cabo la prediccion.

El MST siempre supone que un patron o combinacion de patrones esrecurrente con el tiempo. Por consiguiente, mediante la identificacion y ex-trapolacion de dichos patrones se puede extender la predccion al intervalo detiempo considerado. Al utilizar un MST se esta suponiendo que la extraccionde los patrones recurrentes puede llevarse a cabo unicamente a traves de lahistoria pasada de dicha serie.

El MST resulta apropiado para predecir variables ambientales como laeconomıa general y el nivel de empleo o para predecir niveles de actividad,tales como patrones de costes, en donde las decisiones individuales tienenun impacto reducido; por el contrario, el MST no es apropiado para llevara cabo predicciones mensuales de los resultados de cambios en la polıtica deprecios y publicidad.

La prediccion de series temporales trata el sistema1 como una “caja ne-gra” sin que se haga ningun intento de descubrir los factores que afectan asu comportamiento. Existen tres razones para justificar este tratamiento.

1El sistema puede ser cualquier cosa: una economıa nacional, las ventas de una empresao el presupuesto familiar.

Page 5: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

1.1. Tipos de modelo 3

Primero, el sistema puede no ser facilmente identificable y, en el casode que lo sea, puede ser extremadamente difıcil especificar las leyes querigen su comportamiento.

En segundo lugar, nos interesa predecir lo que ocurrira, no porque ocurre.Ası, por ejemplo, durante los siglos XVIII, XIX y XX, hubo un graninteres en predecir el numero de las manchas solares. Originalmente,poco (o nada) se sabıa sobre las razones por las que aparecıan, ni lasfuentes de energıa del sol. Esta falta de conocimiento no impidio alos investigadores recolectar y analizar datos sobre la frecuencia de lasmanchas solares.

Tercero, mientras que puede ser de poco valor saber porque ocurre opredecir un determinado evento, el coste asociado a lo primero puedeser extremadamente elevado, mientras que el coste de lo ultimo, si seemplea un MST, puede ser inferior.

1.1.2. Modelo explicativo

El segundo metodo de prediccion cuantitativa es el explicativo. Con estaperspectiva, cualquier cambio en las entradas afectara a la salida del sis-tema de una forma predecible, suponiendo que la relacion entrada/salida semantenga invariable.

El metodo explicativo supone que el valor de una cierta variable (la sal-ida) es una funcion de una o mas variables (las entradas). En un sentidopoco amplio, el modelo de serie temporal puede denominarse como modeloexplicativo puesto que los valores actuales se supone que son funcion del pe-riodo temporal considerado. Sin embargo, el termino “modelo explicativo”se suele reservar para modelos con otras variables que no sean tiempo. Unejemplo podrıa consistir en una ecuacion que describa el comportamiento delas ventas en funcion de los precios de ventas y los costes de publicidad.

El interes de los modelos explicativos como metodos de prediccion resideen la posibilidad de desarrollar un rango de predicciones correspondientes aun margen determinado de diferentes variables de entrada.

El gran inconveniente de estos metodos es la gran potencia de calculoque requieren, puesto que para analizar (predecir) el comportamiento de unavariable se necesita informacion del resto de variables, informacion necesariapara explicar el funcionamiento del sistema. Ademas, presentan una sensibil-idad acusada a cambios en las relaciones que marcan su comportamiento,

Muy a menudo, es posible pronosticar usando tanto metodos explicativoscomo basados en series temporales. La actividad economica, por ejemplo,

Page 6: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4 Capıtulo 1. Enfoques al problema de prediccion

puede pronosticarse sin mas que averiguar las relaciones que ligan el productointerior bruto (PIB) con los distintos factores que le afectan, como la polıticamonetaria y fiscal, la inflacion, inversiones e importaciones y exportaciones.Esto conlleva especificar la forma y los parametros de la relacion:

PIB = f(polıticas monetaria y fiscal, inflacion, inversiones, import., export.)

donde f significa “es una funcion de” o “depende de”. De acuerdo con estemodelo, la variacion de los parametros de entrada supondra una variaciondel PIB.

Si nuestro unico objetivo fuese predecir valores futuros del PIB, sin im-portarnos porque se llega a un determinado nivel de PIB, el modelo de serietemporal parece el mas adecuado. Ası, es sencillo verificar que el valor delPIB no cambia drasticamente de un mes al siguiente. Basandonos en estaapreciacion, el PIB podrıa expresarse como

PIBt+1 = f(PIBt, PIBt−1, . . .)

donde PIBt es el PIB en el presente mes, PIBt+1 es el PIB del mes siguiente(prediccion) y PIBt−1 es el PIB en el mes anterior.

1.2. Notacion para los metodos de prediccion

cuantitativos

Antes de comenzar una prediccion, es necesario disponer de una coleccionde datos pasados o valores observados. Generalmente, estos valores presentanuna variacion dentro de un periodo de tiempo. La variable Xt caracteriza esosvalores, siendo el subındice t el identificador del periodo de tiempo actual.Para los valores estimados o pronosticados se emplea la notacion Ft+1 o Xt+1.

El supuesto basico de cualquier tecnica de prediccion es que el valor ac-tual estara determinado por un determinado patron al que se le anaden in-fluencias aleatorias. La presencia de las componentes aleatorias supone que,incluso cuando se ha determinado el patron subyacente que siguen los datos,siempre existira una desviacion entre la prediccion y los valores verdaderos.Obviamente, un objetivo razonable al aplicar una tecnica de prediccion es laminimizacion de los errores de prediccion

ei = Xi − Fi .

La Figura 1.1 resume y muestra el escenario donde se lleva a cabo la predic-cion.

Page 7: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

1.3. Medidas de las prestaciones de un metodo de prediccion 5

tiempot

tiempot

tiempot

Xt-n+1

e) Errores en el ajuste

t-n+1(X

t-n+1 t- F ), ..., (X - F )

t

a) Punto de referencia

b) Datos pasados disponibles

c) Predicciones futuras

tiempot

FFt-n+1

Xt

t-2F

tt-1F

Ft

Ft+1

F t+m

m periodos adelante

.............

.............

.............

(X

Xt+1

e) Errores en la predicción (si se dispone de , ... )

d) Valores ajustados (modelo)

t+1 t+1- F ), (X - F )

t+2 t+2

Figura 1.1: Escenario de prediccion

1.3. Medidas de las prestaciones de un meto-

do de prediccion

En muchos casos, las prestaciones de un metodo de prediccion se rela-cionan con la exactitud con la que reproduce los datos conocidos. En losmodelos de serie temporal es posible utilizar un subconjunto de los datosconocidos para predecir el resto de valores conocidos, con lo cual se puedeestudiar directamente la exactitud de los pronosticos. Parece necesario, pues,establecer una definicion o medida de la exactitud.

En la Tabla 1.1 se muestra un conjunto de datos con los que se ilustrandistintas medidas de exactitud. Los datos de la tabla son las ventas mensuales(en millones de pesetas) de un supermecado durante un periodo de 6 meses.El metodo de prediccion es simple: las ventas del mes anterior se utilizancomo estima de las ventas del actual (Ft+1 = Xt).

Page 8: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6 Capıtulo 1. Enfoques al problema de prediccion

Mes Ventas Pred. Error Err. Abs. % Err. Err. cuadr.

i Xi Fi Xi − Fi |Xi − Fi| |Xi − Fi

Xi

|100 (Xi − Fi)2

1 9 - - - - -2 8 9 -1 1 12.5 13 9 8 1 1 11.1 14 12 9 3 3 25.0 95 9 12 -3 3 33.3 96 12 9 3 3 25.0 9

Suma 3 11 106.9 29Media 0.5 1,83a 17,8b 4,83c

Cuadro 1.1: Ventas mensuales de un supermercado. (a) Desviacion absolutamedia (MAD). (b) Porcentaje medio de error absoluto (MAPE). (c) Errorcuadratico medio (MSE).

1.4. Patrones de prueba para metodos de predic-

cion

Habitualmente, los datos disponibles para verificar la validez de un meto-do de prediccion, X1, . . . , XN , se dividen en dos partes: el “conjunto deinicializacion” (entrenamiento), formado por las P primeras muestras, y el“conjunto de prueba”, formado por las restantes. El conjunto de inicializacionpermite ajustar los diferentes parametros del modelo que hayamos elegidopara llevar a cabo la prediccion, mientras que con el conjunto de pruebase establece la medida de prestaciones. Obviamente, estos conjuntos han deposeer suficiente “riqueza” para asegurar que el metodo de prediccion puedaenfrentarse con exito al mayor numero de situaciones no conocidas.

Comenzaremos por describir brevemente algunos conjuntos de datos arti-ficiales de amplio uso. En la Figura 1.2 se presentan diferentes tipos de senales(y sus versiones ruidosas) de prueba que permiten analizar el comportamien-to del esquema de prediccion. En la Figura 1.3 se presentan, ademas, seriesque (no) presentan tendencia y estacionalidad. La primera puede definirsecomo el cambio a largo plazo del nivel medio de la serie. Pueden ser aditivas((de)crecimiento lineal) o multiplicativas ((de)crecimiento exponencial), taly como se muestra en la primera columna de la Figura 1.3. La estacionalidadse manifiesta por la aparicion de un patron que se repite periodicamente.Al igual que antes, tambien puede tener caracter aditivo o multiplicativo(primera fila de la Figura 1.3).

Page 9: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

1.4. Patrones de prueba para metodos de prediccion 7

0 20 40 60 80 100−1

0

1

A) Constante

Sin error

0 20 40 60 80 100−1

0

1Con error aleatorio

0 20 40 60 80 100

0

0.5

1

B) Pulso

0 20 40 60 80 100

0

0.5

1

0 20 40 60 80 100

0

0.5

1

C) Rampa

0 20 40 60 80 100

0

0.5

1

0 20 40 60 80 100

0

0.5

1

D) Escalón

0 20 40 60 80 100

0

0.5

1

Figura 1.2: Patrones basicos

Page 10: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

8 Capıtulo 1. Enfoques al problema de prediccion

0 50 100−1

−0.5

0

0.5

1Sin estacionalidad

A) Sin tendencia

0 50 100−4

−2

0

2

4Estacionalidad aditiva

0 50 100−10

−5

0

5

10Estacionalidad multip.

0 50 100

0

0.5

1 B) Tend. adit.

0 50 100

0

0.5

1

0 50 100

0

0.5

1

0 50 100

0

0.5

1 C) Tend. mult.

0 50 100

0

0.5

1

0 50 100

0

0.5

1

Figura 1.3: Patrones basados en la clasificacion de Pegel

Page 11: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Parte I

Metodos de alisado ydescomposicion de series

temporales

9

Page 12: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on
Page 13: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Capıtulo 2

Tecnicas descriptivas simples

Una parte muy importante en el analisis de una serie temporal es la se-leccion de un modelo (o clase de modelos) pobabilıstico adecuado para rep-resentar los datos. El modelo puede usarse, simplemente, para proporcionaruna descripcion compacta de la serie. Habiendo elegido el modelo, es posibleestimar los parametros con los que se ajusta mejor a los datos disponiblesy, ası, enriquecer nuestro conocimiento sobre los mecanismos que generan laserie.

2.1. Modelado descriptivo

Las tecnicas descriptivas estan basadas en la representacion de los datosen dos partes, la sistematica, o parte determinista, y la aleatoria o estocastica(senal y ruido)

Xt = f(g(t), Ut)

donde g(t) representa la parte sistematica, Ut la aleatoria y f es la transfor-macion que representa los datos. Estas dos componentes no son observables:son cantidades teoricas.

Los primeros analisis de series temporales estaban basados en modelosen los que la variacion temporal se consideraba, unicamente, en la partesistematica. Denominaremos clasicos a estos modelos, puesto que tienen suorigen en los tiempos en que Gauss y otros desarrollaron la teorıa de mıni-mos cuadrados para su aplicacion en astronomıa y fısica. En este modelose supone que la parte aleatoria no presenta ninguna variacion estadısticatemporal; ademas, tambien se supone que la media es cero, la varianza esconstante, y que las muestras Ut estan incorreladas en diferentes instantes detiempo. Estas especificaciones fuerzan, por tanto, a que todas las variacionestemporales se incluyan dentro de la parte sistematica.

11

Page 14: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

12 Capıtulo 2. Tecnicas descriptivas simples

2.2. Modelado de la parte sistematica

Dentro de las limitaciones marcadas por el modelo, se distinguen distintasfuentes de variacion que afectan a g(t).

2.2.1. Efecto estacional

Muchas series temporales, como las lecturas de temperaturas, las ventasen hostelerıa, presentan una variacion con periodo anual. El periodo puede seranual (ındice de paro), mensual (ventas de supermercados) o diario (consumoelectrico).

Ejemplo 2.1

1973 1974 1975 1976 1977 1978 19796.5

7

7.5

8

8.5

9

9.5

10

10.5

11

11.5

Mile

s

Figura 2.1: Muertes por accidentes de trafico en el periodo 1973-1978.

La tasa de accidentes de trafico mensual, mostrada en la Figura 2.1, pre-senta un marcado patron estacional, con un maximo situado en Julio y unmınimo en el mes de Febrero.

2.2.2. Cambios cıclicos

Ademas de los efectos estacionales, algunas series temporales describenuna variacion con un periodo fijo debido a alguna causa fısica. Un ejemploes la variacion diaria de la temperatura. Ademas, la series pueden presentaoscilaciones que no tienen un periodo fijo, pero que pueden predecirse. Porejemplo, los datos economicos algunas veces pueden verse afectados por ciclosen la produccion; un ejemplo claro son las ventas de automoviles: la salidade un modelo nuevo incrementa las ventas.

Page 15: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

2.2. Modelado de la parte sistematica 13

El ciclo suele seguir el patron de una determinada funcion que pasa deun nivel alto a uno bajo y de nuevo a uno alto. La diferencia entre unacomponente estacional y un ciclo es que la componente estacional repite susvalores a lo largo de intervalos fijos, como pudieran ser un ano, un mes ouna semana, mientras que los factores cıclicos tienen una suracion mayor quevarıa de ciclo a ciclo.

2.2.3. Tendencias

Las tendencias pueden definirse como cambios a largo plazo en el nivelmedio de una serie; obviamente hay que definir lo que significa “largo plazo”.

Ejemplo 2.2

1800 1820 1840 1860 1880 1900 1920 1940 1960 19800

50

100

150

200

250

Mill

ones

1980 1982 1984 1986 1988 1990 19920

0.5

1

1.5

2

2.5

3

Mile

s

(a) (b)

Figura 2.2: (a) Poblacion de los Estados Unidos por decenios en el periodo1790-1990. (b) Ventas mensuales de vino tinto (millones de litros) durante elperiodo Enero 1973 - Octubre 1991.

En la Figura 2.2, se muestran dos series temporales correspondientes ala poblacion de los Estados Unidos por decenios en el periodo 1790-1990 ya las ventas mensuales de vino tinto (millones de litros) durante el periodoEnero 1973 - Octubre 1991. Pueden apreciarse claramente las tendencias decrecimiento exponencial en la poblacion de Estados Unidos y de crecimientolineal de la ventas de vino tinto.

Cuando se habla de una tendencia, hay que tener en cuenta la cantidad dedatos disponibles. Sirva de ilustracion el siguiente ejemplo. Algunas variablesclimaticas presentan una variacion cıclica durante un periodo relativamentelargo, pongamos 50 anos. Si solo se dispone de un registro que abarque losultimos 20 anos, esa oscilacion a plazo largo aparecerıa como una tendencia;

Page 16: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

14 Capıtulo 2. Tecnicas descriptivas simples

con todo, para realizar predicciones a corto plazo, muchas veces suele bastarcon considerarla como una tendencia.

2.3. Modelado de la parte aleatoria

Antes de describir algunos modelos para la parte aleatoria, se procedera arepasar algunos conceptos estadısticos basicos.

2.3.1. Promedios estadısticos

Funcion de autocovarianza La funcion de autocovarianza de una secuen-cia {Xt} es

γX(r, s) = Cov(Xr, Xs) = E [(Xr − µX(r)) (Xs − µX(s))]

donde µX(r) es la media de {Xt} y r, s y t son numeros enteros.

Estacionariedad El proceso {Xt} es estacionario 1 si

µX(t) es independiente de t.

γX(t + h, t) es independiente de t para cada h.

Funcion de autocorrelacion La funcion de autocorrelacion de un pro-ceso {Xt} estacionario es:

ρX(h) ≡ γX(h)

γX(0)= Cor (Xt+h, Xt) .

2.3.2. Promedios temporales

En los problemas practicos no se suele disponer de un modelo que car-acterice a una secuencia, sino de una coleccion finita de datos observados{x1, . . . xn}. Por esa razon, no es posible utilizar los promedios estadısticos.Se hace necesario, pues, acudir a promedios temporales.

Media temporal

x =1

n

n∑t=1

xt

1A menos que se especifique lo contrario, el termino estacionario describe a un procesoestacionario en sentido amplio.

Page 17: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

2.3. Modelado de la parte aleatoria 15

Funcion de autocovarianza temporal (ACVF)

γ(h) =1

n

n−|h|∑t=1

(xt+|h| − x

)(xt − x) ,−n < h < n

Funcion de autocorrelacion temporal (ACF)

ρ(h) =γ(h)

γ(0),−n < h < n

2.3.3. Ruido IID

Quiza el modelo mas simple es aquel en el que las observaciones son sim-plemente variables aleatorias de media cero independientes e identicamentedistribuidas (IID).

Para cualquier entero positivo n y cualesquiera numeros reales x1, . . . , xn,una secuencia de variables aleatorias IID, X1, X2, . . . verifica

P [X1 ≤ x1, . . . , Xn ≤ xn] = P [X1 ≤ x1] · · ·P [Xn ≤ xn]

= F (x1) · · ·F (xn)

donde F (•) es la funcion de distribucion de cada variable Xi. Segun estemodelo, no existen dependencias estadısticas entre observaciones. Por tanto,para todo h ≥ 1 y para toda x, x1, . . . , xn

P [Xn+h ≤ x|X1 = x1, . . . , Xn = xn] = P [Xn+h ≤ x] .

Esta expresion tiene la siguiente interpretacion: si se conocen X1, . . . , Xn, nose tiene ninguna informacion estadıstica con la que se prediga el compor-tamiento de Xn+h. Ademas, es facil demostrar que la funcion g que minimizael error cuadratico medio E

[(Xn+h − g(X1, . . . , Xn))2] es identicamente nu-

la.Si {Xt} es ruido IID estacionario y E (X2

t ) = σ2 < ∞ , entonces la funcionde autocovarianza es

γX(t + h, t) = γX(h)

{σ2, si h = 00, si h 6= 0

que no depende de t. De aquı que la notacion empleada para describir unproceso IID de media 0 y con momento de segundo orden σ2 finito sea

{Xt} ∼ IID(0, σ2

).

Page 18: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

16 Capıtulo 2. Tecnicas descriptivas simples

2.3.4. Ruido Blanco

La secuencia de variables aleatorias {Xt} se considera ruido blanco devarianza σ2, si sus componentes tienen media 0 y estan incorreladas:

γX(h)

{σ2, si h = 00, si h 6= 0

Para describir este tipo de procesos, se utilizara la notacion

{Xt} ∼ WN(0, σ2

).

Es conveniente destacar que cada secuencia IID (0, σ2) es WN (0, σ2), aunquelo inverso no es cierto.

Page 19: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Capıtulo 3

Alisado de series temporales

Los metodos de alisado se pueden agrupar en dos grandes grupos.

Por un lado estan los metodos de promediado, basados en una pon-deracion igualitaria de las observaciones pasadas. Dentro de este grupode encuentran aquellos basados en el promediado de todos los datos,en el desplazamiento de una ventana que contiene las ultimas n obser-vaciones y los promediados moviles dobles, es decir, aquellos basadosen aplicar un promediado movil a un promedio movil previo.

Por otro lado estan aquellos que ponderan los datos con pesos difer-entes. En general, los pesos caen siguiendo una curva exponencial de-creciente desde el dato mas reciente hasta el mas distante en el tiempo.Estos metodos requieren la especificacion de ciertos parametros quedeterminaran el valor de los pesos.

3.1. Metodos de promediado

Existen diferentes formas de llevar cabo el promediado. En todos los casos,el objetivo consiste en realizar la prediccion en periodos futuros empleandodatos pasados.

3.1.1. La media

Es el mas sencillo de todos. Si se supone conocido un conjunto de datosque abarca N periodos, X1, . . . , XN y este se divide en dos partes, el “conjun-to de inicializacion” (entrenamiento), formado por las P primeras muestras,y el conjunto de prueba, formado por el reso de valores (XP+1, . . . , XN). Para

17

Page 20: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

18 Capıtulo 3. Alisado de series temporales

predecir el valor XT+1, se utiliza el promedio

X =1

P

P∑i=1

Xi = FP+1 ,

que produce el error de prediccion eP = XP+1 − XP+1 = XP+1 −X.

¿Cuando resulta adecuado este metodo tan simple? Si nos cenimos alconjunto de patrones ilustrados en la Figura 1.3, resulta evidente que cuandono exista tendencia ni estacionalidad en los datos, este metodo puede producirbuenas predicciones. Ademas, permite obtener una representacion compactade los datos (integrador de primer orden). Sin embargo, en presencia deestacionalidad, tendencias o senales no estacionarias (como el pulso de laFigura 1.2) este modelo no es adecuado.

3.1.2. Promedio movil simple

Para evitar la “inercia” del predictor basado en la media, se suelen utilizarpromedios en los que interviene un numero determinado y fijo de muestras.Para alisar la serie, la ventana de promediado se desplaza a lo largo deltiempo.

La version causal del promedio movil de orden N ≥ 0 responde a laexpresion:

MA(N) en el instante t =1

N

N−1∑j=0

Xt−j . (3.1)

Para predecir Xt+1 se utiliza el promedio movil evaluado en el instante t.Manipulando algebraicamente la Ecuacion (3.1), se obtiene que

Xt+1 = Xt +1

N(Xt −Xt−N) . (3.2)

Si se compara este esquema con el basado en la media, puede apreciarseun mejor seguimiento de tendencias, aunque cuanto mayor es N peor es sucomportamiento.

Ejemplo 3.1 Se desea predecir la serie mostrada en la Tabla 3.1. Para ellose emplea un promedio movil de orden 3 (Xt+1 = MA(3) en el instante t).Puede apreciarse como se genera un error sistematico de 4 unidades quepermanece constante a partir del periodo 4.

Page 21: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

3.1. Metodos de promediado 19

Valor Prediccion Error

t Xt Xt =1

3

∑t−1t−4 Xt et

1 2 – –2 4 – –3 6 – –4 8 4 45 10 6 46 12 10 4– – 16 4

Cuadro 3.1: Prediccion de una serie con tendencia aditiva mediante un pro-mediado movil lineal de orden 3.

3.1.3. Promedio movil doble

Como se ha advertido anteriormente, el promedio movil simple no trabajabien con series que presenten tendencia. Para esta deficiencia, se puede aplicarun nuevo promediado lineal sobre los datos ya promediados. Con este doblepromediado, para el que se emplea la notacion MA(M × N) (MA de ordenM sobre un MA de orden N), se construye la prediccion calculando:

1. el promedio simple en el instante t (S ′t):

S ′t =1

N

t∑j=t−N

Xj (3.3)

2. el promedio doble en el instante t (S ′′t ):

S ′′t =1

M

t∑j=t−M

S ′j (3.4)

3. una estima de la tendencia entre los instantes t y t + 1 (o t + m si sequiere predecir con m instantes de anticipacion).

Consideremos el siguiente ejemplo grafico (ver Figura 3.1).La expresion general de para obtener la prediccion es:

Xt+m = at + mbt (3.5)

donde

at = S ′t +N − 1

M − 1(S ′t − S ′′t ) (3.6)

Page 22: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

20 Capıtulo 3. Alisado de series temporales

W

W6 ′′

W6 ′

W;

)( WW 66 ′′−′( )

′′−′=

∆∆

21066

W; WWW

−−

2

10W

−−

−−

2

1

2

1 10W

Estimación de

la pendiente

Figura 3.1: Doble promediado de una serie con tendencia lineal.

es el valor alisado para el instante t, y

bt =2

M − 1(S ′t − S ′′t ) (3.7)

es el valor para la componente de tendencia desde un instante al siguiente.El siguiente ejemplo aclara la utilidad de esta estrategia.

Ejemplo 3.2 Se desea predecir con un periodo de anticipacion los valoresde la serie mostrada en la Tabla 3.1. Siguiendo el procedimiento explicado enlıneas anteriores, la prediccion en el instante t + 1 es

Xt+1 = MA(3) en el instante t

+ (MA(3)−MA(3× 3) en el instante t )

+tendencia de t a t + 1

= [(8) + (8− 6) + (2) = 12 para t = 5] . (3.8)

Aplicando esta estrategia se consigue la Tabla 3.2. Para este simple ejemplo(tendencia lineal sin ruido aleatorio), esta tenica no presenta error en laprediccion.

3.1.4. Otros promedios

La operacion de promediado puede considerarse desde la perspectiva delfiltrado lineal. Ası, el promediado se puede expresar, de forma general, como

Wt =∑

j

ajXt−j ,

Page 23: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

3.1. Metodos de promediado 21

(1) (2) (3) (4) (5) (6) (7) (8)

t Xt S ′t (2)-(3) S ′′t (S ′t − S ′′t ) Xt et

1 22 43 6 4 24 8 6 25 10 8 2 6 26 12 10 2 8 2 12 07 14 12 2 10 2 14 08 16 14 2 12 2 16 09

Cuadro 3.2: Prediccion de una serie con tendencia mediante un doble pro-mediado movil lineal.

donde aj son los coeficientes del filtro.Si se considera el promediado movil simple, S ′t los coeficientes responden

a la expresion aj =1

N, j = 0, . . . , N − 1. El promedio simple reduce los

efectos del ruido y, como hemos cisto anteriormente, aunque no atenua lastendencias aditivas lineales (c0 + c1t), genera errores sistematicos.

El promedio movil doble tambien admite esta interpretacion. Ası, paraN = 3,

MA(3× 3) = S ′′t =1

9(Xt−4 + 2Xt−3 + 3Xt−2 + 2Xt−1Xt) .

El metodo de prediccion descrito por las Ecuaciones (3.5) - (3.7) puedeplantearse de forma alternativa como:

Xt+1 =

(2N

N − 1

)S ′t −

(N + 1

N − 1

)S ′′t . (3.9)

Si se particulariza esta expresion para N = 3, la prediccion en el instantet + 1 responde a la expresion

Xt+1 =1

9(−2Xt−4 + 4Xt−3 + 3Xt−2 + 5Xt−1 + 7Xt) ,

en la que se concede mayor importancia a los datos mas recientes.Para finalizar, mediante la adecuada eleccion de los coeficientes aj, es

posible disenar filtros que reduzcan el ruido y que puedan seguir clases mas

Page 24: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

22 Capıtulo 3. Alisado de series temporales

amplias de funciones de tendencia, como son las polinomicas. Ası, el filtroFIR con coeficientes

[a0, . . . , a7] =1

320[74, 67, 46, 21, 3,−5,−6,−3]

permite el paso de tendencias de forma polinomica de tercer orden.

3.2. Alisado exponencial

Hemos visto anteriormente que se pueden llegar a obtener buenas predic-ciones si se ponderan los valores que participan en ellas. Esta ponderacionsuele ser de tipo exponencial decreciente, concediendo mayor importancia alos valores m’sa cercanos al momento que se intenta predecir.

3.2.1. Alisado exponencial simple

Si se modifica la Ecuacion (3.2), sustituyendo la observacion en el instantet−N por la prediccion correspondiente al instante anterior, se obtiene

Xt+1 =

(1

N

)Xt +

(1− 1

N

)Xt = αXt + (1− α) Xt . (3.10)

donde α =1

Ny 0 < α ≤ 1. Observese que cuanto mayor es α menor

es el alisado (y viceversa). Para inicializar el metodo se suele recurrir alprimer dato disponible1 (X0 = X0). En el siguiente ejemplo se ilustra elfuncionamiento del metodo.

Ejemplo 3.3 Las ventas mensuales de abrelatas electricos durante el periodoEnero a Noviembre aparecen con trazo continuo en la Figura 3.2. En trazodiscontinuo aparecen las versiones alisadas exponencialmente con parametrosα = 0.1, 0.5 y 0.9. Los valores predichos para el mes de Diciembre son 205.6234.0 y 238.6, respectivamente. En la Tabla 3.3 se muestra el analisis de loserrores alcanzados con el metodo.

3.2.2. Alisado exponencial adaptativo

Como hemos visto, el metodo de alisado exponencial destaca por su sen-cillez, cualidad que lo hace muy atractivo cuando se maneja una gran canti-dad de datos. Sin embargo presenta el inconveniente de tener que estimar el

1La influencia del valor inicial es tanto mas importante cuanto mayor sea α.

Page 25: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

3.2. Alisado exponencial 23

2 4 6 8 10 12120

140

160

180

200

220

240

260

280

300

320

Meses

Ven

tas

a=0.1

a=0.9a=0.5

Figura 3.2: Ventas de abrelatas electricos (trazo continuo) y versiones alisadas(trazo discontinuo, α = 0.1, 0.5 y 0.9).

Analisis del error α = 0,1 α = 0,5 α = 0,9Error medio 5.56 6.80 4.29Error medio absoluto 47.76 56.94 61.32Porcent. Error medio absoluto (MAPE) 24.58 29.2 30.81Desv. estandar (insesgada) del Error 61.53 69.13 74.69MSE (× 1000) 3.43 4.34 5.03

Cuadro 3.3: Analisis del error obtenido al alisar de las ventas mensuales deabrelatas electricos.

valor de α optimo. Para soslayar esta dificultad se suele emplear una tecnicaadaptativa. Las expresiones que rigen esta tecnica de prediccion son:

Xt+1 = αtXt + (1− αt) Xt . (3.11)

donde

αt+1 =

∣∣∣∣Et

Mt

∣∣∣∣ , (3.12)

siendo Et y Mt las versiones alisadas del error de prediccion, et = Xt− Xt, yde su valor absoluto, respectivamente. Ası,

Et = βet + (1− β)Et−1 (3.13)

Page 26: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

24 Capıtulo 3. Alisado de series temporales

Mt = β|et|+ (1− β)Mt−1 (3.14)

expresiones en las que β toma el valor 0.2.

Ejemplo 3.4 Se ha aplicado el algoritmo de alisado exponencial adaptativo alos datos mostrados en la Figura 3.2. Los resultados se muestran en la Tabla3.4. Puede obervarse una fuerte fluctuacion en los valores de α. Ademas,

t Xt Xt et Et Mt αt

1 200 – – – – –2 135 200.0 -65.0 -13.0 13.0 0.23 195 187 8.0 -8.8 12.0 0.24 197.5 195 2.5 -6.5 10.1 1.05 310 196.8 113.2 17.4 30.7 0.736 175 270.1 -95.1 -5.1 43.6 0.657 155 216.2 -61.2 -16.3 47.1 0.578 130 209.1 -79.1 -28.9 53.5 0.129 220 181.7 38.3 -15.4 50.5 0.3510 277.5 202.4 75.1 2.7 55.4 0.5411 235 225.3 9.7 4.1 46.3 0.0512 – 225.9 – – – 0.09

Cuadro 3.4: Analisis del metodo de alisado exponencial adaptativo de lasventas mensuales de abrelatas electricos.

debe destacarse la gran sensibilidad del metodo a los valores iniciales de losparametros.

3.2.3. Alisado exponencial doble

De una manera analoga al promediado movil, es posible realizar un alisadode la version alisada de los datos para mejorar la prediccion. Ası, definiendoel valor alisado simple como

S ′t = αXt + (1− α)S ′t−1 (3.15)

y el valor alisado doble como

S ′′t = αS ′t + (1− α)S ′′t−1 , (3.16)

la prediccion en el instante t + m responde a la expresion

Xt+m = at + mbt (3.17a)

Page 27: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

3.2. Alisado exponencial 25

dondeat = S ′t + (S ′t − S ′′t ) (3.17b)

y

bt =α

1− α(S ′t − S ′′t ) (3.17c)

Ejemplo 3.5 En la Figura 3.3 se muestra la serie correspondiente a losdatos de demanda mensual de un determinado producto. Se ha aplicado el

0 5 10 15 20 25 30

140

160

180

200

220

240

260

280

Meses

Dem

anda

DatosPredicción

Alisado simple

Alisado doble

Figura 3.3: Aplicacion del metodo de alisado doble exponencial a una seriede demanda mensual. Los datos aparecen con trazo continuo y las versionesalisadas con trazo discontinuo.

metodo de alisado doble exponencial descrito en las Ecuaciones (3.17), pararealizar la prediccion de los 6 meses posteriores al ultimo mes conocido (α =0,2).Las versiones alisadas de los datos aparecen en la Figura 3.3 con trazodiscontinuo.

3.2.4. Procedimiento Holt-Winters

Las tecnicas de alisado exponencial pueden generalizarse facilmente parapoder modelar series que contengan estacionalidad y tendencia. El resultadoes el procedimiento Holt-Winters.

Para comprender mejor el desarrollo, supongamos que los datos procedende un muestreo mensual. Denominemos Lt, Tt y St al valor suavizado de losdatos, tendencia y componente estacional en el instante t. Antes de seguir

Page 28: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

26 Capıtulo 3. Alisado de series temporales

debe hacerse los siguientes incisos aclaratorios. En primer lugar, la tendenciaTt se interpreta como el valor esperado del incremento o decremento mensualen el nivel de los datos. En segundo termino, se supondra en el desarrolloque la componente estacional sigue un modelo multiplicativo 2.

Las tres variables descritas anteriormente se procesan con un alisado ex-ponencial simple segun las ecuaciones:

Alisado global

Lt = α

(Xt

St−12

)+ (1− α)(Lt−1 + Tt−1) (3.18a)

Alisado de la tendencia

Tt = γ(Lt − Lt−1) + (1− γ)Tt−1 (3.18b)

Alisado de la componente estacional

St = β

(Xt

Lt

)+ (1− β)St−12 . (3.18c)

Aunque en las expresiones anteriores, los parametros α, β y γ son invari-antes con el tiempo, es posible disenar un algoritmo adaptativo con el que seobtengan valores que minimicen el error en la prediccion. Esta se construyeexpleando la siguiente expresion:

Xt+m = (Lt + mTt)St−12+m con m = 1, . . . , 12 . (3.19)

3.3. Aspectos generales sobre los metodos de

alisado

Las mayores ventajas de los metodos de alisado son su simplicidad y bajocoste. Sin duda puede obtenerse una mayor exactitud en la prediccion conlos metodos de promediado movil autorregresivo (ARMA), que se analizaranen el Capıtulo 6, o con los metodos de descomposicion, que se describen en elCapıtulo 4. Sin embargo, la baja complejidad computacional de los esquemasde alisado los convierte en una opcion muy recomendable cuando se procesauna gran cantidad de datos.

Cuando se analizan secuencias de datos estacionarias, y en especial aque-llas que no presentan componentes estacionales, suelen escogerse las tecnicas

2Existen formulas similares a las desarrolladas para el caso de componentes estacionalesaditivas.

Page 29: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

3.3. Aspectos generales sobre los metodos de alisado 27

de alisado adaptativas, pues con ellas se evita el problema de la estimaciondel parametro α optimo.

Finalmente cabe destacar que el metodo de alisado exponencial dobleexplicado en la Seccion 3.2.3 esta orientado a la prediccion de series no esta-cionarias y sin componentes estacionales. Ademas, solo tiene un parametroajustable. La experiencia demuestra que el valor optimo oscila en el margen0.1 a 0.2 [Makridakis83].

Page 30: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

28 Capıtulo 3. Alisado de series temporales

Page 31: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Capıtulo 4

Metodos de descomposicion

En el modelado estructural de una serie temporal, los datos observadosse interpretan como una combinacion de componentes no observables comoson las tendencias, los ciclos y las componentes estacionales. Este metodotambien recibe el nombre de metodo de descomposicion, puesto que requiereidentificar tres componentes aisladas en el patron subyacente en los datos.

Con esta tecnica los datos se representan mediante la ecuacion

Xt = f(St, Tt, Ct, Ut)

donde Xt es el valor de la serie en el instante (actual) t, St representa lacomponente estacional, Tt identifica la tendencia, Ct es la componente cıclicay Ut es la componente aleatoria (o error) en el instante t.

La funcion que relaciona estas cuatro componentes toma una gran var-iedad de formas. Las mas sencillas son la aditiva (simplemente se suman loscuatro elementos) y la multiplicativa.

4.1. Modelos con tendencia y estacionalidad

En los ejemplos mostrados en la Figura 2.2 aparece claramente una ten-decia creciente. En ambos casos, los modelos de media cero presentan gravesdeficiencias. La grafica correspondiente a la poblacion, que aparentemente nocontiene ninguna componente periodica, parece ajustarse mejor a un modelode la forma

Xt = Tt + Ut (4.1)

donde Tt es una componente de variacion lenta, denominada tendencia, eUt es una variable de media 0. Una vez seleccionado el modelo, es necesarioajustarlo a los datos. Una de las posibilidades de ajuste pasa por la utilizacion

29

Page 32: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

30 Capıtulo 4. Metodos de descomposicion

del metodo de mınimos cuadrados. Con estos procedimiento se intenta ajustaruna familia de funciones parametricas, por ejemplo polinomios o funcionestrigonometricas, a los datos, mimizando el error cuadratico.

Ejemplo 4.1 Los datos de poblacion mostrados en la Figura 2.2.a, puedenaproximarse con el modelo planteado en la Ecuacion (4.1), donde

Tt = a0 + a1t + a2t2 . (4.2)

Ajustando este modelo al periodo 1790 ≤ t ≤ 1990, se obtienen las valoresa0 = 2,1 × 1010, a1 = −2,3 × 107 y a0 = 6,5 × 103. En la Figura 4.1 se

1800 1820 1840 1860 1880 1900 1920 1940 1960 19800

50

100

150

200

250

Mill

ones

Figura 4.1: Modelo de tendencia cuadratica ajustado por mınimos cuadradosa la poblacion de Estados Unidos.

muestra la tendencia cuadratica sobre los datos de poblacion. La estima dela componente de tendencia nos proporciona una forma sencilla de predecirvalores futuros de Xt. Ası, si estimamos U2000 por su valor medio1 (es decir,cero), obtenemos la estima

X2000 = T2000 = 273 millones

En la Figura 4.2.a se muestra el nivel del lago Huron durante el peri-odo 1875-1972. Tras un analisis superficial de los datos, puede concluirse

1Si los residuos Ut presentasen alta correlacion se podrıan obtener mejores estimas sise incorpora esa informacion.

Page 33: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.1. Modelos con tendencia y estacionalidad 31

Ejemplo 4.2

1880 1890 1900 1910 1920 1930 1940 1950 1960 19706

7

8

9

10

11

12

1880 1890 1900 1910 1920 1930 1940 1950 1960 1970−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

(a) (b)

Figura 4.2: (a) Nivel del lago Huron en el periodo 1875-1972 con modelolineal para la tendencia. (b) Residuos producidos en el ajuste.

que aparece una tendencia lineal decreciente. Por consiguiente, se ajusta unmodelo de la forma

Xt = a0 + a1t + Ut

mediante mınimos cuadrados (el resultado tambien se muestra en la Figura4.2.a). Con este modelo se obtiene el residuo mostrado en la Figura 4.2.b,donde ya no se aprecia ninguna tendencia aparente. Tambien es resenable lapresencia de de segmentos relativamente grandes con valores que presentan elmismo signo, lo que revela la existencia de correlacion temporal en el residuo,cualidad que impide calificarlo como ruido IID (en la Seccion 4.3 se hace unanalisis mas profundo de los residuos). Las dependencias temporales puedenaprovecharse, como veremos mas adelante, para ajustar un modelo mas finoa los datos.

Regresion armonica

En muchas series temporales se aprecia la presencia de un patron que serepite periodicamente. Por ejemplo, la serie correspondiente a los accidentesde trafico (mostrada en la Figura 2.1) presenta una componente estacionalde periodo anual, con picos en el mes de Julio y valles en el mes de Febrero.Para describir esta serie, se sugiere utilizar el modelo

Xt = St + Ut (4.3)

donde St es una funcion periodica de periodo d. Esta componente puede

Page 34: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

32 Capıtulo 4. Metodos de descomposicion

representarse como un desarrollo en serie de Fourier:

St = a0 +N∑

k=1

(ak cos(ωkt) + bksen(ωkt)) (4.4)

donde las frecuencias ωk son multiplos enteros de2π

dy N − 1 es el numero

de armonicos considerados.

Ejemplo 4.3

0 5 10 15 20 25 30 350

0.5

1

1.5

2

2.5

3

3.5

4x 10

4

Comp. anual

Comp. semestral

1973 1974 1975 1976 1977 1978 19796.5

7

7.5

8

8.5

9

9.5

10

10.5

11

11.5

(a) (b)

Figura 4.3: (a) Componentes de la serie de Fourier de la secuencia de acci-dentes de trafico. (b) Estima de la componente armonica.

Volvemos a analizar la serie correspondiente a los accidentes de trafico.Para modelarla se utiliza el modelo descrito por las Ecuaciones (4.3) y (4.4).La Figura 4.3.a muestra las componentes del desarrollo en serie de Fouri-er de la secuencia de accidentes de trafico. Puede apreciarse claramente lacomponente a frecuencia fundamental (periodo anual) y el armonico corre-spondientes al periodo semestral. Se ha utilizado un modelo con un armonico(N = 2) para representar la tendencia estacional. El resultado se muestra enla Figura 4.3.b.

4.2. Estimacion de la tendencia y de las com-

ponentes estacionales

El primer paso en el analisis de una serie temporal es la inspeccion visual.Si hubiese discontinuidades aparentes en la serie, como repentinos cambiosde nivel, suele ser recomendable dividir la serie en segmentos que presentencaracterısticas homogeneas. Si se detectan valores extranos (outliers), debehacerse un analisis cuidadoso para justificar su descarte.

Page 35: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.2. Estimacion de la tendencia y de las componentes estacionales 33

4.2.1. Estimacion y eliminacion de la tendencia en ausen-cia de estacionalidad

En ausencia de estacionalidad el modelo de descomposicion clasica seexpresa como:

Xt = Tt + Ut, , t = 1, . . . , n (4.5)

donde E [Yt] = 0 (si E [Yt] 6= 0, hay que reemplazar Tt y Ut por Tt + E [Yt] yUt − E [Yt], respectivamente.)

Metodo 1: Estimacion de la tendencia

Dentro de esta categorıa se incluyen los metodos de promediado movil(moving average) o de alisado (smoothing).

1. Alisado con filtro FIR de promedio movil. El promedio movil propor-ciona la estima

Tt =1

2q + 1

q∑j=−q

Xt−j , q + 1 ≤ t ≤ n− q . (4.6)

Ejemplo 4.4

1950 1955 1960 1965 1970 1975 19803

3.5

4

4.5

5

5.5

6

6.5

Mile

s

1950 1955 1960 1965 1970 1975 1980−1000

−800

−600

−400

−200

0

200

400

600

800

(a) (b)

Figura 4.4: (a) Promediado de 5 terminos sobre la serie de rayos. (b) Residuo.

Aplicando el filtro de promedio movil a los datos de la Figura 4.4.a,se obtienen las componentes de ruido Ut = Xt − Tt, se muestran en laFigura 4.4.b.

2. Alisado exponencial. Para un determinado valor a ∈ [0, 1], se define elalisado exponencial como

Tt = aXt + (1− a)Tt−1 (4.7)

Page 36: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

34 Capıtulo 4. Metodos de descomposicion

siendo T1 = X1. Notese que la recursion (4.7) implica que para t ≥ 2,

Tt =t−2∑j=0

a(1− a)jXt−j + (1− a)t−1X1

que no viene a ser otra cosa que un promediado movil de Xt, Xt−1, . . .con pesos decrecientes exponencialmente. Tambien debe tenerse encuenta que con factores a cercanos a cero, el alisado es mas intenso,mientras que para valores cercanos a uno, los efectos del alisado sonmenores.

3. Alisado mediante eliminacion de las componentes de alta frecuencia.Con este metodo, la tendencia se calcula mediante la eliminacion de lascomponentes de frecuencia superiores a un determinado umbral.

Ejemplo 4.5 En este ejemplo se ilustran las prestaciones de los dosultimos metodos analizados. Estos se aplican sobre la secuencia derayos. En la Figura 4.5 puede apreciarse el resultado del metodo de

1950 1955 1960 1965 1970 1975 19803

3.5

4

4.5

5

5.5

6

6.5

Mile

s

Figura 4.5: Serie de rayos alisada exponencialmente con factor a = 0,4.

alisado exponencial. Finalmente, en la Figura 4.7 puede apreciarse elresultado del metodo de alisado mediante la eliminacion de las compo-nentes de frecuencia (normalizada) mayor que 0.4.

Page 37: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.2. Estimacion de la tendencia y de las componentes estacionales 35

1950 1955 1960 1965 1970 1975 19803

3.5

4

4.5

5

5.5

6

6.5

Mile

s

Figura 4.6: Serie de rayos alisada mediante la eliminacion de las componentesde frecuencia (normalizada) mayor que 0.4

Metodo 2: Eliminacion de la tendencia mediante diferenciado

Estos metodos son una alternativa, frente a los de alisado, para eliminarla tendencia. Antes de explicar su funcionamiento, se describe someramentela notacion empleada.

Se define la operador diferencia de orden 1 ∇ como

∇Xt = Xt −Xt−1 = (1−D)Xt (4.8)

siendo D el operador desplazamiento hacia atras (retardo),

DXt = Xt−1 . (4.9)

Estos operadores pueden extenderse facilmente para ordenes arbitrarios. Ası∇j(Xt) =∇(∇j−1(Xt)) con j ≥ 1 y ∇0(Xt) = Xt. Por ejemplo

∇2Xt = ∇(∇(Xt)) = (1−D)(1−D)Xt = (1− 2D + D2)Xt

= Xt − 2Xt−1 + Xt−2

Si se aplica el operador ∇k a un proceso Xt con tendencia polinomica, esdecir, a Xt = Tt + Ut con Tt =

∑kj=0 cjt

j y siendo Ut un proceso estacionariode media 0, el resultado es el proceso

∇kXt = k! ck +∇kUt ,

Page 38: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

36 Capıtulo 4. Metodos de descomposicion

que tiene media k! ck. Este procedimiento sugiere que la aplicacion reiteradadel operador diferencia puede conducirnos a un proceso estacionario de facilcaracterizacion.

Ejemplo 4.6 Si se aplica el operador diferencia de orden 2 a la serie depoblacion de Estados Unidos (ver Figura 2.2.a), se obtiene la serie mostradaen la Figura 4.7.a. Puede observarse que la amplitud de las variaciones de∇2Xt aumenta con el valor de Xt. Este efecto puede eliminarse transforman-do los datos con un operador logarıtmico antes de aplicar el operador ∇2 (verFigura 4.7.b).

1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000−10

−5

0

5

10

15

Mill

ones

1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000−0.12

−0.1

−0.08

−0.06

−0.04

−0.02

0

0.02

0.04

0.06

0.08

(a) (b)

Figura 4.7: (a) Aplicacion del operador ∇2 a la serie de poblacion de Es-tados Unidos. (b) Reduccion de la amplitud de las variaciones mediante laaplicacion del logaritmo.

4.2.2. Estimacion y eliminacion conjunta de la tenden-cia y de la estacionalidad

Los metodos de estimacion y eliminacion de la tendencia pueden exten-derse de forma natural al modelo general.

Modelo de descomposicion clasico

Xt = Tt + St + Ut (4.10)

con E [Ut] = 0, St+d = St y∑d

j=1 Sj = 0.

Metodo 1: Estimacion de la tendencia y de la estacionalidad

El primer paso consiste en estimar la tendencia de la serie {X1, . . . , Xn}de forma que se elimine la componente estacional y aminore el ruido. Si

Page 39: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.2. Estimacion de la tendencia y de las componentes estacionales 37

el periodo es impar, es decir d = 2q + 1, puede usarse el promedio movilexpresado en la ecuacion (4.6). Si fuese par, habrıa que emplear

Tt =

(1

2Xt−q + Xt−q+1 + · · ·+ Xt+q−1 +

1

2Xt−q

)/d, con q < t ≤ n− q .

El segundo paso es calcular la componente estacional. Para ello, se debecalcular el promedio wk, con k = 1, . . . , d de las desviaciones

{(Xk+jd − Tk+jd

), con q < k + jd ≤ n− q

}.

Una vez calculados los wk, el siguiente paso es obtener la estima de la com-ponente estacional:

St = wk − 1

d

d∑i=1

wi, con k = 1, . . . , d

verificandose que Sk = Sk−d para k > d.Ahora, puede definirse un nuevo proceso, Dt = Xt − St, que no contiene

componentes estacionales. Si se vuelve a calcular la tendencia del nuevo pro-ceso Tt, se obtendra una serie ruidosa estacionaria dada por:

Ut = Xt − Tt − St

Ejemplo 4.7 Si se aplica el procedimiento de estimacion de la componenteestacional sobre la serie de muertos en accidentes (ver Figura 2.1), se obtienela serie mostrada en la Figura 4.8.a. Para estimar la tendencia de la serie sincomponente estacional, Dt, se ha empleado un polinomio de segundo orden.Finalmente, en la Figura 4.9 se representa la serie ruidosa Ut de la que seha eliminado la tendencia y la estacionalidad.

Metodo 2: Eliminacion de la tendencia y estacionalidad mediantediferenciado

En lıneas anteriores se ha aplicado esta tecnica a series sin componenteestacional. Ahora la adaptaremos para poder eliminar la componente esta-cional de periodo d. Ası, puede definirse el operador ∇d como2:

∇dXt = Xt −Xt−d = (1−Dd)Xt . (4.11)

2No confundir con el operador ∇d = (1−D)d.

Page 40: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

38 Capıtulo 4. Metodos de descomposicion

1973 1974 1975 1976 1977 1978 1979−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

Mile

s

1973 1974 1975 1976 1977 1978 19798

8.5

9

9.5

10

10.5

Mile

s

(a) (b)

Figura 4.8: (a) Componente estacional de la serie de muertos en accidente.(b) Serie sin la componente estacional.

Si se aplica este operador al modelo de descomposicion clasica (ver Ecuacion(4.10)), se obtiene

∇dXt = Tt − Tt−d + Ut − Ut−d .

La ecuacion anterior puede interpretarse como un modelo con componenteruidosa (Ut − Ut−d) y con tendencia (Tt − Tt−d), pudiendo esta ultima sereliminada mediante cualquiera de los metodos descritos anteriormente.

Ejemplo 4.8 Si se aplica el operador ∇12 a la serie de muertes por acci-dente, se obtienen los resultados mostrados en la Figura 4.10.a Puede apre-ciarse claramente como persiste una tendencia ascendente en los datos. Paraeliminarla se aplica el operador ∇ a la nueva serie. Los resultados se mues-tran en la Figura 4.10.b.

4.3. Analisis de residuos

El objetivo final de todas las transformaciones analizadas no es otro queextraer de la serie toda la informacion sobre tendencias y componentes esta-cionales para dejar un residuo con propiedades estadısticas estacionarias.Alcanzado este objetivo, resta encontrar un modelo para la secuencia de rui-do.

El caso mas favorable es obtener un residuo ruidoso formado por unasecuencia de variables aleatorias independientes e identicamente distribuidas(IID). En otro caso habrıa que iniciar un procesado adicional para eliminartoda la informacion que permanece aun en el residuo.

Page 41: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.3. Analisis de residuos 39

1973 1974 1975 1976 1977 1978 1979−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

Mile

s

Figura 4.9: Serie ruidosa Ut si tendencia ni componente estacional.

4.3.1. Pruebas de comparacion

Funcion de autocorrelacion temporal (ACF)

Para grandes espacios muestrales, las muestras de la funcion de autocor-relacion de una secuencia IID. Y1, . . . , Yn de varianza finita son aproximada-mente IID, con distribucion normal de media 0 y varianza 1/n (N(0, 1/n)).De aquı que si y1, . . . , yn es una realizacion de la secuencia i.i.d. considerada,alrededor del 95% de las muestras de la funcion de autocorrelacion debenquedar dento de los margenes ±1,96/

√n. Desde un punto de vista practico,

si se calculan las muestras de la funcion de autocorrelacion hasta el retardo40 y se encuentran mas de 2 o 3 valores fuera de los margenes, o bien uno queexceda significativamente esos lımites, se puede rechazar la hipotesis IID.

Ejemplo 4.9 Consideremos el Ejemplo 4.2 en el que se analizo la serie cor-respondiente al nivel del lago Huron. En dicho ejemplo se ajusto una lınearecta para modelar la tendencia decreciente en el nivel. Si se aplica la funcionde autocorrelacion temporal sobre los residuos (mostrados en la Figura 4.2.b)se obtienen los valores representados en la Figura 4.11. Tras una somerainspeccion se puede comprobar que el modelo aplicado en el Ejemplo 4.2 noproporciona resultados adecuados (tres de las cuatro primeras muestras su-peran los margenes ±1,96/

√98).

Page 42: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

40 Capıtulo 4. Metodos de descomposicion

1974 1975 1976 1977 1978 1979

−1.2

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

mile

s

1974 1975 1976 1977 1978 1979

−800

−600

−400

−200

0

200

400

600

800

1000

1200

(a) (b)

Figura 4.10: (a) Resultado de diferenciar la serie de accidentes mensuales(∇12Xt, t = 13, . . . , 72). (b) Eliminacion de la tendencia mediante diferenci-ado (∇∇12Xt, t = 14, . . . , 72).

Test Portmanteau

Con esta prueba, en lugar de compromar si cada muestra de la funcionde autocorrelacion temporal supera, o no, un determinado umbral, se defineel estadıstico

Q = n

h∑j=1

ρ2(j) . (4.12)

Si Y1, . . . , Yn es una secuencia IID de varianza finita, la distribucon Q puedeaproximarse por una distribucion chi-cuadrado con h grados de libertad (verFigura 4.12). Un valor grande de Q indica que las muestras de la funcion deautocorrelacion son grandes y que por tanto, es probable, que no se satisfagael test de IID. En concreto, se rechaza la hipotesis de IID al nivel α si Q >χ2

1−α(h), donde χ21−α(h) es el cuantil 1− α de la distribucion chi-cuadrado.

Existen algunas variaciones del estadıstico Q. Por ejemplo, la propuestapor Ljung y Box [Ljung78]

QLB = n(n + 2)h∑

j=1

ρ2(j)/(n− j) .

Otra variacion es la propuesta por McLeod y Li [McLeod83], que permite,ademas, distinguir si los datos proceden de una secuencia de variables aleato-rias IID con distribucion normal. Para esto, se sustituye la ACF por la au-

Page 43: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.3. Analisis de residuos 41

0 5 10 15 20 25 30 35 40

−0.2

0

0.2

0.4

0.6

0.8

1

muestra

AC

F

Figura 4.11: Funcion de autocorrelacion temporal del residuo obtenido en elEjemplo 4.2. Se muestran los margenes ±1,96/

√n.

tocorrelacion de los datos elevados al cuadrado, ρY 2(h), resultando

Q = n(n + 2)h∑

k=1

ρ2Y 2(k)/(n− k) .

La hipotesis de datos IID con distribucion normal se rechaza para un nivelα si el valor obtenido de Q es mayor que el cuantil (1−α) de la distribucionχ2(h).

Punto de cambio

Si y1, . . . , yn es una secuencia de datos, habrıa un punto de cambio en elinstante i, 1 < i < n, si yi−1 < yi e yi > yi+1 o si yi−1 > yi e yi < yi+1.Para una secuencia IID de longitud n suficientemente grande, la esperanzamatematica del numero de puntos de cambio C puede aproximarse por una

variable normal de media µC = E(C) =2

3(n − 2) y de varianza σ2

C =

V ar(C) = (16n − 29)/90. Esto significa que podrıa rechazarse la hipotesisIID si |C − µC |/σC > Φ1−α/2, donde Φ1−α/2 es el cuantil (1 − α/2) de unadistribucion normal (si α = 0,05, Φ1−α/2 = 1,96).

Una variacion simple consiste en verificar unicamente los puntos en los quese verifica que yi > yi−1, i = 2, . . . , n. El numero S de puntos donde se verifica

la relacion anterior es aproximadamente normal, de media µS =1

2(n− 1) y

Page 44: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

42 Capıtulo 4. Metodos de descomposicion

0 10 20 30 40 50 60 70 80 90 1000

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Figura 4.12: Funcion de densidad de probabilidad χ2(h) con h grados delibertad.

varianza σ2S = (n + 1)/12.

Prueba del Orden

Esta prueba resulta particularmente util para detectar tendencias linealesen los datos. Si {Y1, . . . , Yn} es una secuencia IID y P es el numero de pares depuntos (i, j) en los que se verifica que yi < yj, con i < j e i = 1, . . . , n− 1, la

media de P es3 µP =1

4n(n−1) y su varianza σ2

P = n(n−1)(2n+5)/8. Como

ocurrıa anteriormente, para un numero de muestras suficientemente grande,P puede aproximarse por una distribucion normal de media µP y varianzaσ2

P y, por consiguiente, los tests para rechazar la hipotesis de secuencia IIDson nuevamente aplicables.

Ejemplo 4.10 En este ejemplo se considera la serie temporal

Xt = cos(t) + Nt, t = 0,1, 0,2, . . . , 20

donde Nt es una secuencia de variables aleatorias normales independientes,de media 0 y varianza 0.25; sus muestras se muestran en la Figura 4.13.a.

3El numero de pares (i, j) que verifican i < j es(

n2

)=

12n(n − 1) y el evento

{Yi < Yj} tiene probabilidad12

Page 45: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.3. Analisis de residuos 43

Para analizar estos datos, se supone que se desconoce el modelo con elque se han generado. Por tanto, la primera hipotesis serıa calificarlos comosecuencia IID. Para ello se van a utilizar las pruebas descritas anteriormente.

1. En la Figura 4.13.b, se muestra la funcion de autocorrelacion tempo-ral de los datos analizados. Puede observarse que mas del 20% de lasmuestras superan el umbral ±1,96/

√n, por lo que, segun esta prueba,

puede rechazarse el test IID.

0 2 4 6 8 10 12 14 16 18 20−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

0 5 10 15 20 25 30 35 40

−0.2

0

0.2

0.4

0.6

0.8

1

Muestras

AC

F

(a) (b)

Figura 4.13: a) Muestras de la serie Xt = cos(t)+Nt. b) Funcion de autocor-relacion temporal del residuo obtenido. Se muestran los margenes ±1,96/

√n.

2. La segunda prueba consiste en analizar el estadıstco Q (ver Ecuacion(4.12)). Para un valor h = 20 se obtiene que Q = 48,6, claramentesuperior al cuantil 0.95 (α = 0,05) de la distribucion chi-cuadrado, esdecir Q > χ2

1−α(20) = 31,4.

3. Ahora se mide en la serie la densidad de puntos de cambio. El valorC obtenido en la prueba es 137. Ya que la distribucion asintotica, paraun numero de muestras n = 200, es N(132, 35,3), resulta que |C −µC |/σC = 0,84 es claramente inferior a Φ1−α/2 = 1,96 (α = 0,05), conlo cual no existen suficientes evidencias para rechazar la hipotesis IID.

4. Tambien se ha llevado a cabo el recuento del numero de puntos, S, enlos que xi > xi−1, i = 2, . . . , 200. El resultado es que S = 99 y |S −µS|/σS = 0,12, sustancialmente inferior a Φ1−α/2 = 1,96. Nuevamente,no existen suficientes evidencias para rechazar la hipotesis IID.

Page 46: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

44 Capıtulo 4. Metodos de descomposicion

5. Finalmente, llevamos a cabo la Prueba del Orden. El valor que se obtuvopara P es 10134, y la distribucion para que se verifique la hipotesisIID es N(9950, 2,015× 104). De aquı que |P − µP |/σP = 0,1296, valorsensiblemente inferior a Φ1−α/2 = 1,96, con lo que no se puede rechazarla hipotesis IID.

En resumidas cuentas, aunque las pruebas (3), (4) y (5) no detectan un com-portamiento distinto de IID, las pruebas (1) y (2) ofrecen rotundos resultados,por lo que debe rechazarse la hipotesis IID.

4.3.2. Test de gaussianidad

Ademas de los tests de analisis de residuos para comprobar la hipotesisIID, tambien se pueden hacer tests para comprobar si, ademas, se cumplegaussianidad.

Uno de ellos consiste en colocar en orden (ascendente) las muestras cor-respondientes al residuo. Llamemos Y1, . . . , Yn a las muestras de un pro-ceso N(µ, σ2). Si las ordenamos de menor a mayor, obtenemos la secuenciaY(1), . . . , Y(n), donde Y(1) < Y(2) < · · · < Y(n). De igual forma, podemos definirel proceso “ordenado” normalizado N(0, 1) que satisface X(1) < X(2) < · · · <X(n). Pasar de uno a otro es muy sencillo: basta una aproximacion lineal. Portanto, si definimos mj = E(X(j)), entonces

E(Y(j)) = µ + σmj . (4.13)

En el caso de que las muestras Yj procedieran de un proceso gaussiano, elgrafo de los pares

(m1, Y(1)

), . . . ,

(mn, Y(n)

), tambien denominado “q-q plot”,

tendrıa que tener una caracterıstica claramente lineal. Ası, en la Figura 4.14se muestra el grafo de un proceso de media µ = 10 y varianza σ2 = 0,25. Paraestablecer una medida de esa “linealidad” se puede utilizar el coeficiente decorrelacion al cuadrado

R2 =E

(miY(i)

)2

E (mi)2 E

(Y(i)

)2 ;

si la distribucion de Yj es lineal, entonces R2 tendrıa que aproximarse a 1.En la practica, mi puede aproximarse por Φ−1((i − 0,5)/n), con lo cual,

el calculo de R2 se reduce a evaluar

R2 =

(∑ni=1

(Y(i) − Y

)Φ−1

(i− 0,5

n

))2

∑ni=1

(Y(i) − Y

)2 ∑ni=1

(Φ−1

(i− 0,5

n

))2 (4.14)

Page 47: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

4.3. Analisis de residuos 45

−3 −2 −1 0 1 2 39

9.5

10

10.5

11

11.5

m(j)

Y(j)

Figura 4.14: Grafo “q-q plot” de una distribucion normal N(10, 0,25).

expresion en la que Y =1

n(Y1 + · · ·+ Yn). Obtenido R2 resta comprobar

si su valor es suficientemente cercano a 1. Como para n = 200, Pr(R2 <0,987) = 0,05, tomar como umbral de gaussianidad 0.987 parece una eleccionadecuada.

Page 48: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

46 Capıtulo 4. Metodos de descomposicion

Page 49: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Parte II

Metodologıa Box-Jenkins(ARIMA)

47

Page 50: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on
Page 51: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Capıtulo 5

Procesos Estacionarios

A la hora de hacer predicciones parece obvio suponer que “algo” debepermanecer constante o invariable. Ası, una hipotesis de partida podrıa serel suponer que la derivada de la funcion a predecir es constante (localmente,si se prefiere); ello permitirıa aplicar las tecnicas de extrapolacion lineal parapredecir sus valores desconocidos. En este mismo sentido, la hipotesis deestacionariedad de la componente aleatoria de la serie temporal simplifica elproblema, puesto que ası es posible aplicar potentes herramientas de predic-cion.

5.1. Propiedades basicas

La funcion de autocovarianza (ACVF) de un serie temporal {Xt} esta-cionaria (en sentido amplio) se define como

γ(h) = Cov(Xt+hXt); , h = 0,±1,±2, . . . (5.1)

La funcion de autocorrelacion de {Xt} se define como

ρ(h) =γ(h)

γ(0)(5.2)

Estas dos funciones proporcionan una medida del grado de independenciaentre los valores de las series temporales en diferentes instantes y, por estarazon, desempenan un papel primordial en la prediccion de valores futuros.

5.1.1. Propiedades de la media y la funcion de auto-correlacion muestrales

Como ya se menciono anteriormente, un proceso estacionario {Xt} se car-acteriza, al menos desde la perspectiva de sus estadısticos de segundo orden,

49

Page 52: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

50 Capıtulo 5. Procesos Estacionarios

por su media µ y su funcion de autocovarianza γ(·). Por ello, la estimacionde µ, γ(·) y la funcion de autocorrelacion (ACF) ρ(·) = γ(·)/γ(0) a partir delos datos observados, X1, . . . , Xn, juega un papel importantısimo a la horade juzgar la idoneidad de un modelo de serie temporal.

Estimacion de la media

El estimador de la media µ de un proceso estacionario es la media muestral

Xn =1

n(X1 + X2 + · · ·+ Xn) . (5.3)

Es un estimador insesgado de µ porque

E(Xn

)= µ .

La varianza del estimador es

Var(Xn) =1

n2

n∑i=1

n∑j=1

Cov(Xi, Xj) =1

n

n∑

h=−n

(1− |h|

n

)γ(h) . (5.4)

A partir de esta expresion pueden establecerse las siguientes conclusiones:

1. Si γ(h) → 0 cuando h → ∞, la media muestral Xn converge a µ envalor cuadratico medio.

2. Si∑∞

h=−∞ |γ(h)| < ∞, entonces

lımn→∞

nVar(Xn) =∑

|h|<∞γ(h) .

Para realizar inferencia estadıstica sobre µ, o lo que es lo mismo, paraestablecer margenes de confianza en la estimacion de µ a partir de los valoresmuestrales Xn es necesario conocer la funcion de distribucion de Xn.

Generalmente, suele ser valido el modelo

Xn ∼ N

(µ,

1

n

n∑

h=−n

(1− |h|

n

)γ(h)

),

especialmente cuando la serie responde a un modelo lineal (y sobre todocuando este es ARMA). Por ello, el margen de confianza del 95 % para elvalor estimado de µ es

Xn − 1,96

1√n

|h|<∞γ(h)

1/2

, Xn + 1,961√n

|h|<∞γ(h)

1/2 (5.5)

Page 53: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

5.1. Propiedades basicas 51

Estimacion de γ(·) y ρ(·)

γ(h) =1

n

n−|h|∑t=1

(Xt+|h| −Xn

) (Xt −Xn

),−n < h < n (5.6)

y

ρ(h) =γ(h)

γ(0),−n < h < n . (5.7)

Ambos estimadores estan sesgados, incluso cuando se sustituye el factor n−1

de la Ecuacion (5.6) por (n − h) (tal y como asegura Matlab en la funcionxcov).

Sin mayor informacion sobre los datos observados no es posible propor-cionar estimas razonables de γ(h) y ρ(h) para h ≥ n. Incluso para valores deh ligeramente menores que n, las estimas γ(h) y ρ(h) no son fiables debidoa que se dispone de pocos pares de la forma (Xt+hXt) (cuando h = n − 1solo hay un par). Una receta que se suele aplicar es la sugerida en [Box76];el tamano del espacio muestral n debe ser al menos igual a 50 para quelos valores de γ(h) y ρ(h) proporcionen estimas razonables en el intervaloh ≤ n/4.

Ya se ha visto (Seccion 4.3, Analisis de residuos) que la funcion de au-tocorrelacion desempena un papel importante a la hora de comprobar si unmodelo es adecuado o no. Por ello, vuelve a ser necesario establecer un-os intervalos de confianza en los valores estimados. Aunque caracterizar ladistribucion de ρ(k) resulta (cuando menos) complicado (incluso para losmodelos mas sencillos), suele funcionar bien suponer que se trata (como no)de una distribucion normal, cuando n es suficientemente grande:

ρk = (ρ(1), . . . , ρ(k))T ∼ N(ρ,1

nW ) . (5.8)

donde ρ = (ρ(1), . . . , ρ(k))T y W es la matriz de covarianza, cuyo elemento(i, j) responde a la expresion (formula de Bartlett)

wi,j =∑∞

k=1 {ρ(k + i) + ρ(k − i)− 2ρ(i)ρ(k)} (5.9)

×{ρ(k + j) + ρ(k − j)− 2ρ(j)ρ(k)}Ejemplo 5.1 Consideremos el proceso MA(1) definido por la ecuacion

Xt = Zt + θ1Zt−1, con {Zt} ∼ WN(0, σ2) (5.10)

Su funcion de autocovarianza es

γ(h) =

σ2(1 + θ21), si h = 0,

σ2θ1, si h = ±10, si |h| > 1

(5.11)

Page 54: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

52 Capıtulo 5. Procesos Estacionarios

y la de autocorrelacion

ρ(h) =

1, si h = 0,θ1

1 + θ21

, si h = ±1

0, si |h| > 1

(5.12)

Los terminos de la diagonal de la matriz W responden a la expresion

wii =

{1− 3ρ2(1) + 4ρ4(1), si i = 1,1 + 2ρ2(1), si i > 1 .

(5.13)

Por tanto, los lımites de confianza en el estimador de la funcion de autocor-relacion son

[ρ(k)− 1,96

1√n

(1 + 2ρ2(1)

)1/2, ρ(k) + 1,96

1√n

(1 + 2ρ2(1)

)1/2]

(5.14)

5.1.2. Prediccion de una serie temporal estacionaria

Supongamos que {Xt} es una serie temporal estacionaria y que ten-emos acceso al valor Xn. Supongamos, ademas, que deseamos encontrar unafuncion m(·) de Xn que nos permita obtener la mejor prediccion del valorXn+h. La funcion predictora mas simple es la funcion constante m(Xn) = c.Si consideramos “mejor” a aquel valor que minimiza E [(Xn+h − c)2], re-sulta sencillo demostrar que ese valor es c = E [Xn+h]. Si este problemaconcreto de prediccion se plantea como la minimizacion de la esperanzacondicional E [(Xn+h −m(Xn))2|Xn], la “mejor” funcion predictora resultam(Xn) = E [Xn+h|Xn]. A igual resultado llegamos si minimizamos la esper-anza E [(Xn+h −m(Xn))2].

Prediccion lineal

Reduzcamos el campo de busqueda de funciones de prediccion, y cinamonosa las funciones de la forma m(Xn) = l(Xn) = aXn + b, es decir, a un predic-tor lineal. Ahora, el problema se reduce a encontrar los parametros a y b queminimizan E [(Xn+h − aXn − b)2]. Tras una simple manipulacion algebraicaresulta que a = ρ(h) y b = µ(1− ρ(h)).

Ejemplo

Supongamos ahora que {Xt} es una serie temporal gaussiana. Si tenemosen cuenta que la funcion de distribucion de probabilidad normal multidimen-

Page 55: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

5.1. Propiedades basicas 53

sional N(µ,Σ) viene dada por:

fX(x) = (2π)−1/2 exp

{−1

2(x− µ)TΣ−1(x− µ)

}, (5.15)

y que, en el caso bidimensional (X = (X1, X2)T = (Xn+h, Xn)T ), la matriz

de covarianza es

Σ =

[σ2

1 ρσ1σ2

ρσ1σ2 σ22

]=

[σ2 ρ(h)σ2

ρ(h)σ2 σ2

], (5.16)

puede demostrarse que:

1. las variables Xn y Xn+h son independientes si, y solo si, Σ12 = 0 ⇒ρ(h) = 0, y que

2. la distribucion de probabilidad condicional de X1 dado que X2 = x2 esN(µ1 + Σ12Σ

−122 (x2 − µ2), Σ11 − Σ12Σ

−122 Σ21).

En particular, si Xn es conocido, la distribucion de Xn+h es

N(µ + ρ(h)(xn − µ), σ2(1− ρ(h)2))

Si utilizamos los resultados obtenidos al comienzo de la Seccion, la mejorprediccion del valor Xn+h en funcion de Xn es

E [Xn+h|Xn] = µ + ρ(h)(Xn − µ) (5.17)

y el error cuadratico medio es

E[(Xn+h −m(Xn))2

]= σ2(1− ρ(h)2) (5.18)

Como comentario a las ecuaciones anteriores, decir que la prediccion de Xn+h

es tanto mas exacta, cuanto mas cercana a uno sea |ρ(h)|; ası, en el lımite(ρ → 1), el predictor se aproxima a µ +±(Xn − µ).

Si hubiesemos utilizado un predictor lineal, habrıamos obtenido que

l(Xn) = µ + ρ(h)(Xn − µ) . (5.19)

Vemos, pues, que para el caso de procesos gaussianos, l(Xn) ≡ m(Xn). Engeneral, m(Xn) proporciona un error de prediccion menor que l(Xn).

Page 56: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

54 Capıtulo 5. Procesos Estacionarios

5.2. Procesos lineales

El proceso {Xt} es lineal si se puede representar como

Xt =∞∑

j=−∞ψjZt−j ∀t (5.20)

donde {Zt} ∼ WN(0, σ2) y {ψj} es una secuencia que satisface∑∞

j=−∞ |ψj| <∞.

Empleando el operador retardo (ver Ecuacion (4.9)), la expresion anteriorse puede escribir de forma compacta como

Xt = ψ(D)Zt , (5.21)

donde

ψ(D) =∞∑

k=−∞ψkD

k .

El operador ψ(D) puede interpretarse como un filtro lineal que se aplicaa la serie ruidosa de “entrada” {Zt} para producir la “salida” {Xt}.

5.3. Prediccion de series temporales estacionar-

ias

Vamos a considerar el problema de predecir los valores Xn+h, h > 0,de una serie temporal estacionaria, con media µ y funcion de autocovarian-za γ(·) conocidas, en funcion de los valores {Xn, . . . , X1}. Por el momentonos contentaremos con encontrar la combinacion lineal de los terminos Xn,Xn−1, . . . , X1, 1, que predice Xn+h con mınimo error cuadratico medio. Uti-lizaremos la notacion PnXn+h para referirnos al predictor lineal. Por tanto,

PnXn+h = a0Xn + a1Xn−1 + · · ·+ an−1X1 + an (5.22)

La minimizacion del error cuadratico medio

E (Xn+h − a0Xn − a1Xn−1 − · · · − an−1X1 − an)2 ,

conduce a las ecuaciones

E

[Xn+h −

n−1∑i=0

aiXn−i

]= 0 (5.23a)

Page 57: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

5.3. Prediccion de series temporales estacionarias 55

E

[(Xn+h −

n−1∑i=0

aiXn−i

)Xn−j

]= 0, , j = 0, 1, . . . , n− 1 . (5.23b)

Las ecuaciones anteriores se pueden entender mejor si se emplea una no-tacion vectorial:

an = µ

(1−

n−1∑i=0

ai

)(5.24a)

y

Γnan = γn(h) , (5.24b)

donde

an = (a0, . . . , an−1)T ,

Γn = [γ(i− j)]n−1i,j=0

y

γn(h) = [γ(h), . . . , γ(h + n− 1)]T .

Por consiguiente, el predictor lineal satisface

PnXn+h = µ +n−1∑i=0

ai(Xn−i − µ) (5.25)

donde an satisface la Ecuacion (5.24b). Observese que cuando µ = 0, elpredictor puede expresarse de forma vectorial como

PnXn+h = aTnXn , (5.26)

siendo Xn = (Xn, . . . , X1)T .

A partir de la Ecuacion (5.25) puede deducirse que el error de predicciones 0, es decir,

E [(Xn+h − PnXn+h)] = 0 , (5.27)

y que el error cuadratico medio satisface

εn = E[(Xn+h − PnXn+h)

2]

= γ(0)− 2n−1∑i=0

aiγ(h− i) +n−1∑i=0

n−1∑j=0

aiγ(i− j)aj

= γ(0)− aTnγn(h) (5.28)

Ejemplo 5.2 Consideremos el proceso AR de primer orden

Xt − φXt−1 = Zt , t = 0,±1,±2, . . . (5.29)

Page 58: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

56 Capıtulo 5. Procesos Estacionarios

donde {Zt} ∼ WN(0, σ2), |φ| < 1 estando Zt incorrelado con Xs para s <t. En estas condiciones, existe una unica solucion estacionaria de (5.29)definida por

Xt =∞∑

k=0

φkZt−k . (5.30)

La funcion de autocovarianza de {Xt} es

γX(h) =∞∑

k=0

φkφk+hσ2 =σ2φh

1− φ2(5.31)

Para solucionar el problema de prediccion lineal es necesario resolver el sis-tema Γnan = γn(h). Comencemos considerando el caso h = 1.

Para el proceso considerado, el sistema puede plantearse como:

σ2

1− φ2

1 φ φ2 · · · φn−1

φ 1 φ · · · φn−2

......

.... . .

...φn−1 φn−2 φn−3 · · · 1

a1

a2...

an

=

σ2

1− φ2

φφ2

...φn

,

(5.32)resultando la solucion an = (φ, 0, . . . , 0)T . Por tanto,

PnXn+1 = aTnXn = φXn .

Para h > 1, es necesario tener en cuenta que al aplicar el operador predic-cion a la Ecuacion (5.29) resulta

PnXn+h = φPnXn+h−1. (5.33)

5.3.1. Algoritmo Levinson-Durbin

El ejemplo anterior nos permite abrir un camino para realizar predic-ciones: la recursividad. En este sentido, el algoritmo de Levison-Durbin per-mite obtener recursivamente los coeficientes del vector

an = Γ−1n γn

suponiendo, claro esta, que Γn es no singular. El algoritmo se plantea acontinuacion:

ann =

[γ(n)−

n−1∑

k=1

an−1,kγ(n− k)

]ε−1n−1 , (5.34a)

Page 59: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

5.3. Prediccion de series temporales estacionarias 57

an1...

an,n−1

=

an−1,1...

an−1,n−1

− ann

an−1,n−1...

an−1,1

(5.34b)

y

εn = εn−1

[1− a2

nn

](5.34c)

donde a11 = γ(1)/γ(0) y ε0 = γ(0)

La funcion definida por α(0) = 1, . . . , α(n) = ann, n = 1, 2, . . . recibe elnombre de funcion de autocorrelacion parcial (PACF) de {Xt}. Deberesaltarse la relacion entre α(n) y la reduccion del error cuadratico medio alaumentar el numero de predictores de n− 1 a n (ver Ec. (5.34c)).

5.3.2. Algoritmo de innovaciones

En esta seccion se plantea un algoritmo recursivo que puede aplicarse atodas las series temporales con momentos de segundo orden finitos, indepen-dientemente de si son estacionarias o no.

Supongamos que {Xt} tiene media 0, que E|Xt|2 < ∞ para cada t y que

E (XiXj) = κ(i, j) . (5.35)

Definimos los predictores de orden 1 y sus errores cuadratico medios como

Xn =

{0, si n = 1Pn−1Xn, si n = 2, 3, . . .

(5.36a)

y

εn = E (Xn+1 − PnXn+1)2 . (5.36b)

La innovacion, o el error de prediccion de orden 1, es

Un = Xn − Xn , (5.37)

que puede generalizarse en funcion de los vectores Un = (U1, . . . , Un)T yXn = (X1, . . . , Xn)T como

Un =

1 0 0 · · · 0a11 1 0 · · · 0a22 a21 1 · · · 0...

......

. . . 0an−1,n−1 an−1,n−2 an−1,n−3 · · · 1

Xn (5.38)

Page 60: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

58 Capıtulo 5. Procesos Estacionarios

(Si {Xt} es estacionario, aij = −aj con aj como en la Ecuacion (5.24b) conh = 1). La matriz anterior no es singular, y su inversa es

Cn =

1 0 0 · · · 0ϑ11 1 0 · · · 0ϑ22 ϑ21 1 · · · 0...

......

. . . 0ϑn−1,n−1 ϑn−1,n−2 ϑn−1,n−3 · · · 1

= I + Θn (5.39)

Por tanto, los predictores de orden 1, Xn = (X1.P1X2, . . . , Pn−1Xn)T sepueden escribir como

Xn = Xn −Un = Θ(Xn − Xn

)(5.40)

La Ecuacion (5.40) permite expresar los sucesivos predictores de orden 1 deforma recursiva en funcion de los coeficientes θij:

Xn+1 =

{0, si n = 0∑n

j=1 ϑnj

(Xn+1−j − Xn+1−j

), si n = 1, 2, . . .

(5.41)

Los coeficientes ϑij se obtienen recursivamente a partir de los momentos deorden 2 de la serie y del error cuadratico medio de prediccion utilizando elalgoritmo de innovaciones:

ε0 = κ(1, 1) (5.42a)

ϑn,n−k =1

εk

(κ(n + 1, k + 1)−

k−1∑j=0

ϑk,k−jϑn,n−jεj

), 0 ≤ k < n (5.42b)

y

εn = κ(n + 1, n + 1)−n−1∑j=0

ϑ2n,n−jεj (5.42c)

Debe recalcarse que a diferencia del algoritmo de Levinson-Durbin, con elque se obtienen los coeficientes anj del desarrollo Xn+1 =

∑nj=1 anjXn+1−j,

el algoritmo de innovaciones, proporciona los coeficientes ϑnj del desarrollo

Xn+1 =∑n

j=1 ϑnj

(Xn+1−j − Xn+1−j

).

Ejemplo 5.3 La serie {Xt} es un proceso MA(1) definido por

Xt = Zt + θZt−1 , {Zt} ∼ WN(0, σ2) . (5.43)

Page 61: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

5.3. Prediccion de series temporales estacionarias 59

La funcion de autocorrelacion de los procesos MA(q) Xt =∑q

k=0 θkZt−k (θ0 =1) es

γ(h) =

{σ2

∑q−|h|k=0 θkθk+|h|, si |h| ≤ q

0, si |h| > q(5.44)

Por tanto, κ(i, j) = γ(h) = 0 para |i−j| = |h| > 1, κ(i, i) = γ(0) = σ2(1+θ2)y κ(i, i + 1) = γ(1) = θσ2.

Los coeficientes del desarrollo Xn+1 =∑n

k=1 ankXn+1−k se obtienen al

aplicar el algoritmo Levinson Durbin. Estos son

ε0 = γ(0) = σ2(1 + θ2)

a11 =γ(1)

γ(0)=

θ

1 + θ2

ε1 = ε0

(1− a2

11

)= σ2(1 + θ2)

(1− θ2

(1 + θ2)2

)= σ2 1 + θ2 + θ4

1 + θ2

a22 = −a11θσ2/ε1 = − θ2

1 + θ2 + θ4

a21 = a11 − a22a11 =θ (1 + θ2)

1 + θ2 + θ4

ε2 = ε1

(1− a2

22

)= σ2 1 + θ2 + θ4 + θ6

1 + θ2 + θ4

a33 = − (a21γ(2) + a22γ(1)) = −a22γ(1) =θ3

1 + θ2 + θ4 + θ6

a31 = a21 − a33a22 =θ (1 + θ2 + θ4)

1 + θ2 + θ4 + θ6

a32 = a22 − a33a21 = − θ2 (1 + θ2)

1 + θ2 + θ4 + θ6

En general,

anl = (−1)l+1

(θl

∑n−lk=0 θ2k

∑nk=0 θ2k

)

εn = σ2

(∑n+1k=0 θ2(k+1)

∑nk=0 θ2k

)

La aplicacion del algoritmo de innovaciones conduce a las ecuaciones

ε0 = κ(1, 1) = (1 + θ2)σ2

Page 62: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

60 Capıtulo 5. Procesos Estacionarios

θn1 =θσ2

εn−1

θnj = 0, 2 ≤ j ≤ n

εn =

[1 + θ2 − θ2σ2

εn−1

]= σ2

(∑n+1k=0 θ2(k+1)

∑nk=0 θ2k

)

Puede apreciarse que a medida que n aumenta, la varianza del error cuadraticoεn aproxima a la varianza del ruido blanco σ2. Tambien es destacable que debeaplicarse el algoritmo de innovaciones para la prediccion de procesos MA(q)puesto que en este caso ϑnj = 0 para n− j > q. Por el contrario, para proce-sos AR(p) es mejor utilizar el algoritmo Durbin-Levinson puesto que anj = 0para n− j > p.

5.4. Descomposicion de Wold

Para explicar esta descomposicion se necesita utilizar el concepto de pro-ceso determinıstico.

Considerese el proceso estacionario

Xt = A cos(ωt) + Bsen(ωt)

donde ω ∈ (0, π) es una constante y A,B son variables aleatorias incorreladasde media 0 y varianza σ2. Manipulando algebraicamente la expresion anteriorresulta que

Xn = 2 cos(ω)Xn−1 −Xn−2 = Pn−1Xn , n = 0,±1, . . .

expresion que no viene a ser otra cosa sino el predictor lineal1 de Xn, deforma que Xn − Pn−1Xn = 0 para todo n. Los procesos que cumplen estapropiedad se denominan determinısticos.

La descomposicion de Wold establece que los procesos estacionarios nodeterminısticos se pueden expresar como

Xt =∞∑

k=0

ψkZt−k + Vt (5.45)

donde

1Se ha utilizado la nomenclatura PnXn+h para indicar que la prediccion puede llevarsea cabo con infinitos terminos pasados, es decir,

PnXn+h =∞∑

k=0

αkXn−k

Page 63: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

5.4. Descomposicion de Wold 61

1. ψ0 = 1 y∑∞

k=0 ψ2k < ∞ ,

2. {Zt} ∼ WN(0, σ2) ,

3. Cov(Zs, Vt) = 0 para todos s y t,

4. Zt es el lımite de las combinaciones lineales de Xs, s ≤ t, y

5. {Vt} es determinıstico, esto es, perfectamente predecible a partir delproceso {Xt}.

Para la mayorıa de los procesos que se estudiaran en este curso, la com-ponente determinıstica valdra 0, por lo que se denominan no determinısticospuros.

Page 64: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

62 Capıtulo 5. Procesos Estacionarios

Page 65: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Capıtulo 6

Modelos ARMA

En este capıtulo nos centramos en la familia de los procesos estacionariosARMA (AutoRegressive Moving Average). La importancia de estas tecnicasparametricas radica en su flexibilidad. Existe un gran numero de funcionesde autocovarianza γ(•) que pueden aproximarse por la de procesos ARMA.Esta es la razon, entre otras, por las que estos procesos desempenan un papelimportante en la prediccion de senales.

6.1. Procesos ARMA(p, q)

Definicion 6.1 {Xt} es un proceso ARMA(p, q) si {Xt} es estacionario ysi para cada t

Xt − φ1Xt−1 − · · ·φpXt−p = Zt + θ1Zt−1 + · · ·+ θqZt−q , (6.1)

donde {Zt} ∼ WN(0, σ2).{Xt} es un proceso ARMA(p, q) con media µ si {Xt − µ} es un proceso

ARMA(p, q).

En la literatura sobre prediccion es habitual utilizar la siguiente notacion(mas compacta) para describir estos procesos:

φ(B)Xt = θ(B)Zt (6.2)

donde φ(•) y θ(•) son dos polinomios de ordenes p y q, respectivamente y Bes el operador desplazamiento.

6.1.1. Propiedades

Analizaremos brevemente, y sin demostracion, algunas propiedades de losprocesos ARMA.

63

Page 66: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

64 Capıtulo 6. Modelos ARMA

Existencia y unicidad

Para que exista una solucion estacionaria {Xt} que satisfaga la Ecuacion(6.1), el polinomio autorregresivo φ(z) = 1−φ1z−φ2z

2−· · ·−φpzp no puede

tener raıces sobre el cırculo unidad, es decir

φ(z) = 1− φ1z − φ2z2 − · · · − φpz

p 6= 0,∀|z| = 1 .

Causalidad

Un proceso ARMA(p, q), {Xt}, es causal, o es una funcion causal de {Zt},si existen las constantes {ψj} que satisfacen

∑∞j=0 |ψj| < ∞ (estabilidad) y

Xt =∞∑

j=0

ψjZt−j , ∀t . (6.3)

La propiedad de causalidad es equivalente a la condicion

φ(z) = 1− φ1z − φ2z2 − · · · − φpz

p 6= 0, ∀|z| ≤ 1 ,

que quiere decir que el polinomio φ(z) no debe anularse fuera del cırculounidad1. La secuencia {ψj}, que aparece en la Ecuacion (6.3), esta determi-

nada por la relacion ψ(z) =∑∞

j=0 ψjzj =

θ(z)

φ(z), o de forma equivalente, por

la igualdad:

(1− φ1z − · · · − φpzp)(ψ0 + ψ1z + · · · ) = 1 + θ1z + · · ·+ θqz

q

Si se relacionan los coeficientes asociados a las potencias zj, se puede escribirque

ψj −p∑

k=1

φkψj−k = θj , j = 0, 1, . . . (6.4)

verificandose que θ0 = 1, θj = 0 para j > q y ψj = 0 para j < 0.

6.2. Funcion de autocorrelacion de procesos

ARMA

En esta seccion presentaremos dos metodos para calcular la funcion deautocovarianza (AutoCoVariance Function, ACVF), γ(), de procesos ARMA.

1Observese que el polinomio es funcion de potencias positivas de z.

Page 67: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.2. Funcion de autocorrelacion de procesos ARMA 65

La funcion de autocorrelacion se obtiene rapidamente dividiendo la ACVFentre γ(0).

En particular, se desea caracterizar la funcion de autocovarianza de unproceso causal ARMA(p, q) definido por:

φ(B)Xt = θ(B)Zt, con {Zt} ∼ WN(0, σ2) . (6.5)

Metodo 1. La condicion de causalidad, plasmada en la Ecuacion (6.3),implica que el cociente θ(z)/φ(z), se puede desarrollar como

θ(z)

φ(z)=

∞∑j=0

ψjZt−j , para |z| ≤ 1 .

obteniendose finalmente que

γ(h) = E(Xt+hXt) = σ2

∞∑j=0

ψjψj+|h| . (6.6)

Ejemplo 6.1 Consideremos el proceso

Xt − φXt−1 = Zt + θZt−1, con {Zt} ∼ WN(0, σ2) (6.7)

y |φ| < 1. Su ACVF viene dada por

γ(0) = σ2

∞∑j=0

ψ2j

= σ2

[1 + (θ + φ)2

∞∑j=0

φ2j

]

= σ2

[1 +

(θ + φ)2

1− φ2

],

γ(1) = σ2

∞∑j=0

ψj+1ψj

= σ2

[θ + φ +

(θ + φ)2

1− φ2

],

y

γ(h) = φh−1γ(1), h ≥ 2 .

Page 68: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

66 Capıtulo 6. Modelos ARMA

Metodo 2. A partir de la Ecuacion (6.1) puede deducirse que los proce-sos {Zt} y {Xt−k} guardan relaciones de dependencia estadıstica unica-mente cuando k < p. Si la mencionada ecuacion se reescribe como

Xt =∞∑

n=0

ψnZt−n , (6.8)

entonces, es facil demostrar que para k < p,

E [ZtXt−k] =∞∑

n=0

ψnE [ZtZt−k−n] .

Como el proceso {Zt} es WN(0, σ2), entonces

E [ZtZt−k−n] = σ2δn+k ,

y, por consiguiente,

E [ZtXt−k] = σ2

∞∑n=0

ψnδn+k = σ2ψ−k . (6.9)

Teniendo en cuenta lo anterior, si se multiplican los dos extremos dela Ecuacion (6.1) por Xt−k, k = 0, 1, 2, . . . y se calcula la esperanzamatematica, se obtiene que

γ(k)−φ1γ(k−1)−. . .−φpγ(k−p) = σ2

∞∑j=0

θk+jψj, 0 ≤ k < m (6.10a)

yγ(k)− φ1γ(k − 1)− . . .− φpγ(k − p) = 0, k ≥ m, (6.10b)

donde m = max(p, q + 1), ψj = 0 para j < 0, θ0 = 1 y θj = 0 paraj 6∈ {0, . . . , q}La Ecuaciones (6.10) describen a un sistema de ecuaciones cuya resolu-cion proporciona la funcion de autocovarianza.

Ejemplo 6.2 Consideremos, otra vez, el proceso ARMA(1, 1) descritoen el ejemplo anterior. La Ecuacion (6.10a) se puede plantear como

γ(0)− φγ(−1) = γ(0)− φγ(1) = σ2(1 + θ(θ + φ)) (6.11a)

yγ(1)− φγ(0) = σ2θ . (6.11b)

Page 69: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.2. Funcion de autocorrelacion de procesos ARMA 67

La resolucion del par de ecuaciones anterior proporciona los valoresγ(0) y γ(1). Finalmente, la Ecuacion (6.10b) (homogenea) responde ala expresion

γ(k)− φγ(k − 1) = 0 , k ≥ 2 (6.12)

cuya solucion esγ(h) = φh−1γ(1) , h ≥ 1

6.2.1. La funcion de autocorrelacion (parcial)

Recordemos que la funcion de autocorrelacion (AutoCorrelation Function,ACF), ρ(•), de un proceso ARMA se define como

ρ(h) =γ(h)

γ(0)

y que su version muestral, es decir, aquella obtenida a partir de un conjuntofinito de observaciones {x1, . . . , xn} se representa por

ρ(h) =γ(h)

γ(0)

La funcion de autocorrelacion parcial (Partial AutoCorrelation Function,PACF), α(•), de un proceso ARMA {Xt} se define por

α(0) = 1

yα(h) = φhh, h ≥ 1

donde φhh es la ultima componente de

φh = Γ−1h γh , (6.13)

conΓh = [γ(i− j)]hi,j=1

y γh = [γ(1), γ(2), . . . , γ(h)]T . Por supuesto, tambien se puede definir laversion muestral de la PACF.

Ejemplo 6.3 En este ejemplo se comprueba que la PACF de un procesoAR(p) es cero para retardos mayores que p.

El mejor predictor lineal del proceso causal AR(p) definido por

Xt − φ1Xt−1 − · · · − φpXt−p = Zt , {Zt} ∼ WN(0, σ2) ,

Page 70: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

68 Capıtulo 6. Modelos ARMA

en funcion de X1, . . . , Xh, siendo h ≥ p, es

Xh+1 = φ1Xh + φ2Xh−1 + . . . + φpXh+1−p.

Cuando h = p, el coeficiente φhh de X1 es φp y cuando h > p, φhh = 0.Por tanto,

α(p) = φp

y

α(h) = 0 para h > p

Para los valores h < p, el calculo de los valores α(h) se lleva a cabo evaluandola expresion (6.13).

Ejemplo 6.4 Consideremos el proceso MA(q)

Xt = Zt + θ1Zt−1 + · · ·+ θqZt−q, con {Zt} ∼ WN(0, σ2) (6.14)

La funcion de autocovarianza (ACVF) responde a la expresion:

γ(h) =

{σ2

∑q−|h|j=0 θjθj+|h|, si |h| ≤ q,

0, si |h| > q(6.15)

donde se ha supuesto que θ0 = 1. La relacion anterior permite distinguir alos procesos MA(q): su ACVF se desvanece a partir del instante q.

Por simplicidad, supondremos ahora que q = 1, esto es

γ(0) = σ2(1 + θ2

1

)

y

γ(1) = σ2θ1

A partir de la expresion (6.13), que por conveniencia repetimos,

φh = Γ−1h γh , (6.16)

se pueden calcular la PACF sin mas que hacer α(h) = φh(h). Para h = 0,se considera por convenio que α(0) = 1. Para h = 1, la Ecuacion (6.13) sepuede reescribir como:

γ(0)φ1(1) = γ(1) . (6.17)

Por tanto,

α(1) = φ1(1) =γ(1)

γ(0)=

θ1

1 + θ21

. (6.18)

Page 71: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.2. Funcion de autocorrelacion de procesos ARMA 69

Para h = 2 resulta,

[γ(0) γ(1)γ(1) γ(0)

] [φ2(1)φ2(2)

]=

[γ(1)

0

], (6.19)

donde se ha tenido en cuenta que γ(h) = 0 para h > 1 (proceso MA(1)). Portanto,

α(2) = − γ2(1)

γ2(0)− γ2(1)= − θ2

1

1 + θ21 + θ4

1

. (6.20)

En general, la PACF en la muestra h vale

α(h) = φh(h) = − (−θ1)h

1 + θ21 + · · ·+ θ2h

1

(6.21)

La PACF muestral

Analizaremos el caso en el que {Xt} es una serie AR(p). En este casola PACF obtenida a partir de los valores observados {x1, . . . , xn} tiene quereflejar las propiedades intrısecas de la PACF. En particular, si la PACFmuestral presenta valores significativamente diferentes de cero para el in-tervalo 0 ≤ h ≤ p y despreciables para h > p, el modelo AR(p) resultaadecuado.

6.2.2. Ejemplos

En los siguientes ejemplos aplicamos diferentes modelos para predeciralgunas series temporales.

Gasolinera

La serie temporal mostrada en la Figura 6.1 refleja los descuadres en lamedida de la capacidad de un tanque de una gasolinera de Colorado. Si lacantidad de combustible almacenado en el tanque al final del dıa t es yt y at

representa la diferencia entre la cantidad dispensada y la medida reflejada enel surtidor, entonces se puede definir el descuadre xt como xt = yt−yt−1 +at.Notese que en ausencia de errores en la medida de la capacidad y de fugas, xt

valdrıa 0. En la practica, estos errores de medida permiten considerar a lascantidades anteriores como variables aleatorias: Yt, At, Xt, con t = 1, . . . , 57.

En la Figura 6.2 se muestra la funcion de autocorrelacion (ACF) mues-tral de los datos anteriores. Para verificar la idoneidad del modelado MA(1),tambien se muestran en los lımites definidos por ±1,96n−1/2(1 + 2ρ2(1))1/2

Page 72: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

70 Capıtulo 6. Modelos ARMA

0 10 20 30 40 50 60

−100

−50

0

50

100

Días

Gal

ones

Figura 6.1: Descuadre diarios en la evaluacion de la capacidad de un tanquede gasolina.

(n = 57). Puede apreciarse que ρ(h) permanece dentro de los lımites anteri-ores para h > 1, lo cual es compatible con el modelo

Xt = µ + Zt + θZt−1, {Zt} ∼ WN(0, σ2) . (6.22)

Para estimar la media del descuadre utilizamos el promedio temporal x57 =−4,035; para los parametros θ, σ2 utilizaremos la version muestral de la fun-cion de autocovarianza (ACVF):

(1 + θ2)σ2 = γ(0) = 3415,72

θσ2 = γ(1) = −1719,95

La solucion (aproximada) del sistema anterior es θ = −1 y σ2 = 1708, con locual resulta el modelo MA(1):

Xt = −4,035 + Zt − Zt−1, {Zt} ∼ WN(0, 1708) .

Modelado estructural (descriptivo)

En el modelado anterior no hemos tenido en cuenta ninguna informa-cion acerca de la naturaleza del sistema que genera la serie: hemos utilizadoalgunos estadısticos para llegar al modelo MA(1).

Si, por el contrarios, utilizamos un modelo estructural para representarla serie, tendremos que descomponer las distintas variables en una parte

Page 73: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.2. Funcion de autocorrelacion de procesos ARMA 71

0 2 4 6 8 10 12 14 16 18 20

−0.5

0

0.5

1

Muestra

AC

F

Figura 6.2: ACF muestral de los datos de la Figura 6.1. Se ha supuesto unmodelo MA(1) para dibujar los lımites ±1,96n−1/2(1 + 2ρ2(1))1/2.

estocastica y otra sistematica. Ası, la cantidad medida de combustible en eltanque en el instante t se representa como

Yt = y∗t + Ut , (6.23)

donde y∗t representa el valor verdadero de la capacidad del tanque (no con-viene confundir yt con y∗t : la primera contiene errores de medida; la segundano) y Ut es el error en la medida. Estas variables, en principio, no son ob-servables.

De igual forma, se puede escribir

At = a∗t + Vt , (6.24)

donde a∗t es la cantidad real (correcta) de gasolina vendida menos la can-tidad que se ha suministrado y Vt es el error de medida correspondiente.Precisamente para los errores de medida tomaremos como modelo el de rui-do blanco (Ut ∼ WN(0, σ2

U) y Vt ∼ WN(0, σ2V )); las secuencias {Ut} y {Vt}

se supondran, ademas, incorreladas (E(Ut, Vs) = 0,∀ s, t).Si denominamos a la perdida media diaria del tanque µ (µ = E(Yt−Yt−1))

(galones/dıa), se puede escribir

y∗t = µ + y∗t−1 − a∗t (6.25)

Esta ecuacion establece una relacion entre la cantidad real de combustiblealmacenado en el tanque en los dıas t y t− 1.

Page 74: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

72 Capıtulo 6. Modelos ARMA

Por la definicion de descuadre, y teniendo en cuenta las ecuaciones ante-riores, el modelo para la serie de descuadres responde a la expresion

Xt = Yt − Yt−1 + At = µ + Ut − Ut−1 + Vt (6.26)

Este modelo es estacionario, de media

E(Xt) = E(µ + Ut − Ut−1 + Vt) = µ

y funcion de autocorrelacion

γ(h) = E [(Xt+h − µ)(Xt − µ)]

= E [(Ut+h − Ut−1+h + Vt+h)(Ut − Ut−1 + Vt)]

=

2σ2U + σ2

V , si h = 0,−σ2

U , si |h| = 1,0, en otro caso

Recordemos que para el modelo MA(1) se encontro (Seccion 5.1, Ecuacion(5.11)) que para los procesos MA(1), definidos por la ecuacion

Xt = Zt + θ1Zt−1, con {Zt} ∼ WN(0, σ2) , (6.27)

la funcion de autocovarianza es

γ(h) =

σ2(1 + θ21), si h = 0,

σ2θ1, si h = ±10, si |h| > 1

(6.28)

De todas estas expresiones puede concluirse que {Xt} es un procesoMA(1) con

ρ(1) =θ1

1 + θ21

=−σ2

U

2σ2U + σ2

V

. (6.29)

Observese que para los datos analizados, el valor de la funcion de au-tocorrelacion muestral en la muestra 1 es ρ(1) ' −0,5. De aquı, y de laEcuacion (6.29), se deduce que el error asociado a la medida de combustiblevendido/suministrado tiene poca importancia (σ2

U ' 0). En consecuencia, elestadıstico θ1 = −1, conclusion a la que habıamos llegado con el analisis puroy duro de los datos.

Manchas solares

La serie correspondientes al numero de manchas solares S1, . . . , S100 apare-cidas en el periodo 1770-1869 se muestra en la Figura 6.3. Su funcion de

Page 75: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.2. Funcion de autocorrelacion de procesos ARMA 73

1770 1780 1790 1800 1810 1820 1830 1840 1850 1860 18700

20

40

60

80

100

120

140

160

Años

Num

ero

de m

anch

as s

olar

es

Figura 6.3: Manchas solares en el periodo 1770-1869.

autocorrelacion parcial (PACF) muestral se representa en la Figura 6.4.A la vista de los valores representados en la Figura 6.4, puede afirmarse

que como todos los valores de la PACF por encima de la muestra 2 estandentro de los lımites ±1,96/

√100, parece razonable aplicar el modelo AR(2),

despues de corregir la media (Xt = St− 46,93), para modelar los datos2. Losparametros del modelo AR(2) son los coeficientes φ1 y φ2 y la varianza delruido σ2:

Xt − φ1Xt−1 − φ2Xt−2 = Zt , {Zt} ∼ WN(0, σ2) . (6.30)

Una forma sencilla de ajustar este modelo a los datos consiste en hacer quecoincidan los valores de la autocovarianza muestral en las muestras 0, 1 y 2con los del modelo AR(2).

La funcion de autocovarianza del modelo AR(p) se obtiene multiplicandocada lado de la ecuacion

Xt − φ1Xt−1 − · · · − φpXt−p = Zt

por Xt−k y tomando la esperanza matematica. El resultado son las ya cono-cidas ecuaciones de Yule-Walker

Γpφ = γp (6.31)

2Recordemos que para procesos AR(p), la funcion de autocorrelacion parcial se anulaa partir de la muestra h = p.

Page 76: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

74 Capıtulo 6. Modelos ARMA

0 5 10 15 20 25 30 35 40

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Muestra

PA

CF

Figura 6.4: PACF muestral de los datos de la Figura 6.3. Se representan loslımites ±1,96/

√100.

y

σ2 = γ(0)− φT γp (6.32)

donde Γp es la matriz de autocovarianza [γ(i− j)]pi,j=1 y γp = (γ(1), . . . , γ(p))T .Particularizando las ecuaciones anteriores para el caso p = 2 resulta

γ(0) = γ(1)φ1 + γ(2)φ2 + σ2

γ(0)φ1 + γ(1)φ2 = γ(1)

γ(1)φ1 + γ(0)φ2 = γ(2)

sustituyendo γ(k) por γ(k), donde

γ(0) = 1382,2, γ(1) = 1114,4 γ(2) = 591,73 ,

resulta:

1382,2 = 1114,4φ1 + 591,73φ2 + σ2

1382,2φ1 + 1114,4φ2 = 1114,4

1114,4φ1 + 1382,2φ2 = 591,73

resulta que el modelo AR(2) responde a la expresion

Xt− 1,3175Xt−1 +0,6342Xt−2 = Zt , con {Zt} ∼ WN(0, 289,1791) . (6.33)

Page 77: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.3. Prediccion de procesos ARMA 75

6.3. Prediccion de procesos ARMA

El algoritmo de innovaciones es un procedimiento recursivo que permitepredecir procesos de segundo orden (y media 0) sin que estos tengan queser necesariamente estacionarios. El algoritmo admite una sustancial simpli-ficacion cuando se aplica a procesos ARMA(p, q) causales

φ(D)Xt = θ(D)Zt , con {Zt} ∼ WN(0, σ2) .

La idea consiste en aplicar el procedimiento sobre el proceso transformado

Wt =1

σXt, t = 1, . . . , m

Wt =1

σφ(D)Xt, t > m

(6.34)

donde

m = max(p, q) (6.35)

Llegados a este punto es necesario resaltar los siguientes puntos:

El nuevo proceso {Wt} es un proceso MA para t > m, con lo cual sufuncion de autocovarianza tiene longitud finita. Esta propiedad es laque permite simplificar el algoritmo de innovaciones.

Con las ecuaciones anteriores es posible expresar cada Xn, n ≥ 1, co-mo una combinacion lineal de Wj, con 1 ≤ j ≤ n, y viceversa. Estapropiedad la utilizaremos mas adelante.

Suponiendo conocida la funcion de autocovarianza del proceso {Xt}, lascovarianzas κ(i, j) = E(Wi,Wj) se calculan a partir de:

κ(i, j) =

γX(i− j)/σ2, 1 ≤ i, j ≤ m1

σ2[γX(i− j)−∑p

r=1 φrγX(r − |i− j|)] , mın(i, j) ≤ m < max(i, j) ≤ 2m∑qr=0 θrθr+|i−j|, mın(i, j) > m

0, en otro caso.(6.36)

Aplicando el algoritmo de innovaciones al proceso {Wt} resulta

Wn+1 =∑n

j=1 ϑnj

(Wn+1−j − Wn+1−j

), 1 ≤ n < m

Wn+1 =∑q

j=1 ϑnj

(Wn+1−j − Wn+1−j

), n ≥ m

(6.37)

Page 78: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

76 Capıtulo 6. Modelos ARMA

donde los coeficientes ϑnj (notese que para n ≥ m y para j > q ϑnj = 0) y los

errores cuadratico medios de prediccion εn = E(Wn+1 − Wn+1)2 se obtienen

recursivamente a partir del algoritmo de innovaciones:

ε0 = κ(1, 1) (6.38a)

ϑn,n−k =1

εk

(κ(n + 1, k + 1)−

k−1∑j=0

ϑk,k−jϑn,n−jεj

), 0 ≤ k < n (6.38b)

y

εn = κ(n + 1, n + 1)−n−1∑j=0

ϑ2n,n−jεj (6.38c)

Como ya se dijo anteriormente, es posible expresar cada Xn, n ≥ 1,como una combinacion lineal de Wj, con 1 ≤ j ≤ n, y viceversa. Esto sig-nifica que el mejor predictor lineal de una variable aleatoria Y , PnY , enfuncion de {X1, · · · , Xn, 1} es el mismo que si expresamos Y en funcion de{W1, · · · ,Wn, 1}. En particular, para predicciones de horizonte 1 resulta:

Wn+1 = PnWn+1

Xn+1 = PnXn+1

Como Pn es un operador lineal, y como en la Ecuacion (6.34) hemos expresadoWn como una combinacion lineal de Xt, resulta que

Wt =1

σXt, 1 ≤ t ≤ m

Wt =1

σ

[Xt − φ1Xt−1 − · · · − φpXt−p

], t > m

(6.39)

Teniendo en cuenta que

Xt − Xt = σ[Wt − Wt

]∀t ≥ 1 (6.40)

se obtiene

Xn+1 =

∑nj=1 ϑnj

(Xn+1−j − Xn+1−j

), 1 ≤ n < m

φ1Xn + · · ·+ φpXn+1−p +∑q

j=1 ϑnj

(Xn+1−j − Xn+1−j

), n ≥ m

(6.41)y

E(Xn+1 − Xn+1)2 = σ2E(Wn+1 − Wn+1)

2 = σ2εn (6.42)

Page 79: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.3. Prediccion de procesos ARMA 77

Ejemplo 6.5 Consideremos el proceso ARMA(1,1)

Xt − φXt−1 = Zt + θZt−1 , con {Zt} ∼ WN(0, σ2) . (6.43)

donde |φ| < 1. En este caso, la Ecuacion (6.41) se reduce a la expresion

Xn+1 = φXn + θn1

(Xn − Xn

), n ≥ 1. (6.44)

Para calcular θn1 es necesario obtener previamente la ACVF del proceso{Xt}.

γ(0) = σ2

∞∑j=0

ψ2j

= σ2

[1 + (θ + φ)2

∞∑j=0

φ2j

]

= σ2

[1 +

(θ + φ)2

1− φ2

]= σ2

[1 + 2θφ + θ2

1− φ2

],

γ(1) = σ2

∞∑j=0

ψj+1ψj

= σ2

[θ + φ +

(θ + φ)2

1− φ2

],

yγ(h) = φh−1γ(1), h ≥ 2 .

Introduciendo estas expresiones en la ecuacion

κ(i, j) =

γX(i− j)/σ2, 1 ≤ i, j ≤ m1

σ2[γX(i− j)−∑p

r=1 φrγX(r − |i− j|)] , mın(i, j) ≤ m < max(i, j) ≤ 2m∑qr=0 θrθr+|i−j|, mın(i, j) > m

0, en otro caso.(6.45)

resulta

κ(i, j) =

1 + 2θφ + θ2

1− φ2, i = j = 1

1 + θ2, i = j ≥ 2θ, |i− j| = 1, i ≥ 10, en otro caso.

(6.46)

Con estos valores de κ(i, j), el algoritmo de innovaciones se reduce a

ε0 =1 + 2θφ + θ2

1− φ2(6.47a)

Page 80: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

78 Capıtulo 6. Modelos ARMA

θn1 =θ

εn−1

(6.47b)

εn = 1 + θ2

(1− 1

εn−1

)(6.47c)

A partir de las ecuaciones anteriores se puede observar que

εn → 1

y, como consecuencia, que

θn1 → θ

Para ilustrar mejor este procedimiento, se considera la prediccion del procesoARMA(1,1).

Xt − 0,5Xt−1 = Zt + 0,2Zt−1 , con {Zt} ∼ WN(0, σ2) . (6.48)

La matriz de covarianzas [κ(i, j)] viene dada por

κ =

1,6533 0,2000 0 0 0 00,2000 1,0400 0,2000 0 0 0

0 0,2000 1,0400 0,2000 0 00 0 0,2000 1,0400 0,2000 00 0 0 0,2000 1,0400 0,2000...

......

......

...

(6.49)

Las recursiones del algoritmo de innovaciones proporcionan los valores Observesecomo εn → 1 y como θn1 → θ. Para finalizar, en la Figura 6.5 se muestrauna realizacion del proceso ARMA(1,1) {Xt} considerado y su prediccion Xt.

6.4. Estimacion de parametros del modelo AR-

MA

En esta Seccion analizaremos cuatro tecnicas que permiten hacer unaestimacion preliminar de los parametros φ = (φ1, . . . , φp)

T , θ = (θ1, . . . , θq)T

y σ2 a partir de las observaciones x1, . . . , xn de un proceso ARMA(p, q) causaldefinido por

φ(D)Xt = θ(D)Zt , con {Zt} ∼ WN(0, σ2) . (6.50)

Page 81: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 79

n Xn+1 εn θn1 Xn+1

1 1.1238 1.6533 0.1210 02 1.2606 1.0158 0.1969 0.13593 0.5546 1.0006 0.1999 0.85174 0.8158 1.0000 0.2000 0.21795 1.0050 1.0000 0.2000 0.52756 1.4233 1.0000 0.2000 0.59807 1.0941 1.0000 0.2000 0.87678 -0.1898 1.0000 0.2000 0.59059 -0.2167 1.0000 0.2000 -0.2510

10 -0.0455 1.0000 0.2000 -0.1015

Cuadro 6.1: Prediccion mediante el algoritmo de innovaciones de un procesoARMA(1,1).

6.4.1. Estimacion de Yule-Walker

Se utiliza para ajustar modelos autorregresivos puros. Puede adaptarse amodelos con q > 0, aunque sus prestaciones son peores que las alcanzadascuando q = 0.

La condicion de causalidad permite expresar el proceso Xt en la forma

Xt =∞∑

j=0

ψjZt−j (6.51)

donde ψj ↔ Ψ(z) =1

Φ(z). Multiplicando cada lado de la igualdad por Xt−j

y calculando la esperanza matematica se obtienen las conocidas ecuacionesde Yule-Walker:

Γpφ = γp (6.52a)

y

σ2 = γ(0)− φT γp (6.52b)

donde Γp = [γ(i− j)]pi,j=1 y γp = (γ(1), . . . , γ(p))T .La version “muestral” de las ecuaciones anteriores es

φ = R−1

p ρp (6.53a)

y

σ2 = γ(0)[1− ρT

p R−1

p ρp

](6.53b)

Page 82: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

80 Capıtulo 6. Modelos ARMA

0 5 10 15 20 25 30−3

−2

−1

0

1

2

3

4

t

Xt, F

t

Xt

Ft

Figura 6.5: Proceso ARMA(1,1) Xt y su prediccion Xt ≡ Ft.

donde

ρp = (ρ(1), . . . , ρ(p))T =1

γ(0)γp (6.53c)

La distribucion de los estimadores de Yule-Walker para un numero elevadode muestras de un proceso AR(p) es

φ ≈ N(φ,1

nσ2Γ−1

p ). (6.54)

Por tanto, el intervalo definido por

φpj ± Φ1−α/2

√εjj

n, (6.55)

donde εjj es el elemento j-esimo de la diagonal de εpΓp, contiene a φpj conuna probabilidad (cercana a) de (1− α).

Seleccion del orden

En la practica no se conoce el orden del modelo. Para estimarlo podemosseguir dos estrategias.

Supongamos que {Xt} es un proceso causal AR(p) definido por

φ(D)Xt = Zt , con {Zt} ∼ IID(0, σ2) . (6.56)

Page 83: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 81

Si ajustamos un modelo AR(m), siendo m > p,

φm = R−1

m ρm

el ultimo elemento, φmm, del vector φm, es decir, la funcion de auto-

correlacion parcial (PACF) sigue un modelo N(0,1

n).

El metodo de eleccion del orden serıa: elegir el orden p como el valorentero m mas pequeno para el que se cumple

|φkk| < ±1,96/√

n

Elegir el valor de p y el vector φp que minimizan el estadıstico AICC

AICC = −2 log(L(φp, S(φp)/n)

)+ 2(p + 1)n/(n− p− 2) (6.57)

donde L es la funcion de verosimilitud gaussiana

L(φ, σ2) =1√

(2πσ2)nr0 · · · rn−1

exp

{− 1

2σ2

n∑j=1

(Xj − Xj)2

rj−1

},

(6.58)

σ2 =1

nS(φ) (6.59)

y

S(φ) =n∑

j=1

(Xj − Xj)2

rj−1

(6.60)

Ejemplo 6.6 En este ejemplo se analiza el ındice Dow-Jones de industrialesentre el 28 de agosto y el 18 de diciembre de 1972. En la Figura 6.6.a se mues-tra la serie correspondiente al periodo citado; en la Figura 6.6.b su funcionde autocorrelacion muestral. Puede observarse que esta ultima presenta unacaıda muy lenta, hecho este que sugiere aplicar una operacion de diferencia-do antes de ajustar un modelo estacionario. La nueva serie Yt = (1−D)Dt,mostrada en la Figura 6.7.a ya no presenta desviaciones apreciables del com-portamiento estacionario, por lo que trataremos de ajustar el modelo AR ala serie Yt; su ACVF se muestra en la Figura 6.7.b.

Los valores muestrales de la funcion de autocovarianza son γ(0) = 0,17992,γ(1) = 0,0759, γ(2) = 0,04885, etc. Aplicando estos valores al algoritmo de

Page 84: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

82 Capıtulo 6. Modelos ARMA

0 10 20 30 40 50 60 70 80108

110

112

114

116

118

120

122

124

126

Días

Índi

ce D

ow−

Jone

s

0 10 20 30 40 50 60 70 80−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

Muestra

AC

F

(a) (b)

Figura 6.6: a) Muestras de la serie Dt correspondiente al ındice Dow-Jonesde industriales entre el 28 de agosto y el 18 de diciembre de 1972. b) Funcionde autocorrelacion muestral.

Levinson-Durbin resulta

φ11 = ρ(1) =γ(1)

γ(0)= 0,4219

ε1 = γ(0)[1− ρ2(1)

]= 0,1479

φ22 =[γ(2)− φ11γ(1)

]/ε1 = 0,1138

φ22 = φ11 − φ11φ22 = 0,3739

ε2 = ε1

[1− φ2

22

]= 0,1460.

En la Figura 6.8 se muestra la funcion de autocorrelacion parcial (PACF)y los lımites ±1,96/

√77 (la serie diferenciada Yt tiene 77 valores). Puede

observarse que para retardos mayores que 1, todos los valores de la PACFpermanecen dentro de los lımites; esto sugiere que se debe ajustar un modeloAR(1) a la serie Yt. Con todo, es necesario corregir levemente la serie Yt

antes de ajustar el modelo AR(1), pues este tiene media 0. Si definimos laserie

Xt = Yt − 0,1336

el modelo AR(1) responde a la expresion

Xt − φ11Xt−1 = Zt , con {Zt} ∼ WN(0, ε1) (6.61)

que, teniendo en cuenta los valores proporcionados por el algoritmo de Levinson-Durbin, resulta

Xt − 0,4219Xt−1 = Zt , con {Zt} ∼ WN(0, 0,1479) . (6.62)

Page 85: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 83

0 10 20 30 40 50 60 70 80−1

−0.5

0

0.5

1

1.5

2

Días

Índi

ce D

ow−

Jone

s di

fere

ncia

do

0 10 20 30 40 50 60 70 80−0.05

0

0.05

0.1

0.15

0.2

Muestra

AC

VF

(a) (b)

Figura 6.7: a) Muestras de la serie Yt = (1−D)Dt correspondiente al ındiceDow-Jones de industriales entre el 28 de agosto y el 18 de diciembre de 1972.b) Funcion de autocovarianza muestral.

Finalmente, el modelo para {Yt} es

Yt − 0,1336− 0,4219 (Yt−1 − 0,1336) = Zt , con {Zt} ∼ WN(0, 0,1479).(6.63)

Si suponemos que los datos realmente proceden de un modelo AR con p = 1,los intervalos de confianza del 95% para el coeficiente autorrecurrente φ11 =0,4219 es

φ11 ± 1,96

√ε1

γ(0)n(6.64)

0,4219± 1,96

√0,1479

(0,17992)77= (0,2194, 0,6244) (6.65)

6.4.2. Algoritmo de Burg

El algoritmo de Yule-Walker calcula los coeficientes φp1, . . . , φpp con losque se construye el “mejor” predictor lineal de Xp+1 en funcion de {Xp, . . . , X1};para ello ha de suponerse que los valores (verdaderos) de la funcion de auto-correlacion de {Xt} coinciden en la muestras 1, . . . , p con los de la muestral.

El algoritmo de Burg estima los coeficientes de la PACF {φ11, φ22, . . .}minimizando sucesivamente las sumas de los errores de prediccion de orden1 hacia adelante y hacia atras respecto de los coeficientes φii. A continuacionse aclara el algoritmo.

A partir de la observaciones {x1, . . . , xn} de un proceso estacionario demedia 0, Xt, definimos:

Page 86: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

84 Capıtulo 6. Modelos ARMA

0 5 10 15 20 25 30

−0.2

0

0.2

0.4

0.6

0.8

1

Retardo

PA

CF

Figura 6.8: Funcion de autocovarianza parcial (PACF) de la serie {Yt} (proce-dente del ındice Dow-Jones de industriales entre el 28 de agosto y el 18 dediciembre de 1972).

Error de prediccion hacia adelante. eFi (t), t = i + 1, . . . , n y 0 ≤ i < n,

es la diferencia entre xt y la mejor estima lineal de xt en funcion de losi terminos precedentes.

eFi (t) = xt − xF

t

= xt − ` (xt−1, . . . , xt−i) (6.66)

Error de prediccion hacia atras. eBi (t), t = i + 1, . . . , n y 0 ≤ i < n, es

la diferencia entre xt−i y la mejor estima lineal de xt−i en funcion delos i terminos siguientes.

eBi (t) = xt−i − xB

t−i

= xt−i − ` (xt−i+1, . . . , xt) (6.67)

Es facil demostrar que estas secuencias de error satisfacen las recursiones

eB0 (t) = eF

0 (t) = xt (6.68a)

eBi (t) = eB

i−1(t− 1)− φiieFi−1(t) (6.68b)

Page 87: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 85

eFi (t) = eF

i−1(t)− φiieBi−1(t− 1) (6.68c)

Las estima de Burg φ11 se halla minimizando

σ21 =

1

2(n− 1)

n∑t=2

[(eB

1 (t))2 + (eF1 (t))2

](6.69)

respecto de φ11. Es facil demostrar que φ11 satisface

φ11 =2

d(1)

n∑t=2

eF0 (t)eB

0 (t− 1) , (6.70)

donde

d(1) =n∑

i=2

(x2

i + x2i−1

)=

n∑i=2

((eF

0 (t))2 + (eB0 (t− 1))2

). (6.71)

Una vez calculado el valor φ11, se obtienen los valores numericos de eB1 (t),

eF1 (t) y σ2

1. Sustituyendolos en las expresiones (6.68) es posible obtener loserrores para i = 2. Ahora, la minimizacion de

σ22 =

1

2(n− 2)

n∑t=3

[(eB

2 (t))2 + (eF2 (t))2

](6.72)

conduce hacia el valor

φ22 =2

d(2)

n∑t=3

eF1 (t)eB

1 (t− 1) , (6.73)

donde

d(2) =(1− φ2

11

)d(1)− (eF

1 (2))2 − (eB1 (n))2. (6.74)

El proceso anterior puede repetirse sucesivamente hasta obtener la estima

PpXp+1 = φp1Xp + · · ·+ φppX1 (6.75)

donde los coeficientes φpj se obtienen aplicando el algoritmo de Levinson-Durbin:

φp1...

φp,p−1

=

φp−1,1...

φp−1,p−1

− φpp

φp−1,p−1...

φp−1,1

(6.76)

Page 88: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

86 Capıtulo 6. Modelos ARMA

La distribucion (para un numero elevado de muestras) de los coeficientesproporcionados por el algoritmo de Burg es identica a la correspondiente ala estimacion de Yule-Walker:

φp ∼ N(φ,1

nσ2Γp) (6.77)

Para concluir, a continuacion se resume el algoritmo de Burg.

d(1) =n∑

i=2

(x2

i + x2i−1

), (6.78)

φii =2

d(i)

n∑t=i+1

eFi−1(t)e

Bi−1(t− 1) , (6.79)

d(i + 1) =(1− φ2

ii

)d(i)− (eF

i (i + 1))2 − (eBi (n))2 , (6.80)

σ2i =

1

2(n− i)

[(1− φ2

ii

)d(i)

](6.81)

Ejemplo 6.7 Volvemos a considerar el ındice (diferenciado y corregido enmedia) de Dow-Jones de industriales, aunque esta vez aplicaremos el algorit-mo de Burg. El resultado es el modelo

Xt − 0,4371Xt−1 = Zt ∼ WN(0, 0,1423) (6.82)

Notese la pequena diferencia respecto del modelo obtenido con el algoritmo deYule-Walker. Como veremos mas adelante, el modelo obtenido con el metodode Burg tiene una mayor verosimilitud, lo cual quiere decir que minimiza elestadıstico AICC. Los lımites de confianza para el coeficiente φ son: 0,4371±0,4371

2,1668= (0,2354, 0,6388).

Ejemplo 6.8 En este ejemplo consideramos el problema de ajustar un mod-elo a la serie correspondiente al nivel del lago Huron sin haber eliminadopreviamente la tendencia; esta serie vuelve a mostrarse en la Figura 6.9.Su funcion de autocorrelacion (ACF) y la funcion de autocorrelacion par-cial (PACF) se muestran en las Figura 6.10. La PACF muestral indica queel modelo AR(2) se puede ajustar bien a los datos corregidos en media,Xt = Yt − 9,0041. Si se utiliza el algoritmo de Burg se obtiene el modelo

Xt − 1,0449Xt−1 + 0,2456Xt−2 = Zt {Zt} ∼ WN(0, 0,4706) (6.83)

siendo los lımites del 95% de confianza

φ1 : 1,0449± 1,0449

5,5295= (0,8559, 1,2339)

φ2 : −0,2456± 0,2456

1,2997= (−0,4346,−0,0566) . (6.84)

Page 89: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 87

1880 1890 1900 1910 1920 1930 1940 1950 1960 19706

7

8

9

10

11

12

Figura 6.9: Nivel del lago Huron.

Si hubiesemos utilizado el algoritmo de Yule-Walker, el resultado hubiera sido

Xt − 1,0538Xt−1 + 0,2668Xt−2 = Zt {Zt} ∼ WN(0, 0,4920) (6.85)

siendo los lımites del 95% de confianza

φ1 : 1,0538± 1,0538

5,5227= (0,8630, 1,2446)

φ2 : −0,2668± 0,2668

1,3980= (−0,4576,−0,0760) . (6.86)

Al igual que en el ejemplo anterior, el modelo de Burg proporciona una var-ianza de ruido menor y una verosimilitud gaussiana mayor.

6.4.3. Algoritmo de Innovaciones

Lo mismo que se han utilizado modelos autorregresivos, tambien podemosutilizar el modelo de promedio movil

Xt = Zt + θm1Zt−1 + · · ·+ θmmZt−m {Zt} ∼ WN(0, εm) (6.87)

cuyos parametros θmj y εm se calculan con el algoritmo de innovaciones.

Page 90: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

88 Capıtulo 6. Modelos ARMA

0 5 10 15 20 25 30 35 40

−0.2

0

0.2

0.4

0.6

0.8

1

Muestra

AC

F

0 5 10 15 20 25 30 35 40

−0.2

0

0.2

0.4

0.6

0.8

1

retardo

PA

CF

(a) (b)

Figura 6.10: (a) Funcion de autocorrelacion muestral. (b) Funcion de auto-correlacion parcial.

Lımites de confianza

Los lımites de confianza de los parametros θq =(θm1, . . . , θmq

)T

vienen

determinados por

θmj ± 1,96n−1/2

(j−1∑i=0

θ2mi

)1/2

. (6.88)

Seleccion del orden

Para la seleccion del orden pueden seguirse las siguientes tecnicas.

Conocemos que para procesos MA(q), la funcion de autocorrelacionρ(m) es cero para m > q. Es mas, conocemos por la formula de Bartlett(Seccion 5.1.1) que la funcion de autocorrelacion muestral ρ(m), param > q tiene una distibucion normal de media ρ(m) = 0 y varianza

n−1[1 + 2ρ2(1) + · · ·+ 2ρ2(q)

]

Por tanto, y como receta practica, consideraremos que los valores de lafuncion de autocorrelacion muestral son distintos de cero cuando susvalores absolutos superan el lımite 1,96/

√n.

Para modelos AR, ressulta mas sistematico encontrar el orden q y el

vector de parametros θq =(θm1, . . . , θmq

)T

que minimizan el estadısti-

co AICC

AICC = −2 log {L(θq, S(θq)/n)}+ 2(q + 1)n/(n− q − 2) , (6.89)

Page 91: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 89

donde L es la funcion de verosimilitud gaussiana.

Algoritmo de Innovaciones cuando p, q > 0

La condicion de causalidad asegura que se cumple

Xt =∞∑

j=0

ψjZt−j (6.90)

donde los coeficientes ψj satisfacen

ψj = θj +

mın(j,p)∑i=1

φiψj−i, j = 0, 1, . . . (6.91)

y θ0 = 1, θj = 0 para j > q. Para estimar ψ1, . . . , ψp+q se pueden utilizar

las estimas proporcionadas por el algoritmo de innovaciones, θm1, . . . , θm,p+q.

Ası, si se sustituye ψj por θmj, se obtiene

θmj = θj +

mın(j,p)∑i=1

φiθm,j−i, j = 1, . . . , p + q . (6.92)

El vector de coeficiente φ se obtiene a partir de la resolucion de las ultimasq ecuaciones anteriores:

θm,q+1

θm,q+1...

θm,q+p

=

θm,q θm,q−1 · · · θm,q+1−p

θm,q+1 θm,q · · · θm,q+2−p...

.... . .

...

θm,q+p−1 θm,q+p−2 · · · θm,q

φ1

φ2...φp

. (6.93)

Una vez que se obtiene el vector φ se procede a la estima de θ:

θj = θmj +

mın(j,p)∑i=1

φiθm,j−i, j = 1, . . . , q . (6.94)

Para finalizar, la varianza del ruido se obtiene a partir de la ecuacion

σ2 =1

n

n∑t=1

(Xt − Xt

)2

εt−1

(6.95)

Page 92: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

90 Capıtulo 6. Modelos ARMA

Ejemplo 6.9 Si utilizamos un modelo ARMA(1,1) para ajustar la serie, cor-regida en media, correspondiente al nivel del lago Huron, se obtiene el modelo

Xt − 0,7234Xt−1 = Zt + 0,3596Zt−1, con {Zt} ∼ WN(0, 0,4757) (6.96)

Los intervalos de confianza para estos parametros son

φ : 0,7234± 0,7234

3,2064= (0,4978, 0,9490)

θ : 0,3596± 0,3596

1,8513= (0,1654, 0,5538) . (6.97)

6.4.4. Algoritmo Hannan-Rissanen

La derivacion del vector de coeficientes optimo (en el sentido de mini-mizacion del error cuadratico medio) φ = (φ1, . . . , φp)

T en un modelo AR(p)es un problema lineal. Sin embargo, cuando q > 0, la estimacion se vuelve nolineal. En efecto, para un modelo ARMA(p, q), no solo se realiza la regresionde Xt sobre Xt−1, . . . , Xt−p sino tambien sobre las cantidades (no observadas)Zt−1, . . . , Zt−q.

Para resolver este inconveniente, se propuso el algoritmo de Hannan-Risanen.

1. Elegir un modelo AR(m) con m > max(p, q) y ajustarlo a los datossiguiendo el metodo de Yule-Walker. Definir los residuos estimados co-mo

Zt = Xt − φm1Xt−1 − · · · − φmmXt−m (6.98)

con t = m + 1, . . . , n.

2. Estimar el vector de parametros β = (φT , θT )T a partir de la regresionlineal de Xt sobre el vector (Xt−1, . . . , Xt−p, Zt−1, . . . , Zt−q). Este vectorde parametros, por tanto, debe minimizar

S(β) =n∑

t=m+1

(Xt − φ1Xt−1 − · · · − φpXt−p − θ1Zt−1 − · · · − θqZt−q

)2

.

(6.99)

Este procedimiento proporciona el estimador de Hannan-Rissanen

β =(ZT Z

)−1ZT Xn (6.100)

Page 93: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

6.4. Estimacion de parametros del modelo ARMA 91

donde Xn = (Xm+1, . . . , Xn)T y

Z =

Xm Xm−1 · · · Xm−p+1 Zm Zm−1 · · · Zm−q+1

Xm+1 Xm · · · Xm−p+2 Zm+1 Zm · · · Zm−q+2...

.... . .

......

.... . .

...

Xn−1 Xn−2 · · · Xn−p Zn−1 Zn−2 · · · Zn−q

.

(6.101)La estima de la varianza del ruido blanco proporcionada por este meto-do es

σ2HR =

S(β

n−m(6.102)

3. (opcional) Utilizar la estima del vector de parametros

β = (φ1, . . . , φp, θ1, . . . , θ1)T

para definir

Zt =

{0, si t ≤ max(p, q)

Xt −∑p

j=1 φjXt−j −∑q

j=1 θjZt−j, si t > max(p, q).

(6.103)A partir de esta nueva secuencia definimos las secuencias Vt y Wt como

Vt =

{0, si t ≤ max(p, q)∑p

j=1 φjVt−j + Zt, si t > max(p, q).(6.104)

Wt =

{0, si t ≤ max(p, q)

−∑qj=1 θjWt−j + Zt, si t > max(p, q).

(6.105)

(Notese que Vt y Wt satisfacen las recursiones AR φ(D)Vt = Zt yθ(D)Wt = Zt). Si se realiza la regresion lineal de Zt sobre

(Vt−1, . . . , Vt−p,Wt−1, . . . , Wt−p)T

y el vector de parametros que minimiza

S†(β) =n∑

t=max(p,q)+1

(Zt −

p∑j=1

βjVt−j −q∑

k=1

βk+pWt−k

)2

(6.106)

es β†, la nueva estima del vector de parametros β es β

†+ β.

Page 94: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

92 Capıtulo 6. Modelos ARMA

Page 95: DPTO. DE TEOR¶IA DE LA S C - tsc.uc3m.esfran/docencia/PS/control.pdf · cas de alisado exponencial obtienen resultados similares a los de otras m¶as ... El m¶etodo de predicci¶on

Bibliografıa

[Box76] G. E. Box, G. M. Jenkins. Time Series Analysis: forecastingand control. Holden-Day, San Francisco, CA, 1976.

[Ljung78] G. M. Ljung, G. E. Box. On a measure of lack of fit in timeseries models. Biometrika, vol. 65, pags. 297–303, 1978.

[Makridakis83] S. Makridakis, S. C. Wheelwright, V. E. McGee. Forecasting:Methods and Applications. John Wiley and Sons, New York,2nd edicion, 1983.

[McLeod83] A. I. McLeod, W. K. Li. Diagnostic checking arma time seriesmodels using squared-residual autocorrelations. Journal onTime Series Analysis, vol. 4, pags. 269–273, 1983.

93