Universidad Central de las Villas Facultad de Matemática ...

Universidad Central de las Villas

Facultad de Matemática Física Computación

Series Cronológicas de lluvia en la Cuenca Sagua la Chica. Modelos y pronósticos

Tesis de Pregrado:

Presentada por: Magda Pérez Monteagudo

Dirigida por:

Dr. Ricardo Grau Ábalo

Julio del 2007

Santa Clara

RESUMEN

El presente trabajo estudia el comportamiento de las series cronológicas de

precipitaciones de la Cuenca Hidrológica Sagua la Chica, a partir de una base de datos

con que cuenta la empresa de Investigaciones de Proyectos Hidráulicos para la

realización de los gráficos de despacho, Se logran modelos matemáticos del tipo

ARIMA y se realizan pronósticos a corto plazo en base a los mismos. Un aporte

importante desde el punto de vista práctico es el nuevo trabajo con los regresores dado

que se ha cambiado la teoría de introducirlos en las series. Los resultados

fundamentalmente son dados en tablas resúmenes y gráficos. La metodología usada es

la de Box-Jenkins para series y el software utilizado es el SPSS.13.

ABSTRACT In this work we study the time series related to rain in the hydrological basin of Sagua la

Chica, from a data base collected by the Researching Institute of Hydraulic Projects.

These data for dispatching the water. ARIMA models for these series are obtained and

then, short-term predictions about water capacity are possible. From the practical point

of view, it is interesting in this work a new form of working with independent variables

because the theory about how to introduce them in the series has changed. Results are

shown in tables and graphics. Box-Jenkin´s Methodology for ARIMA models and the

software SPSS 13 are used.

Introducción...................................................................................................................... 1 CAPITULO I .................................................................................................................... 7 Conceptos básicos relativos a los modelos regulares ARIMA......................................... 7

1.2 Introducción............................................................................................................ 7 1.3 Conceptos básicos de series de tiempo................................................................... 8 1.3.1 Series Estacionarias. ............................................................................................ 9 1.3.2 Funciones de Autocorrelación. .......................................................................... 10

1.3.3 Disturbio aleatorio o ruido blanco. ................................................................ 12 1.3.4 Camino Aleatorio. ......................................................................................... 13

1.4 Procesos Autorregresivos. .................................................................................... 14 1.4.1 Series Autorregresivas de Primer Orden ....................................................... 15 1.4.2 Serie Autorregresiva de orden p ................................................................... 16

1.5 Series de Medias Móviles..................................................................................... 17 1.5.1 Series de media móvil de primer orden. ........................................................ 17 1.5.2 Series de medias móviles de orden q............................................................. 18

1.6 Procesos ARMA(p, q) .......................................................................................... 22 1.6.1 Procesos ARMA (1.1) ................................................................................... 22 1.6.2 Serie ARMA(p,q). ......................................................................................... 23 1.6.3 Notación de operadores de un proceso ARMA. ............................................ 24 1.7 Procesos no estacionarios ................................................................................. 26 1.7.1 Proceso de diferenciación.............................................................................. 26 1.7.2 Procesos ARIMA........................................................................................... 27

1.8 Complementos teóricos: estimación, diagnóstico y pronóstico en modelos ARIMA....................................................................................................................... 30

CAPITULO II................................................................................................................. 36 Metodología de Box-Jenkins para Series Regulares ARIMA. Tratamiento de Regresores........................................................................................................................................ 36

2.1 Introducción.......................................................................................................... 36 2.2 Fases del proceso de modelación ARIMA ........................................................... 36 2.3 Los procesos iterativos en la Metodología de Box-Jenkins ................................. 37 2.4 El modelo ARIMA estacional. Generalización de la metodología de Box-Jenkins a series estacionales. ................................................................................................... 41 2.5 Análisis de intervención y tratamiento de outliers ............................................... 46

2.5.1 Análisis de intervención con modelos ARIMA............................................. 46 2.5.2 Introducción de regresores en modelos con diferenciación........................... 48 2.5.3 Primitiva regular y estacional de una función pulso...................................... 51 2.5.4 Primitiva estacional de una función pulso unitario. ...................................... 51 2.5.5 Primitivas de otros regresores posiblemente necesarios................................ 53

Capitulo III ..................................................................................................................... 55 Análisis de los pluviómetros por modelación ARIMA. ................................................. 55

3.1 Introducción...................................................................................................... 55 3.2 Modelación del pluviómetro 401.......................................................................... 55

3.2.1Modelo básico para el pluviómetro 401 ......................................................... 56 3.2.2 Análisis de los outliers en la serie del pluviómetro 401. ............................... 65 3.2.3Modelo Final del Pluviómetro 401................................................................. 69

3.3 Modelación del Pluviómetro 980 ......................................................................... 71 3.4 Resultado de los modelos matemáticos de los pluviómetros 940, 357, 389, 396. 79

3.4.1 Modelo matemático del tipo ARIMA del pluviómetro 940. ......................... 79 3.4.2 Modelo matemático del tipo ARIMA del pluviómetro 357. ......................... 79 3.4.3 Modelo matemático del tipo ARIMA del pluviómetro 389. ......................... 80

3.4.4 Modelo matemático del tipo ARIMA del pluviómetro 396. ......................... 80 3.5 Conclusiones del capítulo..................................................................................... 81

Conclusiones y recomendaciones................................................................................... 82 Recomendaciones .......................................................................................................... 82 Bibliografía....................................................................................................................... 1 ANEXOS.......................................................................................................................... 3

Introducción

Introducción Uno de los mayores retos del hombre moderno es racionalizar los recursos naturales de los

cuales ha dependido desde su surgimiento como especie. Uno de tales recursos

indispensables para la vida es el agua, la cual con el crecimiento de la población y las

actividades del hombre, requiere de una administración. El desarrollo alcanzado en la

actualidad, la necesidad de explotar dicho recurso y la necesidad de una mejor distribución

ha generado un sin número de estudios al respecto.

Decimos que un embalse tiene como finalidad entre otras cosas, el almacenamiento del

agua para el abasto a la población, la agricultura, la acuicultura, la industria, etc. Controlar

y pronosticar la capacidad de agua almacenada es al parecer un problema muy sencillo

pero veamos que no lo es, y como se puede aplicar la matemática en el mismo. En nuestro

territorio se lleva a cabo un minucioso monitoreo de las precipitaciones, por parte de las

entidades involucrada con los recursos hidráulicos, particularmente de la Empresa de

Investigaciones y Proyectos Hidráulicos EIPH, en la cual existen datos almacenados

referente a los embalses, escurrimiento, entrega de agua, pérdidas en el embalse, todos

ellos muy ligados con el régimen de precipitaciones del territorio.

Esta entidad cuenta con datos pertenecientes a precipitaciones de cerca de cien años de

antigüedad, fundamentalmente desde el 1949, y con mayor precisión desde 1964, año en se

creó la red de Institutos de Proyectos Hidráulicos. Estos datos pueden brindar la

información necesaria para pronosticar el régimen de las lluvias en años venideros.

La entrega del agua a los distintos usuarios depende del volumen del embalse, si se llega a

una cota mínima se restringe la distribución. Una característica fundamental que hay que

tener en cuenta en un embalse son las diferentes mediciones de volumen. Se llama VTM al

volumen total máximo, LSEG denota la línea superior de entrega garantizada, mientras

que LIEG es la línea inferior de entrega garantizada. Además VME denota el volumen

máximo de explotación. A continuación se incluye una gráfica de un embalse que ayuda a

comprender los diferentes volúmenes.

Introducción

La empresa EIPH construye los llamados gráficos de despachos con los datos de lluvia

para saber el comportamiento del volumen de agua del embalse y así su mejor

distribución; se puede observar que NM: es el nivel mínimo; LIEG: linea inferior de

entrega garantizada; LIEG: línea inferior de entrega garantizada; NAN: nivel de agua

normal; para los diferentes niveles de agua se tiene en consideración el abasto de agua para

los diferentes clientes. Si se tuviera un pronóstico de lluvia a corto plazo en la región, se

podrían hacer los gráficos de despacho con antelación y tener estimaciones bastante segura

de como sería el comportamiento de la distribución del agua a los diferentes clientes.

Para poder modelar y garantizar un eficiente uso del agua se debe conocer las

características de las fuentes de abasto naturales de la región en estudio. Las

precipitaciones son las principales abastecedoras de los ríos y embalses, por lo tanto su

pronóstico se hace necesario para poder planificar el uso del agua que se puede distribuir.

Se pretende con este trabajo realizar una modelación mediante series cronológicas que

sirvan para pronosticar las precipitaciones en la zona comprendida en diferentes

municipios de la provincia: Cifuentes, Encrucijada, Santa Clara, Camajuaní, Remedios,

Placetas y Manicaragua donde se cuenta con la información recogida por diferentes

pluviómetros. En este trabajo se seleccionaron por la empresa los pluviómetros

denominados por los códigos: 357, 389, 396, 940, 401, 980 específicamente por las

características hidrológicas que presenta la región que ellos abarcan. Se puede ver la

gráfica de la región con la ubicación del total de los pluviómetros y en particular los

seleccionados.

Introducción

No existen antecedentes de modelación de series cronológicas de lluvia en esta

Cuenca o una similar; pero existen trabajos de series temporales de precipitaciones

en la provincia de Villa Cara y otras del país, y en general hay antecedentes de

modelación matemática de series meteorológicas. Entre ellos se destaca “El

pronóstico de lluvias totales anuales para un pequeña zona de la actual provincia de

Cienfuegos” (Fernández, 1983). Por otra parte el trabajo de Truzov, Izquierdo y Díaz

(Truzov, Izquierdo y Díaz 1983) demostró que el logro de pronósticos en especial

para la lluvia, esta condicionado por un conocimiento preciso del régimen ocurrencia

de la misma. No obstante el conocimiento logrado en estos trabajos, si bien valiosos,

dejan ciertas lagunas a llenar por lo que (Cárdenas, 1900) emprende una modelación

estadística climatología de los totales de precipitaciones y algunas variables

asociadas a las mismas. Posteriormente, debido al periodo especial, problemas

técnicos y cambios en la estructura organizativa del principal cliente, el Ministerio de

Azúcar (MINAZ), se pierde la operatividad de estos últimos modelos. Otro intento de

modelar la precipitación se realizo por (Analidia, 1994) donde se logran buenos

resultados en el pronóstico a corto plazo, pero estos resultados no se introdujeron en

la práctica quedando solo con un valor teórico.

Introducción

En cuanto a otras variables metereológicas, en particular las temperaturas, es

necesario citar a (Lecha, 1989), que realizó un trabajo muy completo donde se

relacionan los trabajos que en Cuba han profundizado en el estudio del régimen

térmico. En el mismo se enseña la necesidad de usar métodos de investigación más

precisos para reflejar las pequeñas oscilaciones y los cambios en las condiciones

climáticas. Además se logra una tipificación y descripción del régimen térmico

cubano, quedando una importante herramienta de trabajo metodológico. Sin embargo

no se realiza pronósticos de esta variable, ni se estudia la posible tendencia de la

misma. Los primeros intentos de pronóstico estadísticos de temperatura extremas se

realizaron por (Anido, inédito) a mediados de la década de 1950, con ecuaciones

deducidas empíricamente. Otros investigadores (Naranjo y L.Lecha, inédito)

obtuvieron ecuaciones de pronósticos, también para Santa Clara, a partir de datos

locales de superficies, utilizando métodos de correlación lineal. En atención a estos

trabajos (Arnaldo, 1986) obtiene pronósticos de temperaturas extremas para la Isla de

la Juventud, principalmente de forma diaria, para un estación. En 1992 en la

provincia de Villa Clara se obtuvieron resultados interesantes en el pronóstico de

temperaturas extremas decenales (Osés R, y Cárdenas P, 1992, inédito) utilizando la

regresión múltiple. En este se concluye que debía utilizarse una muestra en particular

para la obtención de las ecuaciones, ya que en definitiva, con una sola ecuación podía

explicarse la variación de cualquier decena. Nos obstante debido a escasez de

equipos de computo, a la lentitud en la recogida de la información, así como a

limitaciones dentro del periodo especial, no se pudo implementar regularmente este

pronóstico. En este desenlace influyó significativamente el difícil manejo de gran

cantidad de predictores climáticos que fallaban, al desaparecer el equipo que los

media, y al no existir sustitutos para ello, o por la baja calidad de instrumentos

pobremente calibrados, o sea, por la calidad de estos datos. Otro trabajo sobre serie

de tiempo meteorológicas es el de (Morales, 2007).

Las dificultades prácticas en la obtención de múltiples variables para el pronóstico,

por ejemplo de la lluvia abrieron el camino a la búsqueda de nuevos métodos, entre

ellos los modelos Autoregresivos Integrados y de Media Móvil (ARIMA) los cuales

no han sido explotados suficientemente.

Introducción

Se puede concretar entonces el siguiente problema de investigación

Problema

La Empresa de Recursos Hidráulicos (EIPH) dispone de suficiente información acumulada

durante años sobre el comportamiento de las precipitaciones pero no ha logrado utilizar

con eficiencia esta información, para realizar pronósticos (a corto plazo) apoyada en

modelos matemáticos y herramientas perfectamente operacionales, que contribuya a la

elaboración con antelación de los gráficos de despachos. Esto conduce a la siguiente

interrogante:

¿Es posible con la información existente en el departamento de Hidrología de la Empresa

de Proyectos Hidráulicos, lograr modelos matemáticos tipo ARIMA para las series de

lluvia de la cuenca hidrológica Sagua la Chica y en base a los mismos, hacer pronósticos a

corto plazo que ayuden a una mejor precisión de la planificación de entrega de agua a los

diferentes clientes?

Se tienen las siguientes preguntas de investigación adicionales:

¿Cómo incluir en el modelo los datos ¨picos¨ de precipitaciones ocasionalmente muy altas

y que representan “outliers” desde el punto de vista del comportamiento general de la

serie?

¿Se obtienen modelos diferentes en las series de datos de todos los pluviómetros, o algunos

son totalmente similares y hasta podría prescindirse de sus datos en el control?

Objetivo General

Modelar matemáticamente las series cronológicas de lluvias existentes en la Empresa de

Investigaciones de Proyectos Hidráulicos utilizando la Metodología de Box-Jenkins para

series ARIMA y en base a los modelos hallados, hacer pronósticos confiables a corto

plazo.

Objetivos Específicos 1. Obtener modelos ARIMA para las series de datos correspondientes a cada

pluviómetro.

Introducción

2. Mejorar los modelos con tratamientos de los outliers de lluvia usando regresores

3. Analizar la posibilidad de igualdad de los modelos de diferentes pluviómetros

El presente trabajo consta de tres capítulos. El primero estará dedicado al marco teórico.

En el se brindan elementos acerca de los conceptos básicos de series de tiempo, de los

procesos autorregresivos y series de media móvil, los procesos ARMA y los no

estacionarios. El segundo capítulo se habla de la metodología de Box-Jenkins para series

regulares ARIMA, se hará alusión al análisis de intervención y tratamiento de outliers así

como los procesos ARIMA estacionales. Se hará énfasis en el tratamiento de los

regresores, problema que hasta ahora no siempre fue tratado con la delicadeza suficiente,

pues como se va a mostrar, es fácil cometer errores al introducir estos en la serie En el

tercer capítulo se expondrá con todo detalle y por pasos la modelación de las series

cronológicas de lluvia con los pluviómetros mas significativos desde el punto de vista

hidrológico en la cuenca, en este caso los pluviómetros 401 y 980. los modelos finales de

todos los pluviómetros.

Capitulo 1 Conceptos básicos relativos a los modelos regulares ARIMA.

CAPITULO I

Conceptos básicos relativos a los modelos regulares ARIMA.

1.2 Introducción. Una serie de tiempo o serie cronológica es una colección de valores de una cierta

variable aleatoria medidos a intervalos regulares de tiempo. El objetivo del análisis

de tal serie es llegar a describir la variable como cierta función del tiempo que

permita analizar con detalles el pasado y hacer pronósticos futuros.

El análisis de las series de tiempo se aplica en muchos campos. En economía, por

ejemplo, se utilizan las series de tiempo en el control de la calidad, para estudiar índices

de precios, desempleo, producto nacional bruto, población… En ciencias naturales se

usan por ejemplo, para estudiar el nivel de agua en un río o presa, los parámetros

meteorológicos, las medidas de poblaciones naturales (vegetales o animales). En

biología surgen naturalmente en modelos de crecimiento, en epidemiología juegan un

papel fundamental en la vigilancia de enfermedades infecciosas o no transmisibles, así

como en el estudio cronológico del desarrollo de factores de riesgo. En las ciencias

sociales representan un campo entero en sí mismo.

El estudio de las series de tiempo no se pueden abordar sólo con las técnicas

básicas de regresión, porque en la mayoría de los casos, los valores de la serie en

diferentes instantes de tiempo están autocorrelacionados como consecuencia de que el

valor en cada momento depende muy frecuentemente de los valores o de la variabilidad

de los valores en instantes anteriores. Las situaciones más complicadas se producen

cuando dependen además de períodos similares del tiempo anterior, con ciertas

estacionalidad. Además, la regresión puede ser buena para pronosticar, más

estrictamente interpolar valores de la variable dependiente sobre valores de la(s)

variable(s) independientes que no han sido medidos, pero que están cerca del centroide

de los datos. Fuera del entorno de este centroide, la regresión no produce buenas

predicciones, porque el intervalo de confianza de las predicciones de la regresión se

amplia notablemente. Esto significa que si la variable independiente es el tiempo, la

regresión puede servir para reconstruir un valor intermedio de la función en un tiempo

cercano a la media del intervalo de datos, pero no puede ser utilizada para predecir el

futuro ni reconstruir el pasado

Los datos de una serie de tiempo son datos horizontales (dependientes) pero

usualmente tenemos una sola muestra de ellos (digamos, un solo caso) La única

alternativa que nos brindan los modelos de la estadística clásica sería el de la regresión

respecto al momento (tiempo); pero ya se comentaron los inconvenientes de la regresión

para ello.

Esto estimuló que se desarrollaran teorías matemáticas y procedimientos prácticos

generales orientados especialmente al estudio de series cronológicas. Por ejemplo, la

metodología de Box-Jenkins es válida para el análisis de un conjunto bastante amplio de

series y está fundamentada en una sólida teoría matemática de los modelos llamados

ARIMA. Además se adaptaron o condicionaron otras teorías, por ejemplo de la

regresión, para el estudio de correlación de series multivariadas, la teoría del análisis

espectral para el estudio de series de tiempo periódicas, conceptos básicos de funciones

generalizadas para el tratamiento de “outliers” (valores fuera de la serie).

Este capítulo a presentar los conceptos básicos que fundamentan la metodología

general de Box-Jenkins para la modelación de series ARIMA. Dicha metodología de

Box-Jenkins puede ser formulada con bastante independencia de los argumentos

matemáticos que la fundamentan; pero evidentemente, algunos conceptos son

importantes y el desarrollo teórico de algunos resultados no sólo permite comprender

mejor el fundamento, sino que dan más claridad para la aplicación práctica.

Se comienza esbozando algunos conceptos generales relativos a series de tiempo y

en particular a series de tiempo autorregresivas y de medias móviles. En una primera

lectura de este capítulo, en particular de los tres primeros epígrafes podemos

concentrarnos en las definiciones, notaciones y resultados, obviando las

demostraciones. Ello bastará para comprender lo sucesivo.

1.3 Conceptos básicos de series de tiempo. Formalmente hablando, una serie de tiempo puede ser definida como una

colección de variables aleatorias { }Ttxt ε, donde T es un conjunto de índices,

normalmente el conjunto de los números naturales: { }nT ,,3,2,1 L=

Esta definición no deja quizás claro que los valores de t representan momentos

equidistantes de tiempo; pero podemos tenerlo presente en la mayoría de los problemas

prácticos. En cualquier caso:

Con formato: Numeración yviñetas

Una realización o muestra de una serie es una colección finita de valores concretos

de la variable en intervalos de tiempo regular: ( )nxxx ,,, 21 L a partir de los cuales

queremos precisar la forma en que tx depende del tiempo t, esto es, describir la función

S tal que: )(tSxt = para todo Tt ε

La definición formal permite en cambio varias generalizaciones que son

importantes teórica y prácticamente. Por ejemplo:

• el conjunto T de índices puede ser el conjunto { }L,2,1,0 ±±=Z de los números

enteros y esto es importantes porque los desarrollos teóricos exigen trabajar con

series definidas para valores negativos de t.

• el conjunto T de índices puede ser un conjunto de la cardinalidad del conjunto. Esta

generalización se ajusta más propiamente al carácter continuo del tiempo. En efecto,

si pensamos por ejemplo que tx representa el nivel de agua en una presa en el

instante de tiempo t, tx es una función continua de t.

Otra cosa es que una realización de esta variable se obtenga por mediciones diarias

a una hora fijada, por ejemplo, o a cada hora durante varios días, si se quiere hacer un

estudio más detallado. Los resultados de estos dos estudios con muestras diferentes,

pueden ser por supuestos distintos.

La caracterización teórica de una serie de tiempo { }Ttxt ε, requiere no solo

determinar la distribución de tx para cada Tt ε , sino la además sus posibles

correlaciones. Más precisamente, la serie se caracteriza completamente por la función

de distribución conjunta:

[ ] [ ]nttnxxx xxxxxxxxxFntnttt<<<= ,,Prob,,, 2121 2121

para cualquier combinación [ ]nttt xxx ,,

21, L de las variables determinadas por un

subconjunto finito { }nttt ,,, 21 L de T.

1.3.1 Series Estacionarias. Se dice que la serie de tiempo { }Ttxt ε, es estrictamente estacionaria sí:

[ ] [ ] [ ] [ ]nxxxnxxx xFxFxFxxxFntttnttt

LLL 2121 2121,,, = para cualquier subconjunto no

vacío de { }nttt ,,, 21 L de T y cualquier h tal que ( )hththt n +++ ,,, 21 L esté en T.

Nótese que no se restringe esta condición a que los it sean consecutivos.

Así, una serie de tiempo es estrictamente estacionaria si la distribución de tx es la

misma para todo instante de tiempo t (porque [ ] [ ]xFxF txxt += para todo t y todo h) y

además las correlaciones entre variables de la serie dependen solamente del intervalo de

tiempo h que las separa y no del valor del tiempo t.

La condición de ser estrictamente estacionaria una serie de tiempo es muy difícil

de verificar. En la práctica se trabaja con una restricción menos fuerte pero más

fácilmente comprobable:

Se dice que la serie { }Ttxt ε, es débilmente estacionaria o simplemente

estacionaria sí:

1. El valor esperado [ ]txE es constante para todo Tt ε

2. La matriz de covarianza de { }nttt xxx ,,

21, L es la misma que la matriz de

covarianza de { }hththt nxxx +++ L,,

21 para cualquier conjunto finito de

{ }nttt ,,, 21 L de T y cualquier h tal que ( )hththt n +++ ,,, 21 L esté en T.

En particular, para una serie estacionaria ocurre necesariamente que:

• [ ] μ=txE , y no se pierde nunca generalidad si se supone que 0=μ porque de

lo contrario bastaría centrar las variables, esto es trabajar con μ−tx En otras

palabras, las series estacionarias no muestran tendencias.

• [ ]txVar es constante, porque ( ) ( )hthttt xxCovxxCov ++= ,, Esta propiedad se

conoce como homocedasticidad de la serie.

A veces, estas condiciones se utilizan prácticamente para decidir si una serie es

estacionaria, o al menos, la violación de una de ellas: la existencia de una tendencia o la

heterocedasticidad es suficiente para inferir que no es estacionaria.

1.3.2 Funciones de Autocorrelación. Sobre una serie estacionaria ocurre además que: la covarianza entre tx y htx + es

una función sólo de h y no de t y por tanto, es posible hablar de la función de

covarianza:

( ) ( ) ( )( )[ ]μμ −−== ++ htthtt xxExxhv , Cov como una función que depende sólo

del “retardo” h.

De la misma forma, es posible definir la función de autocorrelación:

( )[ ] [ ][ ]

( )[ ]t

httxxx

xxhACF

Var , Cov

Var xVar

, Cov)(

El estudio de la función )(hACF juega un papel fundamental en el análisis de las

series de tiempo. Para una serie de tiempo definida en el conjunto de los números

enteros, esta función es par y en 0 vale siempre 1; por ello se trabaja sólo para 1≥h . Su

gráfico se denomina correlograma:

Figura # 1.

Figura 1. Aspecto general del gráfico de una función de autocorrelación arbitraria

Observe que:

ACF(0) = 1 porque representa la correlación de tx con ella misma

ACF(1) representa la correlación tx y 1−tx ó entre tx y 1+tx , esto

es, entre dos valores “consecutivos” de la serie.

ACF(2) representa la correlación entre tx y 2−tx , ó entre tx y

2+tx esto es, entre dos valores distantes un retardo 2, etc.

La autocorrelación puede definirse también para una serie no estacionaria pero

resultaría en general una función de t y de h.

Junto con la función de autocorrelación tiene también interés el estudio de las

autocorrelaciones parciales:

Dada una serie estacionaria ),( Ttxt ε y un retardo 2≥h , se llama

autocorrelación parcial de tx y htx − , al valor de la correlación parcial tx y htx − -en el

sentido general estadístico- ajustada por )1(21 ,,, −−−− httt xxx L . Más precisamente, la

función de autocorrelación parcial PACF (h) se define por:

[ ][ ]112211

1111112211Var

+−−−−

+−−−+−−−−−−−

−−−−−−

hthttt

hthhththtttxxxx

xxxxxxxρρρ

ρρρρρL

donde )(iACFi =ρ es el coeficiente de autocorrelación i-ésimo.

El carácter estacionario de la serie determina también que PACF(h) esté

correctamente definida.

Obsérvese que los coeficientes de autocorrelación parcial se definen naturalmente

para 2≥h , ajustados a h-2 valores intermedios entre tx y htx − , que son

)1(21 ,,, −−−− httt xxx L . Puede extenderse esta definición para h = 0 y h = 1.

PACF (0) = ACF (0) = 1

PACF (1) = ACF (1) = ( )1, Cov −tt xx

1.3.3 Disturbio aleatorio o ruido blanco. Se llama “disturbio aleatorio” o “ruido blanco” a una serie { }Ntet ε, compuesta

de variables no correlacionadas te con media 0 y dispersión 2σ . Los ruidos blancos son

series estacionarias triviales pero juegan un papel teórico y práctico importante en la

teoría de series de tiempo y el estudio se señales.

Para un ruido blanco resulta obvio que la función de autocovarianza es:

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

hsihsihv σ

y por tanto

⎭⎬⎫

⎩⎨⎧

)(hsihsi

Por otra parte:

[ ][ ] 0

Var ,x Cov

121t =−

−−=

−−−

xxxPACF

ρρρ

porque 0)1( == ACFρ . Lo

mismo ocurre para h > 2 y entonces PACF(h) = ACF(h) y es trivial en este caso.

Cuando modelamos una serie de tiempo arbitraria ),( Ntxt ε a partir de una

representación ),,,( 21 nxxx L buscamos muchas veces una función S(t) para la cual

tt etSx += )( donde los residuales te ),,3,2,1( ni L= constituyen una representación

de un ruido blanco y por tanto no deben mostrar ninguna correlación. De esta forma

precisamos que no aspiramos a encontrar exactamente S de manera que )(tSxt = pero si

tal que tt etSx += )( .

Realmente, los modelos de una serie de tiempo se definen de una forma algo más

compleja que con una simple función S(t) pero sigue valiendo la idea de que aspiramos

a un modelo aproximado con un residual que sea un ruido blanco.

1.3.4 Camino Aleatorio. Se llama “camino aleatorio con media μ ” a una serie ),( Ntxt ε que se define por

las relaciones:

11 ex += μ

tt ex += μ

donde ),( Ntet ε es un ruido blanco ),( 2σo

Un camino aleatorio no es una serie estacionaria pues [ ] μ=txE (constante) pero

hay heterocedasticidad: [ ] 2Var σtxt = . En efecto:

[ ] [ ] μμ =+= 11 eExE

[ ] [ ] [ ] μ=+= 212 eExExE

y por inducción:

[ ] [ ] [ ] μ=+= − ttt eExExE 1

Ahora bien:

( ) ( )[ ] [ ] [ ] 22211

21 2 σμμμμ +=++=+= eEeEeExE

( ) ( )[ ] [ ] [ ] 222221

22 22 σμμ +=+++=+= eEexEeexExE

porque [ ] ( )[ ] [ ] [ ] 02122121 =+=+= eeEeEeeEexE μμ

y por inducción:

[ ] ( )[ ] ( ) [ ] [ ] 2221

2 21 σμσμ teEexEtexExE tttttt +=++−+=+= −−

porque [ ] 01 =− tt exE

En definitiva

[ ] [ ] [ ] 222 σtxExExVar ttt =−= y esto es suficiente para demostrar que la serie no

es estacionaria.

Para un camino aleatorio, la covarianza entre tx y htx + no es sólo una función de

h, sino también de t. En efecto:

( ) [ ] [ ] [ ] [ ] 2))((, Cov μμμμμ +−−=−−= ++++ htthtthtthtt xExExxExxExx

( ) [ ] 22, Cov σμ txxExx htthtt =−= ++

porque [ ] [ ] [ ] 222 σμ texExExxE httthtt +=+= ++

Si calculamos

( )[ ] [ ][ ] 2/1

t Var xVar

, Cov),(),(

htthtt

xxxxCorrhtACF

se tendrá que:

[ ] 2/14

)(),( htt

thtACF +=+

1.4 Procesos Autorregresivos. Un conjunto grande de series de tiempo –por ahora no estacionales (en el sentido

de no periódicas)- puede ser modelado por uno de los tipos siguientes:

a) Una serie autorregresiva de orden p, esto es, una serie de la forma:

iit exx += −

b) Una serie de medias móviles de orden q, esto es, una serie:

jjtt eex −

=∑+=

c) Una serie mixta: autorregresiva de orden p y de medias móviles de orden q, esto es,

una serie de la forma:

∑∑=

−−=

jjtjtit

iit eexx

11βϕ y en todos los casos te denota un ruido blanco.

Lo interesante es que para estos tipos de series, y para otras que se reducen a ellas,

están caracterizadas:

• Las condiciones sobre las bases de la cual son estacionarias

• La forma de los correlogramas correspondientes a las funciones ACF(h) y

PACF(h) que permitan identificarlas.

• Los mejores métodos de estimación de los parámetros iϕ para pi ,,2,1 L= y

los parámetros jβ para qj ,,2,1 L= que precisan el modelo.

• Los criterios para seleccionar entre varios modelos posibles cuál es el mejor.

• Los estimadores óptimos lineales de los valores pronosticados.

Las dos primeras caracterizaciones son esenciales porque ellas permiten, a partir

de una muestra o realización concreta de la serie, determinar (o al menos aproximar) a

priori, a cuál modelo se ajusta, luego acometer la estimación y el diagnóstico del

modelo y finalmente el pronóstico si éste es un objetivo del estudio.

1.4.1 Series Autorregresivas de Primer Orden Veamos algunos casos particularmente de p antes de generalizar:

• Caso 1=p

Una serie autorregresiva de primer orden, tiene esencialmente la forma: itt exx += −1ρ

Como veremos inmediatamente, esta serie es estacionaria si y sólo si 1<ρ y en

tal caso este parámetro: ρϕ =i que identifica la serie, es ),()1( 1−= tt xxCovACF .

En efecto, escribiendo: itt exx += −− 21 ρ o más generalmente

ititit exx −−−− += 1ρ para ni ,,2,1 L= y sustituyendo sucesivamente en la serie,

obtenemos ∑−

=−− +=

Nt exx ρρ y en “cierto sentido” de convergencia de serie, si

1<ρ se tiene la representación: ∑∞

it ex ρ

De allí resulta que:

0)( =txE para todo t, y 2

1)()( σ

ρρρσ ∑∞

−===

htt xxEhv para

El “cierto sentido” de convergencia de series no es trivial; pero no vamos a

desarrollarlo aquí. Vale la pena sin embargo notar que no descartamos la posibilidad de

que μ=)( txE (constante pero ≠ 0) porque la serie está definida por una relación de

recurrencia sin una definición de un primer elemento; pero esto será retomado

posteriormente, al final de este epígrafe.

Entonces, si 1<ρ la función de autocorrelación viene dada por:

hhACF ρ=)( para LL,,2,1=h

Podemos calcular fácilmente y comprobar que:

0),( 121 =−− −−− tttt xxxxCov ρρ ó también

0),( 12

1 =−−−− −−−−− tttttt xxxxxxCov ρρρρ

En general:

⎭⎬⎫

⎩⎨⎧

=2 si 01 si

hPACFρ

Entonces:

Figura # 2.

Figura 2. Correlogramas para un movimiento autorregresivo de primer orden

1.4.2 Serie Autorregresiva de orden p Para una serie autorregresiva de orden p: tptpttt exxxx ++++= −−− ϕϕϕ L2211

se cumple que:

Si las raíces pmmm ,,, 21 L de la ecuación característica:

11 =−−−− −−

pppp mmm ϕϕϕ L tiene valor absoluto menor que uno, entonces:

1. tx puede representarse de la forma siguiente: ∑∞

0jjtjt ewx donde los jw

son encontrados de manera que satisfacen una ecuación en diferencias

análogas a la serie: pjpjjj wwww −−− +++= ϕϕϕ L2211 en las condiciones

iniciales.

2. La serie estacionaria, con media 0 y función de autocovarianza:

( ) ∑∞

jhjj wwhv σ para 0≥h .

3. ACF(h) ----> 0 cuando h ----> ∞ y con el orden ha para cierto a de módulo

menor que 1. 0)( =hPACF para ph > . Por tanto, el correlograma de la ACF

muestra una declinación exponencial (posiblemente sinusoidal amortiguada

exponencialmente) y el correlograma de la PACF muestra exactamente p

espigas.

1.5 Series de Medias Móviles.

1.5.1 Series de media móvil de primer orden.

Sea la serie de medias móviles: 1−+= ttt eex β Aquí 22 )1()( σβ+=txVar y

⎭⎬⎫

⎩⎨⎧

hvσβ

Por tanto, 21)1(

=ACF y ACF (h) = 0 para 2≥h

No es difícil ver con cálculo elemental, que el máximo valor posible de ACF(1) es

0.5 y se alcanza para 1=β , mientras que el mínimo es -0.5 y se alcanza con 1−=β

Para cualquier valor de ρ (0, 0.5), existen dos valores de β , tales que ACF(1) = ρ .

Lo mismo ocurre para cada valor de ρ en (-0.5, 0). Los dos valores correspondientes de

β en cualquier caso satisface uno la condición 1<β y el otro la condición 1>β .

Lo que se quiere destacar es que el coeficiente de autocorrelación de primer orden

en una serie de medias móvil de orden 1 no puede ser tampoco demasiado grande:

5.0≤ρ

Nótese que aunque 0)( =hACF para nh ,,3,2 L= la función de

autocorrelación parcial no se anula para todos estos valores. En efecto:

( ) 42

)(ββ

βββ

ρρρ

−−−

xxVarxxxxCov

hPACF en particular PACF

(3) tiene el mismo signo que ρ (signo de β )

PACF(h) = 0 para h = 4, 5, 6,…

Obsérvese además que si escogemos β tal que 1<β , entonces:

30)()3()2()1( 2 >=<<= hsihPACFyPACFPACFPACF ρρρ

En la figura 3 pueden observarse los correlogramas para el proceso de media

móvil de primer orden

Figura # 3

Figura 3. Correlogramas para un proceso de media móvil de primer orden.

1.5.2 Series de medias móviles de orden q.

Las series de medias móviles de cualquier orden ∑=

−+=q

jjtjtt eex

β son siempre

estacionarias con media cero y varianza ∑=

22 βσ (aquí convenimos en utilizar 10 =β

para abreviar expresiones). Y no es difícil ver que para cada 0≥h , se tiene:

[ ]⎥⎥⎦

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎥⎥⎦

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛== ∑∑∑∑

jjtjhtt eeEeeExxEhv

0000)( ββββ

Entonces ⎪⎭

⎪⎬

⎪⎩

⎪⎨

≤≤= ∑

2 ββσ y por tanto:

⎪⎪⎪

≤≤

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

qhhACF q

ββρ

esto es, el correlograma asociado

a la ACF muestra q espigas (para h entre 1 y q) y luego valores 0 (para h>q)

Caso q = 2.

Consideremos la serie de medias móviles de segundo orden:

2211 −− ++= tttt eeex ββ

Entonces:

¨ ν(h)=

⎪⎪

γββ

ACF(h)=

⎪⎪⎪

ρββ

ρββββ

A partir de esto sólo con trabajo algebraico se demuestra que la PACF(h) decrece

en valor absoluto para h = 1, 2,…, 6 y además para 7≥h PACF(h) = 0. La razón de

esto último es que:

PACF (7)=[ ]

[ ]2211

56172211 ,

−−

−−−−−

−−−−−−

tttttt

xxxVarxxxxxxCov

ρρρρρρ

y al desarrollar el numerador, las variables más “próximas” a correlacionar

resultan 2−tx y 5−tx para las cuales el coeficiente de correlación ACF(3) es igual a cero.

Figura # 4

Figura 4. Correlogramas para un proceso de media móvil de segundo orden.

La esencia de estos resultados se generaliza evidentemente. Para una media móvil

de orden q resulta también que qhACF ρ=)( para qh ≤ y 0)( =hACF para qh >

Además, se tiene que:

PACF(h)=[ ]

[ ]qtqtt

qhtqhthtqtqtt

xxxVarxxxxxxCov

−−

+−+−−−−

−−−

−−−−−−

ρρρρρρ

..........,.....

Al desarrollar el numerador, las variables “más próximas” a correlacionar resulta

qtx − y qhtx +− que tienen un “retardo” qh 2− Entre ellas el coeficiente de correlación se

anulará cuando qqh >− 2 , esto es cuando qh 3> . Por ello, para un proceso de medias

móviles de orden q es cierto en general que PACF(h) = 0 para h>3q. Puede demostrarse

además que PACF(h) decrece exponencialmente (en valor absoluto) para h = 1, 2,…, 3q

donde es diferente de cero.

Entonces, con independencia de los coeficientes de la serie de media móvil:

)0( 00

== ∑=

− ββq

jjtjt ex

resulta que:

1. La serie es estacionaria con media 0 y

ν(h)=⎪⎭

⎪⎬

⎪⎩

⎪⎨

≤≤∑−

2 ββα

2. ACF(h) = 0 para h > 0

PACF(h) → 0 cuando h → ∞ rápidamente y más precisamente 0)( =hPACF

para h > 3q.

Por tanto, el correlograma de la ACF muestra q espigas y el correlograma de la

PACF aparente una declinación exponencialmente (posiblemente sinusoidal

amortiguada exponencialmente) hasta h = 3q.

Este resultado es bastante simétrico al correspondiente a series autorregresivas;

pero hay dos detalles que rompen esa simetría:

1. No se necesita imponer ninguna condición a los coeficientes de la serie móvil

para que se garantice su carácter estacionario (en las series autorregresivas sí)

2. Nada dice acerca de la posibilidad de representar una serie móvil como una

serie autorregresiva de “orden infinito” (como realmente ocurre a la inversa)

En efecto, no todas las series móviles admiten tal representación. En tal caso, se

dice que la serie móvil es inversible. Y, precisamente, se demuestra que:

Dada la serie móvil

)0( 00

== ∑=

− ββq

jjtjt ex

con ecuación característica definida por:

0.....22

11 =++++ −−

qqqq mmm βββ

si las raíces características qmmm ,,, 21 L son todas menores que 1 en valor

absoluto, entonces la serie es inversible:

i exc =−

donde los coeficientes ic se obtienen a partir de una ecuación en diferencias análogas a

la parte móvil:

0.....2211 =++++ −−− qiqiii cccc βββ

con las condiciones iniciales:

1322112112110 .....;.....;;;1 −−−− −−−−=−−=−== qqqq ccccccc ββββββ

y así se alcanza la simetría esperada.

Hasta ahora utilizamos la representación para la serie móvil con coeficientes jβ y

en particular 00 =β para facilitar la descripción de las funciones ACF y PACF; pero la

simetría de la ecuación característica, de la ecuación en diferencias y de las condiciones

iniciales se hace más “bonita” si en utilizamos una representación de la serie móvil en la

forma:

jjtt eex −

=∑−=

Desde el punto de vista práctico vale la pena recordar que si identificamos un

proceso como autorregresivo de orden p alto, probablemente pueda representarse

fácilmente como una serie de media móvil con un orden bajo y viceversa, si la serie de

media móvil es inversible.

1.6 Procesos ARMA(p, q) Son en general procesos donde se combina un carácter autoregresivo de orden p

con el de media móvil de orden q.

1.6.1 Procesos ARMA (1.1) 111 <−=− −− ϕθϕ coneexx tttt

Se demuestra para esta serie que:

ν (h)=

⎪⎪⎭

⎪⎪⎬

⎪⎪⎩

⎪⎪⎨

−−

=−−+

− ,...3,2,11

h γϕϕ

θϕϕθ

ϕθθ

Y por tanto:

ACF(h)= ,...3,2,121

))(1( 12 =−+

−− − hhϕϕθθθϕϕθ

Si denotamos

=ρ ACF(1)=ϕθθθϕϕθ

21))(1(

2 −+−−

tenemos

ACF(h)= 1−hϕρ

para cualquier 1≥h .

Entonces la función de autocorrelación de una serie ARMA(1, 1) tiene la misma

apariencia que la de una serie AR(1) en el sentido de que ella declina en una razón

geométrica donde la razón se determina por ϕ

Con estos datos se puede determinar también la PACF(h) y después de cierto

trabajo de simplificación verificar que ellas tienen la apariencia de una serie MA(1) en

el sentido de que declinan rápidamente a ceros aunque realmente se anulan teóricamente

a partir de un valor de h.

Figura # 5

Figura5. Correlogramas para un proceso ARMA(1,1).

1.6.2 Serie ARMA(p,q). Consideremos ahora las series de la forma:

itt eexx −

==− ∑∑ −=−

1111 θϕ

Box y Jenkins (1970) sugirieron la notación abreviada ARMA (p, q) para referirse

a las series de ese tipo. Las series autorregresivas puras ARMA (p, 0) pueden

denominarse simplemente AR(p) y las medias móviles puras ARMA (0, q) como

MA(q). Si se quiere, podremos utilizar la notación ),( qpARMAxtε para referir —en

un lenguaje más matemático— que tx , pertenece a la clase de series ARMA (p, q); pero

este lenguaje no es la parte esencial.

Aunque evitemos la demostración, es natural esperar que una serie ARMA(p, q)

cuya ecuación característica asociada a la parte autorregresiva:

0.....22

11 =−−−− −−

pppp mmm ϕϕϕ

tiene todas sus raíces con valor absoluto menor que 1, es representable por una serie

)(∞MA y es entonces estacionaria. Si además la ecuación característica asociada a la

parte móvil:

0.....22

11 =−−−− −−

qqqq mmm θθθ

tiene todas sus raíces con valor absoluto menor que 1, es “inversible” en el sentido que

es representable por una )(∞AR .

Estos hechos permiten estudiar las funciones ACF y PACF para una serie

ARMA(p,q) y adivinar que se presentarán combinaciones de las situaciones propia de

los procesos AR(p) y MA(q). Además determinan que tienen interés práctico las series

de tiempo definidas por la combinación de componentes autorregresivas y medias

móviles de bajo orden.

Finalmente, introducimos una notación de operadores para representar los procesos

ARMA(p,q).

1.6.3 Notación de operadores de un proceso ARMA.

Sea, β el operador de retardo, definido para cualquier serie como:

1−= tt xxβ

Retardos de más alto orden pueden obtenerse por aplicaciones sucesivas de β

22 )( −== ttt xxx βββ

y en general

th xxx −

− == )( 1βββ

Si convenimos en denotar por “1” el operador identidad entonces un operador de

la forma ( )ha β−1 donde a es una constante queda definido por:

httth axxxa −−=− )1( β

En términos de este operador podemos representar:

- Un proceso autorregresivo AR(p) en la forma:

p ex =−−−−− ).....1( 33

221 βϕβϕβϕβϕ

- Un proceso de medias móviles MA(q) en la forma:

qt ex ).....1( 33

221 βθβθβθβθ −−−−−=

- Un proceso mixto ARMA(p,q) en la forma:

p ex ).....1().....1( 33

2211 βθβθβθβθβϕβϕβϕβϕ −−−−−=−−−−−

La mayoría de los paquetes estadísticos computacionales utilizan estas

representaciones y normalmente le llaman a:

)(iARi =ϕ o de alguna forma, el coeficiente autorregresivo regular de orden i,

)( jMAj =θ o de alguna forma, el coeficiente de media móvil regular de orden j

Debemos todavía incluir el caso autorregresivo con media constante μ (diferente

de cero), como también el caso de proceso de medias móvil “trasladado” a una media

μ diferente de cero. Podemos lograr esto con dos alternativas equivalentes:

1ra.- Sustituyendo en las representaciones anteriores a tx por ( ):μ−tx

p ex ).....1())(.....1( 33

2211 βθβθβθβθμβϕβϕβϕβϕ −−−−=−−−−−−

Así por ejemplo, se trabaja prácticamente con el SPSS/PC donde además de los

parámetros AR(i) y MA(j) se determina una constante que es μ , la media de la serie.

2da.- Incluir en el miembro derecho de las representaciones anteriores un término

δ que “determina” la media constante de la serie:

p ex ).....1().....1( 33

2211 βθβθβθβθδβϕβϕβϕβϕ −−−−−+=−−−−−

Así por ejemplo se trabaja prácticamente con otros paquetes (no el SPSS) donde

además de los parámetros Autorregresivos y de medias móviles se determina la

constante δ que se relaciona directamente con la media de la serie.

La equivalencia de las dos representaciones es consecuencia de que el operador β

aplicado sobre una constante, no la altera. Entonces, es muy fácil demostrar que:

δμϕϕϕϕ =−−−−−− ).....1( 321 p

Ahora resulta de especial interés estudiar las series que muestran una media no

constante, esto es “separar” la tendencia de la serie de su comportamiento

autorregresivo o de media móvil.

1.7 Procesos no estacionarios Las series de tiempo que muestran (en media) una tendencia lineal, cuadrática o

en general polinómica se convierte en estacionarias después del proceso de

“diferenciación”.

1.7.1 Proceso de diferenciación Dada una serie tx llamaremos serie diferenciada a la serie:

1−−=Δ= tttt XXXY

Una segunda diferenciación conduce a la serie:

212 2)( −− +−=ΔΔ=Δ ttttt xxxxx

y en general una diferenciación de orden “d” conduce a la serie:

xx −=

−⎟⎟⎠

⎞⎜⎜⎝

⎛−=ΔΔ=Δ ∑

1 )1()(

Lo esencial se forma con ideas como estas:

Primera: Si una serie muestra una tendencia lineal, su serie diferenciada muestra

una media constante. En efecto:

Supongamos que:

tt Ybatx ++=

donde Yt es por ejemplo, una serie con media constante

Entonces, la serie diferenciada tt XZ Δ= tiene la forma:

11 −− −+=−= ttttt yyaxxZ

que tiene media constante igual a “a” porque Yt — Yt-1 tiene media cero.

Segunda: Si una serie muestra una tendencia cuadrática, su serie diferenciada dos

veces muestra una media constante. En efecto:

Supongamos que:

tt ycbtatx +++= 2

donde Yt es por ejemplo, una serie con media constante.

Entonces, la serie diferenciada una vez presenta una tendencia lineal:

tt Ybaatx Δ++−=Δ 2

y por tanto diferenciada dos veces, tiene una media constante.

El proceso de “diferenciación discreta” conduce a resultados análogos a la

diferenciación analítica de una función polinomial. En general:

Si una serie muestra una tendencia polinomial de orden, “d”, la aplicación de “d”

diferenciaciones la reducirá a una serie con media constante. En la práctica suele ser

necesario diferenciar una serie 0,1 ó 2 veces a lo sumo, porque de una parte, resulta

difícil precisar tendencias polinomiales reales de más alto orden. De otra parte, el

proceso de diferenciación excesivo pueden complicar el análisis, porque incrementa la

varianza de la serie transformada, cambia la estructura del modelo de la parte restante a

la tendencia y por tanto, hace más difícil la identificación y menos eficiente la

estimación

En otras palabras sí:

tdt Ytpolinomiox += )(

está claro

td Yteconsx Δ+=Δ tan

Pero si ∈tY ARMA(p, q), no hay por qué pensar que ∈Δ Yd ARMA(p, q) y mucho

menos que el modelo de YdΔ tenga una estructura mas simple que el modelo de tY .

Analice por ejemplo que ocurre cuando ∈tY AR(1) con 1)1( =ACF o )1(ACF <1

Por ello no hablaremos de series “con una componente de tendencia” y “otra

componente ARMA” sino de series, que “una vez diferenciadas, presente una estructura

de modelo ARMA conocida”.

1.7.2 Procesos ARIMA Se llaman series “d—integradas ARMA aquellas series que después de diferenciar

“d veces” se convierten en una serie ARMA. Se utiliza la denominación ARIMA. ( la

“I” viene de Integrated para representar los modelos de este tipo, en forma abreviada

ARIMA(p,d,q).

Para representar una serie que se modela como ARIMA en términos de

operadores, vale la pena comprender que:

tttt xxxx )1(1 β−=−=Δ −

La diferenciación de orden “d” se expresa en la forma:

td xx )1( β−=Δ

lo que es concordante con la forma “binomial” del operador dΔ .

Si después de la diferenciación la serie tiene una media constante μ entonces es:

( )[ ]μβ −− td x1 la serie que tiene una estructura ARMA.

El modelo ARIMA (p,d,q) se expresa definitivamente en la forma:

p ex ).....1()1)(.....1( 221

221 βθβθβθββϕβϕβϕ −−−−=−−−−− donde

td x)1( β− debe ser sustituido por [ ]μβ −− t

d x)1( si la serie diferenciada tiene una

media μ diferente de cero o equivalente, debe ser incluida una constante aditiva δ en el

miembro derecho que se determina a partir de μ por la relación :

μϕϕϕδ )......1( 21 p−−−−−=

Esencialmente, la diferenciación estabiliza la media cuando la serie muestra una

tendencia polinómica. La diferenciación procura el carácter estacionario para muchas

series que no lo tienen; pero hay comportamientos no estacionarios que no se resuelven

con diferenciación.

Por ejemplo, las tendencias periódicas (estacionales) en una serie no se resuelven

con diferenciación, al menos con una diferenciación como la aquí descrita. En el último

epígrafe hablaremos en particular de las series periódicas y de la eliminación de la

tendencia estacional. Otro ejemplo más sencillo, una tendencia exponencial, no puede

ser eliminada por un proceso de diferenciación solamente. Una falta de estabilidad de la

varianza tampoco. En estos casos hay que hacer transformaciones potencia seguidas o

no eventualmente de diferenciación.

Una violación del carácter estacionario de la serie, a causa de heterocedasticidad

es mucho más seria que por una tendencia; pero también es importante analizar como

eliminarla para ampliar las series reducibles a procesos ARIMA.

No existen reglas fijes para, seleccionar la transformación potencial idónea; pero

tal como ocurre en la regresión existen algunas sugerencias que pueden ser

prácticamente importantes:

Por ejemplo:

- Sí la serie evidencia una varianza creciente con la media, es recomendable una

transformación logarítmica

- Si la serie evidencia una media constante μ pera una varianza irregular, es

recomendable una transformación estrictamente potencial Ptx que se logra muchas veces

con 21=p ó 2

1−=p ó 1−=p

Es difícil tener evidencia de la varianza no constante “a priori” antes de intentar el

modelo; pero con un poco de práctica puede apreciarse en el grafico inicial de la serie y

alcanzar la estabilización tanteando transformaciones potencias (o logarítmicas)

sencillas como las mencionadas.

Si no percibiéramos la falta de homogeneidad de varianza llegáremos a realizar el

modelo, y los residuales no mostraran una varianza constante, ello es indicativo de que

la serie necesita una transformación p determinada por: p=1-0.5*h*μ

donde h se determina como un coeficiente de regresión lineal de los residuales et

respecto a los valores pronosticados Xt por e1 modelo y divididos por su varianza S2

Por último para una serie no estacionaria, las funciones ACF(t, h) y PACF(t, h),

dependen de t además de h; pero si se intentan trazar, utilizando por ejemplo sus valores

en t=1 como si fueran independientes de éste, mostrarán un comportamiento

cualitativamente diferente a los referidos anteriormente. Probablemente se manifiesten

como funciones decrecientes de h; pero no en razón geométrica, o como funciones

irregulares de h, con espigas aleatorias y aisladas, por lo cual los correlogramas pueden

ser indicadores también de la falta de estacionaridad y por tanto de la necesidad de

transformar y/o diferenciar la serie.

Figura # 6

Figura 6. Ejemplo de correlograma de una serie con un tipo de no estacionariedad

bastante frecuente

Para mostrar un ejemplo recuérdese el caso de un camino aleatorio, que es, un

movimiento autorregresivo no estacionario:

)1( 11 =+= − ϕttt exx

A esta serie responde en la práctica, por ejemplo el precio de un producto en el

que tenga una demanda estacional.

Si partimos de los datos de precios de un producto de este tipo a lo largo del

tiempo, plateamos la serie y los correlogramas, observamos que la serie no evidencia

tendencias y que la función de autocorrelación declina lentamente a cero.

Si plateamos las correlogramas de la serie diferenciada observamos que la ACF(h)

y la PACF(h) no muestran ninguna espiga significativa. Ello sugiere que la serie

diferenciada es ARMA(0,0) y la serie original esARIMA(0,1,0)

Realmente, y desde el punto de vista teórico, la ACF(t, h) depende de t y de h. La

serie no muestra tendencias (la media es constante) pero falta la homogeneidad de

varianza. La serie diferenciada tt XY Δ= satisface: tt eY = y por tanto es trivialmente

un ruido blanco: ARMA (0, 0). Por ello, la serie original es efectivamente

ARIMA(0,1,0).

En definitiva, se tienen en cuenta los casos ARMA(p, q), cuyos correlogramas

están bastante bien caracterizados, los casos ARIMA(p,d,q) reducibles a los anteriores

por diferenciación “d” veces y los casos de series que después de una transformación se

reducen a ARIMA(p,d,q), se abarca una amplía clase de series de tiempo identificables.

El grafico de la serie y de los correlogramas proporciona un método bastante efectivo

de identificar una serie que se ajuste o se reduzca a un modelo ARIMA(p,d,q) y esta

constituye la base fundamental de la metodología de Box – Jenkins para el estudio de

series de tiempo no estaciónales

Cuando estudiemos la metodología de Box—.Jenkins completaremos el tema de la

identificación de un modelo ARIMA sobre la base de “aproximaciones sucesivas”.

1.8 Complementos teóricos: estimación, diagnóstico y pronóstico en modelos ARIMA

Ya sabemos que una serie ARIMA(p,d,q) muestra necesariamente cierto

comportamiento de las funciones ACF(h) y PACF(h) que sirven para identificar el

modelo. La teoría matemática de las series de tiempo abarca criterios para lograr las

estimaciones de máxima verosimilitud de dichas funciones a partir de datos observados

o realización de una serie, que responden bastante a nuestras ideas intuitivas y cuyos

detalles escapan a los objetivos de materialista introducción teórica.

Una vez identificada la estructura ARIMA(p,d,q) a la cual responde

(probablemente) la muestra de una serie de tiempos el paso próximo y más importante

es la estimación estadística de los parámetros del modelo, a saber, de los

coeficientes pii ,,2,1, L=ϕ de la componente autorregresiva; los coeficientes

pji ,,2,1, L=θ de la componente de media móvil y la constante μ , media de la

serie diferenciada o el parámetro δ equivalente.

La argumentación matemática de la estimación estadística de los parámetros se

fundamenta en la teoría de estimadores de máxima verosimilitud [#]. Desde un punto de

vista más práctico puede ser suficiente conocer que la mejor estimación en general se

logra con una linealización del modelo y minimización de la suma de los cuadrados de

las diferencias entre los valores reales de la serie de trabajo (suponiendo. que es

estacionaria) y los predichos por un modelo con estimados iniciales de los parámetros

Se actualizan entonces estos estimaciones de los parámetros a partir de los resultados de

la primera iteración y el proceso se repite hasta alcanzar convergencia. Hay métodos

prácticos también para la estimación inicial sobre la cual se basa el proceso iterativo.

Cuando la serie no tiene valores perdidos, los estimados iniciales se hacen sobre la

base de un criterio de máxima verosimilitud y el algoritmo resulta particularmente

rápido. Se conoce así como algoritmo de Marquardt-Melard y es el que utilizan la

mayor parte de los paquetes serios de análisis de series de tiempo. En próximos

epígrafes comentaremos un algoritmo alternativo cuando la serie tiene valores perdidos

(algoritmo de Kalman).

Como criterios de convergencia o de finalización del algoritmo se pueden utilizar

alguno o varios de los siguientes:

- Un -valor- epsilon (por ejemplo 001.0=ε ) El proceso terminaría según este

criterio cuando el cambio en todos los parámetros estimados fuera menor que epsilon.

- Porcentaje de variación de la suma de cuadrados. El proceso iterativo debe

terminar si el cambio relativo en la suma de cuadrados es menor que cierta cantidad

prefijada que se denomina “SSQ percentage, por ejemplo, SSQ = 0.001%

- Un valor máximo de la constante de Marquardt. Esta es una constante que se

utiliza por el algoritmo de Marquardt-Melard y que se actualiza en cada iteración.

Generalmente esta constante debe ser cercana a cero cuando se obtienen las estimativas

finales. Un valor grande de la constante de Marquardt en una iteración indica problemas

condicionantes en los datos. Por ello, se formula un criterio de terminación (más bien de

“aborto”) del algoritmo en términos de que la constante de Marquardt no rebase un

valor, prefijado, por ejemplo 109

- Número máximo de iteraciones. Si se utiliza el algoritmo de Marquardt-Melard,

y el modelo está correctamente identificado se garantiza alta velocidad de convergencia.

Por tanto la necesidad de muchas iteraciones puede ser indicador de un problema y se

usa un máximo, por ejemplo, 10, para abortar.

No se debe perder de vista que en la estimación de parámetros perseguimos tres

objetivos:

1. que 1o valores predichos por la serie se diferencien lo menos posible de los

valores reales observados

2. que obtengamos residuales que no estén correlacionados entre sí.

3. que usemos tan pocas parámetros como sea necesario.

El tercer objetivo, conocido como criterio de parsimonia, es en cierto sentido

cuestionable cuando es la computadora quien hace las estimaciones y los pronósticos,

pero en general usar el menor número de parámetros facilitará la verificación del

modelo y el pronóstico.

Lograda en la práctica la estimación de los parámetros de una muestra, hay que

validar hasta que punto el modelo estimado es bastante bien la realización. Esta se

conoce como la fase de diagnóstico.

En la misma fase de estimación se pueden calcular varios estadísticos que ayudan

a chequear el cumplimiento de los objetivos de la estimación. Digamos por ejemplo,

para cada coeficiente ji θϕ , y la media, se construye un test de Student análogo al de

la regresión para verificar si el es significativamente - o no - diferente de cero y además

se hace un análisis de varianza para determinar el ajuste del modelo en general. Hay

también, otros criterios, análogos a los de la regresión o específicos para series y que

constituyen parte del chequeo diagnóstico, que es preferible ver en conjunto, sobre la

base de ejemplos concretos Se quiere sólo destacar aquí un detalle teórico sobre el

estudio de los residuales.

La parte más importante del diagnóstico es el chequeo de que los residuales

constituyan realmente un ruido blanco. Ello significa que debemos probar

estadísticamente que los residuales son no correlacionados, tienen media cero y varianza

constante. En la práctica ello se logra con el estudio de la función ACF(h) y PACF(h) de

la serie de los residuales, que debe mostrar en particular una estructura ARIMA(0,0,0),

esto es, ser un ruido blanco y ciertos Q-estadísticos (conocido como estadísticos de

Box-Ljung) que prueban la hipótesis nula de que esta serie corresponde a un ruido

blanco.

La diferencia aparente con él análisis de residuales de la regresión es que no

necesitamos probar que los residuales se distribuyen normalmente ni sean

independientes, ni siquiera tengan que la misma distribución para cada instante de

tiempo. Sin embargo, la efectividad de los pronósticos depende teóricamente en muchos

casos que los residuales sean independientes y la elaboración de los intervalos de

confianza es más fácil si los residuales se distribuyen normalmente (en este caso la

condición de ser independientes y no correlacionados es equivalente). Desde este punto

de vista, tiene interés saber adicionalmente si los residuales se distribuyan normalmente.

Otra fase que merece consideraciones teóricas importantes es la de pronóstico, lo

cual se analiza con el rigor estrictamente necesario para la comprensión. Las ideas

esenciales son las siguientes:

Dadas “n” observaciones de una realización se pretende predecir la observación

“n+s” donde s es un entero positivo. A causa de la naturaleza funcional de una

realización, la predicción o pronóstico no es otra cosa que una extrapolación.

Recuérdese que en el análisis de regresión clásico las extrapolaciones son muy

peligrosas y el mérito fundamental de la teoría de series de tiempo desde el punto de

vista práctico es la posibilidad de brindar pronósticos más certeros fuera de los

intervalos de valores observados hacia delante o hacia atrás.

Los procesos autorregresivos y de medias móviles, dan efectivamente esta

posibilidad; pero el carácter óptimo del pronóstico evaluando la serie para el instante

“n+l” y despreciando el residual, no es obvio (por ejemplo no sería efectivo si la serie

hubiera sido obtenida como una regresión normal en función del tiempo) y no deja claro

como proceder en el instante “n+2” (el pronóstico posterior) o más generalmente en el

instante “n+s”

El criterio, teórico que se usa es de la media del error cuadrático del predictor. Por

ejemplo, si

),.....,,( 21 nsn xxxx +

es el predictor de snX + basado sobre las n observaciones nXXX ,,, 21 L , entonces la

media del error cuadrático (MSE) del predictor se define por:

MSE{ } { }[ ]2

2121 ),.....,,(),.....,,( nsnsnnsn xxxxxExxxx +++ −=

Generalmente, los problemas de determinación de predictores óptimos requieren que se

restrinja la clase de predictores. Se investiga en particular el mejor predictor lineal para

una serie estacionaria con media y función de covarianza conocidas.

Los resultados se particularizan después en la forma siguiente:

Supongamos que tenemos un proceso AR(p) estacionario:

iit exx += −

1ϕ , done et tiene media 0 y varianza α2

El mejor predictor de 1+nX a partir de nXXX ,,, 21 L , (con n>p) es

precisamente:

iinn xxxxx −+

=+ ∑= 1

1211 ),.....,,( ϕ

Para este predictor, es claro que:

MSE= [ ] 22 α=teE

Ahora, el mejor predictor en dos pasos es:

2111212

),.....,,(),.....,,(

iinnnn

xxxxxxxxx

ϕϕϕ

y en general, el predictor para el instante “n+s” después se obtiene sustituyendo las

predictores para períodos más tempranos en el predictor para “n+l”

Un hecho que muestra que no todos los resultados son obvios es el siguiente:

Resulta que el caso AR(p) estacionario, el predictor mencionado es el que minimiza el

MSE con sólo la condición de que los residuales no estén correlacionados. Si además

los residuales te son independientes, el predictor es el valor esperado de snX +

condicionado a nXXX ,,, 21 L , pero si de los te solo sabemos que son no

correlacionados no se puede llegar a esta conclusión.

Si se tiene en particular que ),0( 2σε Net , entonces, la condición de ser no

correlacionados equivale a la condición de ser independientes y por ello el predictor es

el valor esperado de snX + condicionado a nXXX ,,, 21 L

El caso de predicción en una serie de media móvil es un paco más complicado;

pero no mucho más.

Supongamos que tenemos una serie MA(q) que sea inversible:

jjtt eex −

=∑−=

El pronóstico se complica porque debemos conocer valores de te anteriores al

actual. Supongamos que conocemos los te para 1,,1, +−−= qnnnt L . Entonces el

mejor predictor lineal de snX + sería:

⎪⎭

⎪⎬

⎪⎩

⎪⎨

≤≤−= ∑

sjjsnj

y si las te son independientes sería el valor esperado de snX + condicionado a

neee ,,, 21 L .

Sin embargo debemos desarrollar un predictor expresado en términos de las tX .

Si n es grande, la serie móvil invertida como proceso autorregresivo puede

truncarse para un orden finito y entonces estimar te a partir de valores anteriores de

tX ; pero obsérvese que esto exige una hipótesis más: que n sea suficientemente grande.

Algo similar ocurre con series mixtas ARMA(p,q). Por último, enfatizamos que si

los residuales son independientes, los preditores anteriores son insesgados, esto es:

{ }[ ] 0),.....,,( 21 =− ++ nsnsn xxxxxE

Por tanto, el MSE del predictor es su varianza y se puede usar esta información

para establecer límites de confianza para la predicción a partir de la distribución de los

te . En particular si los te se distribuyen normalmente, los intervalos de confianza para

el predictor se logran en la forma:

[ ]),.....,,(),.....,,( 2121 nsnnsn xxxxMSEtxxxx ++ ± α

donde αt se determina por la distribución normal y la confianza por αγ −=1 .

Capitulo II Metodología de Box-Jenkins para Series Regulares ARIMA. Tratamiento de Regresores

CAPITULO II

Metodología de Box-Jenkins para Series Regulares ARIMA. Tratamiento de Regresores

2.1 Introducción Dedicaremos una buena parte de este capítulo a presentar en detalle la metodología de

Box-Jenkins para la modelación ARIMA de series regulares. Ella se fundamenta en los

conceptos explicados en el Capítulo I. La metodología de Box-Jenkins es realmente un

proceso multi-paso e iterativo de análisis de series de tiempo y pronóstico consistente

esencialmente de cuatro fases que se explican en general en los primeros epígrafe.

Detallaremos posteriormente como se pueden incorporar al análisis de series ARIMA

ciertas variables independientes que ayudan al tratamiento de outliers, valores perdidos, y

el análisis de intervención

2.2 Fases del proceso de modelación ARIMA Las 4 fases del proceso en una modelación ARIMA según la Metodología de Box-

Jenkins son:

Identificación del modelo

Estimación de parámetros

Chequeo de diagnóstico

Pronóstico

Las ventajas de esta metodología sobre otras técnicas tradicionales son las siguientes:

1. Las series analizables por Box-Jenkins incluyen una clase bastante amplia de

modelos, de hecho todas las series ARIMA(p,d,q) o reducibles a ellas.

2. Pone énfasis especial y sistemático en la identificación del modelo. La metodología

de Box-Jenkins se basa en una teoría estadística bastante rigurosa de identificación

de modelos, que se ha introducido anteriormente y que se complementará ahora

con detalles interesantes.

3. La estimación de los parámetros se basa igualmente en una teoría estadística fuerte,

complementaria a la regresión.

4. Se puede verificar la validez o adecuacidad del modelo a través de chequeos

diagnósticos, que abarcan tanto a la significación de cada parámetro estimado

como la adecuacidad del modelo en su conjunto.

5. Se puede medir la seguridad del pronóstico. La modelación de Box-Jenkins

suministra mecanismos de generación de límites para el error en el pronóstico e

intervalos de confianza para medir la incertidumbre de los valores predichos, al

menos si los residuales se distribuyen normalmente.

La suposición de partida de Box-Jenkins, es que la serie de tiempo bajo análisis

pertenece a una clase de modelos ARIMA. Esto es, los datos que son analizados pueden

ser aproximados por un modelo ARIMA apropiado. El análisis de la serie de tiempo es el

proceso de determinación de una forma apropiada de este modelo, la estimación de los

coeficientes o parámetros del modelo identificado y su validación.

La metodología ayuda no sólo a identificar un modelo sino a perfeccionarlo en varias

de sus fases. Es importante comprender que para un juego de datos específico, puede

existir más de un modelo ARIMA que ajuste bien los datos. Por ello, el modelo puede

perfeccionarse como consecuencia de cada fase. El propio rastreo del pronóstico con

nuevos valores disponibles hace que una serie pueda también mejorarse a lo largo del

tiempo. Por razones de este tipo, es que el proceso se define como iterativo aunque se

distingan las 4 fases que antes mencionamos.

Es justo decir también que la metodología de Box-Jenkins no es un algoritmo pues no

garantiza siempre convergencia a una solución. De hecho, si la serie no es ARIMA o

transformable a una tal serie, esta metodología puede no ser aplicable.

2.3 Los procesos iterativos en la Metodología de Box-Jenkins Un “diagrama de flujo” que muestra las fases y el carácter iterativo se puede ver en el

anexo (2,1). Se comentan las etapas de esta metodología de las que no se ha hablado antes,

especialmente aquellas relacionadas con los “lazos” en este diagrama y que dan a la

técnica, el carácter iterativo.

En la fase de identificación del modelo, el gráfico de la serie y los residuales permiten

descubrir e identificar tendencias a la periodicidad, además de tendencias lineales,

polinómicas, o violaciones del carácter estacionario de la serie por falta de homogeneidad

de varianza. Ya se ha dicho que las transformaciones y/o diferenciaciones, permiten

muchas veces lograr carácter estacionario y esto explica el primer lazo. Los pasos

sucesivos de la Metodología de Box-Jenkins parten de que se ha alcanzado un carácter

estacionario de la serie.

Una vez que la serie es estacionaria, si es modelable ARIMA los correlogramas

trazados permiten una identificación inicial del modelo. El proceso de identificación puede

ser concebido como un proceso cíclico de aproximaciones sucesivas en el que intervienen

en el primer nivel, las fases de identificación, estimación y análisis de la autocorrelación

de los residuales (ver “lazo” correspondiente en el diagrama de la Metodología de Box-

Jenkins). En el segundo nivel, el diagrama abarca además el pronóstico y su contraste con

valores reales y se explicará más tarde.

La idea práctica de este primer lazo se puede fundamentar fácilmente con el llamado

Principio para la identificación sucesiva. Supongamos por ejemplo que al trazar

inicialmente los correlogramas tengamos duda de si el modelo es (0,1,1) ó (1,1,1). Podría

seguirse la estrategia de comenzar con el modelo más simple (0,1,1), se estiman los

parámetros, los residuales y los correlogramas de éstos. Si se evidencia que los residuales

no son autocorrelacionados, sino que responden por ejemplo, a un modelo (1,0,0),

entonces la serie original debe responder al modelo (1,1,1).

En efecto, si en el primer intento logramos: ( ) tt EBXB )1(1 1θ−=− y Et no es un ruido

blanco sino que satisface tt eEB =− )1( 1θ donde te es un ruido blanco, entonces, de la

combinación de estas dos ecuaciones resulta que: tt eBXBB )1()1()1( 11 θϕ −=−− . Aquí

B es el operador de retardo definido en el Capítulo I.

En virtud del álgebra de los operadores polinómicos, esta propiedad es generalizable de

la siguiente forma:

Si se intenta escribir tX como modelo ARIMA(p,d,q) y el residual tE no resulta un

ruido blanco, sino que realmente es todavía una serie ARIMA: )',','( qdpARIMAEt ε

con no todos los parámetros p´, q´ y r´ iguales a cero, entonces resulta que

)',','( qqddppARIMAX t +++ε .

En efecto para simplificar notaciones supóngase que se tiene:

p EBXBB )()1)(( Ρ=−Ρ

donde )(BPp y )(BPq son operadores polinómicos en B de sendos grados p y q, y que la

serie tE no es un ruido blanco sino que satisface la condición de que:

p eBPEBBP )()1()( =−

donde )(BPp y )(BPq son operadores polinómicos en B de sendos grados p’ y q’, y que la

serie te es un ruido blanco.

Entonces, combinando estas expresiones y aplicando la conmuntatividad y

asociatividad de la multiplicación de los operadores polinómicos se llega a:

tqqtdd

pp eBPBPXBBBPBP )()()1()1()()( '' =−−

[ ] [ ] tqqtdd

pp eBPBPXBBPBP )()()1()()( ''

' =− +

como se quiere demostrar.

Gracias a este principio, el usuario puede darse el lujo de comenzar suponiendo el

modelo con la estructura más simple entre las plausibles, y, analizando la correlación de

los residuales, determinar la posible necesidad de elevar el orden del modelo.

En general los gráficos de las series pueden ser útiles en cualquier fase. Téngase

presente que se puede hablar de la serie original, de la serie transformada (por ejemplo por

una transformación potencia o logarítmica), de la serie de trabajo (transformada o

diferenciada y ya estacionaria) de la serie de residuales, de la serie de pronóstico y de las

series límites de confianza (inferior y superior) del pronóstico.

Las estimación de parámetros es la fase de construcción del modelo donde calculamos

los valores específicos para cada uno de los parámetros AR(i) y MA(j) y μ (ó δ según el

paquete). Ya que la serie de tiempo que se está modelando es solamente una muestra o

realización del proceso que ella representa, realmente nosotros calculamos estimativas

muestrales de los verdaderos parámetros.

El diagnóstico comienza prácticamente con los estadísticos que surgen en la fase de

estimación, tiene un centro en el estudio de la correlación de los residuales y se extiende

hasta la etapa de pronóstico en el sentido siguiente.

Una práctica general y bastante usual, al comenzar el estudio de modelos de series de

tiempo, es reservar desde el principio una parte de los datos (digamos la última cuarta

parte) para validar el modelo y emprender todo el análisis, identificación, estimación y

diagnóstico con la primera parte de los datos. El pronóstico sobre el período de validación

y su comparación con los valores reservados reales proporciona un criterio efectivo de

cuán válidos son los pronósticos a partir del modelo estimado.

En el período de validación pueden comprobarse tanto los pronósticos a corto plazo

como los pronósticos a largo plazo. En el primer instante a pronosticar, el valor predicho

se estima a partir del segundo instante, tenemos dos alternativas: utilizar el valor real (que

está disponible) en el instante anterior, o utilizar el valor recién pronosticado para ese

punto. En general, si pronosticamos utilizando valores reales de la serie anteriores al

instante actual, aunque estén dentro del período de validación, los pronósticos serán más

exactos y validamos con ello el pronóstico a corto plazo. Si para predecir el valor en un

instante dado utilizamos sólo los valores reales que sirvieron de base en la estimación de la

serie y los valores pronosticados de instantes anteriores al caso, obtendremos un pronóstico

mucho más grosero porque la información real se acabará al cabo de ciertos pasos.

El pronóstico real, esto es, sobre un período para el cual no tengamos valores

reservados, es imprescindible utilizar después del primer paso, la información previamente

pronosticada.

El “agotamiento” de la información real disponible para el pronóstico a largo plazo es

particularmente notable en los procesos autoregresivos en los cuales el valor actual

depende apenas de p valores anteriores. En el caso de series de medias móviles y de

modelos mixtos (equivalentes, si son reversibles a modelos autoregresivos de muy alto

orden) la información real disponible tardará mucho más en agotarse, pero en cualquier

caso el pronóstico será mucho más impreciso. Después veremos que los mejores

pronósticos se pueden obtener en el caso de las series estacionales o periódicas, porque hay

dependencia de información anterior mucho más lejana.

Es importante recordar de la teoría que para obtener buenos pronósticos, es deseable

• Si hay componentes de serie móvil, esta sea inversible y se tengan bastantes datos

de base para hacer el pronóstico.

• En cualquier caso se tengan residuales independientes y de ser posible, distribuidos

normalmente.

Se comentan ahora los últimos cuadros del “diagrama de flujo”de la Metodología de

Box-Jenkins. En la misma medida que aparezcan nuevos datos para la serie de tiempo

objeto de estudio, el modelo previamente estimado para la serie original puede ser usado

para generar pronósticos nuevos y actualizados. Bastará adicionar los nuevos datos a la

serie y seleccionar un nuevo origen para el pronóstico, aunque se utilice el mismo modelo

previamente determinado. La práctica de adicionar datos y usar el mismo modelo para

calcular pronósticos mejorados puede continuarse hasta que los errores de predicción

sugieran una re-evaluación del modelo. En ese momento el modelo puede ser actualizado,

con la misma estructura o incluso una nueva. Si se trata de mantener la estructura y re-

estimación de parámetros con los nuevos datos de la serie conduce a un mal diagnóstico,

es mejor cambiar completamente el modelo; pero lo más frecuente es que apenas sea

necesario cambiar los valores de los parámetros.

La metodología de Box-Jenkins así formulada es válida también para el estudio de

series estacionales o periódicas, aunque todavía no se haya hecho referencia a ella.

El carácter periódico de una serie puede ser una propiedad muy buena a los fines de

pronóstico; pero para el análisis de Box-Jenkins, es imprescindible trabajar con series

estacionarias. La periodicidad en una serie es otro tipo de violación del carácter

estacionario y debe ser “eliminada” en la fase de identificación del modelo.

La extensión de la clase ARIMA a series periódicas y su identificación por las formas

especiales de la ACF y la PACF serán tratadas en el epígrafe siguiente; pero se quiere dejar

ya formulado el esquema de la Metodología de Box-Jenkins extendido a este tipo de series.

Por lo pronto baste decir que las tendencias periódicas se eliminan antes que otra

tendencia, utilizando procesos análogos a la diferenciación que se detalla posteriormente y

con ello, el proceso sigue las mismas fases que el de análisis de series no periódicas. La

identificación y la estimación consecuente de ciertos parámetros estacionales siguen la

idea del Principio de identificación sucesivas en el sentido que primero se reconocen y

estiman los parámetros estacionales, se analiza la pertenencia de éstos a una clase

ARIMA(p,d,q) clásica para entonces completar la identificación del modelo inicial.

2.4 El modelo ARIMA estacional. Generalización de la metodología de Box-Jenkins a series estacionales.

Muchas series de la vida real muestran una tendencia a la periodicidad fácilmente

explicable por condiciones naturales o intrínsecas al proceso. El análisis de Box-Jenkins

que hasta ahora se ha formulado y ejemplificado para el estudio de series regulares (no

periódicas) es elegantemente extendido al estudio de series con tendencia a la periodicidad,

a partir de la precisión de este concepto.

En matemática se dice que una función f(t) es periódica si cumple que:

)()( tfTtf =+ para cierto valor de T fijo y todos los valores de t de su dominio. Está claro que si dicha

propiedad se cumple con un valor de T, se cumple también con muchos otros, en

particular, todos los múltiplos enteros de T. Se llama período de la función al menor entero

positivo que satisface esta propiedad.

Intuitivamente hablando, las series de que hablamos no son “exactamente periódicas”

sino “aproximadamente periódicas” y por ello, se prefiere utilizar el concepto de series

estacionales en lugar de “series periódicas”. En este plano intuitivo, la serie Zt tiene

carácter estacional si

tSt ZZ ≈+ para cierto valor de S, y se llama estacionalidad de la serie al menor valor de S positivo

para el cual se cumple la igualdad aproximada anterior. Desde el punto de vista de una

realización concreta de Zt:

nSS zzzzzz LL 1321 +

estos valores observados deben mostrar un cierto comportamiento “cíclico” con máximos,

mínimos y fluctuaciones similares, cada S observaciones. La estacionalidad S, es pues, el

número de observaciones que yacen en un tal ciclo de una realización concreta.

( )( ) ( ) tQS

PSS eX βϑβϑβϑββφβφβφ −−−−=−−−−− ...11...1 2

21 Así, por ejemplo, si una serie representa un proceso aproximadamente periódico anual,

como (cada año es un ciclo) como ocurre frecuentemente en los procesos metereológicos

y las observaciones son mensuales, su estacionalidad es de 12. Si las observaciones son

trimestrales su estacionalidad es de 4, si son diarias es de 365. Si el carácter cíclico se

manifiesta semanalmente y las observaciones son diarias su estacionalidad es de 7 (si hay

7 observaciones cada semana); pero puede ser 6 (si por ejemplo se excluyen observaciones

de los domingos).

Aunque las ideas intuitivas sean claras, el concepto formal de series estacionales debe

ser más rigurosamente definido precisando el sentido de la periodicidad aproximada. Box

y Jenkins consideran series cuya estacionalidad es producto de alguno de los factores

siguientes:

1. El valor de Zt está significativamente correlacionado con los valores de

PStStSt ZZZ −−− ,,, 2 L para algún valor de P. Así aparecen las series autoregresivas

estacionales de orden P.

2. El valor de Zt está significativamente correlacionado por los disturbios o errores

aleatorios estacionales QStStSt eee −−− ,,, 2 L para algún valor de Q. Así surgen las series

de medias móviles estacionales de orden Q.

3. El valor de Zt está significativamente influenciado por la unión de los dos efectos

anteriores: modelos autoregresivos y de medias móviles estacionales de orden (P,Q)

con estacionalidad S.

4. Series Zt que después de una diferenciación estacional: StttS ZZZ −−=Δ o más

generalmente, después de “D” diferenciaciones de este tipo, responden a la categoría

anterior. Son las series D-integradas estacionalmente de series estacionales de orden

(P,Q) o más simplemente, series estacionales (P,D,Q) con estacionalidad S.

Utilizando el operador de retardo estacional Sβ definido por: Stt

S ZZ −=β se puede

representar un modelo estacional puro con parámetros (P,D,Q)S en la forma siguiente:

PSS eZ )1()1)(1( 2

21 ββββφβφβφ Θ−−Θ−Θ−=−−−−− LL donde et es un disturbio aleatorio o ruido blanco (0, σ2).

La analogía de este modelo con el caso regular (p,d,q) hace evidentes algunos

conceptos y resultados, que permiten identificar y estimar un modelo de este tipo, y que se

obtienen simplemente de sustituir un retardo regular por un retardo estacional:

• Se dice que una serie es estacionaria S-estacionalmente, si [ ]ShXE * es constante

(independiente de h mayor o igual de 0) y la función de autocovarianza estacional:

[ ]Shtts XXCovShh *,)*()( +==νν depende solamente de h.

• En tal caso se puede hablar de una función de autocorrelación estacional y de una

función de autocorrelación parcial estacional definida por:

SACF(h) = ACF(h*S)

SPACF(h) = PACF(h*S) h ≥1

y tendrán las mismas apariencias para los diferentes valores de P y Q que en el caso

regular. En particular:

1. En una serie autorregresiva estacional de orden P, que sea estacionaria

estacionalmente, la función SACF(h) mostrará una rápida declinación a cero y la

función SPACF(h) mostrará “P” espigas.

2. En una serie de media móvil estaminal de orden Q, la función SACF(h) mostrará Q

espigas y la función SPACF(h) mostrará una rápida declinación a cero.

3. En una serie mixta estacional, de orden (P,Q), que sea estacionaria, los patrones serán

más complejos; pero ambas funciones mostrarán una rápida declinación a cero.

4. Si en una serie estacional, la SACF (h) no muestra una rápida declinación a cero, ella

no es estacionaria estacionalmente y probablemente requiera de 1 ó 2 diferenciaciones

estacionales.

La metodología de Box-Jenkins extendida a series estacionales puede ser aplicada a

series más generales que responden a la forma similar:

PSS EZ )1()1)(1( 2

21 ββββφβφβφ Θ−−Θ−Θ−=−−−−− LL

con un residual Et que no es un ruido blanco, sino un modelo regular ARIMA(p,d,q):

PSS eZ )1()1)(1( 2

21 ββββφβφβφ Θ−−Θ−Θ−=−−−−− LL

De acuerdo con esto, se puede precisar definitivamente el tipo de series estacionales

que interesan:

Se dice que Zt es una “serie de tipo estacional que responde al modelo

ARIMA(p,d,q)(P,D,Q)S” si y solo sí:

( )ppβϕβϕβϕ −−−− ...1 2

21 ( ) ( ) ( ) tDSdPS

SSS Zβββφβφβφ −−−−−− 11...1 2

( ) ( ) tQS

q eβϑβϑβϑβθβθβθ −−−−−−−− ...1...1 221

donde et es un ruido blanco ( )2,0 σ

Como en el caso regular, no se debe descartar la posibilidad de que la serie diferenciada

tenga una media constante μ significativamente diferente de cero. Se incorpora esta

posibilidad al modelo sustituyendo el término ( ) ( ) tDSd Zββ −− 11 por

( ) ( ) μββ −−− tDSd Z11 donde μ es una constante que representa la media de la serie

diferenciada, o equivalentemente, incluyendo en el miembro derecho una constante aditiva

δ determinada por: ( )( )μφφφϕϕϕδ Pp −−−−−−−−−= ...1...1 2121 donde μ sigue siendo

la media de la serie diferenciada. Este detalle de interpretación de μ será generalizado

posteriormente para otros regresores.

El análisis de una serie de tipo estacional ARIMA es una extensión del principio de

identificación sucesiva. Salvo un detalle, que inmediatamente se aclará, se trata primero de

identificar y ajustar los parámetros como si fuera una serie estacional pura (P,D,Q)S y

luego, Estuardo los residuales, identificamos y estimamos los parámetros de la posible

componente regular (p,d,q). El modelo definitivo será ARIMA(p,d,q)(P,D,Q)S.

Por supuesto, que la definición de una serie de tiempo estacional

ARIMA(p,d,q)(P,D,Q)S puede formularse de una manera dual. La serie tZ es de este tipo

si y sólo si:

( )( ) ( ) tq

p XZ βθβθβθββϕβϕβϕ −−−−=−−−−− ...11...1 221

donde los residuales tX constituyen una serie estacional pura:

( )( ) ( ) tQS

PSS eX βϑβϑβϑββφβφβφ −−−−=−−−−− ...11...1 2

y por tanto, el orden inverso en el análisis parece también posible.

Existen tres razones para seleccionar la primera alternativa ligeramente modificada:

1. La dependencia estacional es determinante, más gruesa, y requiere usualmente de

menores valores de P, D, Q. Para su identificación y estimación más fina posible, es

mejor trabajar con la serie original, en lugar de una serie de residuales y por tanto es

mejor separar primero la componente estacional y luego la regular.

2. La identificación de un modelo ARIMA, parte siempre del carácter estacionariode la

serie, lograda con transformaciones o diferenciaciones. En el orden teórico, si se tratara

de un modelo estacional puro, la diferenciación estacional puede lograr muchas veces

la el carácter estacionario “estacional de la serie”; pero evidentemente ésta no implica

la el carácter estacionario “regular” de la misma. Aunque teóricamente, el carácter

estacionario regular es un concepto más fuerte que el estacionario estacionalidad, en la

práctica tampoco es cierto que una vez alcanzada aparentemente el carácter

estacionario, por diferenciaciones regulares, se haya alcanzado el estacional, más

grueso o a más largo plazo. Por ello es preferible comenzar logrando una serie

estacionaria en los dos sentidos y para ello es necesario hacer posiblemente

transformaciones, diferenciaciones regulares y estacionales antes que todo.

3. La estacionalidad alcanzada por transformaciones y diferenciaciones - tanto regulares

como estacionarias -, permite estimar más claramente la constante μ como media de

la serie estacionaria.

Así, el orden de identificación usualmente es realmente:

d -diferenciación regular

S -estacionalidad de la serie

D -diferenciación estacional.

todo precedido posiblemente de transformaciones para alcanzar homocedasticidad y con el

objetivo final de alcanzar el carácter estacionario (en este momento se podría estimar ya la

constante μ ). Una vez logrado esto, se identifican sucesivamente:

(P,Q) –órdenes autorregresivos y de medias móviles estacionales a partir de la serie

transformada y diferenciada. La identificación de P y Q permite estimar los

parámetros Pii ,,2,1, L=φ y Qjj ,,2,1, L=θ y calcular los residuales tE

de un modelo estacional supuestamente puro que puede responder a su vez a un

modelo ARIMA regular.

(p,q) – órdenes autorregresivos y de medias móviles regulares a partir de los residuales

del preprocesamiento anterior. La identificación de p y q puede considerarse un

afinamiento del modelo y permite estimar los parámetros pii ,,2,1, L=φ y

qjj ,,2,1, L=θ y calcular los residuales te que se aspira a que sean un ruido

blanco.

De esta manera, se trata de un proceso de refinación sucesiva del modelo y se mantiene

válido el orden del flujo en el diagrama o metodología de Box-Jenkins.

2.5 Análisis de intervención y tratamiento de outliers A continuación se expone el análisis ARIMA para el estudio de series de tiempo en la

que aparecen outliers, valores perdidos o influencias de cierta intervención y las

posibilidades que brinda el SPSS para tales análisis.

2.5.1 Análisis de intervención con modelos ARIMA El comportamiento histórico de un proceso se ve afectado frecuentemente por la

influencia de un factor externo en un instante de tiempo dado, a partir de una instante de

tiempo dado o en el intervalo comprendido entre dos ciertos instantes de tiempo. Si tales

procesos son modelables ARIMA, la serie correspondiente debe mostrar un “salto” o

“cambio brusco” producto de esta intervención y es deseable “cuantificar” este salto,

incluyéndolo en el modelo para que responda mejor a la realización, y en particular

determinar hasta que punto es significativo.

Basadas en la teoría de funciones generalizadas, en matemáticas se utilizan

frecuentemente las dos funciones siguientes para representar un salto discreto:

La función “paso” o “salto unitario” definida por:

⎭⎬⎫

⎩⎨⎧

La función “delta” o “pulso unitario” definida por:

⎭⎬⎫

⎩⎨⎧

Combinaciones lineales de estas funciones adecuadamente trasladadas a instantes de

tiempo prefijados y con ciertos coeficientes permiten describir influencias discretas de

magnitudes determinadas por los coeficientes, por ejemplo:

• Una influencia de magnitud “a” y de carácter permanente a partir del instante ot

puede ser representada por )(* ottua −

⎭⎬⎫

⎩⎨⎧

oo tta

ttttua

Añadida a la serie ARIMA correspondiente, una influencia de este tipo puede

representar por ejemplo, el efecto de una campaña de vacunación sobre la tasa de una

enfermedad (en este caso “a” es negativo), o un cambio, por ejemplo en los instrumentos

de medición de un proceso.

• Una influencia de magnitud “a” sostenida en el intervalo de tiempo comprendido

entre ot y 1t puede ser representada por:

⎪⎭

⎪⎬

⎪⎩

⎪⎨

≥<≤

=−−−

0)(*)(*

ttsitttsia

ttsittuattua o

o más generalmente,

• Un sistema de influencias de magnitudes “a” y “b” a partir de sendos instantes de

ot y 1t puede ser representada por:

⎪⎭

⎪⎬

⎪⎩

⎪⎨

≥+<≤

<=−−−

0)(*)(*

ttsibatttsia

ttsittubttua o

El caso anterior es un caso particular cuando b = - a; pero además, cuando se modelan

influencias como la anterior sobre un modelo ARIMA en una forma aditiva, es mejor

precisarlo de esta forma más general (con “b” no necesariamente igual a “- a”) porque

la dependencia de los valores de la serie de sus valores en instantes anteriores

determinan que una influencia de este tipo tenga cierta “secuela” después del instante t1.

Así podría describirse por ejemplo, el efecto de ciertas medidas profilácticas especiales

sobre la serie correspondiente a una enfermedad epidémica, que se aplicaran durante

cierto intervalo de tiempo 1tto L y después se abandonará.

• Una influencia “instantánea” de magnitud “a” en un instante de tiempo dado ot

puede ser representado por )(* otta −δ

⎭⎬⎫

⎩⎨⎧

oo ttsia

ttsitta

0)(*δ

En el epígrafe siguiente se muestra como estos regresores se pueden introducir en el

análisis ARIMA, como variables independientes adicionales, en una forma no tan

clásica, como la de los modelos ARMA, por la presencia de diferenciaciones. Este

contenido es novedoso y sobre todo tiene un valor práctico importante para futuros

trabajos con requerimientos similares, por lo cual se intenta dar un enfoque orientado

hacia la generalización

2.5.2 Introducción de regresores en modelos con diferenciación. Cuando se trata con un modelo ARMA(p,0,q)(P,0,Q)S la introducción de los

regresores en el SPSS puede lograrse fácilmente como variables independientes

adicionales (lo que se corresponde con el subcomando WITH) para lograr los resultados

propuestos por Box y Tiao (Incluir referencia). Pero si hay alguna diferenciación regular

y/o estacional, ellos también serán diferenciados y por tanto, el regresor que actúa sobre

la variable dependiente no es el introducido como variable independiente sino que es su

diferencial discreta y por tanto sus efectos pueden ser muy diferentes de los esperados.

Un caso particular de esto es la constante μ que representa la media de la serie

previamente diferenciada para ser introducido como un regresor aditivo constante

Los autores del SPSS proponen que en estos los casos en que haya diferenciación se

calcule previamente las series diferenciadas de la variable dependiente y sea a estas

series diferenciadas las que se le añadan los regresores (el caso más simple es su media

constante), para evitar su diferenciación en la etapa de estimación y pronóstico.

Teóricamente esto es claro; pero desde el punto de vista práctico ello puede generar un

problema a posteriori con el pronóstico de la serie original por acumulación de errores.

Si por ejemplo, la serie original Xt necesita ser diferenciada regular y estacionalmente,

tendríamos

YYZXXY tttSttt 1 y −−

−=−=

Cuando se busca el modelo para Zt se tendrá

eZZ ttt += ~

y el error et se arrastra y acumula en el proceso de “integración discreta” hacia las

series originales:

YYYZY ttt 111

~~~~ con =+=−

y SiXXXYX iiSttt,...,2,1 para con ~~~~ ==+=

El problema se agrava si en el modelo de Zt intervienen efectivamente

diferenciaciones estacionales y términos de medias móviles porque ellos dependen de

observaciones y errores a más largo plazo de retardo

Para visualizar mejor el problema que trae como consecuencia trabajar con esta

teoría, se muestra el pronóstico del pluviómetro 401 con la serie original después de la

integración. A pesar de que los pronósticos obtenidos automáticamente por el SPSS

sobre las series previamente diferenciadas, eran satisfactorios, al regresar a la serie

original, vía “integración diferenciada”, la acumulación de errores es increíble. Se

demuestra así que en un tal pronóstico, en la práctica se acumulan tantos errores que el

mismo se vuelca completamente hacia algo que no tiene sentido.

Este problema fue constatado concretamente en las series que se abordan en el

presente trabajo y también en el Trabajo de Diploma (Morales M., Jorge L, 2007)1,

desarrollado paralelamente a este.

La alternativa de solución es introducir como variables independientes las primitivas

de los regresores que finalmente se desean, para que ellos sean diferenciados y el

pronóstico se haga directamente de la serie original, esto es, los regresores aditivos, sean

las diferenciales de las variables independientes, como ocurre en particular con el

regresor constante, que es la diferencial de la media de las series Así por ejemplo, si

tenemos una serie que va a ser una vez diferenciada regularmente, y deseamos tener en

un instante determinado to una función pulso: δ(t-to) entonces debemos introducir como

variable independiente una función paso unitario u(t-to) porque su derivada discreta es la

función pulso deseada. Otras situaciones pueden ser más complejas, pero también

solubles, como se ilustra en los ejemplos siguientes en los cuales se considera, para

facilitar la exposición que tenemos supuesta periodicidad anual y datos mensuales, por

tanto con estacionalidad S=12. Las construcciones son evidentemente generalizables a

cualquier estacionalidad. 1 Morales, M. Jorge L., Casas C. Gladys, Mora V. Humberto, Series cronológicas de consumo eléctrico y de petróleo en Villa Clara. Modelos y pronósticos, Trabajo de Diploma en Licenciatura en Matemática, Curso 2006-2007

2.5.3 Primitiva regular y estacional de una función pulso

Se desea en este trabajo construir una función f(t) tal que después de ser diferenciada

regularmente una vez y diferenciada estacionalmente una vez, conduzca a la función

δ(t). Los resultados podrán fácilmente ser trasladados después a cualquier punto to. Será

suficiente obtener f(t) de manera que la serie diferenciada estacionalmente sea la

función paso unitario u(t), esto es:

ℜ∈∀=−− ttutftf )()12()(

Observe que trabajamos con valores positivos y negativos de t para poder luego

desplazar el centro a un punto to>0. El valor de f en el centro (en este caso to=0) puede

definirse arbitrariamente pues de hecho la primitiva deseada está definida salvo una

constante. Fijemos por ejemplo f(0)=1/12, esto es el inverso de la estacionalidad. La

idea de definir f(t) para t>0 es lograr que al cabo de 12 pasos se obtenga una diferencia

de 1, Por tanto f(1)=2/12, f(2)=3/12, f(3)=4/12, f(4)=5/12,…, f(11)=1, f(12)=1+1/12,

f(13)=1+2/12, f(14)=1+3/2,…y en general f(t)=(t+1)/12 para todos los t mayores o

iguales a 0. Así garantizamos que para valores mayores o iguales a 12 se tenga f(t)-f(t-

12)=1=u(t). Esta misma fórmula tiene que cumplirse para los valores de t=0,1,2,…11.

Por tanto f(t)=(t+1)/12 para los t mayores o iguales que -12. En particular f(-1)=0, f(-

2)=-1/12, f(-3)=-2/12, f(-4)=-3/12,…, f(-12)=-11/12. A partir de aquí, moviéndonos a la

izquierda del eje, debemos tener f(-13)=f(-1)= 0, f(-14)=f(-2)=-1/12, f(-15)=f(-3)=-

2/12, f(-16)=f(-4)=-3/12,…, f(-24)=f(-12)=-11/12 porque para los t negativos u(t)=0.

Entonces se repiten las evaluaciones en ciclos de 12 valores:

f(-25)=f(-13)=0, f(-26)=f(-14)=-1/12, f(-27)=f(-15)=-2/12,…, f(-36)=f(-12)=-11/12,

f(-37)=f(-25)=0, f(-38)= f(-26)=-1/12, f(-39)=f(-27)=-2/12, …,f(-48)=f(-36)=-11/12,

etc. Está claro que estos 12 valores se determinan fácilmente por el número de los meses

que preceden al centro. La función así obtenida se gráfíca en el Anexo (2 ;2).

2.5.4 Primitiva estacional de una función pulso unitario. Supongamos ahora que se desea construir una función g(t) tal que después de ser

diferenciada estacionalmente una vez, conduzca a la función δ(t), esto es:

ℜ∈∀=−− tttgtg )()12()( δ

Fijamos arbitrariamente el valor en el centro, por ejemplo g(0)=1. Entonces la relación

anterior entre g y δ permite calcular fácilmente los valores de g(t). En efecto está claro

que debemos tener g(-12) = 0 para que g(0) - g(-12) = 1.

Si ahora ponemos g(-1) = g(-2) = g(-3) =…= g(-11) = 0, ello va a determinar que g(t) =

0 para todos los t<0 pues las diferencias estacionales a la izquierda del centro deben ser

nulas, pero además va a determinar que g(1)=g(2)=g(3)=…=g(11)=0 y por tanto

g(13)=g(14)=g(15)=…=g(23)=0, y en general, g(t)=0 para todos los t>0, excepto para

t∈{12,24,36,…}. Como debemos tener g(12)-g(0)=g(24)-g(12)=g(36)-g(24)=…=0,

entonces resulta que los valores de g sobre todos los múltiplos de 12 deben coincidir

con g(0)=1.

Cuando esta función se traslada a otro centro t0 que se identifica por un mes y un

año específico, resulta que va a resultar en todos los puntos del eje igual a cero, excepto

en t0, t0+12, t0+24, …en que vale 1, esto es, a partir del mes y el año que identifican a t0

(este incluido) la función vale 1 en el mismo mes de todos los años subsecuentes. Ello

es fácilmente calculable en el SPSS utilizando el valor del mes y el año. El gráfico de

una tal función aparece a continuación.

2.5.5 Primitivas de otros regresores posiblemente necesarios. En el estudio de la influencia del Período Especial sobre las series de consumo

en el trabajo de diploma de Jorge L. Morales, referenciado anteriormente, se trabaja con

series trimestrales surgió una variante análoga al primero de nuestros ejemplos pero con

una estacionalidad de 4. Surgió además la necesidad de calcular la primitiva de otros

dos regresores, en particular una función que diferenciada regular y estacionalmente

condujera a la función paso unitario y otra función, que diferenciada regularmente

condujera a un regresor que es 1 en un intervalo de tiempo cerrado y acotado y es igual

a 0 fuera de dicho intervalo. Todo este conjunto de ejemplos proporciona una idea

general de cómo proceder en este tipo de análisis de series ARIMA cuando se quieren

introducir regresores en modelos que suponen diferenciaciones.

En general, para la construcción de tales primitivas se resumen estas

recomendaciones:

1. Determinar previamente, sin regresores, la posible necesidad de

diferenciaciones en la serie - regulares o estacionales - y sus órdenes respectivos.

- Si no hay necesidad de diferenciaciones regulares ni estacionales, los

regresores pueden incluirse directamente como variables independientes, sin

buscar las primitivas.

- En caso contrario, esto es, cuando hay diferenciaciones necesarias,

atender a lo siguiente

2 Apoyarse en primitivas conocidas, para poner en foco el nuevo problema

- Por ejemplo, se sabe que u(t) es una primitiva regular de δ(t) y en eso

nos apoyamos en el primer ejemplo para construir una función que diferenciada

regular y estacionalmente condujera a δ(t).

- Los ejemplos que se proporcionan en el trabajo de diploma (Morales

M.,J.L) y en el presente trabajo, además de ilustrar la metodología de trabajo,

sirven como nuevas primitivas ya conocidas, de apoyo a la búsqueda de otras

primitivas.

3 Buscar en primera instancia la primitiva centrada en 0 y considerar sus valores

tanto positivos como negativos para poder ser trasladada.

- El valor de la primitiva en 0 puede ser fijado arbitrariamente pues la

primitiva se define salvo una constante

- Defina los valores de la primitiva en los puntos “claves” a la izquierda

y derecha del centro (0) a partir de las relaciones de diferenciación.

- Extienda los valores de la primitiva más allá de estos puntos claves, a la

derecha e izquierda de cero. Tratar de obtener por inducción fórmulas generales.

En última instancia, para la obtención de fórmulas generales se pueden resolver

ecuaciones en diferencias finitas.

4 Elaborar una estrategia de sintaxis del cálculo de la nueva primitiva con los

comandos correspondientes del SPSS y auxiliándose de los campos de fecha en

los cálculos cíclicos.

- Elabórela primero para el centro simple (0)

- Generalícelo a cualquier otro centro (t0>0), utilizando esencialmente

traslación

5 Pruebe la sintaxis de cálculo de la primitiva, calcule las diferenciales de interés

y grafique todas ellas para comprobar los resultados deseados.

- Hágalo primero para el centro simple (0) con datos hipotéticos

- Haga las pruebas finales con otros centros reales de su fichero de datos,

para comprobar también el algoritmo de traslación.

Capítulo III Análisis de los pluviómetros por modelación ARIMA.

Capitulo III

Análisis de los pluviómetros por modelación ARIMA.

3.1 Introducción En este capítulo se hallan modelos matemáticos del tipo ARIMA para los pluviómetros de

la Cuenca Hidrológica Sagua la Chica y se muestran los pronósticos en base a los mismos.

La tabla de datos fue suministrada por la Empresa de Recursos Hidráulicos de la Provincia

A continuación se visualiza la cuenca hidrológica la cual contiene la Presa Minerva y la

Quinta, y la ubicación de los respectivos pluviómetros. Los pluviómetros para el análisis

son denominados 401, 980, 940,396, 389, 357.

3.2 Modelación del pluviómetro 401. Este pluviómetro se localiza en el río Sagua la Chica, límite de los municipios Camajuaní,

Remedios y Placetas,y más específicamente en el Consejo Popular Floridanos con 285.5

de latitud norte y 638.1 de longitud este. La Empresa Provincial de Recursos Hidráulicos

tiene una base de datos mensuales desde el año 1963 hasta la actualidad. En realidad esta

empresa recibe el informe de datos diariamente, pero una vez finalizado el mes se calcula

el promedio y con este se actualiza la base, para así trabajar con 12 datos al año. Como

esta serie se va a modelar hasta el año 2006 se va a contar con 516 observaciones y su

gráfico aparece en el anexo (3.1). En este se percibe al menos que no hay una evidente

tendencia lineal y tampoco hay síntomas de heteroscedasticidad. La serie original se

nombrará plu401. Todas las series que se muestran a continuación se trabajan con los datos

hasta el 2006 aunque se tienen datos del 2007 y que se reservan para validar el pronóstico.

3.2.1Modelo básico para el pluviómetro 401 Según la metodología, corresponde hacer el cálculo y gráfico de las funciones de

autocorrelación y autocorrelación parcial. Se logra para los 516 casos de las muestra con el

comando siguiente: ACF VARIABLES= pluv401 /NOLOG /MXAUTO 16 /SERROR=IND /PACF

Las tablas de autocorrelaciones se pueden ver en los anexos (3.2) y (3.3)

16151413121110987654321

Lag Number

Lower ConfidenceLimit

Upper Confidence LimitCoefficient

pluv401

16151413121110987654321

Lag Number

pluv401

Para ambas funciones de autorrelación se muestra el valor de la autorrelación para cada

retardo ‘h’ desde 1 hasta 16 (esto es modificable) sus errores estándar, y con un línea el

intervalo de confianza fuera del cual de puede considerar que la autorrelación es

significativamente diferente de cero. En el caso de la ACF, de forma textual, se muestra en

cada retardo ‘h’ el valor del estadístico de Box- Ljung y su significación. Este estadístico

sirve para verificar la hipótesis nula que un conjunto de observaciones muestrales está

asociada con una serie aleatoria; más precisamente que las autocorrelaciones en cada

retardo se corresponde con la que podría tener un ruido blanco para ese retardo. Por tanto,

es de esperar significaciones en esta serie inicial y así se puede apreciar en los anexos.

Para seguir el análisis y la estimación del modelo se trazan nuevamente los correlogramas

pero esta vez los correlogramas estacionales para identificar la estructura estacional

(P,D,Q) del modelo. ACF VARIABLES= pluv401 /NOLOG /MXAUTO 120 /SERROR=IND /SEASONAL /PACF.

1201089684726048362412

Lag Number

pluv401

1201089684726048362412

Lag Number

pluv401

Ver la Tabla con los resultados en texto en los anexos (3.4) y (3.5)

Se puede observar a través de la SACF(h) que desde el punto de vista estacional, la serie

no es estacionaria. Se debe hacer una diferenciación estacional, después de lo cual las

funciones SACF(h) y SPACF(h) sugieren dos posibles modelos a seguir en principio:

(0 0 0) (0 1 1)12 ó (0 0 0) (4 1 0)12.

He aquí los correlogramas correspondientes

1201089684726048362412

Lag Number

pluv401

1201089684726048362412

Lag Number

pluv401

Las tablas textuales aparecen en los anexos (3.6) (3.7). A continuación comienza la estimación para estudiar el primer modelo (0 0 0) (0 1 1)12 a

través del comando:

* ARIMA. TSET PRINT=DEFAULT CIN=95 NEWVAR=ALL. PREDICT THRU END. ARIMA pluv401 /MODEL= (0 0 0) (0 1 1) NOCONSTANT /MXITER= 10 /PAREPS= .001 /SSQPCT= .001 /FORECAST= EXACT.

Los principales resultados, importados desde el SPSS, son los siguientes Iteration History

l Seasonal

Lags Adjusted Sum of

Squares Marquardt Constant

Seasonal

MA1 0 ,559 4380392,919 ,0011 ,882 3718100,172 ,0012 ,989 3648902,722 ,0003 ,970 3648821,978 ,0004 ,977 3648602,791 ,000

Residual Diagnostics Number of Residuals 516 Number of Parameters 1 Residual df 515 Adjusted Residual Sum of Squares

3648602,725

Residual Sum of Squares 4380392,919

Residual Variance 6613,248 Model Std. Error 81,322 Log-Likelihood -3019,610 Akaike's Information Criterion (AIC) 6041,220

Schwarz's Bayesian Criterion (BIC) 6045,466

Parámetros a estimar Estimates Std Error t Approx Sig Seasonal Lags Seasonal MA1 ,977 ,045 21,836 ,000

Melard's algorithm was used for estimation. En esta salidas se evidencia que la historia de las iteraciones transcurre normalmente según

la constante de Marquart. Se reporta el diagnóstico inicial de los residuales, que será

utilizado posteriormente, y especialmente, se puede observar como el coeficiente de media

móvil estacional SMA1 (0.977) es altamente significativo (significación 0.000 menor que

0.01). Lograda así la estimación del parámetro de la muestra, hay que validar hasta que

punto el modelo ajusta bastante bien la realización. La parte más importante del

diagnóstico es el chequeo de los residuales para ver si constituyen un ruido blanco. Ello

significa que se debe probar estadísticamente que los residuales son no correlacionados,

tienen media cero y varianza constante. En la práctica ello se logra con la graficación de

los residuales (que para no extender el texto no se muestra aquí) y sobretodo con el

estudio de la ACF(h) y PACF(h) de dichos residuales (grabados en principio con nombre

ERR_1): ACF VARIABLES= ERR_1 /NOLOG /MXAUTO 120 /SERROR=IND /SEASONAL /PACF. Para ilustrar los resultados estadísticos, en lugar del gráfico de las autocorrelaciones, se

muestran en este caso los datos textuales, con la significación del test de Box-Ljung.

Pueden verse Gráficas y Tablas en los anexos (3.8) – (3.10)

Autocorrelaciones Series: Error for pluv401 from ARIMA, MOD_4 NOCON

Lag Autocorrelation Std.Error(a) Box-Ljung Statistic

Value df Sig.(b) 12 ,013 ,043 3,141 12 ,99424 -,078 ,043 12,152 24 ,97836 -,023 ,042 26,756 36 ,86848 ,042 ,042 35,558 48 ,90860 ,008 ,041 41,621 60 ,96672 -,076 ,041 51,802 72 ,96584 -,051 ,040 63,942 84 ,94996 ,011 ,040 74,466 96 ,949108 ,099 ,039 86,478 108 ,937120 ,064 ,038 97,063 120 ,939

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation.

Puede observarse que el error en la predicción no tiene autocorrelaciones estacionales pues

todas las significaciones son mayores que 0.05, constituyendo realmente un ruido blanco

estacional. Esto quiere decir que ya se aislado adecuadamente la componente estacional de

la serie y se debe pasar a analizar si se requieren componentes regulares en el modelo, esto

es determinar p y q. Si se solicita el estudio de autocorrelaciones regulares de ERR_1, se

refleja que no hay autocorrelaciones significativas, y por tanto no son necesarias

componentes regulares. Autocorrelaciones Series: Error for pluv401 from ARIMA, MOD_4 NOCON

Value df Sig.(b) 1 ,033 ,044 ,575 1 ,4482 -,039 ,044 1,350 2 ,5093 ,033 ,044 1,910 3 ,5914 -,018 ,044 2,078 4 ,7215 ,016 ,044 2,207 5 ,8206 -,019 ,044 2,390 6 ,8817 ,008 ,044 2,428 7 ,9328 ,006 ,044 2,448 8 ,9649 ,016 ,044 2,577 9 ,97910 -,024 ,044 2,894 10 ,98411 ,017 ,043 3,054 11 ,99012 ,013 ,043 3,141 12 ,99413 -,012 ,043 3,219 13 ,99714 ,020 ,043 3,428 14 ,99815 -,033 ,043 4,023 15 ,99816 -,032 ,043 4,581 16 ,997

Pueden verse Gráficos y tablas adicionales en los anexos (3.11)-(3.13)

Se pasa a analizar ahora el segundo posible modelo (0 0 0) (4 1 0)12 con el comando: * ARIMA. TSET PRINT=DEFAULT CIN=95 NEWVAR=ALL . PREDICT THRU END. ARIMA pluv401 /MODEL=( 0 0 0 )( 4 1 0 ) NOCONSTANT /MXITER= 10 /PAREPS= .001 /SSQPCT= .001 /FORECAST= EXACT .

Seasonal Lags Adjusted Sum of

Squares Marquardt Constant

Seasonal

AR1 Seasonal

AR2 Seasonal

AR3 Seasonal

AR4 0 -,748 -,604 -,411 -,179 4049154,653 ,0011 -,776 -,646 -,447 -,194 4043736,932 ,001

Se puede apreciar que la constante de Marquardt no presenta problemas, esto es, el proceso

iterativo converge rápidamente. Estimación de los parámetros

Estimates Std Error t Approx Sig

Seasonal AR1 -,776 ,043 -17,893 ,000Seasonal AR2 -,645 ,053 -12,179 ,000Seasonal AR3 -,445 ,054 -8,278 ,000

Seasonal Lags

Seasonal AR4 -,194 ,045 -4,308 ,000Melard's algorithm was used for estimation. Matriz de correlación

Seasonal Lags

Seasonal

AR1 Seasonal

AR2 Seasonal

AR3 Seasonal

AR4 Seasonal AR1 1,000 ,605 ,453 ,305Seasonal AR2 ,605 1,000 ,669 ,454Seasonal AR3 ,453 ,669 1,000 ,616

Seasonal Lags

Seasonal AR4 ,305 ,454 ,616 1,000Melard's algorithm was used for estimation. Los coeficientes autorregresivos estaciónales AR1 AR2 AR3 AR4 son todos significativos

aunque hay bastante correlación entre ellos, lo que indica tal vez se podría prescindir de

alguno de los de menor orden. Se emprende la estimación de las autocorrelaciones de los

residuales de forma estacional primero, y regular después. (Las gráficas y tablas

adicionales respectivaspueden verse en los anexos (3.14)-(3.16) y (3.17)-(3.19)

Value df Sig.(b) 12 -,029 ,043 4,892 12 ,96124 -,053 ,043 11,790 24 ,98236 -,079 ,042 24,526 36 ,92648 -,118 ,042 41,354 48 ,74060 -,154 ,041 62,336 60 ,39372 -,079 ,041 74,396 72 ,40084 -,035 ,040 84,505 84 ,46496 ,012 ,040 94,538 96 ,523108 ,103 ,039 105,997 108 ,537120 ,089 ,038 122,793 120 ,412

Value df Sig.(b) 1 ,052 ,044 1,389 1 ,2392 -,033 ,044 1,955 2 ,3763 ,020 ,044 2,173 3 ,5374 -,007 ,044 2,202 4 ,6995 ,030 ,044 2,682 5 ,7496 -,040 ,044 3,517 6 ,7427 ,022 ,044 3,779 7 ,8058 ,018 ,044 3,959 8 ,8619 ,007 ,044 3,984 9 ,91210 -,024 ,044 4,295 10 ,93311 ,017 ,043 4,456 11 ,95512 -,029 ,043 4,892 12 ,96113 ,011 ,043 4,953 13 ,97614 ,007 ,043 4,979 14 ,98615 -,039 ,043 5,776 15 ,98316 -,011 ,043 5,847 16 ,990

Así este modelo es satisfactorio desde el punto de vista estacional y tampoco necesita ser

completado con otras componentes regulares pues ninguna de las autocorrelaciones tiene

significación menor que 0.05, esto es, se trata de un ruido blanco. Si se observan los

correlogramas en los anexos mencionados pudiera parecer que hay algunas espigas

indeseables pero las tablas anteriores demuestran que no son significativas.

Al parecer se ha llegado buenos resultados tanto con el modelo (0 0 0) (0 1 1) como con el

modelo (0 0 0) (4 1 0). Este resultado es lógico acorde a la teoría pues una media móvil de

primer orden puede equivaler a un proceso autorregresivo de orden más alto. De cualquier

manera podríamos intentar precisar cual modelo puede resultar más favorable para su uso

y el pronóstico y para ello se pueden utilizar criterios que aparecen en las tablas de

diagnóstico de los residuales.

Modelos Estándar Error

Log likelihood

AIC SBS

(0 0 0)( 0 1 1)12

81.322 -3019.610 6041.220 6045.466

(0 0 0)(4 1 0)12

87..902 -3045.574 6099.149 6116.132

Desde el punto de vista de estos estadísticos el mejor modelo es el primero pues el error

estándar de sus residuales es más pequeño y el logaritmo de la verosimilitud es mayor y

tiene índices de complejidad/beneficio también menores. Otros criterios se pueden adquirir

a partir del comando FIT que suministra algunos estadísticos interesantes y útiles para

comparar varios modelos posibles. Los resultados de este comando son en orden de

aparición:

-Error Variable: variable que se analiza.

-Observed Variable: variable que se utiliza como denominador en los estadísticos

relativos.

-N of Cases: número de casos en los períodos de uso y validación

-Deg Freedom: grados de libertad.

-Mean Error: error medio.

-Mean Abs Error: error medio absoluto, da el valor medio del error en valor

absoluto.

-Mean Pct Error: errores en porcientos, se calculan utilizando como denominador

los valores observados de la serie y luego se promedian incluyendo signos.

-Mean Abs Pct Error: similar al anterior, sólo que los valores se promedian en valor

absoluto..

-SSE: suma de cuadrado de los errores, esto es, la suma de los cuadrados de las

diferencias entre los valores observados de la serie y los predichos por el modelo.

-MSE: es la media de la SSE, esto es la SSE dividida por los grados de libertad del

error. Si se utiliza FIT para comparar dos modelos, el criterio más fuerte de comparación

se formula sobre la base de minimizar este estadístico.

-RMS: es la raíz cuadrada de la MSE, permite tener un estadístico en el mismo

sistema de unidades que la serie observada y la serie de errores.

-El test de Durbin-Watson verifica la hipótesis nula de que los residuales de la

regresión son independientes, contra la hipótesis alternativa de que siguen un proceso

auotorregresivo de primer orden; su valor se encuentra entre 0 y 4. Un valor cercano a 2

indica poca autocorrelación y es lo deseado.

El análisis se realiza con el siguiente comando: FIT /ERROR=ERR_1 ERR_2 /OBS= FIT_1 FIT_2 /DFE=515 512. Y los resultados para el período de uso, son los siguientes FIT Error Statistics Error Variable ERR_1 ERR_2 Observed Variable FIT_1 FIT_2 N of Cases 516 516 Deg Freedom 515 512 Mean Error 6.2945 1.3911 Mean Abs Error 57.6433 62.2215 SSE 3594891.89 3994777.58 MSE 6980.3726 7802.3000 RMS 83.5486 88.3306 Durbin-Watson 1.9218 1.8949 Véase que el Error Cudrático Medio (MSE) es menor en el primer modelo, como también

lo son SSE y RMS. Además, examinando el estadístico de Durbin -Watson podemos decir

que el del primer modelo es ligeramente mejor porque se acerca más a 2 y en cuanto al

RMA, MSE, SSE los valores son más pequeños. Decididamente, es preferible el modelo

(0 0 0) (0 1 1)12 .

3.2.2 Análisis de los outliers en la serie del pluviómetro 401. Analizando la gráfica original de la serie se puede que hay meses que sobrepasan los

300.0 milímetros de lluvia y que podrían considerarse outliers. Estos outliers son

verdaderos (no son errores de la captación de datos) pues se corresponden efectivamente

con condiciones climáticas excepcionales. Se tratará entonces de introducir regresores, en

forma de funciones de impulso que permitan ajustar mejor el modelo en estos meses

excepcionales. Como la serie es diferenciada estacionalmente, se introduce para uno de

estos meses, la correspondiente primitiva de la función pulso, como se explicó en el

Capítulo II y se estudia entonces la significación de dicha variable independiente.

Los resultados del comando en una primera estimación reflejan algunas dificultades con la

evolución de la constante de Marquardt y las únicas variables que son significativas son las

correspondientes a mayo del 1968, octubre del 1978 y octubre del 2005. Se repite entonces

el comando con solo las variables correspondientes a dichas fechas: * ARIMA. TSET PRINT=DEFAULT CIN=95 NEWVAR=ALL . PREDICT THRU END. ARIMA pluv401 WITH may68 oct78 oct05 /MODEL=( 0 0 0 )( 0 1 1 ) NOCONSTANT /MXITER= 10 /PAREPS= .001 /SSQPCT= .001 /FORECAST= EXACT .

Seasonal Lags Regression Coefficients

Seasonal

MA1 may68 oct78 oct05 Adjusted Sum

of Squares Marquardt Constant

0 .493 190.999 386.012 280.540 4212858.972 .0011 .732 134.374 209.065 249.503 3749186.500 .0012 .867 105.565 107.983 232.416 3555841.066 .0003 .929 89.154 64.392 218.627 3505729.173 .0004 .946 84.038 54.619 214.242 3501788.662 .0005 .950 82.648 52.245 213.098 3501518.794 .000

Melard's algorithm was used for estimation. a The estimation terminated at this iteration, because the sum of squares decreased by less than .001%. Parámetros a estimar Estimates Std Error t Approx Sig Seasonal Lags Seasonal MA1 .951 .025 38.447 .000

may68 82.286 39.727 2.071 .039oct78 51.646 28.924 1.786 .075

Regression Coefficients

oct05 212.804 58.686 3.626 .000Melard's algorithm was used for estimation. Puede observarse que se corrigió la convergencia del algoritmo de Marquard’Melards y

que el outlier de Oct 85 fue altamente significativo, el de Mayo 68 significativo y el de

octubre 78 al menos medianamente significativo. Se decidió dejar este último incorporado

al modelo porque es bien conocido por los especialistas que efectivamente en ese mes

hubo un altísimo y anormal nivel de precipitaciones en la provincia (promedio 888.4 mil).

Matriz de correlación

Seasonal Lags Regression Coefficients

Seasonal

MA1 may68 oct78 oct05

Seasonal Lags Seasonal MA1 1.000 0(a) 0(a) 0(a)

may68 0(a) 1.000 .000 .000oct78 0(a) .000 1.000 -.101

oct05 0(a) .000 -.101 1.000Melard's algorithm was used for estimation. a The ARMA parameter estimate and the regression parameter estimate are asymptotically uncorrelated. Véase que coeficientes de los regresores introducidos están débilmente correlacionados

entre si y se conoce teóricamente que su correlación asintótica con los parámetros del

modelo es nula. Finalmente véase las funciones de autocorrelación de los residuales. Las

Gráficas y Tablas complementarias aparecen los anexos (3.20)-(3.25) Autocorrelaciones estacionales Series: Error for pluv401 from ARIMA, MOD_13 NOCON

Value df Sig.(b) 12 -,002 ,043 3,144 12 ,99424 -,076 ,043 12,880 24 ,96836 -,009 ,042 28,011 36 ,82748 ,041 ,042 38,121 48 ,84660 -,003 ,041 44,748 60 ,92972 -,097 ,041 57,513 72 ,89384 -,065 ,040 70,718 84 ,84996 ,011 ,040 80,498 96 ,872108 ,097 ,039 94,448 108 ,821120 ,065 ,038 105,827 120 ,819

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Autocorrelaciones regulares Series: Error for pluv401 from ARIMA, MOD_13 NOCON

Value df Sig.(b) 1 ,024 ,044 ,308 1 ,5792 -,039 ,044 1,081 2 ,5833 ,031 ,044 1,593 3 ,6614 -,010 ,044 1,640 4 ,8025 ,024 ,044 1,944 5 ,8576 -,027 ,044 2,328 6 ,8877 ,012 ,044 2,402 7 ,9348 ,020 ,044 2,616 8 ,9569 ,022 ,044 2,872 9 ,96910 -,021 ,044 3,112 10 ,97911 ,008 ,043 3,142 11 ,98912 -,002 ,043 3,144 12 ,99413 -,007 ,043 3,167 13 ,99714 ,025 ,043 3,508 14 ,99815 -,043 ,043 4,480 15 ,996

16 -,017 ,043 4,628 16 ,997

Ahora se comparar este modelo con el obtenido previamente sin regresores. Véase que se

reduce el error estándar de los residuales, incrementa la verosimilitud de los datos y se

reducen los indicadores de costo/beneficio, todo lo cual asegura que vale la pena introducir

las variables independientes:

Log likelihood

AIC SBS

(0 0 0)( 0 1 1)12

81.322 -3019.610 6041.220 6045.466

(0 0 0)(0 1 1)12r

80.475 -3008.688 6025.375 6042.360

Por su parte, con el comando FIT obtenemos en el período de uso lo siguiente: FIT Error Statistics Error Variable ERR_1 ERR_4 Observed Variable FIT_1 FIT_4 N of Cases 516 516 Deg Freedom 515 512 Mean Error 6.2945 1.8830 Mean Abs Error 57.6433 57.9969 SSE 3594891.89 3449151.66 MSE 6980.3726 6736.6243 RMS 83.5486 82.0769 Durbin-Watson 1.9218 1.9495

Analizando estos resultados se fortalece la conclusión de que el mejor modelo es el último

donde se trabajó con los regresores.

Se pasa ahora a graficar el pronóstico junto con la serie original. Se muestran dos graficas:

la primera incluye todos los datos desde su inicio y la segunda desde el 2000 hasta el 2007

para que se vea con mayor precisión el comportamiento del pronóstico.

Fit for pluv401 fromARIMA, MOD_16NOCON

pluv401

Fit for pluv401 fromARIMA, MOD_16NOCON

pluv401

3.2.3Modelo Final del Pluviómetro 401. La descripción del modelo final se extrae de la tabla de estimación

Estimates Std Error t Approx Sig Seasonal Lags Seasonal MA1 .951 .025 38.447 .000

may68 82.286 39.727 2.071 .039oct78 51.646 28.924 1.786 .075

oct05 212.804 58.686 3.626 .000

En términos de operadores y omitiendo los regresores, el modelo es de la forma

( ) ( ) tt eZ SMA 121

12 11 ββ −=−

con SMA1=0.951 donde te es un ruido blanco ( )2,0 σ con 2σ =6613.248

Al incluir los regresores: r1(t), r2(t), r3(t) que son las derivadas estacionales de las

funciones primitivas may68, oct78 y oct205, esto es funciones de pulso unitario en esas

fechas, con los coeficientes que aparecen en la tabla, el modelo adquiere la forma

( )traeeZZ i

iitttt SMA ∑

=−− +−+=

112112

3211212 804.212646.51286.82951.0 rrreeZZ tttt +++−+= −−

Desde el punto de vista práctico, esto significa que después de las observaciones de al

menos un año, las predicciones para cada mes y año siguientes, pueden obtenerse a partir

de fórmulas que, en dependencia de los datos disponibles son fácilmente calculables e

implementables en Excel, o requieren del SPSS como instrumento de pronóstico.

• Si se dispone de datos reales y pronosticados del año anterior (t-12) se puede

realizar un pronóstico a corto plazo del mes y año actual Zt teniendo en cuenta los

valores reales del año anterior Zt-12 y el error real de su pronóstico et-12 . Se tiene

en ese caso una fórmula fácil de implementar en Excel:

3211212 804.212646.51286.82951.0ˆ rrreZZ ttt +++−≅ −− donde r1, r2, r3 valen 1 respectivamente solo en las fechas excepcionales descritas

anteriormente

• Si no se dispone de datos reales del año anterior (t-12), y por tanto solo se tiene un

valor pronosticado para esos meses, no se conoce el error real del pronóstico, y se

solo se pueden utilizar estimativas del error para dichos meses anteriores. Se puede

todavía realizar un pronóstico a largo plazo, que utiliza los valores estimados para

el año anterior así como sus errores también estimados:

1212 ˆ951.0ˆˆ−− −≅ ttt eZZ

Pero la aplicación de una tal fórmula requeriría conocer los errores de estimaciones

del pronóstico en meses anteriores, que son a su vez, estimaciones de error, y no

disponibles. Se necesita entonces aplicar las técnicas basadas en la teoría de

pronóstico de Box-Jenkins, comentada en el Capítulo II y que está vaciada en el

SPSS, y otros paquetes, pero no en el Excel (al menos hasta ahora).

3.3 Modelación del Pluviómetro 980 El pluviómetro 980 se encuentra ubicado en la presa La Quinta, 298.4 al Norte y 625.2 al

Este, en el municipio de Camajuaní. Esta serie existe desde 1992 hasta la actualidad y

consta con 180 observaciones, su gráfico aparece en los anexos (3.26). En el

comportamiento de esta gráfica se percibe al menos que no hay una evidente tendencia

lineal y no hay síntomas de heterocedasticidad.

Se inicia como antes el cálculo y gráfico de las funciones de autocorrelación y

autocorrelación parcial. Se logra para los 180 casos de las muestra con el comando ACF

16151413121110987654321

Lag Number

plu980

16151413121110987654321

Lag Number

plu980

Las tablas correspondientes aparecen en los Anexos (3.27) y (3.28). Se obtienen también

las autocorrelaciones estacionales

1201089684726048362412

Lag Number

plu980

1201089684726048362412

Lag Number

tial A

plu980

Las tablas correspondientes aparecen en los anexos (3.29) y (3.30). Se puede observar de

la SACF(h) la ausencia de carácter estacionario por lo que se hace una diferenciación

estacional y se rehacen los gráficos de autocorrelación

1201089684726048362412

Lag Number

plu980

1201089684726048362412

Lag Number

plu980

Las tablas correspondientes aparecen en los anexos (3.31) y (3.32). Estos gráficos sugieren

dos posibles modelos (0 0 0)(0 1 1)12 ó (0 0 0)(2 1 0)12. Se comienza a probar el primero.

Los resultados del comando ARIMA son los siguientes:

He aquí la evolución de la convergencia

Seasonal Lags

Seasonal

MA1 Adjusted Sum

0 .493 892272.453 .0011 .774 807947.759 .0012 .881 795701.891 .0003 .923 794452.267 .0004 .942 794294.073 .0005 .951 794274.789(a) .000

Melard's algorithm was used for estimation. a The estimation terminated at this iteration, because the sum of squares decreased by less than .001%. Y aquí están los resultados de la estimación de los parámetros

Parámetros a estimar Estimates Std Error t Approx Sig Seasonal Lags Seasonal MA1 .954 .174 5.477 .000Melard's algorithm was used for estimation. Se puede observar que la constante de Marquardt no presenta problemas, la media móvil

SMA1 es significativa, por tanto se puede pasar a la fase de validación, y para ello se

buscan las autocorrelaciones estacionales y regulares de los errores. Las tablas

correspondientes aparecen en los anexos (3.33)-(3.38)

Autocorrelaciones estacionales

Series: Error for plu980 from ARIMA, MOD_8 NOCON

Value df Sig.(b) 12 .085 .074 12.757 12 .38724 -.038 .071 27.993 24 .26036 .052 .068 37.645 36 .39448 -.017 .065 46.088 48 .55260 .066 .061 54.203 60 .68672 .011 .058 64.307 72 .72984 .024 .054 70.973 84 .84496 .019 .050 81.426 96 .856108 .115 .046 98.552 108 .731120 .034 .041 121.368 120 .448

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Autocorrelaciones regulares Series: Error for plu980 from ARIMA, MOD_8 NOCON

Value df Sig.(b) 1 .040 .076 .269 1 .6042 -.135 .076 3.418 2 .1813 -.061 .076 4.060 3 .2554 -.087 .076 5.379 4 .2515 -.022 .076 5.463 5 .3626 -.041 .075 5.757 6 .4517 -.024 .075 5.860 7 .5568 -.104 .075 7.801 8 .4539 -.109 .075 9.919 9 .35710 .034 .074 10.123 10 .43011 .085 .074 11.439 11 .40712 .085 .074 12.757 12 .38713 -.043 .074 13.101 13 .44014 -.030 .073 13.262 14 .50615 .017 .073 13.318 15 .57816 .057 .073 13.923 16 .604

En los gráficos anteriormente expuestos se muestra que la modelación de la parte

estacional es suficientemente buena y que no se necesita completar con términos regulares

pues los residuales cumplen con la hipótesis de ser un ruido blanco.

El segundo posible modelo a trabajar (0 0 0) (2 1 0)12 y se estima con el comando

siguiente * ARIMA. TSET PRINT=DEFAULT CIN=95 NEWVAR=ALL .

PREDICT THRU END. ARIMA plu980 /MODEL=( 0 0 0 )( 2 1 0 ) NOCONSTANT /MXITER= 10 /PAREPS= .001 /SSQPCT= .001 /FORECAST= EXACT . La siguiente tabla muestra que el algoritmo converge rápidamente.

Seasonal Lags

Seasonal

AR1 Seasonal

AR2 Adjusted Sum

0 -.537 -.309 884284.081 .0011 -.604 -.375 878757.115(a) .001

Melard's algorithm was used for estimation. a The estimation terminated at this iteration, because the sum of squares decreased by less than .001%. Los parámetros a estimar resultan los siguientes, y como se puede ver son altamente

significativos Parámetros a estimar Estimates Std Error t Approx Sig

Seasonal AR1 -.604 .074 -8.173 .000Seasonal Lags Seasonal AR2 -.374 .074 -5.033 .000

Melard's algorithm was used for estimation. La matriz de correlación entre dichos parámetros es la siguiente Matriz de correlación

Seasonal Lags

Seasonal

AR1 Seasonal

AR2 Seasonal AR1 1.000 .447Seasonal

Lags Seasonal AR2 .447 1.000Melard's algorithm was used for estimation. Las correlaciones estacionales de los errores se obtienen con el comando ACF VARIABLES= ERR_2 /NOLOG /MXAUTO 120 /SERROR=IND /SEASONAL /PACF. Autocorrelaciones estacionales Series: Error for plu980 from ARIMA, MOD_11 NOCON

Value df Sig.(b)

12 -.036 .074 14.257 12 .28524 -.095 .071 35.746 24 .05836 -.142 .068 52.586 36 .03748 -.050 .065 62.046 48 .08460 .056 .061 71.912 60 .13972 -.065 .058 81.995 72 .19784 .012 .054 87.294 84 .38196 -.010 .050 95.570 96 .493108 .108 .046 110.138 108 .425120 -.006 .041 133.897 120 .182

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Las tablas y gráficas complementarias aparecen en los anexos (3.39)-(3.41). Observe en la

anterior, que la serie quedó bien modelada estacionalmente. Ahora se pueden buscar los

correlogramas regulares del error con el comando usual: ACF VARIABLES= ERR_2 /NOLOG /MXAUTO 16 /SERROR=IND /PACF. Autocorrelaciones regulares Series: Error for plu980 from ARIMA, MOD_11 NOCON

Value df Sig.(b) 1 .033 .076 .181 1 .6702 -.160 .076 4.566 2 .1023 -.087 .076 5.884 3 .1174 -.082 .076 7.058 4 .1335 .019 .076 7.123 5 .2126 .000 .075 7.123 6 .3107 -.003 .075 7.124 7 .4168 -.114 .075 9.464 8 .3059 -.114 .075 11.794 9 .22510 .023 .074 11.888 10 .29311 .108 .074 14.026 11 .23212 -.036 .074 14.257 12 .28513 -.110 .074 16.476 13 .22414 -.038 .073 16.738 14 .27015 .027 .073 16.869 15 .32716 .082 .073 18.127 16 .317

Las gráficas y tablas complementarias se encuentran en los anexos (3.42)-(3.44)

Como el modelo presenta una espiga en la parte media movil estacional vamos a tratar de

mejorarlo con una media de orden 3 pero por la autocorrelación de los resultados, se

decidió finalmente no considerar los términos SMA1, SMA2, sino solamente, SMA3 lo

que frecuentemente se denota en la forma (0 0 0) (2 1 (3))12 para distinguirlo del modelo

(0 0 0) (2 1 3)12. Los resultados de este modelo se encuentran en los anexos (3.45)-(3.52).

Los resultados que se pueden observar en esos anexos sugieren que efectivamente hubo

una mejora y en particular se obtuvo un ruido blanco. Ahora se puede comparar con el

primero:

Log likelihood

AIC SBS

(0 0 0)( 0 1 1)12

63.906 -950.0710 1902.139 1905.263

(0 0 0)(2 1 (3))12

64.798 -949.460 1904.920 1914.292

Se puede observar que en el segundo modelo se reducen el error estándar de los residuales

y se incrementa la verosimilitud de los residuales pero se incrementan ligeramente los

indicadores de costo/beneficio de forma lógica por el incremento del número de

parámetros. De atenerse al principio de parsimonia, habría que quedarse con el primero.

Pero además el comando FIT muestra los siguientes estadísticos de comparación FIT Error Statistics Error Variable ERR_1 ERR_3 Observed Variable FIT_1 FIT_3 N of Cases 168 168 Deg Freedom 167 165 Mean Error 4.4616 4.3133 Mean Abs Error 52.9159 53.1441 Mean Pct Error 17.3861 17.6392 Mean Abs Pct Err 66.4779 66.9734 SSE 805415.297 802871.672 MSE 4822.8461 4865.8889 RMS 69.4467 69.7559 Durbin-Watson 1.9088 1.9117

Atendiendo a ellos en general, y en particular al Error Cuadrático Medio (MSE) se ratifica

que el el mejor modelo es el primero. Este primer modelo tiene un estadístico de Durbin

Watson ligeramente menor que el del segundo pero de todas maneras cercano a 2. A

continuación se muestra la gráfica del pronóstico.

YEAR, not periodic

Fit for plu980 fromARIMA, MOD_8NOCON

plu980

En este modelo se ensayaron también posibles regresores en los meses con aparentes

ouliers pero no resultaron significativos. En definitiva, la estructura del modelo se

determina por la siguiente tabla y la varianza reportada de los residuales.

Parámetros a estimar Estimates Std Error t Approx Sig Seasonal Lags Seasonal MA1 .954 .174 5.477 .000Melard's algorithm was used for estimation. SMA1 = 0.954, y en término de operadores, el modelo es:

( ) ( )ett SMAZ 121

12 11 ββ −=−

O, en términos de la serie original:

tttt eeZZ SMA +−= −− 12112

donde et es un ruido blanco con varianza 2σ =6088.573 que cuantifica el error

Desde el punto de vista práctico,

• Si se dispone de datos reales y pronosticados del año anterior (t-12) se puede

realizar un pronóstico a corto plazo del mes y año actual Zt teniendo en cuenta los

valores reales del año anterior Zt-12 y el error real de su pronóstico et-12 a partir de la

fórmula simple: 1212 954.0ˆ−− −≅ ttt eZZ

• Si no se dispone de datos reales del año anterior (t-12), y por tanto solo se tiene un

valor pronosticado para esos meses, no se conoce el error real del pronóstico, y se

solo se pueden utilizar estimativas del error para dichos meses anteriores. El

cálculo de 1212 ˆ954.0ˆˆ−− −≅ ttt eZZ debe hacerse en el SPSS

3.4 Resultado de los modelos matemáticos de los pluviómetros 940, 357, 389, 396.

3.4.1 Modelo matemático del tipo ARIMA del pluviómetro 940. Este pluviómetro consta con 348 observaciones, se encuentra ubicado en la presa La

Minerva a 290.0 al Norte y 623.2 al este ,específicamente en Santa Clara. El modelo final

de esta serie es (0 0 0) (3 1 0)12. Fueron introducidos regresores a esta serie en ciertos

meses que poseen aparentes outliers para analizar y se probaron los meses de julio del

1988, septiembre del 1987, octubre del 1996 y septiembre del 2003 en el modelo ARIMA.

Esto trajo como resultado que solo un mes fue significativo: octubre del 1996. Se hizo la

comparación de los dos modelos para ver cual era mejor y resultó ser el segundo donde se

utilizó el regresor. Por tanto el modelo es el siguiente. Parámetros a estimar Estimates Std Error t Approx Sig

Seasonal AR1 -.773 .053 -14.697 .000Seasonal AR2 -.538 .062 -8.731 .000

Seasonal Lags

Seasonal AR3 -.356 .053 -6.720 .000Regression Coefficients oct96 107.118 51.466 2.081 .038

Melard's algorithm was used for estimation. AR1= -0.773 AR2= -0.538 AR3= -0.356 Coef de Oct96=107.118 donde te es un ruido blanco con ( )2,0 σ , 2σ =5334.487 Concretamente: ( )( ) tT eZARARAR =−−−− 1236

1 11 ββββ +107.118 r(t)

( ) )(1)( 9636

1 tOcttARARARtr −−−−= δβββ

Obsérvese en particular que el regresor puede tener influencias sobre los meses de octubre

de 3 años subsecuentes.

3.4.2 Modelo matemático del tipo ARIMA del pluviómetro 357. Este Pluviómetro se encuentra ubicado en Manajanabo a 284.1 al Norte y 621.6 al Este

formando parte de la Presa Minerva en Santa Clara. Cuenta con 660 observaciones y

empieza en el año 1952 hasta la actualidad. El modelo presenta una característica especial

que difiere de los otros porque hay datos perdidos. En este caso se recalcularon dichos

datos con una interpolación y el modelo final que se obtuvo fue (0 0 1) (0 1 1)12.

Parámetros a estimar Estimates Std Error t Approx Sig Non-Seasonal Lags MA1 -.125 .038 -3.247 .001Seasonal Lags Seasonal MA1 .955 .020 47.843 .000

Melard's algorithm was used for estimation.

MA1 = -0.125

SMA1 = -0.955 donde te es un ruido blanco con ( )2,0 σ y 2σ =6654.633

Luego:

( ) ( )( ) tt eSMAMAZ 1211

12 111 βββ −−=−

3.4.3 Modelo matemático del tipo ARIMA del pluviómetro 389. El pluviómetro 389 se encuentra ubicado en Placetas en el poblado Combate, también en la

zona de la presa Minerva a los 280.4 Norte y 630.8 Este. Cuenta con 720 observaciones y

empieza en el año 1947 hasta la actualidad. No fueron necesarios regresores. El modelo

final que le corresponde es (0 0 1)(0 1 1)12.

Parámetros a estimar Estimates Std Error t Approx Sig Non-Seasonal Lags MA1 -.088 .037 -2.380 .018Seasonal Lags Seasonal MA1 .961 .020 48.468 .000

Melard's algorithm was used for estimation.

MA1 = -0.88

SMA1= -0.961 donde te es un ruido blando con ( )2,0 σ y 2σ =6042.745

Luego:

( ) ( )( ) tt eSMAMAZ 1211

12 111 βββ −−=−

3.4.4 Modelo matemático del tipo ARIMA del pluviómetro 396. Este pluviómetro se encuentra ubicado en Ceres, perteneciente a la presa Minerva, a los

320.2 Norte y 636.0 Este en Camajuaní, cuenta con 504 observaciones y empieza en el año

1964 hasta la actualidad. Su modelo exige una diferenciación regular además de la

estacional. Ello implicó que la forma de introducirle los regresores fuera diferente pero al

final no resultaron significativos. El modelo obtenido fue (2 1 (3)) (0 1 1)12.

Parámetros a estimar Estimates Std Error t Approx Sig

AR1 -.886 .029 -30.650 .000AR2 -.884 .035 -25.089 .000

Non-Seasonal Lags

MA3 .904 .038 23.823 .000Seasonal Lags Seasonal MA1 .964 .039 24.943 .000

AR1= -0.886

AR2= -0.884

MA3= -0.904

SMA1= 0.964 donde te es un ruido blando con ( )2,0 σ y 2σ =5367.623

Luego el modelo es:

( )( )( ) ( )( ) tt eSMAMAZARAR ββββββ 13

21 11111 −−=−−−−

3.5 Conclusiones del capítulo Se obtuvieron modelos ARIMA satisfactorios para todos los pluviómetros seleccionados.

Todos los procesos de estimación alcanzaron la convergencia y la constante de Marquardt

evolucionó satisfactoriamente. Los parámetros resultan significativos y se eliminaron

posibles correlaciones entre los parámetros no existe. Las autocorrelaciones de los

residuales son no significativas de acuerdo al test de Box-Ljung y constituyen por tanto un

ruido blanco. Se logran buenos pronósticos de los datos reservados y los estadísticos de

error se comportan estables en la fase de cálculo y de pronóstico.

Conclusiones y Recomendaciones.

Conclusiones y recomendaciones

Conclusiones Al concluir el presente trabajo, se puede afirmar que se le dio respuesta al problema inicial

planteado, así como los objetivos específicos y en particular se logró:

• Obtener modelos ARIMA para las series de los pluviómetros seleccionados de la

cuenca hidrológica Sagua la Chica perteneciente a Santa Clara.

• Obtener pronósticos de las precipitaciones en todas las series trabajadas, 6 en total,

tarea que constituye un objetivo central para la realización de los gráficos de

despacho del departamento de Hidrológica de la empresa de investigaciones de

recursos Hidráulicos.

• Lograr también un buen trabajo con la nueva teoría de los regresores a la hora de

incluirlos en los modelos como variables independientes en series diferenciadas.

Recomendaciones

• Continuar el tratamiento con las series de precipitaciones de Santa Clara a

partir de los datos de otros pluviómetros. Correlacionar las mismas en aras de

buscar simplificaciones de información y pronóstico

• Generalizar la metodología de construcción de las primitivas de los regresores

para cualquier diferenciación de las más frecuentes en la práctica.

• Realizar estudios de correlación entre los niveles de agua del embalse, las

filtraciones, la lluvia y otras variables existentes en la base de datos.

Bibliografía.

Bibliografía

AKAIKE, H. (1974) A New look at Statistical Model Identification. IEEE Transaction on

Automatic Control, Ac-19, pp. 718-723.

ARELLANO, M. (2006) Introducción al análisis Clásico de series de Tiempo.

BOX, G. A. T., G. (1975) “Intervention analysis with application to economic environmental

problems”. Journal of the American Statistical Association, 70,

pp. 70-79.

BOX, G. E. P. A. J., G.M. (1994) Time Series Analysis Forecasting and Control. , San

Francisco, Holden-Day.

BROCKWELL, P. J. y DAVIS, R. A. (1991) Time Series Theory and Methods. Second edition.

New York, Springer-Verlag.

COCHRANE, J. H. (1997) Time Series for Macroeconomics and Finance Chicago, University of

Chicago.

CUÉ MUÑIZ, J. E. C. E. (1987) Estadística.

DIEBOLD , F. X. (2000) Elements of Forecasting., Pennsylvania, University of Pennsylvania.

FULLER, W. (1976) Introduction to Statistical Time Series New York, Wiley Series in

Probability and Mathematical Statistic. John Wiley and Sons

GLADYS CASAS, R. G., y MILAGROS ALEGRET (1999) “Métodos para la vigilancia de

eventos (III): Técnicas de Clustering para la Detección de Epidemias”. Reporte Técnico

de Vigilancia, julio,1999, 4(7). Ciencias de la Computación. UCLV.

GRAU, A. R. (1994) Estadística Aplicada con ayuda de paquetes de software, Universidad

Guadalajara, Jalisco, México.

GRAU, A. R. (1996) Series Cronológicas, Curso de Especialización en Procesos Estadísticos

Aplicados, Colombia, Coruniversitaria, Ibagué.

GUERRERO, V. M. (1991) Análisis Estadístico de series de tiempo Económicas., México,

Colección CBI. Universidad Autónoma Metropolitana.

JEFFREY, W. H., and BERGER, J. O. (1992) “Ockham’s Razor and Bayesian Analysis”. Am.

Sci, 80, pp. 64-72.

KOROLIOV, V. (1986) Manual de la teoría de probabilidades y estadística matemática.

Bibliografía.

MEDINA, J. H. (1998) Estudio del comportamiento histórico de las tasas de las enfermedades de

declaración obligatoria (EDO) en el municipio de Manicaragua. Santa Clara Villa Clara,

Universidad Central De Las Villas.

MONDEJA HERNANDEZ, A. L. (1995) Metodología para el uso de las series de tiempo en

epidemiología. Santa Clara, Villa Clara, UCLV.

MORA VILLEGAS, H. (2003) Series cronológicas de consumo eléctrico y de petróleo de los

municipios y provincia de Villa Clara. Santa Clara, Villa Clara. UCLV.

MORALES MARTINEZ, J. L.(2007) Series Cronologicas de

OSÉS RODRÍGUEZ, R. (2004) Series Meteorológicas de Villa Clara y otras provincias.

Modelos y Pronósticos. Santa Clara, Villa Clara, UCLV. Trabajo

de diploma

RODRIGUEZ, A. (1986) Estadística Matemática II.

SANCHEZ DE RIVERA, PEÑA, D. (1999) Estadística, Modelos y Métodos, Madrid.

SCHWARTZ, G. (1976) “Estimating the dimensions of a model”. Annals of Statistic, 6, pp. 461-

SHUMWAY, R., and STOFFER, D. (2000) Time Series Analysis and its Applications,

Pittsburgh, University of Pittsburgh.

TARRAU BRITO, M. E. (1996) Caracterización de las series cronológicas de enfermedades

diarreicas y respiratorias agudas en Villa Clara. Santa Clara. Villa Clara, UCLV.

TIAO, C. G., and. TSAY., R. S, (2001) A Course in Time Series Analysis, New York, John

Wiley.

ANEXOS

(2.1)Metodología para el análisis de series de tiempo univariado.

ANEXOS

Gráfica (2.2)

Gráfico del pluviómetro 401(3.1)

1000.00

800.00

600.00

400.00

200.00

ANEXOS

Autocorrlación de la parte regular del 401 inicio (3.2) Autocorrelations Series: pluv401

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(

a) Value df Sig.(b) 1 .301 .043 48.236 1 .0002 .080 .043 51.624 2 .0003 .001 .043 51.625 3 .0004 -.133 .043 61.001 4 .0005 -.242 .043 92.232 5 .0006 -.342 .043 155.100 6 .0007 -.248 .043 188.219 7 .0008 -.122 .043 196.283 8 .0009 -.011 .043 196.344 9 .00010 .086 .043 200.383 10 .00011 .287 .043 244.834 11 .00012 .387 .043 326.171 12 .00013 .267 .043 364.780 13 .00014 .113 .043 371.779 14 .00015 -.033 .043 372.357 15 .00016 -.131 .043 381.792 16 .000

. Tabla (3.3) Partial Autocorrelations Series: pluv401

Partial Autocorrel

ation Std.Error 1 .301 .044 2 -.012 .044 3 -.021 .044 4 -.139 .044 5 -.181 .044 6 -.249 .044 7 -.108 .044 8 -.051 .044 9 -.009 .044 10 .005 .044 11 .177 .044 12 .207 .044 13 .082 .044 14 .010 .044 15 -.044 .044 16 -.030 .044

ANEXOS

Tabla (3.4) Autocorrelations Series: pluv401

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(a

) Value df Sig.(b) 12 .387 .043 326.171 12 .00024 .316 .042 615.937 24 .00036 .345 .042 913.905 36 .00048 .382 .041 1235.615 48 .00060 .346 .041 1531.195 60 .00072 .286 .040 1768.069 72 .00084 .298 .040 2064.975 84 .00096 .320 .039 2348.670 96 .000108 .361 .039 2609.061 108 .000120 .321 .038 2857.790 120 .000

Tabla (3.5) Partial Autocorrelations Series: pluv401

Partial Autocorrel

ation Std.Error 12 .207 .044 24 .054 .044 36 .116 .044 48 .109 .044 60 .059 .044 72 .017 .044 84 .006 .044 96 .034 .044 108 .138 .044 120 .032 .044

ANEXOS

Tabla (3.6) Autocorrelations Series: pluv401

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(a

) Value df Sig.(b) 12 -.447 .043 110.216 12 .00024 -.073 .043 118.214 24 .00036 -.006 .042 138.024 36 .00048 .053 .042 159.055 48 .00060 .018 .041 165.657 60 .00072 -.056 .041 177.122 72 .00084 -.016 .040 186.221 84 .00096 -.014 .040 193.737 96 .000108 .074 .039 204.727 108 .000120 .012 .038 218.191 120 .000

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Tabla (3.7) Partial Autocorrelations Series: pluv401

Partial Autocorrel

ation Std.Error 12 -.452 .044 24 -.359 .044 36 -.268 .044 48 -.179 .044 60 -.102 .044 72 -.106 .044 84 -.137 .044 96 -.194 .044 108 -.059 .044 120 -.011 .044

ANEXOS

Gráfica (3.8)

1201089684726048362412

Lag Number

Error for pluv401 from ARIMA, MOD_4 NOCON

Tabla(3.9) Partial Autocorrelations Series: Error for pluv401 from ARIMA, MOD_4 NOCON

Partial Autocorrel

ation Std.Error 12 ,007 ,044 24 -,078 ,044 36 -,007 ,044 48 ,020 ,044 60 -,001 ,044 72 -,064 ,044 84 -,063 ,044 96 -,009 ,044 108 ,102 ,044 120 ,034 ,044

ANEXOS

Gráfica (3.10)

1201089684726048362412

Lag Number

Gráfica (3.11)

16151413121110987654321

Lag Number

ANEXOS

Partial Autocorrel

ation Std.Error 1 ,033 ,044 2 -,040 ,044 3 ,036 ,044 4 -,022 ,044 5 ,020 ,044 6 -,023 ,044 7 ,013 ,044 8 ,002 ,044 9 ,019 ,044 10 -,028 ,044 11 ,022 ,044 12 ,007 ,044 13 -,008 ,044 14 ,018 ,044 15 -,034 ,044 16 -,029 ,044

Grafica (13)

ANEXOS

16151413121110987654321

Lag Number

Segundo Modelo Grafica (3.14) de la parte estacional de los errores.

ANEXOS

1201089684726048362412

Lag Number

Tabla (3.15) Partial Autocorrelations Series: Error for pluv401 from ARIMA, MOD_7 NOCON

Partial Autocorrel

ation Std.Error 12 -,037 ,044 24 -,063 ,044 36 -,071 ,044 48 -,135 ,044 60 -,171 ,044 72 -,113 ,044 84 -,112 ,044 96 -,077 ,044 108 ,047 ,044 120 ,011 ,044

Gráfica (3.16)

ANEXOS

1201089684726048362412

Lag Number

Gráfica (3.17)

16151413121110987654321

Lag Number

Tabla(3.18) Partial Autocorrelations

ANEXOS

Series: Error for pluv401 from ARIMA, MOD_7 NOCON

Partial Autocorrel

ation Std.Error 1 ,052 ,044 2 -,036 ,044 3 ,024 ,044 4 -,011 ,044 5 ,033 ,044 6 -,045 ,044 7 ,030 ,044 8 ,011 ,044 9 ,010 ,044 10 -,028 ,044 11 ,024 ,044 12 -,037 ,044 13 ,019 ,044 14 ,001 ,044 15 -,034 ,044 16 -,013 ,044

Gráfica(3.19)

16151413121110987654321

Lag Number

Gráfica (3.20)

ANEXOS

1201089684726048362412

Lag Number

Tabla (3.21) Partial Autocorrelations Series: Error for pluv401 from ARIMA, MOD_13 NOCON

Partial Autocorrel

ation Std.Error 12 -,007 ,044 24 -,074 ,044 36 ,004 ,044 48 ,024 ,044 60 -,002 ,044 72 -,077 ,044 84 -,073 ,044 96 -,007 ,044 108 ,109 ,044 120 ,046 ,044

Gráfica (22)

ANEXOS

1201089684726048362412

Lag Number

Gráfica (3.23)

16151413121110987654321

Lag Number

ANEXOS

Partial Autocorrel

ation Std.Error 1 ,024 ,044 2 -,039 ,044 3 ,033 ,044 4 -,013 ,044 5 ,027 ,044 6 -,031 ,044 7 ,016 ,044 8 ,015 ,044 9 ,025 ,044 10 -,024 ,044 11 ,012 ,044 12 -,007 ,044 13 -,003 ,044 14 ,024 ,044 15 -,042 ,044 16 -,015 ,044

Gráfica (3.25)

16151413121110987654321

Lag Number

Grafico del pluviómetro 980 (3.26).

ANEXOS

YEAR, not periodic

400.00

300.00

200.00

100.00

Tabla (3.27) Autocorrelations Series: plu980

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(

a) Value df Sig.(b) 1 .345 .074 21.754 1 .0002 .052 .074 22.245 2 .0003 -.030 .074 22.409 3 .0004 -.176 .073 28.167 4 .0005 -.323 .073 47.738 5 .0006 -.398 .073 77.520 6 .0007 -.336 .073 98.891 7 .0008 -.210 .072 107.289 8 .0009 -.060 .072 107.974 9 .00010 .154 .072 112.565 10 .00011 .368 .072 138.810 11 .00012 .405 .072 170.736 12 .00013 .276 .071 185.712 13 .00014 .119 .071 188.512 14 .00015 .032 .071 188.721 15 .00016 -.085 .071 190.174 16 .000

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Tabla (3.28) Partial Autocorrelations

ANEXOS

Series: plu980

Partial Autocorrel

ation Std.Error 1 .345 .075 2 -.076 .075 3 -.026 .075 4 -.174 .075 5 -.240 .075 6 -.272 .075 7 -.217 .075 8 -.183 .075 9 -.142 .075 10 -.013 .075 11 .133 .075 12 .121 .075 13 .029 .075 14 -.030 .075 15 .039 .075 16 .054 .075

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(a

) Value df Sig.(b) 12 .405 .072 170.736 12 .00024 .307 .069 313.500 24 .00036 .345 .066 445.234 36 .00048 .276 .063 561.124 48 .00060 .267 .061 667.758 60 .00072 .219 .057 737.140 72 .00084 .229 .054 820.728 84 .00096 .186 .051 892.482 96 .000108 .211 .047 962.288 108 .000120 .154 .043 1038.706 120 .000

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Tabla(3.30) Partial Autocorrelations

ANEXOS

Series: plu980

Partial Autocorrel

ation Std.Error 12 .121 .075 24 .036 .075 36 .123 .075 48 -.003 .075 60 -.037 .075 72 .030 .075 84 .067 .075 96 .015 .075 108 .076 .075 120 -.043 .075

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(a

) Value df Sig.(b) 12 -.410 .074 40.135 12 .00024 -.089 .071 55.290 24 .00036 .085 .068 63.450 36 .00348 -.086 .065 77.860 48 .00460 .065 .061 98.612 60 .00172 -.039 .058 114.375 72 .00184 .027 .054 121.630 84 .00596 -.051 .050 126.601 96 .020108 .089 .046 138.060 108 .027120 -.022 .041 161.164 120 .007

a The underlying process assumed is independence (white noise). b Based on the asymptotic chi-square approximation. Tabla (3.32)

ANEXOS

Partial Autocorrelations Series: plu980

Partial Autocorrel

ation Std.Error 12 -.424 .077 24 -.327 .077 36 -.091 .077 48 -.050 .077 60 -.037 .077 72 -.092 .077 84 .002 .077 96 -.045 .077 108 .026 .077 120 .006 .077

Gráfica (3.33)

1201089684726048362412

Lag Number

Error for plu980 from ARIMA, MOD_8 NOCON

Tabla (3.34) Partial Autocorrelations

ANEXOS

Series: Error for plu980 from ARIMA, MOD_8 NOCON

Partial Autocorrel

ation Std.Error 12 .041 .077 24 -.005 .077 36 .130 .077 48 .019 .077 60 -.010 .077 72 -.004 .077 84 .055 .077 96 -.011 .077 108 .041 .077 120 -.028 .077

Gráfica (3.35)

1201089684726048362412

Lag Number

Gráfica (3.36)

ANEXOS

16151413121110987654321

Lag Number

Tabla(3.37) Partial Autocorrelations Series: Error for plu980 from ARIMA, MOD_8 NOCON

Partial Autocorrel

ation Std.Error 1 .040 .077 2 -.137 .077 3 -.050 .077 4 -.103 .077 5 -.031 .077 6 -.071 .077 7 -.041 .077 8 -.137 .077 9 -.133 .077 10 -.020 .077 11 .020 .077 12 .041 .077 13 -.070 .077 14 -.027 .077 15 -.003 .077 16 .044 .077

ANEXOS

Gráfica (3.38)

16151413121110987654321

Lag Number

Errores de (0 0 0)(2 1 0)12 Gráfica (3.39)

ANEXOS

1201089684726048362412

Lag Number

Tabla (3.40) Partial Autocorrelations Series: Error for plu980 from ARIMA, MOD_11 NOCON

Partial Autocorrel

ation Std.Error 12 -.089 .077 24 -.056 .077 36 -.049 .077 48 -.029 .077 60 -.037 .077 72 -.066 .077 84 .026 .077 96 -.040 .077 108 .049 .077 120 -.020 .077

Gráfica (3.41)

ANEXOS

1201089684726048362412

Lag Number

Gráfica (3.42)

16151413121110987654321

Lag Number

ANEXOS

Partial Autocorrel

ation Std.Error 1 .033 .077 2 -.161 .077 3 -.078 .077 4 -.106 .077 5 -.003 .077 6 -.040 .077 7 -.015 .077 8 -.135 .077 9 -.123 .077 10 -.027 .077 11 .047 .077 12 -.089 .077 13 -.118 .077 14 -.063 .077 15 -.021 .077 16 .016 .077

Gráfica (3.44)

16151413121110987654321

Lag Number

(Resultado del 980 modelo (0 0 0) (2 1 (3))

ANEXOS

Tabla (3.45) Iteration History

Seasonal Lags

Seasonal

AR1 Seasonal

AR2 Seasonal

MA3 Adjusted Sum

0 .438 .538 .000 2479331.089 .0011 .204 .336 .000 1574064.908 .0012 -.349 -.163 .000 959902.920 .0003 -.653 -.503 .000 831686.844 .0004 -.794 -.707 .000 797857.784 .0005 -.862 -.805 .000 792665.122 .0006 -.891 -.850 .000 792002.579 .0007 -.902 -.867 .000 791930.556(a) .000

Melard's algorithm was used for estimation. a The estimation terminated at this iteration, because the sum of squares decreased by less than .001%.

Tabla (3.46) Residual Diagnostics Number of Residuals 168 Number of Parameters 3 Residual df 165 Adjusted Residual Sum of Squares

791924.327

Residual Sum of Squares 2479331.089

Residual Variance 4198.761 Model Std. Error 64.798 Log-Likelihood -949.460 Akaike's Information Criterion (AIC) 1904.920

Schwarz's Bayesian Criterion (BIC) 1914.292

Tabla (3.47)

Parameter Estimates Estimates Std Error t Approx Sig

Seasonal AR1 -.905 .118 -7.672 .000Seasonal AR2 -.872 .198 -4.408 .000

Seasonal Lags

Seasonal MA3 .795 .295 2.691 .008Melard's algorithm was used for estimation.

Tabla (3.48) Correlation Matrix

ANEXOS

Seasonal Lags

Seasonal

AR1 Seasonal

AR2 Seasonal

MA3 Seasonal AR1 1.000 .942 -.920Seasonal AR2 .942 1.000 -.976

Seasonal Lags

Seasonal MA3 -.920 -.976 1.000Melard's algorithm was used for estimation. Tabla (3.49)

Autocorrelación de los errores

Autocorrelations Series: Error for plu980 from ARIMA, MOD_14 NOCON

Box-Ljung Statistic

Lag Autocorrel

ation Std.Error(a

) Value df Sig.(b) 12 .060 .074 11.805 12 .46124 -.017 .071 26.755 24 .31636 .043 .068 36.162 36 .46148 -.036 .065 45.235 48 .58760 .086 .061 54.620 60 .67272 -.001 .058 65.028 72 .70784 .015 .054 71.259 84 .83896 .027 .050 81.670 96 .851108 .108 .046 97.463 108 .757120 .027 .041 119.080 120 .507

Tabla(3.50) Autocorrelations Series: Error for plu980 from ARIMA, MOD_14 NOCON

Box-Ljung Statistic

Lag Autocorrelation

Std.Error(a) Value df Sig.(b)

12 .060 .074 11.805 12 .46124 -.017 .071 26.755 24 .31636 .043 .068 36.162 36 .46148 -.036 .065 45.235 48 .58760 .086 .061 54.620 60 .67272 -.001 .058 65.028 72 .70784 .015 .054 71.259 84 .83896 .027 .050 81.670 96 .851108 .108 .046 97.463 108 .757120 .027 .041 119.080 120 .507

ANEXOS

Gráfico (3.51)

1201089684726048362412

Lag Number

Partial Autocorrel

ation Std.Error 12 .020 .077 24 .012 .077 36 .119 .077 48 .011 .077 60 .002 .077 72 -.012 .077 84 .055 .077 96 -.009 .077 108 .036 .077 120 -.025 .077

Gráfico (3.53)

ANEXOS

1201089684726048362412

Lag Number

Universidad Central de las Villas Facultad de Matemática ...

Documents

Transcript of Universidad Central de las Villas Facultad de Matemática ...

“Universidad Central “Marta de Las Villas

UNIVERSIDAD CENTRAL MARTA ABREU DE LAS VILLAS …

Universidad Central Marta Abreu de Las Villas Facultad de ...

Universidad Central "Marta Abreu" de Las Villas ......CONVOCATORIA Estimado(a) colega: La Universidad entral “Marta Abreu” de Las Villas, institución de Excelencia de la Educación

DEPARTAMENTO DE FÍSICA LA FOTO-BIOFILIA DE LA VÍA …universidad central de las villas facultad de matemÁtica, fÍsica y computaciÓn departamento de fÍsica la foto-biofilia de

Universidad Central Marta Abreu de Las Villas Sede Félix ...

Universidad Central de las Villas Marta Abreu Facultad de ...

Central “Marta Abreu” de las Villas

UNIVERSIDAD CENTRAL · Web viewUniversidad Central “Marta Abreu” de Las Villas. Programas de Posgrado 2021. Presentación. Universidad Central “Marta Abreu” de Las Villas.

UNIVERSIDAD CENTRAL MARTHA ABREU DE LAS VILLAS UNIVERSIDAD ...repositorio.unan.edu.ni/8788/1/TESIS DOCTORAL ORIGINAL. JAIRO FLORES.pdf · Universidad Central Marta Abreu de las Villas

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

Universidad Central “Marta Abreu” de Las Villas Facultad ... · Universidad Central “Marta Abreu” de Las Villas Facultad de Ciencias Económicas Departamento de Contabilidad

Universidad Central Marta Abreu de Las Villas Centro de Estudios de Informática ORGANIZACIÓN DEL TRABAJO.

Lic. Mayda Gallardo Villavicencio Central Abreu”de Las Villas · Lic. Mayda Gallardo Villavicencio Universidad Central “Martha Abreu”de Las Villas La implantación de las nuevas

Universidad Central “Marta Abreu” de Las Villas. · Universidad Central “Marta Abreu” de Las Villas. Centro de Estudios de Dirección Empresarial. Tesis en opción al Grado

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS, CUBA

UNIVERSIDAD CENTRAL DE LAS VILLAS

Universidad Central Marta Abreu de Las Villas TRABAJO DE ...

UNIVERSIDAD CENTRAL “MARTHA ABREU” DE LAS VILLAS CUBA

Universidad Central arta A as Villas Departamento de ...