DETERMINACIÓN DE ZONAS DE INUNDACIÓN EN...

72

Transcript of DETERMINACIÓN DE ZONAS DE INUNDACIÓN EN...

DETERMINACIÓN DE ZONAS DE INUNDACIÓN EN UNA SECCIÓN DELRÍO FUCHA A TRAVÉS DE MODELACIÓN MATEMÁTICA Y ESTADÍSTICA

CESAR IVÁN CHITIVA SÁNCHEZOSCAR IVÁN RIVERA HERNÁNDEZ

UNIVERSIDAD DISTRITAL FRANCÍSCO JOSÉ DE CALDASFACULTAD DE INGENIERÍA

INGENIERÍA CATASTRAL Y GEODESIABOGOTÁ D.C

2015

DETERMINACIÓN DE ZONAS DE INUNDACIÓN EN UNA SECCIÓN DELRÍO FUCHA A TRAVÉS DE MODELACIÓN MATEMÁTICA Y ESTADÍSTICA

Autores: Cesar Iván Chitiva SánchezOscar Iván Rivera Hernández

Proyecto de grado para optar al título de IngenieríaCatastral y Geodesia

Director: Héctor Javier FuentesECONOMISTAMagister en Ciencias Económicas

UNIVERSIDAD DISTRITAL FRANCÍSCO JOSÉ DE CALDASFACULTAD DE INGENIERÍA

INGENIERÍA CATASTRAL Y GEODESIABOGOTÁ D.C

2015

Índice

1. Introducción 8

2. Planteamiento del problema 9

3. Justicación 11

4. Marco teórico 134.1. Conceptos de hidrología . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.1.1. Relación precipitación escorrentía . . . . . . . . . . . . . . . . 134.1.2. Hidrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.2. Clases de modelamiento hidráulico . . . . . . . . . . . . . . . . . . . 144.2.1. Modelo físico . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2.2. Modelos análogos . . . . . . . . . . . . . . . . . . . . . . . . . 154.2.3. Modelos matemáticos . . . . . . . . . . . . . . . . . . . . . . . 154.2.4. Método racional para estimación de caudal . . . . . . . . . . . 15

4.3. Modelación estadística . . . . . . . . . . . . . . . . . . . . . . . . . . 174.4. Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.4.1. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 184.5. Regresión lineal dinámica . . . . . . . . . . . . . . . . . . . . . . . . 19

4.5.1. Modelo de regresión lineal dinámico. . . . . . . . . . . . . . . 204.5.2. Intervalos de credibilidad HPD (Highest posterior density) . . 23

4.6. Procesos autorregresivos . . . . . . . . . . . . . . . . . . . . . . . . . 244.6.1. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.6.2. Componente estacional . . . . . . . . . . . . . . . . . . . . . . 254.6.3. Componente aleatoria . . . . . . . . . . . . . . . . . . . . . . 26

4.7. Box y Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.7.1. Estacionariedad . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.8. Medias móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.8.1. Función de autocorrelación . . . . . . . . . . . . . . . . . . . . 294.8.2. Manejo de datos faltantes . . . . . . . . . . . . . . . . . . . . 30

5. Objetivos 315.1. Objetivo principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.2. Objetivos especícos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6. Metodología 326.1. Recolección de información . . . . . . . . . . . . . . . . . . . . . . . . 326.2. Evaluación y desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . 336.3. Zonas de afectación por inundación . . . . . . . . . . . . . . . . . . . 34

3

7. Resultados y análisis 357.1. Análisis determinista del caudal del río Fucha . . . . . . . . . . . . . 357.2. Modelo autorregresivo de medias móviles . . . . . . . . . . . . . . . . 367.3. Resolucion de conictos de estacionalidad y estacionariedad en varianza 417.4. Análisis del caudal del río Fucha . . . . . . . . . . . . . . . . . . . . . 49

7.4.1. Modelo de regresión lineal dinámica simple con y sin intercepto 497.4.2. Regresión lineal dinámica múltiple con intercepto . . . . . . . 55

8. Conclusiones 618.1. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Anexos 65

4

Índice de guras

1. Localización del Río Fucha . . . . . . . . . . . . . . . . . . . . . . . . 102. Intensidad promedio mensual de lluvia. . . . . . . . . . . . . . . . . . 113. Hidrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144. Tendencia Estaionaria . . . . . . . . . . . . . . . . . . . . . . . . . . 255. Componente Estacional . . . . . . . . . . . . . . . . . . . . . . . . . . 266. Correlograma de una serie temporal estacionaria . . . . . . . . . . . . 297. Esquema Metodológico . . . . . . . . . . . . . . . . . . . . . . . . . . 348. Intensidad de LLuvia I . . . . . . . . . . . . . . . . . . . . . . . . . . 359. Serie temporal estación Las Vegas . . . . . . . . . . . . . . . . . . . . 3610. Tendencia de la serie. Estacion Las vegas . . . . . . . . . . . . . . . . 3711. Correlograma de la serie estación Las vegas . . . . . . . . . . . . . . . 3812. Periodograma de la serie temporal Las Vegas . . . . . . . . . . . . . . 4013. Rango Media de la serie temporal Las Vegas . . . . . . . . . . . . . . 4114. Rango Media de los logaritmos de la serie temporal Estación Las Vegas 4215. Logaritmo de la serie estación las vegas . . . . . . . . . . . . . . . . . 4416. Primera diferencia estacional del logaritmo de la estación las Vegas . 4417. Correlograma de la diferencia estacional del logaritmo de la serie . . . 4518. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . 4819. MDA y MSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5020. Trayectoria estimada de β . . . . . . . . . . . . . . . . . . . . . . . . 5021. Caudal Yt y Estimado de Yt (rojo) . . . . . . . . . . . . . . . . . . . . 5122. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5123. Histograma del error . . . . . . . . . . . . . . . . . . . . . . . . . . . 5224. Trayectoria del parámetro del intercepto . . . . . . . . . . . . . . . . 5225. Trayectoria del parámetro de la estacion Las vegas . . . . . . . . . . . 5326. Caudal Yt y Estimado de Yt (rojo) . . . . . . . . . . . . . . . . . . . . 5327. Error de predicción Modelo simple mas intercepto . . . . . . . . . . . 5428. MDA y MSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5429. Trayectoria estimada de θ1 con δ = 0,65 . . . . . . . . . . . . . . . . 5630. Trayectoria estimada de θ1 con δ = 0,88 . . . . . . . . . . . . . . . . 5631. MSD y MSE para el Modelo . . . . . . . . . . . . . . . . . . . . . . . 5732. Error de predicción con δ = 0,65 . . . . . . . . . . . . . . . . . . . . . 5833. Error de predicción con δ = 0,88 . . . . . . . . . . . . . . . . . . . . . 5834. Caudal Yt y Estimado de Yt (rojo) δ=0.88 . . . . . . . . . . . . . . . 5935. Pronóstico para el año 2008 . . . . . . . . . . . . . . . . . . . . . . . 5936. Trayectoria estimada de θ1 con condiciones apriori movidas . . . . . . 6037. Trayectoria estimada de θ4 con condiciones apriori movidas . . . . . . 6038. Trayectoria estimada de θ2 . . . . . . . . . . . . . . . . . . . . . . . . 6839. Trayectoria estimada de θ3 . . . . . . . . . . . . . . . . . . . . . . . . 68

5

40. Trayectoria estimada de θ4 . . . . . . . . . . . . . . . . . . . . . . . . 6941. Trayectoria estimada de θ5 . . . . . . . . . . . . . . . . . . . . . . . 6942. Trayectoria estimada de θ Intercepto . . . . . . . . . . . . . . . . . . 6943. Trayectoria estimada de θ3 con condiciones apriori movidas . . . . . . 7044. Trayectoria estimada de θ5 con condiciones apriori movidas . . . . . . 7045. Trayectoria estimada de θ intercepto con condiciones apriori movidas 7146. error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7147. Histograma del error . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6

Índice de tablas

1. Diferencias entre Enfoques Clásicos y Bayesianos . . . . . . . . . . . 182. Estaciones Pluviométricas . . . . . . . . . . . . . . . . . . . . . . . . 323. Contraste Dickey Fuller sin Constante . . . . . . . . . . . . . . . . . . 394. Contraste Dickey Fuller con Constante . . . . . . . . . . . . . . . . . 395. Contraste Dickey Fuller con Constante y Tendencia . . . . . . . . . . 406. MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437. Modelo Arima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468. Modelo Arima sin Constante . . . . . . . . . . . . . . . . . . . . . . . 47

7

1. Introducción

El modelamiento de zonas inundables en un espacio habitado tiene como objetivoprincipal enmarcar zonas de riesgo, la variable que se analiza fundamentalmente enesta clase de estudios es el caudal de los ríos aledaños, esto debido a que uno de losfactores principales de sucesos de inundación se presentan en función del desborda-miento de los auentes.

Con el n de evitar catástrofes humanas o ambientales se recurre a continuos moni-toreos de la profundidad de la corriente de agua y aún más de variables que pudieranafectar el crecimiento de este mismo en la zona, estas herramientas de prevención sonde suma importancia para la protección de los habitantes y la planeación del espacio.

Una forma de prevención ecaz es crear modelos estadísticos que proyecten los posi-bles valores de caudal a partir de la medición de las variables principales que puedanafectarlo, por ejemplo es viable indagar sobre la posibilidad de que en algún mo-mento t del tiempo la precipitación o los niveles de basuras arrojadas al río cambiande una forma importante la corriente del río y por lo tanto también su caudal enun punto donde sea monitoreado, la clase de modelos mencionados requieren unamedición concienzuda de las variables en periodos de tiempo con el n de hacer laprevención en diferentes épocas del año.

Por otro lado, existen diferentes métodos deterministas para la estimación precisadel caudal de los ríos, aunque son conables en su precisión gracias a la caracterís-tica de los datos y a la de los procesos que se deben desarrollar, no es posible hacerpredicciones con ellos.

8

2. Planteamiento del problema

En el año 2010 fuertes lluvias azotaron el territorio colombiano, la situaciónprendió las alarmas entre las comunidades, los desastres económicos y las perdidashumanas fueron de elevadas proporciones, pero la misma situación se presentó enel año 2011 y a raíz de los daños causados se demostró la inecacia de los cen-tros de planeación para estudiar y desarrollar formas en que hechos lamentablescomo la muerte de personas que residen en las riberas de los ríos se presentasen[United Nations Oce, 2011].

El fenómeno que causó todas estas catástrofes es denominado "la niña", forma-do por los vientos que van en sentido nordeste-sureste, se presenta desde 1903 yempieza su desarrollo a mediados de año, las lluvias se intensican para ésta tem-porada haciendo que varios ríos se desborden y que los sistemas de drenajes lleguenal limite de su capacidad [Guatemala La Niña, 2006].

En éste sentido, es bueno tener en cuenta que en términos generales el área to-tal susceptible de inundación en Colombia supera los 102,000Km2. Considerandola alta vulnerabilidad de la población que habita en las márgenes de los ríos, lasáreas mas estudiadas en cuanto a inundación se reere, son la parte baja de lacuenca Magdalena-Cauca y las cuencas media y baja de los ríos Sinu y San Jorge[Leyva, 1998].

El río Fucha por su parte está ubicado en la ciudad de Bogotá (Figura 1), tienesu nacimiento en la parte sur oriental de la ciudad (cerros orientales) y desembocaen el río Bogotá, en su trayectoria cruza las localidades de San Cristóbal, AntonioNariño, Puente Aranda, Kennedy y Fontibón, presentando en algunas de estas pro-blemas con acentamientos situados en la zona mas aledaña a él [DAMA, 2004]. Éstasituación genera riesgo alto de catástrofe por inundación.

En abril de 2009 en la localidad de Fontibón, se vivió una emergencia debido aldesbordamiento del río, ya que aumentó su cauce a 52m3/s, cuando el normal es de43m3/s, afectando a las zonas residenciales aledañas, así como las vías del sector1.

1Decretada alerta amarilla en Bogotá por desbordamineto del río Fucha y otras emergen-cias,Mauricio Aragón, redactor de eltiempo.com y Agencia EFE, abril de 2009

9

Figura 1: Localización del Río Fucha - Fuente: DAMA-IDEAM (2004) Calidad delrecurso hídrico de Bogotá. Convenio Interadministrativo

10

3. Justicación

Cuando se habla de zonas inundables, se debe recordar la situación general enla que se encuentra el país debido a su posición geográca y al establecimiento deotros factores de tipo climático que ha determinado las características de la red dedrenaje supercial que cubre el territorio nacional.

De ésta manera se ha podido establecer que en las cuencas bajas de los ríos, laszonas adyacentes a los cauces naturales sean susceptibles de ser inundadas periódi-camente por los ríos de origen aluvial. Ésta susceptibilidad ha sido aumentada porprocesos de alteración en el uso del suelo y de deforestación de las cuencas altas,lo que conlleva a un incremento de aportes de sedimentos que al depositarse en loscauces pueden modicar los patrones naturales de ujo. En los ríos de régimen to-rrencial, cuya cuenca aportante está ubicada en secciones transversales estrechas ypendientes abruptas, se presentan crecientes repentinas como reacción de tormentasy fuertes lluvias [Leyva, 1998].

En la (gura 2) es mostrada la intensidad promedio mensual de las lluvias en Co-lombia para el intervalo de tiempo (1990-2009).

Figura 2: Intensidad promedio mensual de lluvia - Fuente: Banco Mundial. Precipi-tación mundial anual. http://www.datos.bancomundial.org .Recuperado el 4 de juniode 2012

En la región andina se puede encontrar que un agravante de éste fenómeno es elestablecimiento u ocupación humana en los márgenes de los ríos para desarrollaractividades productivas de diversa índole, este hecho conduce desde luego a que las

11

inundaciones ocasionen anualmente efectos negativos sobre la población y afectacio-nes materiales y económicas en la actividad productiva.

Los daños ocasionados por las inundaciones, se han incrementado signicativamente,pero en buena medida son consecuencia del desconocimiento sistemático acerca deque las riberas de los ríos pertenecen por naturaleza a los niveles altos asociados aperíodos de abundantes lluvias, los cuales también forman parte del régimen hidro-lógico de los ríos [Leyva, 1998].

Ésta propuesta busca plantear zonas de inundación que puedan ser utilizadas comoinformación de tipo preventiva y en general como un insumo en el ámbito plani-cador y ordenador del territorio. Es importante , porque el estudio de fenómenosnaturales se ha convertido en una nacesidad y una obligación que se persigue y pro-fundiza, toda vez que el cambio climático y las interacciones que el hombre tiene conel medio que lo rodea hacen que sea necesario tomar acciones que permitan conocerel comportamiento de dichos fenómenos, para lograr optimizar recursos y adoptarmedidas de tipo preventivo ante cualquier posibilidad de riesgo que exista .

Así pues, se puede armar que un estudio de éste tipo es sin duda alguna un insumovalioso para los organismos y entidades gubernamentales pertinentes, que así po-drán adoptar las medidas necesarias para salvaguardar el bienestar de la ciudadaníay plantear al aprovechamiento de éstas zonas vulnerables, así como la dinámica decrecimiento de las poblaciones [Departamento de Desarrollo Regional, 1991].Por otro lado es pertinente armar que el campo o área que abarca un proyectocomo el que se pretende realizar, no está lejos de el perl y accionar de un profesio-nal como el ingeniero catastral y geodesta, ya que implica un trabajo en el que sehace necesaria su competencia en el campo geográco, cartográco y de análisis deinformación espacial.

Los resultados pueden aplicarse de distintas maneras; el planteamiento de zonascon posible riesgo o amenaza de inundación, por otro lado pueden ser tenidos encuenta para alimentar modelos de mayor alcance y cobertura, comparar con infor-mación existente y desde luego también incentivar éste tipo de estudios desde elámbito académico y promover la creación de lineas de investigación en éste campo.

12

4. Marco teórico

4.1. Conceptos de hidrología

Cuando se estudian fenómenos y comportamientos naturales sobre la supercieterrestre, es indispensable para su buen desarrollo, una caracterización de los ele-mentos que comprenden y describen el mismo, así como su incidencia y el modo enel que estos interactúan para crear dicho comportamiento.Una manera de evidenciar la interacción de variables o elementos en un fenómenoes mediante su descripción a a partir de la elaboración de un modelo, que logreconjugar todos los aspectos y aportes de dichas variables, y que se acerque signi-cativamente a la realidad.Este hecho ha conducido a la ingeniería a trabajar en la elaboración de modelosmatemáticos que describan el comportamiento de variables que inciden en la ocu-rrencia de un suceso. De esta manera, se ha establecido como uno de sus objetivosprincipales de la hidrología la colección de datos y métodos de análisis y aplicación,así como el estudio de los eventos atmosféricos vinculados a ella como lo son lalluvias o precipitaciones [Jiménez Escobar, 1985].

4.1.1. Relación precipitación escorrentía

Es importante tener en cuenta que para el estudio de caudales, la relación entreéstos y la variable generadora más inuyente como lo es la precipitación, es objetode interés de cualquier investigación en este campo hidrológico, ya que es importanteestablecer cual es la escorrentía que se va a generar con una precipitación determi-nada.De esta manera, es posible hacer o realizar cálculos que permitan establecer el caudalgenerado bajo ciertas condiciones de precipitación, bien sea una precipitación real,o lo que llaman en hidrología una precipitación teórica, que es calculada en periodosde retorno, lo que es similar a responder cuál será la precipitación más alta que sedaría en términos probabilísticos a lo largo de 50, 100 o mas años dependiendo dela investigación.

4.1.2. Hidrograma

El hidrograma de una corriente, es la representación gráca de las variacionesdel caudal con respecto al tiempo, arregladas en orden cronológico en un lugar opunto dado de la corriente como se puede observar en la (gura 3).

Generalmente los hidrogramas no presentan un caudal homogéneo, en la prácticala forma irregular de la cuenca, la heterogeneidad espacial y temporal de la lluvia,

13

Figura 3: Hidrograma.Fuente:http://www.chapingo.mx .Recuperado el 28 de febrerode 2013

la inuencia de las inltraciones, así como otras variables, conducen a hidrogramasde uno o muchos picos. Cada pico es la representación de un caudal máximo en esepunto.

En la (gura 3), se puede ver los principales componentes de un hidrograma comolo son:

Curva de concentración, que es la parte que corresponde al ascenso del hidrogra-ma.Pico del hidrograma, que es la zona que rodea al caudal máximo.Curva de descenso, es la zona correspondiente a la disminución progresiva del cau-dal.Punto de inicio de la curva de agotamiento, es el momento en que toda la escorrentíadirecta provocada por esas precipitaciones ya ha pasado.Curva de agotamiento, es la parte del hidrograma en que el caudal procede sola-mente de la escorrentía básica (el caudal recupera su comportamiento normal decirculación)[Jiménez Escobar, 1985].

4.2. Clases de modelamiento hidráulico

Los modelos hidráulicos se pueden clasicar según su procesamiento, utilidad yvariables de estudio, sin embargo existen tres formas generales en las que es posibledenominarlos, Modelos físicos, analógicos y matemáticos. Por otra parte denimos

14

el prototipo como el objeto o estructura real que se esta estudiando en hidráulica(embalse, canal, supercie, etc), es de suma importancia tener en cuenta las carac-terísticas a estudiar del prototipo porque el cambio en la necesidad del estudio dealguna de ellas establece también la transformación del tipo de modelo a crear2.

4.2.1. Modelo físico

Un modelo físico es una representación simplicada de las características físicasdel prototipo, esto signica que es necesario comparar la cinemática (movimiento),mecánica (presión o fuerzas externas) de la estructura estudiada con las del mode-lo propuesto, la nalidad de un estudio de esta índole se basa en prever cambiosabruptos en la dinámica general del prototipo [Guerrero Amaya, 2014].

4.2.2. Modelos análogos

Se dice que dos fenómenos físicos son análogos si es posible describirlos de unamanera matemáticamente similar, en hidráulica este procedimiento es muy utilizadopues aunque haya formas similares de describir procesos físicos en forma numéricasiempre es mejor utilizar un análogo más sencillo para evitar procedimientos engo-rrosos en la solución de las ecuaciones que se deben utilizar.

4.2.3. Modelos matemáticos

Los modelos matemáticos que intentan describir el caudal en un cauce se centranen las mediciones instantáneas de las características hidrológicas y topológicas delterreno, por lo tanto es posible encontrar métodos que se desarrollan con fórmulasnuméricas complejas y otros que como en este caso se atribuye la explicación delfenómeno a una función matemática simple.

4.2.4. Método racional para estimación de caudal

La estimación del caudal en un tiempo t debe hacerse según los datos disponiblesde acuerdo a las características de la cuenca y precipitación o intensidad de lluvia,en función de la cantidad de datos y las características de los mismos. Se proponendiversos métodos con grados de complejidad diferente, sin embargo la inferencia que

2Vease curso virtual de Mecánica de Fluidos y Recursos Hidráulicos. Escuela de Ingeniería deAntioquia. http://www.eia.edu.co/ Recuperado el 01 de Marzo de 2013

15

se puede llegar a hacer al caudal de una cuenca es buena dependiendo de la precisiónde los datos tomados.

El método racional consiste la formulación del caudal por medio de la formula pre-sentada a continuación:

Q =CIA

360(1)

Donde Q es el caudal máximo y tiene unidades de m3/s, A es el área de la cuencadel río objeto de estudio e I es la intensidad de la lluvia en el área de estudio y Ces el coeciente de escurrimiento o de escorrentía en mm.La intensidad de lluvia I viene dada por la formula:

I =P

D(2)

Donde P es la profundidad de lluvia y se mide en milímetros, mientras en D es laduración de la lluvia [Flores et al., 2009].

16

4.3. Modelación estadística

Los procesos físicos desarrollados en el universo que se repiten a través del tiempoo espacio son descritos según sus características, un ejemplo de ello son las ecuacio-nes que describen de forma única la gravedad entre dos cuerpos o la relación entre ladistancia y el tiempo de determinado elemento, estas relaciones deterministas raravez dan una aproximación certera en el resultado de la cantidad del proceso físicoque se esta midiendo y debido a eso se utilizan otras formas en las que se tomanvarias mediciones del mismo proceso para su análisis.

Esta forma de análisis de datos de un mismo proceso en donde la cantidad en-contrada cambia con el tiempo o el espacio es llamada análisis estadístico, y secentra en dar una aproximación en función de estimaciones de resultados teóricos.

Existen métodos de tipo estadístico, que a través de la recaudación de informa-ción histórica, inere posibilidades probabilísticas del comportamiento de un caucea determinadas condiciones.Es posible también a partir del desarrollo de técnicas estadísticas como la regresiónlineal (la cual se va a desarrollar en nuestro trabajo), hacer predicciones directassobre los resultados requeridos en cualquier estudio.

4.4. Inferencia bayesiana

La metodología bayesiana está basada en la interpretación subjetiva de la proba-bilidad y tiene como punto central el Teorema de Bayes. Esta metodología especícaun modelo de probabilidad que contiene algún tipo conocimiento previo acerca deun parámetro objeto de investigación, de este modo se acondiciona al modelo deprobabilidad para realizar el ajuste de los supuestos.

Bajo esta óptica hay un parámetro poblacional respecto al cual se desea realizarinferencias y se tiene un modelo que determina la probabilidad de observar diferen-tes valores de X, bajo diferentes valores de los parámetros. La característica querepresenta el enfoque bayesiano es el que considera los parámetros como una varia-ble aleatoria por si sola. Esto lleva a una aproximación diferente para abordar elproblema [Palacios and Diko, 2011].

De esta manera esta metodología es útil cuando la información o los datos muestra-les de una variable que se quiere estudiar son limitados ya que permite incorporarinformación previa para su análisis.

17

4.4.1. Teorema de Bayes

Se denen dos sucesos o eventos A y B como un subconjunto de un espacio mues-tral en un experimento o fenómeno dado. Se tiene entonces una colección de eventosque son mutuamente excluyentes, es decir que no pueden ocurrir juntos a la vez[Mesa et al., 2011]. Básicamente lo que el teorema busca es calcular la probabilidadcondicional de un evento Bi dado que ocurre un evento A , P (B1/A).

Sea Ω un espacio muestral y Bi, Bi,...Bn una colección de eventos mutuamenteexcluyentes tal que se cumpla que:

1 Uni=1 Bi = Ω

2 P (Bi) > 0

Para i = 1, 2, ..., n, entonces para cualquier evento A de Ω,

P (Bi/A) =P (Bi)P (A/Bi)n∑

i=1

P (Bi)(A/Bi)

(3)

En esencia, la inferencia bayesiana está basada en la distribución de probabilidaddel parámetro dado los datos. De esta manera lo que se requiere para el proceso deinferencia es la asignación previa de una distribución de probabilidad P (θ) , la cualrepresenta el conocimiento acerca del parámetro antes de obtener cualquier infor-mación respecto a los datos.

El enfoque bayesiano,tiene entonces algunas diferencias con el enfoque estadísti-co clásico como lo son:

Tabla 1: Diferencias entre Enfoques Clásicos y BayesianosEnfoque Clásico Enfoque BayesianoParámetro jo Parámetro variable

Datos variables (repetición) Datos jos (observados)Probabilidad como frecuencia límite Probabilidad como incertidumbre

No incluye información previa Inclusión de información previaIntervalos de conanza Intervalos de credibilidadContraste de hipótesis Distribución a posteriori del parámetro

En [Palacios and Diko, 2011] se enumeran algunas ventajas del enfoque Bayesianopara abordar problemas y simulaciones como lo son:

18

Provee una completa caracterización del parámetro a través de una función dedistribución.

Provee un modo sistemático y explicito de incorporar conocimientos previos.

Formaliza el proceso de aprendizaje a partir de los datos al actualizar losresultados probabilísticos a medida que se conoce nueva información.

Mejora la precision de la estimación al incluir información extra y acumularconocimiento.

Mejora la estimación en casos de datos espaciados y datos faltantes

No asume innitas muestras ni normalidad.

Interpretación mas directa que los intervalos de conanza, contrastes de hipó-tesis y p-valor.

4.5. Regresión lineal dinámica

Generalmente los modelos que describen procesos económicos, sociales y natu-rales se desarrollan a partir de datos que son recogidos en el tiempo, esto generaalgunos problemas a la hora de especicar la estructura de los mismos y plantea laposibilidad de dar con modelos inapropiados debido al riesgo que se tiene de ma-nejar datos de una misma variable en espacios de mediciones cortas, por ejemplocuando la relación entre la variable recogida en el tiempo t − 1 y t es muy grandese especica la situación como una posible autocorrelacion (relación de una variableconsigo misma a través del espacio o tiempo).De esta forma se rompe con uno de los principales supuestos de los modelos el cualconsiste en que al crear un modelo es necesario que cada termino de error o parteestocástica la cual se desea modelar debe ser independiente durante todo el tiempoo espacio en donde se quiere modelar, aunque es posible atacar esa relación entredatos sucesivos de la misma variable muy frecuentemente se opta por modelar laautocorrelacion y tenerla en cuenta para las relaciones.

Como otra posibilidad, aparecen también algunos modelos que si tienen en cuen-ta el tiempo desde su misma estructura y son concebidos para analizar la dinámicade los parámetros, de los errores estocásticos y de las predicciones en función deltiempo, ellos son llamados modelos estadísticos dinámicos y como su nombre lo in-dica se diferencian de los estáticos al tener la capacidad de tener en cuenta el cambiode los datos a partir de las sucesiones en tiempo o espacio.

19

En general un modelo lineal dinámico se describe con las dos ecuaciones dadasa continuación[West and Harrison, 1997]:

Yt = F ′tθt + vt, vt ∼ N(0, Vt) (4)

θt = Gtθt−1 + wt, wt ∼ N(0,Wt) (5)

La ecuación (4) recibe el nombre de ecuación del sistema, en donde Yt representalos datos de la variable dependiente en el tiempo t, F ′ es la matriz de datos de lasvariables independientes, θt se presenta como la matriz de los parámetros los cualescambian en el tiempo t y vt son los errores estocásticos del sistema en el tiempo t.Por otra parte la ecuación (5) dene que los parámetros del modelo cambian enfunción del parámetro anterior y una variable aleatoria, a esto se le llama tambiénpaseo aleatorio, en donde wt describe el cambio de los parámetros entre el intervalot−1, t yWt propone que tan grande es la escala de movimiento de θ y por lo tanto elperiodo en que este se puede asumir constante , G es la matriz de estado del modelo.

4.5.1. Modelo de regresión lineal dinámico.

La estructura de un modelo de regresión Lineal dinámico es similar al presentadoanteriormente, sin embargo como los modelos lineales múltiples, pueden tener variasvariables independientes o regresoras y el término de intercepto que representa lamedia de la variable regresada, sin embargo como puede ser previsto todos estostérminos en la regresión dependerán del tiempo t.

Yt = αt + βt +Xt + vt vt ∼ N(0, Vt) (6)

αt = αt−1 + wt1 (7)

βt = βt−1 + wt2 (8)

En este caso el término del intercepto también se representa como una variable conproceso de paseo aleatorio, esto debido a que la primera matriz de variables aleato-rias X1, es una matriz en donde todos sus términos son 1 y lleva su correspondienteparámetro, como es posible apreciar en las ecuaciones (6), (7), y (8) los errores sedistribuyen normalmente con media 0 y varianzas V t y Wt, lo que es similar en unmodelo de regresión lineal simple [West and Harrison, 1997].

Como una forma de simplicar la exposición, se toma αt = 0 para todo t, y βt = θt,que es la forma de regresión lineal dinámica simple sin intercepto, la matriz de es-tado en la ecuación de observación es G = I en este caso.

20

En la sección (4.4) se expuso un resumen de la teoría bayesiana para inferencia es-tadística, allí se concluyó que la distribución de un parámetro estudiado en algúnproceso se actualiza en función de la creencia primaria sobre la distribución del pa-rámetro por su verosimilitud (credibilidad a partir de los datos), siendo el modelode regresión lineal dinámico un proceso que debe ser actualizado en el tiempo t, seutiliza el método bayesiano para la estimación de los parámetros de la regresión através del tiempo así:

(θt|Dt) ∼ Tnt[mt, Ct] (9)

mt = mt−1 + Atet (10)

Ct =RtSt

Qt

(11)

At =FtRt

Qt

(12)

et = Yt − ft (13)

Donde mt representa la media de la distribución de θt y θt−1, Ct representa la va-rianza de esta misma para los parámetros ya mencionados.Haciendo un análisis profundo de la actualización de los parámetros de la distribu-ción se puede observar que en principio la media mt debe tener un valor a prioridado por el investigador m0 y que se actualiza en el tiempo t en función de la me-dia a priori mt−1 y el factor Atet; el termino At escala el termino de corrección dela media de acuerdo a la precisión relativa de la información primaria y la vero-similitud y et es el error debido al pronóstico en el tiempo t dado por el modelo[West and Harrison, 1997].

Por otro lado la varianza Ct es actualizada con el mismo factor de escala y la varian-za a priori, es preciso mencionar que los valores a priori que el investigador proponecomo eje principal de la estructura bayesiana puede ser no conocida, sin embargopara la correspondencia de buenos resultados en los análisis es necesario que estédentro del rango de lo real, esto quiere decir que valores a priori que estén fuera deun rango imaginable en cualquier estudio acarreará modelos con errores muy altoso con la inferencia de parámetros fuera de lo normal.

Ahora como fue mencionado anteriormente, W gobierna la extensión del movimien-to de θt y el periodo de tiempo en que éste se asume constante, si se supone que laincertidumbre sobre el movimiento de θt y sobre la extensión mencionada aumen-ta con el tiempo, entones el valor de la precisión de la información otorgada por

21

la ecuación de observación disminuye con el paso de éste, por lo tanto la ecuacióndel sistema controla también la perdida de valor de la información en la ecuaciónobservacional. Si se propone V desconocida pero constante como medición de ladispersión del sistema, su inverso V −1 medirá la precisión del sistema, por lo que amayor varianza menor será la precisión del sistema la inferencia sobre ésta se hacea partir de la del proceso bayesiano cojugado con la distribución gamma y paracontrolar el porcentaje de información que pasa de un periodo a otro, o lo que essimilar el porcentaje de información perdida de un periodo t a un periodo t − 1 seincorpora un factor de descuento δ, el cual se escribe como sigue:

0 < δ < 1

La idea del factor de descuento transmite la seguridad de hacer que el descuento delvalor de la información sea controlado, por lo tanto si el factor de descuento es muybajo como consecuencia se tendrá incertidumbres muy altas, lo que ocasiona debili-dad en las predicciones de los parámetros del sistema [Rodriguez Ravines, 2007].Por otro lado los valores de descuento deben ser tomados en función de los cambiosque hayan en la regresión, por ejemplo para cambios bruscos en los periodos de laregresión, es preciso un valor de descuento relativamente bajo, porque el porcentajede información que explicara el paso adelante, será menor, por otro lado con cambiossuaves en la información, el valor de descuento podría ser alto de acuerdo a que aun paso adelante no existen cambios considerables en la información.

Para los pronósticos de los parámetros de los modelos descritos con la varianzaV desconocida pero constante y utilizando φt como el inverso de V , las distribucio-nes a priori y posteriori utilizadas son:

(Yt|Dt−1) ∼ Tnt−1[ft, Qt] (14)

(θt−1|Dt−1) ∼ Tnt−1[mt−1, Ct−1] (15)

Rt = Ct−1 +Wt, ft = Ftmt−1, y Qt = F 2t Rt + St−1 (16)

Lo que signica que Yt debido los datos (Yt/Dt−1) se distribuye como un t-studentcon n−1 grados de libertad con parámetros ft como media (lo que relaciona el valorestimado de la variable independiente) y Rt como varianza, por otro lado los pará-metros θ debido a los datos (θt−1/Dt− 1), se distribuyen con la misma función con

22

parámetros mt como la media (siendo mt el valor actualizados a través del procesobayesiano) y C como la varianza.En diversos casos de estudios con modelos dinámicos donde los cambios de la va-rianza del sistema son relativamente pequeños es posible tomarla como constante,en este caso signica que aunque sea desconocida se calculan los parámetros de laprecisión del sistema (el inverso de la varianza V ).

Es notable que al factor de escala R se aumenta la varianza W sumándose des-de el periodo 1 de la predicción hasta el periodo K, por lo que la precisión delproceso de predicción va siendo degradado con el tiempo y los periodos de predic-ción con los modelos deberían ser cortos por lo que la varianza se vuelve explosiva[West and Harrison, 1997].

4.5.2. Intervalos de credibilidad HPD (Highest posterior density)

Para una forma de inferencia razonable sobre algún parámetro de los modelosdinámicos o cualquier proceso estadístico, se utilizan los intervalos de credibilidado intervalos de mayor densidad posterior referido a que la probabilidad de que unparámetro θ dado los datos se encuentre dentro de un intervalo denido (a, b) seamayor al nivel de credibilidad 1− α.

P (a < θ < b)|x) ≥ 1− α (17)

Como θ es una representación del parámetro de un modelo dinámico que varía através del tiempo entonces el intervalo dado principalmente por a y b variará tam-bién con cada actualización un paso delante de los estimados de los parámetros.El intervalo de credibilidad para una distribución a priori no informativa con va-rianza constante pero no conocida se construye así:

(x − τα

2,n−1

s√n, x + τα

2,n−1

s√n

)(18)

En el análisis hecho sobre el intervalo en donde se encuentra el parámetro se describeque aquel parámetro esta dentro del intervalo con una probabilidad a posteriori de1− α [Zhang and Cepeda Cuervo, 2010].

Medidas para optimizar el modelo

Como fue mencionado una medida importante para el paso de la información, esel factor de descuento δ, pero es importante conocer el valor con el que el modelo

23

se hace óptimo, ésto es posible conocerlo a partir de los valores del MADn∑

t=1

|et|n

(media absoluta de la desviación) y el MSEn∑

t=1

et2

n(error medio cuadrático), con

esto se elegirá un δ con el que éstas medidas sean mínimas y para ello es posibletambién elaborar una gráca de estas dos cantidades en el tiempo en función delfactor de descuento.

4.6. Procesos autorregresivos

Las series temporales representan el comportamiento de cualquier proceso físicoo social a través del tiempo, estas se clasican según su estructura y los intervalostemporales en que se mide el proceso estudiado; si la serie puede predecir un datoexacto consecuente en el proceso, se dice que la serie es determinística. Por otra par-te si la serie predice los datos futuros a partir del comportamiento de los resultadosrecogidos con anterioridad y sus resultados no son exactos si no probables, entoncesse dice que la serie es estocástica.La periodicidad en que los datos son recogidos pueden clasicar las series tempo-rales en datos de horas, diarias, mensuales trimestrales, anuales, entre otras. Segúnla necesidad de un estudio se determina la periodicidad en que se deben recoger losdatos y la clase de la serie [Gujarati, 2007].

Para predecir datos aleatorios es importante analizar las series temporales estocás-ticas, las cuales presentan ciertas características que según el tratamiento puedenser aisladas para hacer predicciones conables, estas características dividen la serieen componentes que se encuentran relacionadas de la siguiente forma:

Xt = Tt + Et + It (19)

Donde Xt es la serie temporal, Tt se denomina la tendencia de la serie, Et es laparte periódica la cual también es llamada parte estacional e It es la componentealeatoria.

4.6.1. Tendencia

La componente tendencial en una serie temporal describe cambios que podríanser uniformes o no, en el valor esperado de la serie (media), se dice que una serietiene estacionariedad en media si el valor esperado a través del tiempo en la serie o(promedio) es igual a cero, la tendencia en una serie temporal se puede visualizargrácamente si al dibujar la serie y trazar una línea en los niveles medios de esta

24

existe una pendiente o algún cambio en el tiempo3.

Figura 4: Tendencia Estacionaria. Fuente:http://www.monograas.com/trabajos30/series-de-tiempo/series-de-tiempo.shtml .Recuperado el 25 de Junio de 2015

Como es posible notar de la (gura 4), cualquier variación signicativa en el valormedio de la serie temporal genera tendencia y ello implica la no estacionariedad enmedia de la serie temporal.

4.6.2. Componente estacional

La estacionalidad en una serie de tiempo se le atribuye a los periodos en los quese presentan cambios notables, por ejemplo si se toma como referencias los mesesde verano en la parte norte del planeta, se puede tener certeza de que estos cambiosse dan en un periodo de tres meses en el año y ello no cambia en el tiempo, laestacionalidad implica regularidad en el comportamiento de la serie por periodospor lo tanto se puede notar en una serie temporal grácamente tomando en cuentala periodicidad con que los datos fueron recogidos y las posibles repeticiones delcomportamiento de la serie en determinados sub-periodos4 En la gura 5 se muestraun ejemplo práctico de la parte estacional de una serie temporal, las crestas en laserie que son notables, corresponden a ciclos o periodos en que se repite cierto sucesodentro de la serie.

3Véase Juan Miguel Marin Diaz Araque, Material docente.Universidad Carlos Tercero de Ma-drid,URL http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/EDescrip/tema7.pdf Re-cuperado el 25 de Junio de 2015

4Véase URL http://www.industriaynegocios.cl/Academicos/HectorFuentes/materialclass/docspdf.Recuperado el 27 de junio de 2015

25

Figura 5: Componente Estacional http://www.ingenieriaindustrialonline.com Recu-perado el 27 de junio de 2015

4.6.3. Componente aleatoria

Se da a partir de uctuaciones que varían en el tiempo, siendo una serie temporalclasicada como proceso estocástico es obvio que existan partes de la serie que no esposible modelar con facilidad y son la causa de muchos estudios donde se maximizala probabilidad en que al hacer una predicción los errores sean menores, o dichode otra forma se buscan intervalos de conanza en que se encuentren los valorespredichos por la serie5.

4.7. Box y Jenkins

Los estudios de Box y Jenkins en 1970 se centraron en la eliminación de las com-ponentes tendencial y estacional para ocuparse luego en intentar modelar la parteestocástica con el n de minimizar errores al predecir datos a partir del compor-tamiento pasado de una serie temporal teniendo en cuenta también la componenteestocástica de la misma, el proceso autorregresivo se denomina ARIMA (autoregre-sive integrated movile average), proceso autorregresivo de medias móviles, y para sucorrecto desarrollo se debe tener en cuenta que la serie sea estacionaria en sentidoestricto o débil [Arce and Mahia, 2009].

5Véase Juan Marin Diaz Araque, Material docente.Universidad Carlos Tercero de Madrid,URLhttp://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/EDescrip/tema7.pdf Recuperado el27 de Junio de 2015

26

4.7.1. Estacionariedad

Siendo Xt1, Xt2, Xt3...Xtn variables aleatorias dependientes en este caso del tiem-po (t), con función conjunta de probabilidad φ(Xt1, Xt2, Xt3...Xtn) , y se espera quelas funciones de probabilidad conjuntas sean invariantes en el tiempo, es decir:

φ(Xt1, Xt2, Xt3...Xtn) = φ(Xt1+k, Xt2+k, Xt3+k...Xtn+m) (20)

Por otro lado la forma de estacionariedad débil indica que:El valor esperado de las variables aleatorias Xtn son constantes en el tiempo.

E(Xt1) = E(Xtn) = c (21)

Las varianzas son constantes también en el periodo de tiempo de estudio.

V ar(Xt1) = V ar(Xtn) = m (22)

Las covarianzas entre las variables aleatorias separadas por algún periodo de tiempo,dependen del periodo de tiempo que las separa.

Cov(Yt, Ys) = Cov(Yt+m, Ys+m)∀m (23)

Los modelos ARIMA requieren que la componente estocástica de las variables alea-torias de cualquier proceso cumplan con estas tres condiciones, sin embargo lascondiciones también están supeditadas a que los valores esperados (Ecuación 21)sean 0, las varianzas sean constantes (ecuación 22) ésta característica también esllamada heterocedasticidad, y nalmente que las covarianzas sean 0 (Ecuación 23)en cualquier periodo de tiempo.

Los procesos denominados ruido blanco cumplen con las características mencionadasanteriormente, por ende las series de tiempo a las que se les podría aplicar el proce-so autorregresivo integrado de medias móviles, son aquellas que sean un proceso deruido blanco, pero si no lo son es posible su conversión por medio de la eliminaciónde la tendencia, heterocedasticidad y estacionalidad.

El método ARIMA se divide en dos partes fundamentales, en la primera se inte-gran procesos autorregresivos los cuales se basan en el hecho de que una variablealeatoria con las características de ruido blanco mencionadas anteriormente, se pue-de expresar en función del comportamiento sistemático que ha sido reproducidopor la misma variable en periodos anteriores y por otro lado se tiene en cuenta untermino de innovación (variación estocástica de la variable aleatoria)[Peña, 2005].

Xt = φ0 + φ1X(t−1) + at (24)

27

Al analizar la ecuación (24) es posible diferenciar la parte sistemática de la funcióncomo φ1Xt−1, en cuanto a que Xt−1 es el primer rezago de la variable o en otrostérminos un dato antecedente en el modelo, por otra parte at representa la parteestocástica de la serie, la ecuación escrita arriba pertenece a un proceso autorregre-sivo de primer orden que se podría escribir de forma mas general para orden p así:

Yt = φ0 + φ1X(t−1) + φ2X(t−2) + ...+ φpX(t−p) + at (25)

Ahora, si se expresa yt−n como el operador de raíces B′ = Xt−I la ecuación podríaser expresada así:

Yt = φ0 + φ1B′1 + φ2B′2 + ...+ φpB′m + at (26)

que nalmente se puede expresar como:

(1− φ0 + φ1B′1 − φ2B′2 − ...− φpB′m)Xt = at (27)

4.8. Medias móviles

Una condición importante de un proceso autorregresivo se fundamenta en quelas raíces de la ecuación (27) deben ser diferentes de uno, esto hace al procesoestacionario e invertible en procesos de medias móviles que se describe como laposibilidad de representar series temporales estacionarias a partir de la componentealeatoria así:

Xt = at + v1a1−t (28)

La ecuación (29) representa el caso mas simple de procesos de medias móviles aquíse evidencia un Y de igual modo para los valores subyacentes de la variable aleatoriase expresa de la siguiente forma:

Yt = at − θ1at−1 (29)

Para los procesos de medias móviles se cumple una condición similar que en auto-rregresivos (las raíces deben ser unitarias), sin embargo la diferencia radica en queel proceso denominado de medias móviles es siempre estacionario [Peña, 2005].

28

4.8.1. Función de autocorrelación

La función de autocorrelacion de una serie temporal se puede representar me-diante el correlograma (gura 6), allí se evidencia la correlacion de la variable através del tiempo y en una serie en donde Xt no depende en gran medida del ter-mino anterior sino de sus las componentes aleatorias subsecuentes al tiempo t − n(estacionaria), la correlacion va decreciendo hasta aproximarse a 0, por lo tanto an-tes de tomar cualquier decisión sobre la medida de retardos que necesitan los datosde una serie temporal para ser procesados con este método

Es indispensable analizar profundamente la función de autocorrelacion en tiem-pos prolongados, ya que si no hay un decaimiento de la correlacion en el tiempo esprobable que la serie sea no estacionaria en media y posiblemente los datos debanser procesados en la parte integral (lo que signica hacer diferencias entre los datosoriginales y los datos con uno o n retardos si así fuera necesario)6.

Figura 6: Correlograma de una serie temporal estacionaria. Fuen-te:http://matematicas.reduaz.mx/home/Docentes/ltrueba/Series/ADMON5.htm.Recuperado el 28 de Junio de 2015

Finalmente la forma medir la estacionalidad se hace a través de los llamados perio-dogramas, los cuales son la representación de la función de densidad espectral en estecaso la transformada de Fourier [Cara, 2012], en ellos se visualizan algunos periodos

6Tomado de http://matematicas.reduaz.mx/home/Docentes/ltrueba/Series/ADMON5.htm.Recuperado el 28 de Junio de 2015

29

importantes que tiene la serie, ellos representan la estacionalidad o el intervalo detiempo en que se repite un suceso en el análisis del proceso estudiado.

4.8.2. Manejo de datos faltantes

Las series temporales rara vez presentan continuidad en las mediciones, y aunqueasí fuera es poco probable que el total de los datos se precisen óptimos sin errores,esto pasa debido a errores en la medición y a la no medición del proceso, en el casode series económicas los casos son un poco menos tendientes a este tipo de errores,sin embargo en series de tiempo que representan mediciones de procesos físicos esmas común y pasa la mayoría de veces a daños en los sistemas análogos o digitalesde medición[Gujarati, 2007].

Para tratar estos casos de datos faltantes o los llamados atípicos (datos que es-tán fuera de explicar la continuidad racional de la serie de tiempo) se utilizan dosformas de hallar los datos que mejor la representen, en primer lugar es posible in-terpolar datos según la variabilidad de la serie y por otra parte es posible tambiénutilizar un modelo autorregresivo integrado de medias móviles como se muestra eneste caso.

Interpolación

Con los métodos de interpolación se quiere poder estimar f(x) para un x des-conocido dado al azar pero que se encuentra dentro de los limites de los puntosde medición, es decir , pertenece al espacio muestral, y así lograr desarrollar unaconstrucción de una curva que une los puntos donde se han realizado las medicionesy cuyo valor si se conoce7.La mayoría de métodos parten de un punto cercano y evalúan los datos de acuer-do a ello, agregando poco a poco los datos cada vez mas alejados del punto de interés.

Generalmente la interpolación se realiza en dos etapas, la primera que consiste enestablecer un modelo o función de los datos disponibles que me de un acercamientoa la descripción de éstos, y posteriormente en la segunda etapa se evalúa la funcióno el modelo en el punto que se quiere interpolar.Entre los métodos mas conocidos se encuentran el método de interpolación lineal,interpolación polinomial y el método spline cúbico.

7Véase German A. Prieto, Notas de clase, Departamento de Física URLhttp://wwwprof.uniandes.edu.co/ gprieto/classes/compus/interpolacion.pdf

30

5. Objetivos

Aplicar una metodología alterna a las comúnmente establecidas para realizarestudios sobre caudal en los que se incorporen datos históricos y técnicas para sumodelamiento.

5.1. Objetivo principal

Delimitar zonas de inundación con un modelo dinámico en el río Fucha en BogotàD.C.

5.2. Objetivos especícos

Modelar el caudal del río Fucha en el punto con coordenadas (λ = 74009′

ϕ = 4040′) Estación limnologica L-017, partiendo de metodologías estadísti-

cas(RLD) y deterministas

Establecer a partir de los datos procesados zonas inundables con base en lainformación topograca del lugar.

Pronosticar doce meses delante del caudal para los datos recogidos por mediode regresiones lineales dinamicas.

31

6. Metodología

El caso de estudio se desarrollará en la sección del río Fucha en donde se encuentrala estación limnológica Fontibón en la ciudad de Bogotá, que tal y como se mencionócon anterioridad éste río nace en los cerros sur orientales y desemboca en el ríoBogotá, recorriendo cinco localidades de la ciudad. Ésta corriente pierde su condiciónde cauce natural cuando ingresa a la localidad Antonio Nariño y se convierte en unacanal de cemento, que en muchos sectores se encuentra deteriorado, para volver asu cauce en la localidad de Fontibón.

Tabla 2: Estaciones PluviométricasNombre Latitud Longitud Código

Saucedal II 4040′

74009′

21202070Fontibón 4041

′7409

′21205470

Tibaitata 4041′

74012′

21205420Aeropuerto 4042

′7409

′21200579

Las Vegas 4039′

7409′

21206230

Materiales

Los datos con los que se trabaja son los de la estación limnológica llamada Fon-tibón ubicada a 4 grados y 40 minutos de latitud y a los 79 grados y 09 minutos delongitud. De la estación se obtiene información de caudales sobre el río desde enerode 1999 hasta diciembre de 2007 completando una muestra de 108 datos, por otraparte se complementa esta información con las estaciones pluviométricas referidasen la tabla 2, éstas ofrecen información de precipitación media mensual que abarcalos mismos periodos de tiempo.

6.1. Recolección de información

Se recogen los datos de caudal medio mensual (que se interpretan como elpromedio mensual de los caudales medios diarios) sobre la estación 20822 L-17ubicada sobre el río Fucha adquiridos por la EAAB.

La información sobre las características físicas del cauce en el lugar en dondese encuentra la estación limnológica.

Información de precipitación de las estaciones pluviométricas ubicadas en unradio de 10 km de la estación limnológica.

Cartografía de la zona, y curvas de nivel de la zona de estudio.

32

6.2. Evaluación y desarrollo

A partir de la recolección de los datos mencionados en el apartado anterior sehace una depuración sistemática según el periodo de tiempo denido,teniendoen cuenta también el alcance del proyecto, es importante mencionar que unavez denido el periodo analizado y las estaciones de precipitación con las cualesse desarrollen los procedimientos estadísticos se requiere tener en cuenta elmanejo de los datos faltantes, la importancia en este punto radica en que elprocedimiento completa los datos faltantes de las series.

Con el n de denir los meses en los que es probable una inundación en elpunto analizado es necesario el análisis a través del tiempo de los datos a partirdel desarrollo de histogramas hidrológicos (hidrogramas), esta herramienta esutilizada para localizar valores críticos de caudal en el tiempo.

Los modelos denidos para la estimación que se desarrollan son:regresiones lineales dinámicas simple con y sin intercepto, regresión lineal di-námica múltiple con intercepto. Cálculo de caudal con ecuaciones matemáticasdeterministas, es posible simplicar el cálculo de cada uno de los pasos de losprocesos utilizando herramientas computacionales para los modelos propues-tos, en el caso de las regresiones lineales dinámicas son utilizados los softwarelibres llamados R-Project, gretl y libreoce, que posibilitan obtener resulta-dos detallados en series de tiempo y correlaciones entre datos de precipitaciónpara su respectivo análisis, por otra parte el modelo matemático se manejacon ecuaciones simples y deterministas ya que el análisis se basa en el puntogeográco donde se encuentra la estación limnologica.

El desarrollo del análisis está en función de un solo punto fuente con el cual seharán proyecciones de inundación a partir de los resultados obtenidos segúnlos procedimientos que se utilizan para cada metodología.

Luego de obtener distintos resultados con los modelos desarrollados es necesa-rio la validación de cada uno de ellos, esto es posible haciendo una comparaciónde valores de caudal con precipitaciones de las distintas épocas estudiadas.

La inferencia es el objetivo principal cuando se realiza un modelo estadístico,por ende es necesario realizar proyecciones del comportamiento del caudal enel punto de estudio con el n de encontrar los valores de precipitación totalpara el cual el agua rebosa la profundidad del cauce en el punto analizado43m3/s.

33

6.3. Zonas de afectación por inundación

Como consecuencia de las inferencias hechas con los modelos encontrados esposible crear radios de afectación directa e indirecta en la zona aledaña al puntofuente de estudio, por ello es preciso crear áreas circunscritas en función de losradios de afectación, para este procedimiento se debe hacer la diferencia del máximocaudal soportado por la cuenca y el caudal proyectado.En éste punto, se deberá presentar los resultados obtenidos con la realización deun mapa que reúna la información concerniente a las zonas halladas, propuestas ysimuladas, en una cartografía.

Figura 7: Esquema Metodológico

34

7. Resultados y análisis

De acuerdo a la metodología planteada, se procede a realizar el desarrollo de lastécnicas mencionadas, en busca de satisfacer los objetivos planteados.

7.1. Análisis determinista del caudal del río Fucha

Para el calculo del caudal río Fucha se hace uso del método de la función racionalen la que se usaran los coecientes A = 8200(Ha) 8, y el coeciente de escorrentíaC = 0, 34mm9

mientras que la intensidad I de lluvia se toma como variable independiente en lafunción.

Q =CIA

360

Figura 8: Intensidad de LLuvia I

En la (gura 8) se muestra que para valores de I superiores a 5, 5 se encuentraun caudal estimado superior a 43m3/s, lo que de acuerdo a la información de lascaracterísticas de la cuenca es el máximo caudal que mantiene el río, cuando sesobrepasa este existe probabilidad de inundación lo que se considera posible para untérmino de días consecutivos lluviosos.

8Tomado de estudio hídrico del canal río fucha y análisis de los impactos generados por laconstrucción de la ciclo ruta paralela al canal en la localidad de puente aranda

9tomado de estudio de impacto ambiental de la primera linea del metro para santa fe de bogotá

35

7.2. Modelo autorregresivo de medias móviles

Existen varios documentos en donde se describen algunos pasos para el desa-rrollo de esta clase de modelos, en [De la Fuente Fernandez, 2005], son descritos 10pasos que empiezan desde la obtención de los datos, se analiza la estacionariedady estacionalidad de la serie y nalmente validan el modelo resultante a partir decontrastes de signicancia de los parámetros, análisis de los errores y coecientes deautocorrelación.

Para dar la continuidad necesaria a la estación pluviómetrica 21206230 llamada(Las Vegas) fue necesario utilizar modelo autorregresivos integrados de medias mó-viles debido a que en el año de 2007 existen datos faltantes desde el mes de junio,por esta razón se afecta la serie y cualquier cálculo o modelo que se haga basándoseen estos datos.

En principio la serie de tiempo que se utilizó para el desarrollo del modelo ari-ma empieza desde julio de 1992 (cuatro años y cuatro meses antes de la serie queoriginalmente se utiliza en este documento para desarrollar otros modelos) el criterioutilizado para seguir con el desarrollo del proceso autorregresivo de medias móvilescon esta cantidad de datos, es que en los modelos frecuentistas se necesitan canti-dades de datos que representen una parte importante de la serie, por lo tanto esnecesario una cantidad de datos por lo menos mayor a 50.

Figura 9: Serie temporal estación Las Vegas

En (gura 9) se muestra la gráca de la serie temporal estación Las Vegas luego dehaberse interpolado los datos correspondientes a los meses de diciembre y enero de

36

los años 1997 y 2007 respectivamente.

De la gráca es posible notar que existen valores atípicos en la serie a nal delaño 1995, entre los años 2000-2001 y nales de 2001 representados por una pequeñalínea horizontal, se pensaría en quitar los datos e interpolarlos, sin embargo siendoesta una serie que representa un proceso físico no seria conveniente, por otro lado seanaliza mas adelante si las implicaciones de los datos mencionados son graves parala serie analizada.Se observa una leve variación de los valores medios de la serie, al visualizar los valo-res desde 1998 hasta el 2000 es notable la variabilidad que tiene la media de la seriela cual va creciendo levemente desde 1998 hasta el año 2000.

Figura 10: Tendencia de la serie. Estacion Las vegas

Con el gráco de media móvil de la serie original se observa claramente la varia-ción de la media año tras año lo que podría indicar que existe tendencia en losdatos, que nalmente se traduce en tener una serie no estacionaria puesto que no secumple el supuesto de media constante igual a 0, es decir E(Xt) = 0.

Con el n de identicar claramente si existe o no tendencia, se hace uso del grá-co de la función de autocorrelacion estimada (correlograma), el gráco mencionado

37

muestra un decaimiento en los valores de autocorrelacion de las variables cuando losretardos tienden a innito, o lo que es igual, los valores de la variable se relacionancuanto los instantes de comparación son cercanos y dejan de tener relación impor-tante cuando el rango de tiempo en que se comparan es muy grande, dicho esto seesperaría valores estimados de la función de correlación altos para rangos de tiempopequeños, por ejemplo Xt y Xt−1, y bajos para rangos de tiempo grandes Xt y Xt−n.

Figura 11: Correlograma de la serie estación Las vegas

En la (gura 11) se muestra la gráca de la función de autocorrelacion (FAC) yautocorrelacion parcial (FACP), los usos del correlograma en los procesos autorre-gresivos son diversos, con ellos es posible identicar fácilmente la estacionariedad,los periodos estacionales, las variaciones de estos mismos, y según la metodologíade Box y Jenkins, un análisis concienzudo de los correlogramas de las funciones deautocorrelacion y autocorrelacion parcial, podrían dar un indicio de los rezagos autilizar en los modelos ARIMA.En una serie de datos estacionaria en media (sin tendencia), los estimados de lafunción de autocorrelacion deberían caer en modulo de una forma exponencial cí-licamente, por ende se espera que un correlograma muestre en principio una barracercana a uno o mayor que el coeciente 1, 96/

√T que establece el limite en que

se da o no correlación entre los datos para luego disminuir drásticamente hasta elretardo 12 (lo dicho sucede gracias a que la serie es mensual, por lo tanto cada ciclo

38

se da cada 12 retardos), en la serie presentada se evidencia tendencia sin embargoal parecer esta sujeta a variaciones en la parte estacional de la serie debido a queexisten variaciones en los cambios estacionales 12, 24 y 36, este hecho nos lleva aconcluir que la serie tiene variaciones estacionales.Para concluir el análisis de la estacionariedad en media y tener una certeza mayoracerca de la existencia o no de tendencia en la serie, se presentan los resultados deltest de Dickey-Fuller que da a partir de contraste de raiz unitaria el indicio de noestacionariedad.

Tabla 3: Contraste Dickey Fuller sin ConstanteContraste sin constante

tamaño muestral: 177hipótesis nula de raíz unitaria: a = 1

modelo: (1− L)y = (a− 1)y(−1) + eCoef. de autocorrelación de primer orden de e: -0,231

valor estimado de (a - 1): -0,227317Estadístico de contraste: tau-nc(1) -4,5943

Valor p 7,489e-006

Tabla 4: Contraste Dickey Fuller con ConstanteContraste con constante

tamaño muestral: 177hipótesis nula de raíz unitaria: a = 1

modelo: (1− L)y = b0 + (a− 1)y(−1) + eCoef. de autocorrelación de primer orden de e: 0,009

valor estimado de (a - 1): -0,85237Estadístico de contraste: tau-nc(1) -11,182

Valor p 3,856e-018

Los contrastes fueron realizados en el programa Gretl, se hicieron los tres contras-tes correspondientes a las regresiones auxiliares (sin constante, con constante y conconstante y tendencia. Tablas 3, 4 y 5) es de destacar que dependiendo de los re-sultados de los valores p de cada uno de los contrastes se debe llegar a elegir uno,sin embargo se presentan los tres porque en los tres no se acepta la hipótesis de raízunitaria, por lo tanto escoger uno u otro según el procedimiento de los valores p esindiferente porque todos los modelo desarrollados indican que la serie de datos noes estacionaria en media o que tiene tendencia.

39

Tabla 5: Contraste Dickey Fuller con Constante y TendenciaContraste con constante y Tendencia

tamaño muestral: 177hipótesis nula de raíz unitaria: a = 1

modelo: (1− L)y = b0 + b1t+ (a− 1)y(−1) + eCoef. de autocorrelación de primer orden de e: 0,011

valor estimado de (a - 1): -0,861885Estadístico de contraste: tau-nc(1) -11,2805

Valor p 1,736e-017

Figura 12: Periodograma de la serie temporal Las Vegas

El periodograma muestra variaciones en los periodos de la serie (variaciones estacio-nales), en la (gura 12) es mostrado el periodograma de la serie temporal Las Vegas,en este se resalta un pico (variación estacional) importante, por lo que grácamentees posible inferir que existen problemas de variación estacional.Es importante también mencionar que la gráca de la (gura 9) muestra variabilidaden varianza, lo que implicaría no estacionariedad en varianza (heterocedasticidad)hecho que violaría con el supuesto de varianza constante o V ar(Xt) = K, para refu-tar o bien sea denir el indicio heterocedasticidad, se hace uso del gráco de rangomedia presentado en la (gura 13).En el gráco de rango media (Figura 13) se muestra relación directamente propor-cional entre el rango y las medias de 15 sub muestras hechas a partir de los datosde la estación las Vegas por el programa gretl, allí se puede visualizar como en fun-ción de la dispersión de los datos es viable trazar una línea recta que representa lacorrespondencia entre las medias y los rangos de las sub muestras, de otra forma en

40

Figura 13: Rango Media de la serie temporal Las Vegas

la tabla del Anexo A son mostradas las submuestras y el contraste de pendiente conH0 = 0 (la pendiente es igual a 0) contra la alternativa H1 6= 0 (pendiente diferentede 0), dando como resultado un pvalor de P = 0, 053, con lo que se rechaza lahipótesis nula, por lo tanto se concluye que a partir del gráco de la serie y ademásdel análisis del gráco de rango media, la serie no tiene estacionariedad en varianza,por lo que presenta heteroscedasticidad.

7.3. Resolucion de conictos de estacionalidad y estaciona-

riedad en varianza

Para que sea posible implementar un modelo arima, es necesario eliminar lascomponentes estacionarias y estacionales, por lo tanto se describen las técnicas uti-lizadas para proceder con este hecho.En principio se debe resaltar que las componentes mencionadas no se eliminan con-juntamente con un solo procedimiento, es mas realizar un procedimiento para eli-minar una de las componentes puede inuir en que si hubo un desarrollo anteriorpara eliminar cualquiera de los dos conictos, este último podría reaparecer y serianecesario iterar, por lo tanto el proceso de resolución de conictos de estacionariedady estacionalidad deben ser eliminados por separado y vigilados una vez que ya hansido resueltos.

41

Estacionarizacion de la serie en varianza:Una forma básica de hacer la serie estacionaria en varianza consiste en usar al-guna transformación que estabilice la varianza de la serie y trabajar con la serietransformada hasta nalmente invertir la transformación para predecir con los da-tos originales, dos de las transformaciones mas utilizadas para estos casos son latransformación logarítmica y la transformación Box-Cox, la cual es ampliamenteutilizada en modelos econométricos ya que no solo elimina heterocedasticidad enuna serie temporal sino que también induce a la normalidad, cualquiera de estasdos transformaciones son la mayoría de veces sucientes para estabilizar la varianza[De la Fuente Fernandez, 2005].

En el caso de la serie de la estación Las vegas fue escogida la transformación lo-garítmica como primera prueba de eliminación de la heterocedasticidad , luego dela transformación se construye de nuevo el gráco de rango media (la tabla se puedever en el Anexo B). (Figura 14).

Figura 14: Rango Media de los logaritmos de la serie temporal Estación Las Vegas

Finalmente se utilizan los valores de las sub muestras del rango y la media para es-tablecer la regresión auxiliar y aplicar el contraste de White, con lo que se concluyecomo se ve en el tabla 6 que:

42

Tabla 6: MCO

Modelo 2: MCO, usando las observaciones 1992:07-1993:09 (T = 15)Variable dependiente: precipitación

Coeciente Desv. Tipica Estadístico Valor pconst 5,40512 2,50968 2,154 0,0506 *media −0,827024 0,646819 −1,279 0,2234

Media de la vble. dep 2,200570 D.T. de la vble. dep. 0,516165Suma de cuad. residuos 3,313305 D.T. de la regresión 0,504846R-cuadrado 0,111708 R-cuadrado corregido 0,043378F(1, 13) 1,634823 Valor p (de F) 0,223393Log-verosimilitud −9,958298 Criterio de Akaike 23,91660Criterio de Schwarz 25,33270 Crit. de Hannan-Quinn 23,90151rho 0,122259 Durbin-Watson 1,571778

Contraste de heterocedasticidad de White -Hipótesis nula: No hay heterocedasticidadEstadístico de contraste: LM = 1,22258con valor p = P(Chi-cuadrado(2) >1,22258) = 0,542652

Que siendo el valor del estadístico de contraste 1,22 para una distribución chi cuadra-do con 2 grados de libertad, con un área a la izquierda de 0,45735 y valor p=0,54265no se rechaza la hipótesis nula de homocedasticidad por cuanto es preciso armarque la serie es estacionaria en varianza.

Para estabilizar la serie en media varios autores explican que al hacer la diferencia-ción de la serie en función de la parte en donde esta tenga el problema de variaciónse tiende a estabilizar y estacionalizar la media de la serie[Arce and Mahia, 2009] y[De la Fuente Fernandez, 2005], en éste caso se habían encontrado variaciones pe-riódicas y fue concluido del análisis que dado estas variaciones el problema de esta-cionariedad en media se encontraba principalmente en las variaciones estacionalespor lo tanto las diferencias a desarrollar deben llevar a estabilizar la parte estacionalde la serie por lo que es necesario hacer una diferencia estacional, sin embargo cabeaclarar que la diferenciación en la parte regular de la serie o en la parte estacionales un proceso que se hace en la modelación arima y se denomina proceso integradoy es mostrado en éste documento para entender mas a fondo los resultados de laeliminación de esta componente.

43

Figura 15: Logaritmo de la serie estación las vegas

Figura 16: Primera diferencia estacional del logaritmo de la estación las Vegas

La (gura 15) muestra el logaritmo de la serie y en la (gura 16) la primera diferen-cia estacional del logaritmo de la serie, la estabilidad de la media es bastante notoriaentre una y otra gráca, sin embargo para facilitar el análisis de la eliminación enla variación de la parte estacional es prudente hacer el análisis en la gráca de lafunción de autocorrelacion.

A partir del comportamiento del correlograma de la diferencia estacional del lo-garitmo de la serie Las Vegas, se intuye un proceso de ruido blanco ya que no hayvariaciones signicativas en los periodos de la serie y los estimados de la función deautocorrelacion representados con las barras rojas caen exponencialmente luego delperiodo 12 y 24, por lo tanto a partir de este correlograma, se procede a desarrollarel análisis para la cantidad de rezagos necesarios en la parte autorregresiva o demedias móviles dado que ya fue denido que es preciso hacer una diferencia en laparte estacional.

44

Figura 17: Correlograma de la diferencia estacional del logaritmo de la serie

La importancia en el correlograma que muestra la (gura 17) radica en que sehan eliminado de la serie las componentes estacionarias y estacional, por lo tantoa partir de aquí se desarrolla un modelo arima gracias a que se tiene una serie quecumple con las características de un proceso denominado ruido blanco, el correlo-grama se representa con 36 retardos puesto que según lo mencionado antes cuandolos retardos en la función de autocorrelacion se hacen grandes los estimados de lafunción tienden a 0 y el análisis se desarrolla como sigue a continuación:

La serie de la estación Las Vegas muestra que en la función de autocorrelacionparcial se obtienen tres rezagos de la parte regular y ninguno en la parte estacional,por otro lado existe un rezago en la parte de medias móviles de la componente es-tacional, entonces el modelo para la serie estaría bajo las siguientes característicasArima(3,0,0)(0,1,1) que es el que mejor describe el comportamiento de la serie to-mando en cuenta que esta ya esta diferenciada en la componte estacional y que solose hace una diferencia a la serie original.

45

Tabla 7: Modelo Arima

Modelo 5: ARIMA, usando las observaciones 1993:07-2007:04 (T = 166)Estimado usando el ltro de Kalman (MV exacta)

Variable dependiente: (1-Ls) l_PrecipitaciónDesviaciones típicas basadas en el Hessiano

Coeciente Desv. Típica z Valor pconst 0,0110234 0,0187794 0,5870 0,5572phi_1 −0,139916 0,0766470 −1,825 0,0679 *phi_2 0,193043 0,0760267 2,539 0,0111 **phi_3 0,143707 0,0785614 1,829 0,0674 *Theta_1 −0,747542 0,0859308 −8,699 3,34e-018 ***

Media de la vble. dep. 0,008469 D.T. de la vble. dep. 0,776761media innovaciones 0,005007 D.T. innovaciones 0,594141Log-verosimilitud −154,0980 Criterio de Akaike 320,1960Criterio de Schwarz 338,8679 Crit. de Hannan-Quinn 327,7750

Real Imaginaria Módulo FrecuenciaARRaíz 1 -1,5142 -1,3553 2,0321 -0,3838Raíz 2 -1,5142 1,3553 2,0321 0,3838Raíz 3 1,6851 0,0000 1,6851 0,0000MA (estacional)Raíz 1 1,3377 0,0000 1,3377 0,0000

El modelo arima resultante tiene las siguientes características (tabla 7):

Los parámetros del modelo tienen signicancia al menos a un 10% (exceptuan-do la constante), por lo que podría ser necesario una iteración mas quitando laconstante del modelo y vericando que no cambia la signicación de los otrosparámetros haciendo el modelo inservible.

Los módulos de las raíces del modelo son diferentes de 1 lo que lo dene comoinvertible dándole una estructura solida según la teoría de modelos autorre-gresivos.

46

Tabla 8: Modelo Arima sin Constante

Modelo 1: ARIMA, usando las observaciones 1993:07-2007:04 (T = 166)Estimado usando el ltro de Kalman (MV exacta)

Variable dependiente: (1-Ls) l_PrecipitacionDesviaciones típicas basadas en el Hessiano

Coeciente Desv. Típica z Valor pphi_1 −0,137805 0,0766328 −1,798 0,0721 *phi_2 0,196306 0,0758669 2,588 0,0097 ***phi_3 0,147635 0,0781887 1,888 0,0590 *Theta_1 −0,741688 0,0849165 −8,734 2,45e-018 ***

Media de la vble. dep. 0,008469 D.T. de la vble. dep. 0,776761media innovaciones 0,030383 D.T. innovaciones 0,595153Log-verosimilitud −154,2656 Criterio de Akaike 318,5311Criterio de Schwarz 334,0911 Crit. de Hannan-Quinn 324,8470

Real Imaginaria Módulo FrecuenciaARRaíz 1 -1,4984 -1,3482 2,0156 -0,3834Raíz 2 -1,4984 1,3482 2,0156 0,3834Raíz 3 1,6672 0,0000 1,6672 0,0000MA (estacional)Raíz 1 1,3483 0,0000 1,3483 0,0000

En la tabla 8 se presenta el modelo arima sin constante, siguiendo el análisis corres-pondiente hecho anteriormente, se concluye que este modelo presentado es el quemejor va a predecir las observaciones necesarias para complementar la serie de datospara la estación Las Vegas debido a que cumple con las características necesariaspara un modelo invertible (ya que las raíces se alejan del módulo de la unidad),todos los coecientes son signicativos al menos al 10% y comparando los criteriosde Akaike, HannanQuinn y Schwarz del primer modelo con el segundo son algo me-nores en este último, por lo que en función de estos criterios es posible sugerir queel procedimiento de la modelación arima sin constante es pertinente para los datosde la estación.

47

Figura 18: Normalidad de los residuos

La vericación en la información de los residuos (Figura 18) lleva a concluir queel modelo es óptimo pues cumple con el supuesto de normalidad.

En conclusión un modelo Arima(3,0,0)(0,1,1) representa muy bien la serie temporaly es una opción factible para la predicción de los datos faltantes y atípicos de estaestación de precipitación.

48

7.4. Análisis del caudal del río Fucha

Los datos que se presentan en series temporales tienen distintos métodos deabordaje para su modelamiento, un ejemplo ya visto en el análisis de este mismodocumento se abordó con la metodología de box jekins 1976 llamada ARIMA (mo-delo autorregresivo integrado demedia móvil), sin embargo en este caso fue sucienteun solo grupo de datos.Otra forma de modelamiento desarrollado es el llamado modelo dinámico, que secentra en estructurar a partir del desarrollo de métodos bayesianos la relación quetienen dos o más variables a través del tiempo,en [West and Harrison, 1997] explicancómo se actualizan en el tiempo las creencias que se tienen sobre los valores inicialesde los parámetros de un proceso físico o social.

7.4.1. Modelo de regresión lineal dinámica simple con y sin intercepto

Como se describió en la sección (4.5.1) el modelo de regresión lineal dinámicasimple lleva la forma según las ecuaciones 3, 4 y 5:

Yt = αt + βtXt + vt vt ∼ N(0, Vt) (30)

αt = αt−1 + wt1 (31)

βt = βt−1 + wt2 (32)

Haciendo que αt = 0 se llega a la forma de regresión lineal dinámica simple sinintercepto, en este caso de estudio se toma βt como la estación Las Vegas y Yt esrepresentado por los datos de caudal desde enero de 1999 hasta diciembre de 2007,también la varianza V se toma desconocida pero constante lo que lleva a dejar elanálisis en función del factor de descuento, para este caso se presenta el modelo confactor de descuento δ = 0, 95 que según las medidas MDA y MSE es el factor dedescuento óptimo para el modelo (gura 19).El parámetro que corresponde a la pendiente de la estación las vegas se muestra sig-nicativo en todo el tiempo t para el modelo sin intercepto (gura 20), este parámetrodebe ser interpretado como la cantidad de aporte al caudal debido las precipitacio-nes medidas por la estación Las Vegas en el punto en donde se encuentra la estaciónmencionada, se resalta también que los intervalos tienden a cerrarse sobre la mediamt a través del tiempo t por lo tanto las actualizaciones de las probabilidades enun tiempo t−1 hacen que la mediamt siga una estructura correspondiente al modelo

Por otro lado es notable que a partir de julio 2004 hubo alguna tendencia del pará-metro θ de Las Vegas a crecer lo que signica que desde este periodo de tiempo el

49

Figura 19: MDA y MSE

Figura 20: Trayectoria estimada de β

aporte de la lluvia en el punto donde se encuentra la estación las Vegas ha aumen-tado signicativamente.

El valor estimado en el tiempo de la variable caudal no se muestra bien ajustadaa los verdaderos datos (gura 21) y aunque el valor del estimado del parámetropara la estación las Vegas se estabiliza de forma rápida, el modelo no tiene buena

50

Figura 21: Caudal Yt y Estimado de Yt (rojo)

capacidad de predicción, lo dicho anteriormente se corrobora con el gráco de loserrores (gura 22) que aunque tienen forma de ruido blanco, son errores muy altospara la escala logarítmica.

Figura 22: Residuos

modelo de regresión dinámico simple con intercepto

Fue desarrollado para la misma estación (Las Vegas) con el n de analizar el cambioque tiene el modelo cuando hay un caudal mínimo, como fue mencionado anterior-mente los coecientes de la matriz del parámetro α o intercepto son 1 y la ecuación

51

Figura 23: Histograma del error

que representa el modelo es:

Yt = αt + βtXt + vt vt ∼ N(0, Vt) (33)

αt = αt−1 + wt1 (34)

βt = βt−1 + wt2 (35)

Entonces en este caso existirán 2 variables que tienen la característica de compor-tamiento de paseo aleatorio.

Figura 24: Trayectoria del parámetro del intercepto

En la gráca, se muestra la evolución de los valores esperados de los parámetros αt

que corresponde al intercepto (gura 24) y βt (gura 25) como el parámetro queacompaña a la variable (Las Vegas) y aunque los parámetros vuelven a ser signica-tivos en todo el tiempo t, al hacer los análisis correspondientes a la gura (26) que

52

Figura 25: Trayectoria del parámetro de la estacion Las vegas

representa los valores estimados vs los valores observados de la variable caudal, sevuelve a encontrar poco ajuste en todo el tiempo t por lo tanto es probable que nosea un buen modelo para predicción.

Figura 26: Caudal Yt y Estimado de Yt (rojo)

El gráco mostrado en la (gura 28) muestra los valores de MSD y MDA con losque se puede concluir que el δ óptimo es 0,93 para esta regresión, también sonmostrados los errores del modelo como función del tiempo (gura 27) y tal cual elanálisis anterior aparecen distribuidos uniformemente alrededor del 0 (exceptuandolos primeros meses porque aquí es notable las características no informativas de losfactores escogidos como a priori de la distribución) y con dispersiones similares porlo que se concluye que tienen estructura de ruido blanco, sin embargo los valores delos errores se presentan de nuevo demasiado altos para la escala lo que ratica faltade ajuste y predicción para el modelo.

53

Figura 27: Error de predicción Modelo simple mas intercepto

Figura 28: MDA y MSE.

Para raticar lo anterior se realizan pruebas de normalidad para los residuos en losque se puede advertir con sus resultados que efectivamente los errores se distribuyennormalmente sin contar el dato apriori.

54

Prueba de Normalidad Shapiro-Wilk:

Las vegas Mas intercepto con delta 0.93shapiro.test(error)Shapiro-Wilk normality testdata: errorW = 0.9598, p-value = 0.00242H0: Los datos provienen de una distribución Normal

Las vegas Mas intercepto con delta 0.93 menos dato inicial apriorishapiro.test(error2)Shapiro-Wilk normality testdata: error2W = 0.9906, p-value = 0.6655H0: Los datos provienen de una distribución Normal

7.4.2. Regresión lineal dinámica múltiple con intercepto

El modelo de regresión lineal dinámica múltiple es analizado partiendo de losfactores de descuento δ=0,65 y δ=0,88 con el n de puntualizar la diferencia quehay entre uno y otro modelo.

Yt = F ′tθt + vt, vt ∼ N(0, Vt)(36)

θt = Gtθt−1 + wt, wt ∼ N(0,Wt)(37)

(38)

Yt = αt + θ1tX1t + θ2tX2t + θ3tX3t + θ4tX4t + θ5tX5t + vt vt ∼ N(0, Vt)(39)

Donde θ1 representa el parámetro de la estación Las Vegas, θ2 pertenece al pará-metro de la estación Fontibon, θ3 a la estación Saucedal, θ4 Aeropuerto el dorado yθ5 representa el parámetro de la estación Tibaitata.

Las guras (29) y (30) muestran el comportamiento del parámetro θ1 (Estación LasVegas) para los factores de descuento 0,65 y 0,88 .Se puede observar que el pará-metro con un factor de descuento de 0,65 aunque es signicativo en casi todo eltiempo del análisis pasa de ser negativo a positivo bruscamente desde el año 2004,por lo que no es un parámetro consistente con el análisis y se estabiliza lentamentecon el método bayesiano mientras que el parámetro correspondiente al modelo conun factor de descuento de 0,88 es positivo en todo el tiempo t y aunque el limiteinferior del intervalo HPD se acerca a 0 no se hace 0 en ningún momento por lo quese concluye que este parámetro es signicativo en la mayoría del tiempo.

55

Figura 29: Trayectoria estimada de θ1 con δ = 0,65

Figura 30: Trayectoria estimada de θ1 con δ = 0,88

En general un análisis similar se hace a los otros parámetros donde es notable que loscambios a través del tiempo de los parámetros del modelo con factor de descuento0,65 son abruptos, lo que signicaría que la varianza W no esta bien denida en elmodelo por lo tanto los periodos de tiempo en que el parámetro se asume constanteno son óptimos y de ahí se desprenden los errores, por otra parte los valores de losparámetros de este mismo modelo se estabilizan lentamente, por ello el cambio quetienen los parámetros de ser negativo una gran parte del tiempo a positivos en otra.

Finalmente los parámetros del modelo con factor de descuento 0,88 se estabilizande forma rápida, por lo que el valor a priori rápidamente baja o sube según el valorde la media del parámetro actualizado con el método bayesiano, entonces para los

56

parámetros θ1, θ3, θ4 e intercepto (Anexo C ) se concluye que son signicativosla mayor parte del tiempo y aportan información relevante al modelo,mientras quelos parámetros θ2 y θ5 mostrados en el Anexo C no aportan información relevanteal modelo porque aunque a priori son positivos y en función del análisis deberíanseguir esta tendencia, se vuelven negativos y esto los hace inconsistentes.

Figura 31: MSD y MSE para el Modelo

La (gura 31) muestran las grácas de los MSD y MDA en función de δ y como erade esperarse los valores óptimos (cuando los errores son mínimos), se tienen cuandoδ=0,88, lo que signica que los datos no presentan cambios bruscos y que por lotanto se traslada el 88% de la información desde un paso otro en t.

Las guras (32) y (33) representan el error de predicción en los dos modelos esco-gidos, debe notarse que para el gráco de los errores con δ=0.65 presentan uctua-ciones estacionales en algunos periodos, además los errores son altos para la escalalogarítmica que se maneja a los datos lo que signica que no es un modelo óptimopara hacer predicciones, por otro lado la gráca que representa los errores en eltiempo del modelo con δ=0.88, tiene errores mucho menores y con estructura deruido blanco, por lo que siguiendo los resultados de las grácas MSD y MDA enfunción de δ se elige el modelo con δ=0.88, como el mejor modelo para la prediccióny explicación del fenómeno natural en el tiempo.

57

Figura 32: Error de predicción con δ = 0,65

Figura 33: Error de predicción con δ = 0,88

En el gráco de la (gura 34) se presentan los valores observados Yt contra los va-lores estimados del mismo, el comportamiento de los estimados a partir del modelodinámico muestra un muy buen ajuste a los valores observados de la variable cau-dal, por lo tanto es posible inferir que el modelo desarrollado es aceptable para lapredicción en un tiempo t+ k.

Del análisis de los modelos presentados es preciso armar que el factor de des-cuento desempeña un papel importante en la precisión de los modelos analizados,por lo tanto y bajo la condición del desconocimiento de la varianza aunque tomadacomo constante en el tiempo, el valor de factor de descuento que es el que trasladala cantidad de información desde un paso atrás, debe tener un análisis desde lasuctuaciones o cambios bruscos que tienen los datos de un periodo a otro.Se presenta un pronóstico dentro de la muestra para el año 2008 (gura 36), se debe

58

Figura 34: Caudal Yt y Estimado de Yt (rojo) δ=0.88

Figura 35: Pronóstico para el año 2008

mencionar que los valores pronosticados están en función de la sumatoria de las va-rianzas W por lo que en un periodo muy largo de tiempo los pronósticos careceránde certidumbre, por otra parte los valores observados del caudal dentro de la muestray el pronostico hecho para este año se ajustan en muy buena medida rearmandoque el ajuste del modelo a los datos es bueno en gran medida.

Para nalizar el análisis de regresión lineal dinámica múltiple con intercepto y conel n de mostrar la importancia de tener algún conocimiento previo de la situaciónque se quiere modelar con el desarrollo bayesiano, se presenta un modelo con losvalores a priori diferentes a los escogidos al principio del análisis.

Como se muestra en las guras (36 y 37) de los 5 parámetros (ver Anexo D) pro-

59

Figura 36: Trayectoria estimada de θ1 con condiciones apriori movidas

Figura 37: Trayectoria estimada de θ4 con condiciones apriori movidas

puestos solo θ1 y θ4 son signicativos en la totalidad del tiempo de estudio, tambiénaunque los parámetros son estables la mayor parte del tiempo (lo que quiere decirque la varianza no es explosiva), los intervalos de credibilidad (HPD) se cierran máslentamente alrededor de los parámetros en el tiempo lo que signica que la incer-tidumbre sobre los valores iniciales de la media y varianza afectan a la estabilidaddel modelo en el tiempo, la diferencia entre los valores observados y los calculados(errores) son mas altos en comparación a los valores obtenidos del modelo de regre-sión lineal dinámica múltiple con el valor de δ 0,88, nalmente los valores MSD yMDA debieron ser movidos para hallar nuevamente el δ optimo.

60

8. Conclusiones

Partiendo de los modelos realizados se destaca que existe una relación directaentre el caudal medio en un punto y las precipitaciones de las zonas cercanas reco-gidas por las estaciones dispuestas, sin embargo debido a que los datos pertenecena promedios mensuales es necesario establecer un factor de escala en donde la preci-pitación aumente hasta el punto en que el caudal se haga a un nivel sucientementealto para generar una inundación real, esto ocurre si los niveles de precipitaciónestán entre de 6 a 7 veces los registrados en los periodos analizados.

De otra manera, utilizando la función racional para determinar caudales aproxi-mados se establece que la intensidad de lluvia en un tiempo t esta fuertementerelacionada con el incremento de caudal y se concluye que existe la posibilidad deinundación si la intensidad I es superior a 5mm/s.

Por otra parte fue establecida la relación directa entre la topografía del lugar (AnexoF) y los modelos estadísticos y el determinista, entendiendo que las zonas mas vul-nerables por amenaza de inundación son las que se encuentran a niveles de alturasemejantes a los niveles mínimos del cauce pertenecientes a las zonas aledañas delsector Tintal Norte en la localidad de Kennedy y el sector Zona franca de la locali-dad de Fontibón.

Finalmente se destacan las bondades del modelo estadístico sobre la función de-terminista ya que el primero permite observar el comportamiento del fenómeno deestudio en el tiempo y facilita la posibilidad de predecir valores futuros a partir de laestimación de los parámetros, y el segundo calcula el caudal con valores restringidosconstantes y son usados para un tiempo t sin posibilidad de predicción.

8.1. Recomendaciones

El modelo de regresión lineal es posible complementarlo al adicionar otro tipode variables que tengan relación con el caudal, es probable que si se tiene encuenta la permeabilidad del suelo, la pendiente, los desechos incorporados ala cuenca y la cantidad de aportes que dan las fabricas al cauce del río, losresultados después de hacer un análisis similar tengan mayor similitud con losdatos reales.

Es importante tener en cuenta que para un estudio de esta índole es absoluta-mente necesario la continuidad en la toma de datos en las cuencas puesto queal hacer algún tipo de interpolación o inferencia de datos faltantes se tergiversala situación real y esto conlleva a que los resultados no sean óptimos.

61

Intensicar el desarrollo de software que puedan ofrecer una solución en lametodología estadística ya que los programas creados para realizar estos pro-cedimientos no son robustos.

62

Referencias

[Arce and Mahia, 2009] Arce, R. and Mahia, R. (2009). Modelos Arima.

[Cara, 2012] Cara, F. J. (2012). Análisis de procesos estocásticos en el dominio deltiempo.

[DAMA, 2004] DAMA, I. (2004). Calidad del recurso hídrico en bogotá. Technicalreport, Instituto de Hidrología, Meteorología y Estudios Ambientales de Colom-bia. IDEAM.

[De la Fuente Fernandez, 2005] De la Fuente Fernandez, S. (2005). Estadística Teó-rica I Series Temporales, Notas de clase.

[Departamento de Desarrollo Regional, 1991] Departamento de Desarrollo Regio-nal, y. M. A. (1991). Desastres planicación y desarrollo, manejo de amenazasnaturales para reducir los daños. Technical report, Agencia de los ESTADOSUNIDOS para el desarrollo internacional.

[Flores et al., 2009] Flores, J., Martínez, E., Pizarro, R., and Sanguesa, C. (2009).Curvas intensidad duracion frecuencia. Technical report, Sociedad estandares deingeniería para aguas y suelos LTDA.

[Guatemala La Niña, 2006] Guatemala La Niña, I. . (2006). La niña informe 1.Unidad de Investigación y servicios metereológicos de Guatemala.

[Guerrero Amaya, 2014] Guerrero Amaya, L. (2014). Investigación hidráulica y se-dimentologica en modelo físico del vertedero de servicio de la presa sabana ye-gua.universidad de piura.facultad de ingeniería.

[Gujarati, 2007] Gujarati, D. N. (2007). Econometría.

[Jiménez Escobar, 1985] Jiménez Escobar, H. (1985). Hidrología básica 1.

[Leyva, 1998] Leyva, P. (1998). El Medio Ambiente en Colombia.

[Mendenhall and Reinmuth, 1978] Mendenhall, W. and Reinmuth, J. E. (1978).Statistics for Management and Economics. Wadsworh, Inc, Grupo editorial Ibe-roamérica.

[Mesa et al., 2011] Mesa, L., Rivera, M., and Romero, J. (2011). Descripción Ge-neral de la Inferencia Bayesiana y sus Aplicaciones en los procesos de Gestión.

[Palacios and Diko, 2011] Palacios, A. and Diko, P. (2011). Introducción a la esta-dística bayesiana, aplicaciones y métodos Parte 1.

63

[Peña, 2005] Peña, D. (2005). Análisis de series temporales, volume 1. AlianzaEditorial.

[Rodriguez Ravines, 2007] Rodriguez Ravines, R. (2007). Análisis de Series deTiempo con Modelos Dinámicos.

[United Nations Oce, 2011] United Nations Oce, C. o. H. A. (2010-2011). Co-lombia. Temporada de lluvias de 2010 y 2011. Informes 3 y 6.

[West and Harrison, 1997] West, M. and Harrison, J. (1997). Bayesian Forecastingand Dynamic Models.

[Zhang and Cepeda Cuervo, 2010] Zhang, Hanwen ans gutiérrez Rojas, H. A. andCepeda Cuervo, E. (2010). Condence and Credibility Intervals for the Dierenceof Two Proportions. Revista Colombiana de Estadística, 33:63 88.

64

Anexos

Anexo A: Estadísticos de rango-media para precipitación

Anexo B: Estadísticos de rango-media para transformación logarítmica

Anexo C: Parámetros de la regresión lineal dinámica múltiple

Anexo D: Parámetros de la regresión lineal dinámica múltiple con condi-ciones apriori movidas

Anexo E: Ecuaciones RLD

Anexo F: Gráco de zonas de inundación

65

Anexo A: Estadísticos de rango-media para Precipitación

Estadísticos de rango-media para Precipitación utilizando 15 submuestras detamaño 12

rango media1992:07 - 1993:06 97,8000 53,55001993:07 - 1994:06 125,300 57,33331994:07 - 1995:06 92,2000 53,98331995:07 - 1996:06 113,500 59,06671996:07 - 1997:06 85,0000 57,31671997:07 - 1998:06 122,000 46,39171998:07 - 1999:06 93,5000 77,61671999:07 - 2000:06 104,800 69,77502000:07 - 2001:06 89,9000 43,77502001:07 - 2002:06 136,400 59,29172002:07 - 2003:06 69,2000 46,85122003:07 - 2004:06 155,300 70,40002004:07 - 2005:06 125,100 55,65832005:07 - 2006:06 157,800 81,40002006:07 - 2007:04 159,200 64,7400

pendiente de rango con respecto a media = 1,28745 el valor p para H0: pendiente= 0 es 0,053693

66

Anexo B: Estadísticos de rango-media para Transformación

Logarítmica

Estadísticos de rango-media para l_Precipitacion utilizando 15 submuestras detamaño 12

rango media1992:07 - 1993:06 1,78161 3,754821993:07 - 1994:06 2,31052 3,830341994:07 - 1995:06 2,57502 3,668691995:07 - 1996:06 1,74214 3,976951996:07 - 1997:06 2,03348 3,910101997:07 - 1998:06 3,04452 3,590561998:07 - 1999:06 1,49869 4,283451999:07 - 2000:06 2,00545 4,091092000:07 - 2001:06 2,10316 3,646282001:07 - 2002:06 2,34247 3,861912002:07 - 2003:06 1,46856 3,722832003:07 - 2004:06 1,85218 4,092182004:07 - 2005:06 2,28339 3,803542005:07 - 2006:06 2,96263 4,175382006:07 - 2007:04 3,00473 3,71379

pendiente de rango con respecto a media = -0,827023 el valor p para H0: pendiente= 0 es 0,223394

67

Anexo C: Parámetros de la Regresión lineal Dinámica Múltiple

Figura 38: Trayectoria estimada de θ2

Figura 39: Trayectoria estimada de θ3

68

Figura 40: Trayectoria estimada de θ4

Figura 41: Trayectoria estimada de θ5

Figura 42: Trayectoria estimada de θ Intercepto

69

Anexo D:Parámetros de la Regresión lineal Dinámica

Múltiple con condiciones apriori movidas

Figura 43: Trayectoria estimada de θ3 con condiciones apriori movidas

Figura 44: Trayectoria estimada de θ5 con condiciones apriori movidas

70

Figura 45: Trayectoria estimada de θ intercepto con condiciones apriori movidas

Figura 46: error

71

Figura 47: Histograma del error

72