Modelo Estocástico a partir de Razonamiento Basado en Casos ...

9
Modelo Estocástico a partir de Razonamiento Basado en Casos para la Generación de Series Temporales José Herrera Quispe Cátedra Concytec UNSA Arequipa, Perú Email: [email protected] Yessenia Yari Cátedra Concytec UNSA Arequipa, Perú Email: [email protected] Luis Alfaro Cátedra Concytec UNSA Arequipa, Perú Email: [email protected] Yván Jesús Túpac Valdivia Cátedra Concytec UCSP Arequipa, Perú Email: [email protected] Resumen—Se propone un nuevo modelo estocástico a partir del Razonamiento Basado en Casos (RBC), especializado en series temporales que presenten un fenómeno de persistencia observable; para ello se extiende los modelos con memoria autore- gresiva de tres términos, cambiando los parámetros estadísticos del componente deterministico por una función de similaridad que usa la distancia euclidiana con una entrada de n grados y d dimensiones, ponderada por el coeficiente de correlación; luego en la etapa de adaptación se genera una realización estocástica, adjuntando un componente aleatorio heredado del modelo de Thomas-Fiering. La propuesta se clasifica como un modelo estocástico periódico auto-regresivo genérico. Se aplica el modelo para la generación de escenarios climáticos en el ámbito de la cuenca del Chili-Arequipa. Los resultados muestran que la propuesta, descubre eventos extremos gracias a su capacidad de incluir registros y relaciones ocultas entre las variables hidrom- eteorológicas; representando una mejora a los esfuerzos previos de Campos [1], Taymoor [2], Fiering [3]. Luego el modelo se vislumbra como una prometedora alternativa en la simulación de escenarios y la modelación de la ocurrencia de eventos extremos, (lluvias torrenciales, inundaciones, sequías, heladas); con un potencial interesante en la toma de decisiones vinculadas al desarrollo de acciones técnicas de previsión, que eviten pérdidas económicas y sociales (Dimensionando y escenificando el impacto de una sequia o inundacion sobre un area cultivable, sobre la producción hidroenergéticas, la producción minera y la demanda poblacional) [4] [5]. Keywords-Razonamiento Basado en Casos, Series temporales, Procesos Estocásticos. I. I NTRODUCCIÓN Muchas importantes variables aleatorias son funciones cuyos valores cambian con el tiempo, se tienen fenó- menos climatológicos[6], fenómenos económicos[7], incluso biológicos[8];unconjuntodeestasobservacionessonllamadas series temporales, sus características complejas como la no- linealidad y el comportamiento caótico requieren de modelos capaces de capturar atributos ocultos, la finalidad es realizar tareas de planificación [1] [9] [10]. Los modelos existentes requieren una formulación compleja, algunos dependen de una hipótesis a priori sobre el comportamiento del problema, el cual requiere un conocimiento detallado que no siempre está disponible. Existen trabajos que proponen soluciones usando procesos estocásticos basado en redes neuronales, algunos especializados aplicados a fenómenos con características periódicas [1] [11] [12] [13]. Ahora bien, existen otras técnicas como el razonamiento basado en casos, que también tienen la propiedad de capturar el comportamiento sin información a priori, adicionalmente posee velocidad en la actualización de respuestas y economía de diseño, sus algoritmos de indexación, recuperación, adaptación y retención [14] presentan el marco ideal para implementarlo en el caso de estudio [15] [16][17] [18] [19] [20][21]. II. ESTADODEL ARTE Enlabibliografía,seencuentrenmodelosparalageneración de variables hidrometeorológicas, los mas conocidos: Regre- siónes lineal simple, multiple; Modelos Autoregresivos (AR); Modelos de Medias Moviles (ARMA); Modelos de Medias Moviles con variable exogena (ARMAX), con parametros periódicos [22]. En todos estos modelos, la relación lineal entre las variables hidrológicas relevantes es asumida pero no siempre da los mejores resultados, y en algunos casos es inadecuado [23]. Muchos estudios emplean los modelos autoregresivos para la generación y previsión de caudales, mostrando de esta forma que los modelos de bajo orden reproducen bien las caracteristicas analizadas [24][25]. Peng [26] muestra que no hay evidencia que los modelos AR(1) multivariadosseaninadecuados(ThomasFieringesunmodelo AR1 con coeficientes que varian estacionalmente, un buen ejemplo de este enfoque). Estudios iniciales como [27], [28], [29], [30], [3] describen secuencias de caudales con modelos matemáticos, los cuales pueden reproducir caracteristicas es- peciales como la periodicidad y considerar los efectos de la correlación lineal. La mas importante contribución fue hecha por Thomas y Fiering [29]. Ellos proponen que los caudales pueden ser simulados con una relación lineal simple con caudales previos, a continuación mas detalle: Proceedings del XII Congreso de la Sociedad Peruana de Computaci ´ on CSPC2013 49

Transcript of Modelo Estocástico a partir de Razonamiento Basado en Casos ...

Page 1: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

Modelo Estocástico a partir de RazonamientoBasado en Casos para la Generación de Series

TemporalesJosé Herrera QuispeCátedra Concytec

UNSAArequipa, Perú

Email: [email protected]

Yessenia YariCátedra Concytec

UNSAArequipa, Perú

Email: [email protected]

Luis AlfaroCátedra Concytec

UNSAArequipa, Perú

Email: [email protected]

Yván Jesús Túpac ValdiviaCátedra Concytec

UCSPArequipa, Perú

Email: [email protected]

Resumen—Se propone un nuevo modelo estocástico a partirdel Razonamiento Basado en Casos (RBC), especializado enseries temporales que presenten un fenómeno de persistenciaobservable; para ello se extiende los modelos con memoria autore-gresiva de tres términos, cambiando los parámetros estadísticosdel componente deterministico por una función de similaridadque usa la distancia euclidiana con una entrada de n gradosy d dimensiones, ponderada por el coeficiente de correlación;luego en la etapa de adaptación se genera una realizaciónestocástica, adjuntando un componente aleatorio heredado delmodelo de Thomas-Fiering. La propuesta se clasifica como unmodelo estocástico periódico auto-regresivo genérico. Se aplica elmodelo para la generación de escenarios climáticos en el ámbitode la cuenca del Chili-Arequipa. Los resultados muestran que lapropuesta, descubre eventos extremos gracias a su capacidad deincluir registros y relaciones ocultas entre las variables hidrom-eteorológicas; representando una mejora a los esfuerzos previosde Campos [1], Taymoor [2], Fiering [3]. Luego el modelo sevislumbra como una prometedora alternativa en la simulación deescenarios y la modelación de la ocurrencia de eventos extremos,(lluvias torrenciales, inundaciones, sequías, heladas); con unpotencial interesante en la toma de decisiones vinculadas aldesarrollo de acciones técnicas de previsión, que eviten pérdidaseconómicas y sociales (Dimensionando y escenificando el impactode una sequia o inundacion sobre un area cultivable, sobre laproducción hidroenergéticas, la producción minera y la demandapoblacional) [4] [5].

Keywords-Razonamiento Basado en Casos, Series temporales,Procesos Estocásticos.

I. INTRODUCCIÓN

Muchas importantes variables aleatorias son funcionescuyos valores cambian con el tiempo, se tienen fenó-menos climatológicos[6], fenómenos económicos[7], inclusobiológicos[8]; un conjunto de estas observaciones son llamadasseries temporales, sus características complejas como la no-linealidad y el comportamiento caótico requieren de modeloscapaces de capturar atributos ocultos, la finalidad es realizartareas de planificación [1] [9] [10].Los modelos existentes requieren una formulación

compleja, algunos dependen de una hipótesis a priorisobre el comportamiento del problema, el cual requiere unconocimiento detallado que no siempre está disponible.

Existen trabajos que proponen soluciones usandoprocesos estocásticos basado en redes neuronales, algunosespecializados aplicados a fenómenos con característicasperiódicas [1] [11] [12] [13]. Ahora bien, existen otrastécnicas como el razonamiento basado en casos, quetambién tienen la propiedad de capturar el comportamientosin información a priori, adicionalmente posee velocidaden la actualización de respuestas y economía de diseño,sus algoritmos de indexación, recuperación, adaptación yretención [14] presentan el marco ideal para implementarloen el caso de estudio [15] [16][17] [18] [19] [20][21].

II. ESTADO DEL ARTE

En la bibliografía, se encuentren modelos para la generaciónde variables hidrometeorológicas, los mas conocidos: Regre-siónes lineal simple, multiple; Modelos Autoregresivos (AR);Modelos de Medias Moviles (ARMA); Modelos de MediasMoviles con variable exogena (ARMAX), con parametrosperiódicos [22]. En todos estos modelos, la relación linealentre las variables hidrológicas relevantes es asumida perono siempre da los mejores resultados, y en algunos casoses inadecuado [23]. Muchos estudios emplean los modelosautoregresivos para la generación y previsión de caudales,mostrando de esta forma que los modelos de bajo ordenreproducen bien las caracteristicas analizadas [24][25]. Peng[26] muestra que no hay evidencia que los modelos AR(1)multivariados sean inadecuados (Thomas Fiering es un modeloAR1 con coeficientes que varian estacionalmente, un buenejemplo de este enfoque). Estudios iniciales como [27], [28],

[29], [30], [3] describen secuencias de caudales con modelosmatemáticos, los cuales pueden reproducir caracteristicas es-peciales como la periodicidad y considerar los efectos de lacorrelación lineal. La mas importante contribución fue hechapor Thomas y Fiering [29]. Ellos proponen que los caudalespueden ser simulados con una relación lineal simple concaudales previos, a continuación mas detalle:

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

49

Page 2: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

II-A. Modelo de Thomas y Fiering

Modelo para la generación de caudales sintéticos, desarrol-

lado en 1962 por Thomas y Fiering [29]. Este modelo además

de la media y la varianza, usa el coeficiente de correlación,

pues se considera que los registros históricos de procesos

hidrológicos presentan un fenómeno de persistencia observable

[31]. El modelo fue aplicado exitosamente en muchos estudios

de generación de series temporales de caudales, precipitación

[32], [33].

II-A0a. Para una distribución normal:

Q j+1 = Q j+1+b j

(Q j− Q j

)+ t j.s j+1

√1− r2j (1)

Donde:

Q j es el caudal en el mes j

Q j es el caudal promedio en el mes j.

B j es la pendiente de la recta de regresión del mes j y j+1.

S j es la varianza de la distribución de caudales en el mes j.

R j es el coeficiente de correlación entre el mes j y j+1.

T j es un número aleatorio que viene de una distribución

normal de media nula y de varianza igual a uno.

Para calcular los promedios, la pendiente, la varianza y el

coeficiente de correlación con los datos históricos.

El promedio:

Q j =1

n

n

∑i=1

Q j (2)

La varianza:

s j =

√1

n−1∑(Q j− Q j

)2(3)

El coeficiente de correlación:

Para j mayor o igual a 2

r j =1

n−1 ∑(Q j− Q j

)(Q j−1− Q j−1

)

s js j−1(4)

Para j igual a 1

r1 =1

n−1 ∑(Q1− Q1

)(Qm− Qm

)

s1sm(5)

La pendiente de la recta de correlación:

b j =r js js j−1

para j ≥ 2

para j = 1 b1 =r1s1sm

(6)

II-B. Redes Neuronales Estocásticas

Luciana [1] y Taymoor [2] recientemente proponen el

uso de Redes Neuronales para la generación de series tem-

porales estocásticas, afirman que los modelos tradicionales

(aproximaciones lineales) son modelos poco eficientes y de

aplicabilidad limitada, luego los modelos no-lineales, nece-

sitan un conocimiento profundo del dominio para su con-

trucción [1] [34][35]. Una de las características que hacen

ventajoso el uso de Redes Neuronales es la no necesidad de

asumir un tipo de distribución a priori, aprenden la distribución

a través de ejemplos y manejan datos de diversas fuentes con

diferentes niveles de precisión y ruido [36] [37].

Luciana [1] modela con una componente estocástica para

cada periodo de la serie, para el caso mensual 12 componentes

estocásticos. Cada componente estocástico del Proceso Neu-

ronal Estocástico (PEN), está formada por una red neuronal

y por una distribución de probabilidad para generar valores

aleatorios en la generacion de escenarios como se ilustra en

la Figura 1.

Figura 1. Componente estocástico del Proceso Estocástico Neuronal [1].

Cuando el proceso estocático neuronal está formado por

mas de un componente estocático ocurre un encadenamiento

entre ellos, donde el valor de la serie dado por el componente

estocático de un periodo forma parte de la ventana temporal

de entradas de la red neuronal del componente estocático del

siguiente periodo.

Considerando que la red neuronal de orden pm contiene lmneuronas en la capa oculta, esta puede ser representada como

se muestra en la Figura 2, donde esta salida es calculada por

la Ecuación 7:

Figura 2. Neurona de salida de una red neuronal del proceso estocásticoneuronal con lm neuronas en la capa oculta.

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

50

Page 3: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

yout = ϕout(lmm

∑i=1

ωout,i · yi+θout) (7)

donde ϕout es la función de activación de la neurona de la

capa de salida representado por out, ωout,i es el peso sináptico

de la conexión entre la entrada i e a la neurona out y θout esel bias de la neurona.

Como se ve en la Figura 1, la salida de un componente

estocástico corresponde a la sumatoria de la salida de las

redes neuronales con un valor aleatorio proveniente de la

distribución de probabilidad de residuos de la red neuronal.

La serie temporal Z(t) que posee como indice de tiempo t es

simulada a través de la siguiente ecuación:

Z(t) = yout +α(t) (8)

donde α(t) es el valor aleatorio proveniente de la distribución

de probabilidad de los residuos de la red neuronal de los com-

ponentes estocásticos del periodo m. Uniendo las Ecuaciones 7

y 12 obtenemos la descripción matemática de la componente

estocástica del periodo m del proceso estocástico neuronal (ver

Ecuación9).

Z(t) =

yout(Σlmi=1ωout,i ·ϕi[ωi,0Z(t− s)+(Σpm

j=1ωi, jZ(t− j))+θi]θout)+α(t) (9)

Los términos de las serie son simulados por el proceso

estocástico. La Figura 3, muestra de forma genérica el en-

cadenamiento de los componentes estocásticos del proceso

estocástico neuronal en un determinado tiempo t.

Figura 3. Encadenamiento entre las entradas/salidas de las componentesestocásticas del proceso estocástico neuronal.

III. PROPUESTA

Se propone un nuevo modelo de Proceso Estocástico a

partir de Razonamiento Basado en Casos, el cual extiende los

modelos con memoria autoregresiva de tres términos (Thomas

Fiering), cambiando los parámetros promedio (ecuación 2),

varianza (ecuación 3), pendiente de la recta de regresión

(ecuación 6), y el coeficiente de correlación (ecuación 4 y 5)

por una función de similaridad que usa la distancia euclidiana

con una entrada de n grados y d dimensiones, ponderada por

el coeficiente de correlación de las variables componentes de

un caso (ecuacion 13); luego una etapa de adaptación que

genera una realización estocástica, adjuntando un componente

aleatorio heredado del modelo de Thomas-Fiering (ecuación

1), se resalta que las generaciones para multiples periodos

se basan en el trabajo de Luciana [1], vea los elementos del

componente estocástico en la Figura 4.

Figura 4. Componente estocástico del proceso estocástico a partir de Razon-amiento Basado en Casos.

Al igual que un PEN, cuando el proceso estocástico a

partir de RBC está formado por mas de un componente

estocástico ocurre un encadenamiento, donde el valor de la

serie dado por el componente estocástico de un periodo forma

parte de la ventana temporal de entradas del componente

estocástico del siguiente periodo; el proceso estocástico a

partir de Razonamiento Basado en Casos es clasificado como

un modelo estocástico periódico auto-regresivo genérico.

III-A. Representación de casos

La base de un sistema RBC es la memoria de todos los ca-

sos, a diferencia de otros métodos que usan generalizaciones o

modelos basados en dominio (redes neuronales, inferenciales,

clasificadores en general); para el caso de estudio, la base

de memoria la componen los registros históricos de series

temporales, organizados por el espacio temporal y geográfico

de las estaciones.

Un caso debe relacionar variables con otras del contexto,

para el casos de estudio se relaciona los atributos precipitación,

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

51

Page 4: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

Figura 5. Registro de Caso Serie Temporal.

evaporación y caudales de una estación, ademas para cada

atributo una variable llamada transición diferencial, el valor

de la transición para cada variable se extrae de la diferencia

entre el dato X(i,t)−Xi,t−1, donde i es atributo de entrada y t

es el instante de tiempo de la medida; Este valor se usará

en la recuperación, su utilidad se basa en las matrices de

transición de la Cadenas de Marcov, aplicadas a caudales,

donde establecen que la probabilidad que ocurra un evento

depende del evento inmediatamente anterior; vea la Figura 5:

Registro de Caso Serie Temporal.

Se presenta a continuación el diseño del esquema para la

Base de Casos:

e= {Rt,(Rex,Rey),E,Q,P,Tde,Tdq,Tdp} (10)

donde:

e es el esquema de los casos.

Rt es la referencia temporal para mes=(modulo(RT,12))y año=(RT ).(Rex,Rey) es la geo-referencia 2D del dato registrado.

E Evaporación.

Q Caudal.

P Precipitación.

Tde Transición de Evaporación.

Tdq Transición de Caudal.

Tdp Transición de Precipitación.

III-B. Indexación de casos

Al trabajar con la memoria de toda la serie histórica se

recomienda un metodo de indexación, esto dependera del

dominio de los datos, se recomienda índices abstractos para

permitir la recuperación en diversas circunstancias [38], la

indexación es transparente pero justifica el uso de toda la serie

histórica, para mas detalle vea [39] [40] [41] [42].

III-C. Recuperación de casos

Para que el proceso de recuperación en un RBC, se

comporte como un modelo de procesamiento temporal, es

necesario que presente habilidades de memoria de corto plazo,

esto se realiza a través de una técnica “ventana” [43], a travez

de series de tiempo pasadas, y sus transiciones diferenciales;

por eso el proceso estocástico es clasificado como un modelo

auto-regresivo.

El razonador de cada componente estocástico del proceso

posee un numero determinado de términos pasados de la

serie, se llamará orden del razonador. El orden del razonador

del componente estocástico del periodo m es representado

por pm. Para obtener un valor de la serie en un instante

de tiempo t, el proceso accede al componente estocástico

m correspondiente y su razonador recibe los pm terminos

pasados de la serie; asociado al orden se tiene d dimensiones,

la primera dimensión corresponde a los datos históricos de

las serie trabajada (d = 1), las dimensiones adicionales son

series temporales asociadas y ponderadas por el coeficiente

de correlacion w a la primera dimensión, el razonador trabaja

con todas d dimensiones; a mas dimensiones, mejor ajuste. La

Figura 6, muestra la estructura de un razonador de orden pmy dimensión d.

Figura 6. Propuesta: Proceso Estocástico Genérico a partir de RBC de ordenpm y d dimensiones.

La nueva formulación: Sea Z1(t) una serie temporal con un

periodo estacionario s y con n observaciones simultáneas en

todos los periodos, correlacionada a series asociadas Z2(t) ...

Zd(t). Se describe un índice de tiempo t, vea la Ecuación 11.

td = (r−1) · s+m (11)

donde:

r= 1 . . .n es el número de observaciones de cada periodo

de la serie.

m= 1 . . .s corresponde a un periodo de la serie.

s es el total de periodos de la serie sεN.

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

52

Page 5: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

d son las dimensiones de la series.βwd es la ponderación extraido del coeficiente de cor-

relacion de la serie d con la serie generada.

En la Figura 4, se aprecia que la salida de un componente es-

tocástico corresponde a la recuperación de n series temporales

con un mecanismo razonador y un valor aleatorio proveniente

de la distribución de probabilidad normal asociado a la ventana

de busqueda sobre el mecanismo razonador. La serie temporal

Z(t) que posee como indice de tiempo t es simulada a través

de la siguiente ecuación:

Z(t) = yt +α(t) (12)

donde α(t) es el valor aleatorio proveniente de la distribución

de probabilidad normal asociado a los errores de los compo-

nentes estocásticos del periodo m y la ventana de busqueda.

Yt es la salida del mecanismo razonador, el mecanismo

razonador se basa en una medida de similaridad. La expresión

paera el nuevo modelo de proceso estocástico, teniendo en

cuenta la medida de similaridad, es:

Z j+1 = Sim j(Z j,BC),+α( j) (13)

donde:

Z j es el componente estocástico en el instante de tiempo j.

Sim j(Z j,BC) es la función de similitud para el mes j en base

a los datos históricos registrados en las series temporales de

BC.

α( j) es un error aleatorio que proviene de una distribución de

probabilidad para el instante de tiempo j.

III-D. Distancia Euclidiana Ponderada

Es la forma mas directa para medir una distancia, esta

basado en la ubicación de los objetos en el espacio Euclideano

(es decir un conjunto ordenado de números reales). Formal-

mente la distancia Euclidiana entre los casos se expresará de

la siguiente manera:

BC = {e1,e2, ...eN} (14)

donde BaseCasos es la librería de N casos correspondiente a

las series históricas almacenadas, y ei representa una medida

en el instante i.

Además se tiene la colección de atributos metereológi-

cos correspondientes a las dimensiones asociadas {Fj( j =1,2, ...,n)} para indexar los registros; luego:

ei = (xi1,xi2, ...,xin,θi) (15)

donde: ei es el i-ésimo caso en la librería , se representado

por un vector (n+ 1)− dimensional xi j corresponde al valor

de la dimensión Fj(1≤ j≤ n) θi corresponde a los valores de

ubicación no indexados V (i= 1,2, ...,N).Para cada valor de la serie representada en el caso {Fj( j =

1,2, ...,n)}, se asigna un peso w j(w j ∈ [0,1]) asignado a la

j-ésima dimensión para indicar la influencia de dicha ob-

servación en nuestro valor buscado, este se obtiene a partir

del coeficiente de correlacion entre los atributos, previamente

calculado.

Entonces para la ventana temporal ep y la salida buscada

eq en la librería de registros históricos, la distancia métrica

ponderada se define como:

d(w)pq = d(w)

(ep,eq

)(16)

d(w)pq =

[n

∑j=1

w2j(xp j− xq j )

2

]1/2(17)

d(w)pq =

(n

∑j=1

w2jx

2j

)1/2

(18)

donde x2j = (xp j−xq j)2. Cuando todos los pesos son iguales

a 1, la distancia métrica ponderada definida anteriormente

degenera a la medida Euclidiana d1pq, esto quiere decir que

es denotado por dpq.

La medida de similitud entre dos datos; SM(w)pq , se define

como:

SM(w)pq =

1

1+αd(w)pq

(19)

Donde α es una constante. Cuanto más alto sea el valor de

d(2)pq , la similitud entre ep y eq es mas bajo. Cuando todos los

pesos toman valor de 1, la medida de similitud es denotado

por SM(1)pq , ∈ [0,1].

La distancia entre dos casos ep y eq se calcula por:

dwpq =

√n

∑j=1

w2jρ

2j (ep j,eq j) (20)

III-E. Ponderación via coeficientes de correlación

Se ponderan las variables del mecanismo razonador asignán-

dole un peso en función del impacto o influencia de estos en el

resultado, para ello se usa el coeficiente de correlación de las

variables. El mecanismo razonador usa la distancia euclidiana

ponderada de la salida del componente estocástico buscado

contra los (n+ d)− 1 dimensiones y ordenes de las series

asociadas, el peso de la ponderación es representada por w, el

cual es generado por el coeficiente de correlación de Z con las

dimensiones y ordenes asociadas. En procesos periódicos se

puede definir valores que describen la estructura de correlación

lineal de un periodo con los periodos anteriores, puede ser de

orden 1 con el inmediato anterior, o una correlación de orden

2 que describe la dependencia del periodo m con respecto a

los periodos m−2, o generalizando, una correlación de orden

k que representa la dependencia del periodo k con respecto al

periodo m− k.

γm(k)=1

N

N

∑i=1

(z(i−1)p+m−µm

)(z(i−1)p+m−k−µm

)(21)

ρm(k)=γm(k)

σmσm−k(22)

donde m= 1, . . . , p y p= numero de periodos.

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

53

Page 6: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

III-F. Formulación del nuevo proceso estocástico

Concatenando las ecuaciones 19, 14, 17 y usando álgebrarelacional para la proyección y selección de los casos sobre labase de casos BC indexada; se tiene la descripción matemáticade la componente estocástica (CE) para el periodo j del mod-elo de Proceso Estocástico Basado en Razonamiento Basadoen Casos. Es la contribución mas importante del artículo.

Z j+1 = {(ΠZ(σSM

(w)pz )≈1

(BC)))}+α( j) (23)

donde:

Z j Es el componente estocástico en el periodo j.(ΠZA) es la proyección de la salida del mecanismorazonador sobre (σ

SM(w)pz )≈1

(BC).

(σB) es la selección de los casos que cumplan el criterioSM

(w)pz )≈ 1.

SM(w)pq ) ≈ 1 es la función de similitud del caso buscado

pq, vea la ecuación 19.

α( j) es un error aleatorio para el instante j.

BC es la base de casos de trabajo, vea la ecuación 14.

Extendiendo la expresión con las ecuaciones anteriores setiene:

Q j+1 =

{(ΠQ(σ(1/

(1+α

( [∑nj=1w

2j(xp j− xq j )

2]1/2))

≈1)(BC)))}

+α( j) (24)

IV. GENERACIÓN DE SERIES TEMPORALES

IV-A. Caso de estudio: Cuenca del rio Chili, estación Pañe

El caso de estudio se encuentra en la cuenca del río Chili,ubicada al sur del Perú, su ámbito está comprendido entrelas coordenadas geográficas 15o37′ y 16o47′ de Latitud Sur,70o49′ y 72o26′ de Longitud Oeste. El área de la cuenca, hastasu desembocadura en el Océano Pacífico, es de 12,542 km2 .Sus altitudes varían de los 0 a 6,056 msnm.(ver Figura 7). La cuenca posee características climatológicas,las cuales son medidas a través de instrumentos de las esta-ciones de medición. Se utilizan un conjunto de observacionesmensuales de la estacion Pañe, desde 1970 a 2000 30aos. lascuales han sido normalizadas y transformadas. [44]

IV-B. Proceso Estocástico Neuronal (PEN)

Se presenta la generación de 100 escenarios para la Estaciónel Pañe usando el modelo PEN, para precipitación en la Fig.8, evaporación en la Fig. 10 y caudales en la Fig. 12 y susrespectivas medias en la Fig. 9, 11 y 13.

Figura 7. Estaciones de Medición

0 2 4 6 8 10 120

50

100

150

200

250

300

350

400

escenarios

real

Figura 8. Escenarios de precipitacion generados por el PEN en la estaciónel Pañe, data historica: años 1970-2002, data sintetizada: 2003.

0 2 4 6 8 10 120

50

100

150

200

250

media

real

Figura 9. Medias de Precipitación generado por el PEN para la estación elPañe, data historica: años 1970-2002, data sintetizada: 2003.

IV-C. Proceso Estocástico a partir de RBC

Se presenta la generación de 100 escenarios para la Estaciónel Pañe usando la propuesta, el modelo PERBC, para precip-itación en la Fig. 14, evaporación en la Fig. 16 y caudales enla Fig. 18 y sus respectivas medias en la Fig. 15, 17 y 19.

V. EVALUACIÓN Y CONCLUSIONES DEL MODELO

Habiendo implementado el modelo es necesario un esti-mador para evaluarlo, se usa el Error Medio Cuadrático (MSE)y la Raiz del Error Medio Cuadrático (RMSE), en la Tabla Ise aprecian los resultados para el PEN y para el PERBC.

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

54

Page 7: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

0 2 4 6 8 10 1240

60

80

100

120

140

160

180

200

220

240

escenarios

real

Figura 10. Escenarios de evaporaciones generadas por el PEN para la estaciónel Pañe, data historica: años 1970-2002, data sintetizada: 2003.

0 2 4 6 8 10 1290

100

110

120

130

140

150

160

170

180

media

real

Figura 11. Medias de Evaporación generado por el PEN para la estación elPañe, data historica: años 1970-2002, data sintetizada: 2003.

0 2 4 6 8 10 120

5

10

15

20

25

30

escenarios

real

Figura 12. Escenarios de caudal generados por el PEN para la estación elPañe, data historica: años 1970-2002, data sintetizada: 2003.

Luego de analizar el MSE y el RMSE para el Proceso

Estocático Neuronal (PEN) y el Proceso Estocastico Basado en

Casos (PERBC) no se puede apreciar una mejora significativa

(ver tabla I) , por lo que se puede concluir que ambos

modelos son aceptables, existiendo una ligera ventaja para

el PEN, sin embargo al realizar una inspeccion individual

de las generaciones (ver Fig. 8 y Fig. 14) vemos la ca-

pacidad de generar eventos extremos, en el modelo PERBC

(una precipitacion de 503ml que no posee el PEN, cuya

precipitacion máxima es de 395ml) este dato es factible y

debe ser analizado (el 2013 ocurrió una precipitación de estas

caracteristicas, solo el modelo propuesto pudo generarla [45])

esta caracteristica se explica por el uso de registros historicos

0 2 4 6 8 10 120

2

4

6

8

10

12

14

media

real

Figura 13. Medias de Caudal generado por el PEN para la estación el Pañe,data historica: años 1970-2002, data sintetizada: 2003.

Figura 14. Escenarios de precipitacion generados por el PERBC en la estaciónel Pañe, data historica: años 1970-2002, data sintetizada: 2003.

Figura 15. Medias de Precipitación generado por el PERBC para la estaciónel Pañe, data historica: años 1970-2002, data sintetizada: 2003.

Figura 16. Escenarios de evaporaciones generadas por el PERBC para laestación el Pañe, data historica: años 1970-2002, data sintetizada: 2003.

máximos con error aleatorio, el cual proviene del análisis de

la ventana de similaridad. Por otro lado los modelos PEN y

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

55

Page 8: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

Figura 17. Medias de Evaporación generado por el PERBC para la estaciónel Pañe, data historica: años 1970-2002, data sintetizada: 2003.

Figura 18. Escenarios de caudal generados por el PERBC para la estaciónel Pañe, data historica: años 1970-2002, data sintetizada: 2003.

Figura 19. Medias de Caudal generado por el PERBC para la estación elPañe, data historica: años 1970-2002, data sintetizada: 2003.

Lineales requieren para generar escenarios una fase adicional

de aprendizaje de la distribución o analisis (4 fases para los

modelos lineales y y 4 fases para el PEN: Normalización de

la serie, análisis o aprendizaje de la distribución, aplicación

del modelo, generación de escenarios); el PERBC solo tiene 3

fases (Tratamiento de la Serie temporal, aplicación del modelo,

input Variable mse rmse

PEN Evaporacion 237.4681 15.4101Precipitacion 636.5529 25.2313

Caudal 35.8429 5.9869

PERBC Evaporacion 225.9369 15.0312Precipitacion 622.8718 24.957

Caudal 63.6963 7.9808

Cuadro IMSE Y RMSE

Figura 20. a)Modelos Autoregresivos VS b)Proceso Estocástico Neural VSc) Proceso Estocástico RBC (Propuesta).

generación de escenarios), lo que acelera el proceso, vea la

Figura 20.

Se puede concluir que el modelo tiene la capacidad para

generar escenarios como los otros modelos, pero agrega la

capacidad de eventos extremos, un adicional es la capacidad

de evitar la formulación a priori. Luego, se puede usar como

complemento en las tareas de analisis de escenarios junto a los

modelos tradicionales, el modelo se destaca por la capacidad

de incluir caracteristicas extremas en las realizaciones, lo

que permite evaluar eventos extremos (lluvias torrenciales,

sequías, heladas) esto permitirá a un tomador de decision

desarrollar acciones técnicas de previsión, que finalmente

puedan evitar pérdidas económicas y sociales (Construcción

de defensas rivereñas para evitar inundaciones, implantación

de politicas de consumo de agua para mejorar la disponibilidad

del recurso hidrico, ajustando el impacto del evento sobre el

area vulnerable correspondiente)

V-A. Trabajos futuros

Para justificar el uso de la memoria plana y acelerar las

búsquedas se sugiere el uso de una estructura de acceso

métrico, por ejemplo la Ommi-secuencial; esto permitirá que el

modelo sea escalable. Luego se puede extender el modelo para

completación de datos. Finalmente el componente aleatorio

del modelo estocastico propuesto se puede estimar a partir del

analisis de las distancias de similaridad, se cree que mejoraríalos resultados de las generaciones.

REFERENCIAS

[1] L. C. D. Campos, “Modelo estocastico periodico baseado em redesneurais,” Ph.D. dissertation, Pontificia Universidade Catolica do Rio deJaneiro, Rio de Janeiro - Brasil, September 2010.

[2] T. A. Awchi, D. Srivastava et al., “Analysis of drought and storage formula project using ann and stochastic generation models.” Hydrology

Research, vol. 40, no. 1, pp. 79–91, 2009.[3] M. B. Fiering, “Streamflow synthesis,” Cambridge, Harvard University

Press, 1967. 139 P, 1967.

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

56

Page 9: Modelo Estocástico a partir de Razonamiento Basado en Casos ...

[4] L. Casas, C. Beltran, and J. Herrera, “Sistema inteligente para la gestionintegrada del recurso hidrico, caso: Cuenca del rio chili,” CatedraCONCYTEC, Universidad Nacional de San Agustin, Arequipa, Peru,Tech. Rep. 2011003, 2011.

[5] J. S. Gomez, “Informe técnico sobre caracteristicas hidrometereologicasde la cuenca del rio chili,” Tech. Rep., 2011.

[6] D. Loucks, E. Van Beek, J. Stedinger, J. Dijkman, and M. Villars,Water resources systems planning and management: an introduction to

methods, models and applications. Paris: UNESCO, 2005.

[7] R. Hochreiter and G. Pflug, “Financial scenario generation for stochasticmulti-stage decision processes as facility location problems,” Annals of

Operations Research, vol. 152, no. 1, pp. 257–272, 2007.

[8] D. Wilkinson, “Stochastic modelling for quantitative description ofheterogeneous biological systems,” Nature Reviews Genetics, vol. 10,no. 2, pp. 122–133, 2009.

[9] S. Taylor, Modelling financial time series. World Scientific Pub CoInc, 2008.

[10] T. Meng, S. Somani, and P. Dhar, “Modeling and simulation of biologicalsystems with stochasticity,” Silico Biol, vol. 4, no. 3, pp. 293–309, 2004.

[11] A. El-Shafie and M. El-Manadely, “An integrated neural networkstochastic dynamic programming model for optimizing the operationpolicy of aswan high dam,” Hydrology research, vol. 42, no. 1, pp. 50–67, 2011.

[12] J. C. Ochoa-Rivera, “Prospecting droughts with stochastic artificialneural networks,” Journal of Hydrology, vol. 352, no. 1-2, pp. 174 –180, 2008. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S0022169408000322

[13] H. Bao and J. Cao, “Delay-distribution-dependent state estimation fordiscrete-time stochastic neural networks with random delay,” Journal of

Neural Networks & Computer Science, vol. 24, pp. 19–28, January 2011.[Online]. Available: http://dx.doi.org/10.1016/j.neunet.2010.09.010

[14] R. De Mantaras, D. McSherry, D. Bridge, D. Leake, B. Smyth, S. Craw,B. Faltings, M. Maher, M. Cox, K. Forbus et al., “Retrieval, reuse,revision and retention in case-based reasoning,” Knowledge Engineering

Review, vol. 20, no. 3, p. 215, 2005.

[15] C. Lee, A. Liu, and H. Huang, “Using planning and case-based rea-soning for web service composition,” Journal ref: Journal of Advanced

Computational Intelligence and Intelligent Informatics, vol. 14, no. 5,pp. 540–548, 2010.

[16] C. Lee, K. Cheng, and A. Liu, “A case-based planning approach foragent-based service-oriented systems,” in Systems, Man and Cybernetics,

2008. SMC 2008. IEEE International Conference on. IEEE, 2008, pp.625–630, dept. of Computer Science & Inf. Eng., Nanhua Univ., Chiayi.

[17] P. D. Loor, R. Bénard, and P. Chevaillier, “Real-time retrievalfor case-based reasoning in interactive multiagent-based simulations,”Expert Systems with Applications, vol. 38, no. 5, pp. 5145 – 5153,2011. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S0957417410011929

[18] W. He, L. D. Xu, T. Means, and P. Wang, “Integrating web 2.0 with thecase-based reasoning cycle: A systems approach,” Systems Research

and Behavioral Science, vol. 26, no. 6, pp. 717–728, 2009. [Online].Available: http://dx.doi.org/10.1002/sres.976

[19] B. Smyth and P. Champin, “The experience web: A case-based reasoningperspective,” in Grand Challenges for reasoning from experiences,

Workshop at IJCAI, vol. 9, 2009.

[20] S. Lajmi, C. Ghedira, and D. Benslimane, “Wesco cbr: Web services viacase based reasoning,” in ICEBE 06. IEEE International Conference.IEEE, 2006, pp. 618–622.

[21] S. Pal and S. Shiu, Foundations of soft case-based reasoning, ser. Wileyseries on intelligent systems. John Wiley & Sons, 2004. [Online].Available: http://books.google.com.pe/books?id=H8wgo5vvzGkC

[22] W. W.-S. Wei, Time series analysis. Addison-Wesley Redwood City,California, 1994.

[23] H. Raman and N. Sunilkumar, “Multivariate modelling of water re-sources time series using artificial neural networks,” Hydrological Sci-

ences Journal, vol. 40, no. 2, pp. 145–163, 1995.

[24] J. D. Salas, G. Q. Tabios III, and P. Bartolini, “Approaches to multi-variate modeling of water resources time series1,” JAWRA Journal of

the American Water Resources Association, vol. 21, no. 4, pp. 683–708,1985.

[25] T. R. Kjeldsen and D. Rosbjerg, “Choice of reliability, resilience andvulnerability estimators for risk assessments of water resources sys-tems/choix destimateurs de fiabilite, de resilience et de vulnerabilite pour

les analyses de risque de systemes de ressources en eau,” Hydrological

sciences journal, vol. 49, no. 5, 2004.[26] C.-s. Peng and N. Buras, “Dynamic operation of a surface water

resources system,” Water Resources Research, vol. 36, no. 9, pp. 2701–2709, 2000.

[27] M. R. Brittan, Probability Analysis Applied to the Development of

Synthetic Hydrology for the Colorado River. Bureau of EconomicResearch, University of Colorado, 1961.

[28] P. R. Julian, A study of the statistical predictability of stream-runoff in

the Upper Colorado River Basin, 1961.[29] H. Thomas and M. Fiering, “Mathematical synthesis of streamflow

sequences for the analysis of river basins by simulation,” Design of

water resource systems, pp. 459–493, 1962.[30] L. R. Beard and H. Kubîk, “Monthly streamflow simulation,” Computer

Program, pp. 1–6, 1967.[31] J. Cadavid and J. Salazar, “Generacion de series sinteticas de caudales

usando un modelo matalas con medias condicionadas,” Avances en

Recursos Hidraulicos, vol. 17, no. 2, 2008.[32] N. Colston and J. Wiggert, “A technique of generating a synthetic flow

record to estimate the variability of dependable flows for a fixed reservoircapacity,” Water Resources Research, vol. 6, no. 1, pp. 310–315, 1970.

[33] Z. Gangyan, N. Goel, and V. Bhatt, “Stochastic modelling of thesediment load of the upper yangtze river (china),” Hydrological sciences

journal, vol. 47, no. S1, pp. 93–105, 2002.[34] M. Han and Y. Wang, “Analysis and modeling of multivariate chaotic

time series based on neural network,” Expert Systems with Applications,vol. 36, no. 2, Part 1, pp. 1280 – 1290, 2009. [Online]. Available:http://www.sciencedirect.com/science/article/pii/S0957417407005775

[35] H. Kantz and T. Schreiber, Nonlinear time series analysis,ser. Cambridge nonlinear science series. Cambridge UniversityPress, 2004. [Online]. Available: http://books.google.com.pe/books?id=RfQjAG2pKMUC

[36] C. Vieira, W. de Carvalho Júnior, and E. Solos, “Utilização de redesneurais artificiais para predição de classes de solo em uma baciahidrográfica no domínio de mar de morros césar da silva chagas elpídioinácio fernandes filho 2.”

[37] R. Prudencio, “Projeto híbrido de redes neurais,” Master’s thesis, Mestra-do em ciencias da computacao - Universidade Federal de Pernambuco,Fevereiro 2002.

[38] A. Bonzano, P. Cunningham, and B. Smyth, “Using introspective learn-ing to improve retrieval in cbr: A case study in air traffic control,”Case-Based Reasoning Research and Development, pp. 291–302, 1997.

[39] E. Chávez, G. Navarro, R. Baeza-Yates, and J. L. Marroquín, “Searchingin metric spaces,” ACM Comput. Surv., vol. 33, no. 3, pp. 273–321, Sep.2001.

[40] R. A. Baeza-Yates, W. Cunto, U. Manber, and S. Wu, “Proximitymatching using fixed-queries trees,” in CPM, 1994, pp. 198–212.

[41] G. R. Hjaltason and H. Samet, “Index-driven similarity search in metricspaces,” ACM Trans. Database Syst., vol. 28, no. 4, pp. 517–580, 2003.

[42] R. F. S. Filho, A. J. M. Traina, C. T. Jr., and C. Faloutsos, “Similaritysearch without tears: The omni family of all-purpose access methods,”in ICDE, 2001, pp. 623–630.

[43] J. GUTIERREZ, “Monitoramento da instrumentaco da barragem decorumbai por redes neurais e modelos de box and jenkins,” Disser-tacao de mestrado Pontifica Universidade Catolica do Rio de Janeiro,Departamento de Engenharia Civil, Setembro 2003.

[44] J. D. Salas, Applied modeling of hydrologic time series. WaterResources Publication, 1980.

[45] Senamhi, “Senamhi, registros históricos,” 2013. [Online].Available: http://www.senamhi.gob.pe/include_mapas/_dat_esta_tipo.php?estaciones=000760

Proceedings del XII Congreso de la Sociedad Peruana de Computacion CSPC2013

57