Clasificador Gamma y su aplicación a la predicción de series de tiempo · Series de tiempo...

47
Clasificador Gamma y su aplicación a la predicción de series de tiempo Dr. Itzamá López Yáñez IPN - CIDETEC México

Transcript of Clasificador Gamma y su aplicación a la predicción de series de tiempo · Series de tiempo...

Clasificador Gamma y su aplicación

a la predicción de series de tiempo

Dr. Itzamá López Yáñez

IPN - CIDETECMéxico

Modelos Asociativos y su aplicación a la predicción de Series de Tiempo:

Clasificador Gamma

• Introducción

• Modelos asociativos

• Clasificador Gamma

• Series de tiempo

– Contaminación atmosférica

– Producción de petróleo

• Conclusiones y Trabajo Futuro

• La predicción de valores futuros para una variable

dada ha sido un área de interés para la investigación

científica.

– Extrapolación de funciones

– Estimación de series de tiempo

– Predicción meteorológica

– Administración de cadena de suministro (Supply Chain)

– Predicción de datos ambientales

– Producción de petróleo

Introducción

• Varias técnicas de la InteligenciaComputacional se han aplicado a tareas depredicción y estimación…

• …de series de tiempo:

– Redes neuronales artificiales

– Máquinas de Soporte Vectorial

• … y recientemente:

– Clasificador Gamma

Introducción

5

Modelos asociativos

El propósito fundamental de una Memoria

Asociativa es recuperar correctamente

patrones completos a partir de patrones

de entrada, los cuales pueden estar

alterados con ruido aditivo, sustractivo o

combinado [1].

[1] Hassoun, M. H. (1993). Associative Neural Memories: Theory and Implementation. New York: Oxford University Press.

6

Modelos asociativos

7

Modelos asociativos

Ruido

•Aditivo

•Substractivo

•Mezclado

Imágenes con niveles incrementales de ruido (5, 10, 20,

40, 50, 60, 80, 90 y 99%) de tres tipos: aditivo, substractivo

y mezclado.

8

Modelos asociativos

Una Memoria Asociativa se puede considerar

como un sistema de entrada y salida.

Memoria

Asociativax y

Memoria

Asociativax ( ) yx~

9

1961 Karl Steinbuch, Lernmatrix

1969 Willshaw, Buneman y Longuet-Higgins, Correlograph

1972 Anderson / Kohonen - Linear Associator

1982 Hopfield

1998 Ritter, Memorias Asociativas Morfológicas

Modelos asociativos

10

Modelos asociativosModelos Clásicos

S

mi1

mi2

mij

min

……

x1

x2

xj

xn

yi

Suma de Productos

11

Modelos asociativosModelos Morfológicos

Máximo de Sumas

mi1

mij

min

……

x1

xj

xn

yi

+

+

+

Mínimo de Sumas

mi1

mij

min

……

x1

xj

xn

yi

+

+

+

12

Modelos asociativosMemorias asociativas Alfa-Beta

• En 2002, en el Grupo Alfa-Beta se crean los

operadores Alfa y Beta

BAA

111

201

010

100

, yxyx

AAB

112

102

111

001

010

000

, yxyx

2,1,0 1,0 BA

13

Modelos asociativosMemorias asociativas Alfa-Beta

• Fase de Aprendizaje (memorias tipo max)

• Fase de Recuperación (memorias tipo max)

nm

txy

tp

xy

1

V

ji

p

ij xyv ,1

jij

n

ji

xvx ,1

V xV

• Operador Gama de Similitud Generalizado

gg(x, y, )

– Operadores Alfa y Beta

– Operador uβ

• Código Binario Johnson-Möbius Modificado

Clasificador Gamma

Clasificador Gamma

• Operador u– Tiene como argumento de entrada un vector binario

n-dimensional x y la salida es un número entero no

negativo que se calcula así:

n

i

ii xxu

1

, x

Clasificador Gamma

• Código Binario Johnson-Möbius Modificado

– Ejemplo:

Número Código Johnson-Möbius Modificado

5 000000000000000000011111

15 000000000111111111111111

0 000000000000000000000000

24 111111111111111111111111

Clasificador Gamma

• Operador Gama de Similitud Generalizado

gg(x, y, )

– Tiene como argumentos de entrada dos vectores

binarios xAn y yAm, n-dimensional y

m-dimensional, respectivamente; con n, m Z+ ,

n ≤ m; y un número entero no negativo . La salida

es un número binario que se calcula así:

1 si , mod 2

, ,0 en otro caso

g

m u g

x yx y

Clasificador Gamma

Inicio

Codificar el CF con el código

Johnson-Möbius modificado

Calcular

Transformar índices

del CF

Codificar x con el código

Johnson-Möbius modificado

Calcular gg(xji, yj, )

Calcular ci

Máximo único? <

Asignar clase del

máximo único

Asignar clase del

primer máximo

Fin

Incrementar

• El Sistema de Monitoreo Atmosférico de la Cd.

de México (SIMAT) se encarga de monitorear

diversas variables de la calidad del aire, así como

publicar los niveles de contaminación.

• El Índice Metropolitano de la Calidad del Aire

(IMECA) es un valor de referencia para que la

población conozca los niveles de contaminación

prevalecientes en cualquier zona, de manera

precisa y oportuna.

Series de tiempoContaminación atmosférica

Series de tiempoContaminación atmosférica

IMECA Condición Efectos a la Salud

0-50: verde Buena Adecuada para llevar a cabo actividades al aire libre

51-100:

amarilloRegular

Posibles molestias en niños, adultos mayores y personas con

enfermedades

101–150:

naranjaMala

Causante de efectos adversos a la salud en la población, en particular los

niños y los adultos mayores con enfermedades cardiovasculares o

respiratorias como el asma

151–200:

rojoMuy Mala

Causante de mayores efectos adversos a la salud en la población en

general, en particular los niños y los adultos mayores con enfermedades

cardiovasculares o respiratorias como el asma

>200:

morado

Extremadame

nte Mala

Causante de efectos adversos a la salud de la población en general

Se pueden presentar complicaciones graves en los niños y los adultos

mayores con enfermedades cardiovasculares o respiratorias como el asma

Series de tiempoContaminación atmosférica

CONTAMINANTE ABREVIATURA UNIDADESNo.

ESTACIONES

Ozono O3 ppm 20

Bióxido de Nitrógeno NO2 ppm 19

Óxido de Nitrógeno NOX ppm 19

Monóxido de Nitrógeno NO ppm 19

Bióxido de Azufre SO2 ppm 26

Monóxido de Cárbono CO ppm 25

• Aplicación del clasificador Gamma a la predicción de datos ambientales tomados de las bases de datos del SIMAT

– Específicamente, el problema consiste en predecir la concentración de un contaminante dado, tomando como base las concentraciones registradas en una estación en particular a lo largo de un año.

– Los datos se toman de la base de datos de la RAMA.

Series de tiempoContaminación atmosférica

• Patrones de entrada: 10 muestras.

• Patrones de salida: muestra siguiente.

• Datos de aprendizaje: mediciones en ppm (partes por millón) de cada contaminante, obtenidas en una estación, muestreadas cada hora durante un año.

• Datos de prueba: datos obtenidos por la misma estación de monitoreo durante un mes de otro año.

Series de tiempoContaminación atmosférica

Series de tiempoContaminación atmosférica

003.0

008.0

019.0

029.0

067.0

094.0

085.0

105.0

077.0

030.0

x 003.0y

Series de tiempoContaminación atmosférica

21

1ii

n

i

OPn

RMSE

ii

n

i

OPn

Bias 1

1

Series de tiempoContaminación atmosférica

Conjunto Fundamental Conjunto de Prueba

Experimento Contaminante Periodo Estación Tamaño Periodo Estación Tamaño

1 CO 2006 IMP 8710 2007-Feb IMP 651

2 CO 2006 IMP 8710 2007-May IMP 723

3 O3 2006 CES 8749 2007-Feb CES 651

4 O3 2006 CES 8749 2007-May CES 723

5 SO2 2006 TLI 8749 2007-Feb TLI 641

6 SO2 2006 TLI 8749 2007-May TLI 711

Series de tiempoContaminación atmosférica

Contaminante Muestra Predicho Real Error

CO 3 de febrero 18:00 0.42 ppm 0.42 ppm 0.00 ppm

O3 12 de mayo 17:00 0.034 ppm 0.048 ppm -0.014 ppm

SO2 19 de febrero 1:00 0.059 ppm 0.251 ppm -0.192 ppm

Experimento Contaminante Periodo de

Prueba

Estación RMSE Bias

1 CO 2007-Feb IMP 0.726013 7.96

2 CO 2007-May IMP 0.611769 45.58

3 O3 2007-Feb CES 0.012302 0.607

4 O3 2007-May CES 0.014443 0.306

5 SO2 2007-Feb TLI 0.012096 0.573

6 SO2 2007-May TLI 0.010487 0.439

Series de tiempoContaminación atmosférica

Monóxido de Carbono CO Feb-2007

0

5.5

11

1 49 97 145 193 241 289 337 385 433 481 529 577 625

CO

pp

m

Predicho Real

Series de tiempoContaminación atmosférica

Monóxido de carbono CO May-2007

0

5.5

11

1 49 97 145 193 241 289 337 385 433 481 529 577 625 673 721

CO

pp

m

Predicho Real

Series de tiempoContaminación atmosférica

Ozono O3 Feb-2007

0.000

0.055

0.110

0.165

1 49 97 145 193 241 289 337 385 433 481 529 577 625

O3

pp

m

Predicho Real

Series de tiempoContaminación atmosférica

Ozono O3 May-2007

0.000

0.055

0.110

0.165

1 49 97 145 193 241 289 337 385 433 481 529 577 625 673 721

O3

pp

m

Predicho Real

Series de tiempoContaminación atmosférica

Dióxido de Azufre SO2 Feb-2007

0.000

0.065

0.130

0.195

0.260

0.325

1 49 97 145 193 241 289 337 385 433 481 529 577 625

SO

2 p

pm

Predicho Real

Series de tiempoContaminación atmosférica

Dióxido de Azufre SO2 May-2007

0

0.065

0.13

0.195

0.26

1 49 97 145 193 241 289 337 385 433 481 529 577 625 673 721

SO

2 p

pm

Predicho Real

Series de tiempoContaminación atmosférica

Base de datos SIMAT (concentración)

Experimento Algoritmo Usado Contaminante

Considerado

Tamaño del CF /

Conjunto de Prueba

Desempeño

(Abs. Avg. Error)

Bayesian network [7] O3 (ppm) 400 / 200 26.8 / 10

Neural network [7] O3 (ppm) 400 / 200 19.4 / NA

C4.5 [7] O3 (ppm) 400 / 200 21.4 / NA

Clasificador Gamma [12] SO2 (ppm) 8749 / 709 0.000408

1 Clasificador Gamma CO (ppm) 8710 / 651 0.012042

2 Clasificador Gamma CO (ppm) 8710 / 723 0.062183

3 Clasificador Gamma O3 (ppm) 8749 / 651 0.000918

4 Clasificador Gamma O3 (ppm) 8749 / 723 0.000417

5 Clasificador Gamma SO2 (ppm) 8749 / 641 0.000676

6 Clasificador Gamma SO2 (ppm) 8749 / 711 0.000795

Series de tiempoContaminación atmosférica

Bases de datos Diversas (concentración)

Experimento Algoritmo Usado Contaminante

Considerado

Tamaño del CF /

Conjunto de Prueba

Desempeño

(Abs. Avg. Error)

Neural network [8] O3 (μg/m3) 613 / 105 15

Neural network [9] O3 (ppb) NA / 1343

NA /2367

9.43

13.79

Online SVM [10] SO2 (mg/m3) 240 / 168 12.96, 10.90

CALINE3 [11] PM10, PM2.5

(mg/m3)

~120 88, 55

Clasificador Gamma [12] SO2 (ppm) 8749 / 709 0.009218

1 Clasificador Gamma CO (ppm) 8710 / 651 0.012042

2 Clasificador Gamma CO (ppm) 8710 / 723 0.062183

3 Clasificador Gamma O3 (ppm) 8749 / 651 0.000918

4 Clasificador Gamma O3 (ppm) 8749 / 723 0.000417

5 Clasificador Gamma SO2 (ppm) 8749 / 641 0.000676

6 Clasificador Gamma SO2 (ppm) 8749 / 711 0.000795

• Aplicación del clasificador Gamma a la predicción de datos de producción de petróleo en un campo maduro

– Específicamente, el problema consiste en predecir la producción de petróleo de un pozo dado, tomando como base las producciones registradas en el mismo pozo.

– Los datos se toman de los registros históricos de producción del campo.

Series de tiempoProducción de petróleo

• Patrones de entrada: 12 muestras (1 año).

• Patrones de salida: muestra con separación variable (s = 1, 2, …, 12).

• Datos de aprendizaje: producción mensual histórica del pozo.

• Datos de prueba: datos de producción de un año en particular.

Series de tiempoProducción de petróleo

Series de tiempoProducción de petróleo

0.00E+00

2.00E+04

4.00E+04

6.00E+04

8.00E+04

1.00E+05

1.20E+05

1 13 25 37 49 61 73 85 97 109 121 133 145 157

Oil

pro

du

ctio

n

TS 1 (l = 12, n = 6)

Oil Combined Combined Average

Series de tiempoProducción de petróleo

0.00E+00

2.00E+04

4.00E+04

6.00E+04

8.00E+04

1.00E+05

1.20E+05

1.40E+05

1.60E+05

1.80E+05

1 13 25 37 49 61 73 85 97 109 121 133 145 157 169 181 193 205 217 229 241 253 265 277 289

Oil

pro

du

ctio

n

TS 2 (l = 12, n = 6)

Oil Combined Combined Average

Series de tiempoProducción de petróleo

0.00E+00

2.00E+04

4.00E+04

6.00E+04

8.00E+04

1.00E+05

1.20E+05

1.40E+05

1.60E+05

1 13 25 37 49 61 73 85 97 109 121

Oil

pro

du

ctio

n

TS 3 (l = 12, n = 18)

Oil Combined Combined Average

Series de tiempoProducción de petróleo

0.00E+00

5.00E+03

1.00E+04

1.50E+04

2.00E+04

2.50E+04

3.00E+04

3.50E+04

1 13 25 37 49 61 73 85 97 109 121 133 145 157 169

Oil

pro

du

ctio

n

TS 4 (l = 12, n = 12)

Oil Combined Combined Average

Series de tiempoProducción de petróleo

0.00E+00

2.00E+04

4.00E+04

6.00E+04

8.00E+04

1.00E+05

1.20E+05

1 13 25 37 49 61 73 85 97 109 121 133

Oil

pro

du

ctio

n

TS 5 (l = 24, n = 12)

Oil Combined Combined Average

Series de tiempoProducción de petróleo

0.00E+00

5.00E+04

1.00E+05

1.50E+05

2.00E+05

2.50E+05

1 13 25 37 49 61 73 85 97 109 121 133

Oil

pro

du

ctio

n

TS 6 (l = 12, n = 6)

Oil Combined Combined Average

Series de tiempoProducción de petróleo

MSE

Combined Combined Avg.

TS 1 2.40E+07 2.09E+07

TS 2 3.38E+07 4.84E+07

TS 3 8.71E+06 8.71E+06

TS 4 9.92E+05 1.19E+06

TS 5 2.97E+08 2.97E+08

TS 6 2.80E+07 2.95E+07

MAPE

Combined Combined Avg.

TS 1 6.32% 6.32%

TS 2 85.98% 85.98%

TS 3 3.56% 3.56%

TS 4 11.46% 11.05%

TS 5 65.16% 65.16%

TS 6 131.91% 131.91%

Conclusiones y Trabajo Futuro

• Se ha aplicado el clasificador Gamma a la predicción de series de tiempo relacionadas con datos ambientales y producción de petróleo.

• Los experimentos han mostrado resultados competitivos.

• Es posible aplicar el clasificador Gamma a la predicción de series de tiempo, considerando muestras inmediatas (s = 1) o con separación arbitraria (s = 1, 2, …, l).

Conclusiones y Trabajo Futuro

• ¡Cuidado con las comparaciones!

– Bases de datos no estándar.

• Los errores de mayor magnitud se presentan en

los puntos de inflexión.

– Valores negativos [!].

• Series de tiempo multivaluadas.

• Caracterización de series de tiempo.

¡ Gracias !

Thanks !

Xie xie ni

Domo arigatou

Спасибо

Merci

Grazie

Dr. Itzamá López-Yáñez – [email protected]

Grupo Alfa-Beta - http://www.alfabeta.org.mx