Tesis Final
-
Upload
lemin-abanto-cerna -
Category
Documents
-
view
669 -
download
2
Transcript of Tesis Final
1
UNIVERSIDAD NACIONAL DE PIURA
ESCUELA DE POSTGRADO
SECCION DE CIENCIAS
PROGRAMA DE MAESTRIA EN CIENCIAS
“PREDICCION DE LA DEMANDA DE AGUA POTABLE PARA LA CIUDAD DE PIURA, A CORTO PLAZO, BASADA EN
REDES NEURONALES”
TESIS
PARA OPTAR EL GRADO ACADEMICO DE MAGISTER EN MATEMATICA APLICADA
LIC. LEMIN ABANTO CERNA
LIC. CELIA DOLORES SANCHEZ ARTEAGA
PIURA – PERU
AGOSTO - 2010
2
UNIVERSIDAD NACIONAL DE PIURA
ESCUELA DE POSTGRADO
SECCION DE CIENCIAS
PROGRAMA DE MAESTRIA EN CIENCIAS
TESIS
“PREDICCION DE LA DEMANDA DE AGUA POTABLE PARA
LA CIUDAD DE PIURA, A CORTO PLAZO, BASADA EN
REDES NEURONALES”
LOS SUSCRITOS DECLARAMOS QUE EL PRESENTE TRABAJO DE
TESIS ES ORIGINAL, EN SU CONTENIDO Y FORMA
__________________________ _________________________
LIC. LEMIN ABANTO CERNA LIC. CELIA D SANCHEZ ARTEAGA
_____________________________________
M.Sc. FLAVIO GUTIERREZ SEGURA
3
UNIVERSIDAD NACIONAL DE PIURA
ESCUELA DE POSTGRADO
SECCION DE CIENCIAS
PROGRAMA DE MAESTRIA EN CIENCIAS
“PREDICCION DE LA DEMANDA DE AGUA POTABLE PARA
LA CIUDAD DE PIURA, A CORTO PLAZO, BASADA EN
REDES NEURONALES”
APROBADA EN CONTENIDO Y ESTILO POR:
____________________________ Dr. CESAR HARO DIAZ
PRESIDENTE
___________________________________________ M. SC. JOSE DEL CARMEN SILVA MECHATO
SECRETARIO
_______________________________________ DR. ALEJANDRO IMAN ANCAJIMA
VOCAL
4
DEDICATORIA
"Para Alicia,
…por su apoyo incondicional”
"A mis hijos, Franco y Bruno
…los grandes sacrificados, por el tiempo que
dejé de
pasar con ellos y por su aliento constante para
realizar este trabajo”
5
DEDICATORIA
A Dios infinitas gracias
por permitirme culminar
con éxito esta etapa de
mi vida profesional.
A mi hijo Sergio Andrés
para que el presente trabajo
sea un estímulo en su vida.
A mi esposo Andres por
su apoyo incondicional
para lograr esta meta.
6
La búsqueda constante del conocimiento, conduce al descubrimiento de
nuevas herramientas, que ayudan al ser humano a solucionar problemas reales.
En este contexto, aparecen las redes neuronales inspiradas en los sistemas
biológicos para resolver diversos problemas, sobre todo aquellos en donde la
metodología tradicional tiene ciertas dificultades, como son aquellos sistemas
altamente no lineales.
Uno de estos problemas en donde estas herramientas están
demostrando gran desempeño, es la estimación de funciones, sobre todo para la
realización de pronósticos. La investigación tuvo como objetivo principal construir
una red neuronal, para pronosticar la demanda de agua en la ciudad de Piura,
utilizando para ello información histórica del consumo mensual de este elemento
durante los años 2007 al 2009.
La construcción y diseño de la red neuronal se hizo con ayuda del
programa matemático, MATLAB y de los programas estadísticos SPSS y
EVIEWS; estos últimos se utilizaron para el preprocesamiento de los datos, que
incluyó el análisis de la no estacionariedad de la serie y de su transformación a
serie estacionaria; requisito importante para incrementar la velocidad de
convergencia del algoritmo de entrenamiento de la red.
7
DEDICATORIA ..................................................................................................... 4
DEDICATORIA ..................................................................................................... 5
............................................................................................................... 6
.................................................................................................................... 7
INDICE DE TABLAS ............................................................................................ 8
........................................................................................... 9
................................................................................................ 10
....................................... 12
1.1 Problemática del agua en nuestro medio. ....................................... 12
1.2 Predicciones utilizando redes neuronales. ...................................... 14
1.3 Objetivos de la Investigación: ............................................................ 15
1.4 Importancia del estudio. ...................................................................... 15
1.5 Alcances y limitaciones ....................................................................... 17
1.6 Antecedentes. ...................................................................................... 19
CAPITULO II: MARCO TEORICO ................................................................... 22
2.1 Métodos tradicionales de predicción ................................................ 22
2.2 Métodos modernos de predicción ..................................................... 25
2.3 Inteligencia artificial (IA) ...................................................................... 25
2.4 Redes neuronales ................................................................................ 28
2.4.1 Neuronas Biológicas ................................................................ 28
2.4.2 Redes Neuronales Artificiales (RNA) .................................... 29
2.4.3 Arquitectura de las Redes Neuronales ................................. 31
2.4.4 Elementos de una Red Neuronal ........................................... 32
2.4.5 Forma de conexión (arquitectura) entre las redes .............. 39
2.4.6 Formas de Aprendizaje ............................................................ 42
2.4.7 Elección inicial de los pesos ................................................... 46
2.4.8 Entrenamiento de la red .......................................................... 46
2.4.9 Validación ................................................................................... 47
2.4.10 Análisis de las series de tiempo utilizando una red neuronal ..................................................................................................... 49
CAPITULO III: METODOLOGIA ...................................................................... 51
3.1 Población y Muestra ............................................................................ 51
3.2 Diseño y Construcción de la Red Neuronal .................................... 51
3.2.1 Capas de entrada y salida ....................................................... 51
8
3.2.2 Capas ocultas. Procesamiento ............................................... 52
3.2.3 Funciones de transferencia ..................................................... 52
3.2.4 Datos de entrenamiento .......................................................... 52
3.2.5 Normalización de datos ........................................................... 53
3.3 Datos de salida de la red .................................................................... 54
3.4 Proceso de Investigación ................................................................... 54
CAPITULO IV: DESCRIPCION DE RESULTADOS ..................................... 55
4.1 Evaluación del comportamiento de la serie de datos .................... 55
4.2 Evaluación del Autocorrelograma y Autocorrelograma parcial ..... 56
4.3 Análisis de la serie en primera diferencia ........................................ 60
4.4 Evaluación del Autocorrelograma y Autocorrelograma parcial de las primeras diferencias ................................................................................ 60
4.5 Arquitectura de la red neuronal ......................................................... 64
4.6 Entrenamiento de la red nuronal ....................................................... 64
4.7 Pronóstico. ............................................................................................ 67
CAPITULO V: CONCLUSIONES Y RECOMENDACIONES ...................... 69
6.1. Conclusiones. ....................................................................................... 69
6.2. Recomendaciones ............................................................................... 69
REFERENCIAS BIBLIOGRAFICAS ................................................................ 70
ANEXO 1 ............................................................................................................. 73
ANEXO 2 ............................................................................................................. 75
INDICE DE TABLAS
Tabla 1 Población Total y Servida de Agua Potable de las localidades de EPS
Grau S.A. .................................................................................................... 20
Tabla 2 Autocorrelación y Autocorrelación parcial del consumo de agua (M3)
...................................................................................................................... 57
Tabla 3 Prueba de Dickey Fuller aumentada ....................................................... 59
Tabla 4 Volumen de consumo de agua (M3). Primera diferencia ..................... 61
Tabla 5 Prueba de Dickey Fuller aumentada ....................................................... 63
Tabla 6 Consumo de agua (en ) en la ciudad de Piura en el periodo 2007 y
2009 ............................................................................................................. 75
Tabla 7 Datos de las primeras diferencias, primeras diferencias rezagadas
uno y dos periodos. ................................................................................... 76
9
Figura 1 Areas de la inteligencia artificial ............................................................... 27
Figura 2 Neurona biológica ...................................................................................... 28
Figura 3 Red multicapa ............................................................................................. 31
Figura 4 Neurona ....................................................................................................... 32
Figura 5 Función de transferencia lineal ................................................................ 36
Figura 6 Función de transferencia signo ................................................................ 37
Figura 7 Función de transferencia escalón unitario .............................................. 37
Figura 8 Función de transferencia logística ........................................................... 38
Figura 9 Función de transferencia gausiana con: 2,10 ........................ 39
Figura 10 (a) Red con tres capas con conexión hacia delante. (b) Red con
conexiones laterales. (c) Red con conexiones hacia atrás o recurrentes. ............ 41
Figura 11 Errores de prueba y entrenamiento como una función de las
épocas de entrenamiento ............................................................................................. 48
Figura 12 Volumen total de consumo de agua en Piura. Años 2007-2009
(Anexo2). .................................................................................................. 55
Figura 13 Estadísticos descriptivos del consumo de agua ................................ 56
Figura 14 Autocorrelograma del consumo de agua en Piura, 2007-2009 ...... 58
Figura 15 Autocorrelograma parcial del consumo de agua en Piura, 2007-
2009 .......................................................................................................... 58
Figura 16 Gráfico del consumo de agua, en primeras diferencias ................... 60
Figura 17 Autocorrelograma del consumo de agua en primeras diferencias. 62
Figura 18 Autocorrelograma parcial del consumo de agua en primeras
diferencias. ............................................................................................... 62
Figura 19 Arquitectura de la red neuronal ............................................................ 64
Figura 20 Entrenamiento de la red ........................................................................ 65
Figura 21 Evaluación del rendimiento de la red. ................................................. 66
Figura 22 Grado de ajuste del modelo .................................................................. 67
10
En Piura, las deficiencias en la disponibilidad, suministro y calidad del
agua, se han acentuado en los últimos años y con mayor intensidad en los
meses de verano. Las razones son múltiples, así tenemos el efecto invernadero
generado por el deterioro de la capa de ozono, el crecimiento poblacional
caótico, la falta de información sobre el tema y las dificultades económicas que
enfrentan las autoridades locales. Estas dificultades se agravan debido a la mala
gestión de los recursos disponibles, siendo esto más evidente en empresas que
dependen de los gobiernos de turno, como lo es, la empresa del agua, en donde
hay un desequilibrio entre la oferta y la demanda de este elemento.
Es obvio que la oferta de este servicio, se sustenta en el conocimiento de
la demanda del mismo. Es indispensable entonces que la empresa encargada
del suministro de este elemento, cuente con un mecanismo adecuado, que le
permita conocer con bastante precisión cuál es la demanda de agua, en el corto,
mediano y largo plazo. Sin embargo, a pesar de los grandes progresos
tecnológicos en la informática, aún no estamos aprovechando adecuadamente
estos recursos. Esto es un reto, que requiere un mejor conocimiento de las
nuevas metodologías, en el campo de la elaboración de pronósticos.
11
Este trabajo, tiene un doble propósito; por un lado pretende llenar ese
vacío de conocimiento, proponiendo una nueva metodología para hacer
pronósticos, basada en las redes neuronales, y por otro lado, servir de base para
futuras investigaciones.
Las redes neuronales son programas de computadora que intentan
simular el comportamiento del cerebro humano, tratando de dar a éstos, cierta
capacidad de decisión e incluso un cierto grado de “inteligencia”.
La investigación aborda este tema, debido a que es una metodología
cuya utilidad ya está comprobada, y que sin embargo, muchas personas
desconocen y otras más, aun no las aceptan.
El objetivo de la investigación es construir una red neuronal artificial para
pronosticar la demanda de agua en la ciudad de Piura, a partir de datos
históricos del consumo de agua registrados por la empresa EPS GRAU S.A.
En el Capítulo I se describe la problemática del agua en nuestro medio,
las predicciones utilizando redes neuronales, los objetivos de la investigación, la
importancia del estudio, los alcances y limitaciones de la investigación y los
antecedentes. El Capitulo II, describe la teoría que sustenta la investigación,
incluyendo una revisión de los métodos modernos de predicción y una revisión
del concepto de Inteligencia Artificial y de manera particular de las Redes
Neuronales. El Capítulo III describe la metodología utilizada para el desarrollo de
la investigación. En el Capítulo IV, se presentan los resultados obtenidos en la
investigación. Finalmente en el Capitulo V, se detallan las conclusiones y
recomendaciones del presente trabajo.
12
1.1 Problemática del agua en nuestro medio.
El agua es un recurso que poco a poco se va volviendo más escaso,
sobre todo en lugares con grandes concentraciones de población, en donde no
existe un crecimiento planificado de la ciudad y menos aún de sus servicios
básicos indispensables. La provisión de agua dulce para el uso doméstico y
urbano en nuestra ciudad no ha seguido el ritmo de crecimiento económico y
demográfico y podemos observar diariamente el desabastecimiento de este vital
elemento en diferentes puntos de la ciudad. Entre los factores agravantes se
encuentra el mal manejo de este recurso, desperfectos en los equipos de
bombeo, disparidades estructurales entre la demanda y los recursos disponibles
y la falta de información sobre el tema y básicamente las dificultades
económicas. Estos factores han provocado un lento pero firme deterioro del
suministro de agua y los servicios asociados, junto al aumento consiguiente de
las enfermedades relacionadas a la carencia de este recurso.
Somos consientes también, de que el agua, por su disponibilidad, la cual
varía notoriamente a lo largo del año, con un marcado incremento en la
demanda en los meses de verano, no se puede usar sin control; su uso continuo
e indiscriminado, genera serios problemas de desabastecimiento. Esto implica
un análisis para adecuar el uso del agua a las disponibilidades existentes. Esta
debe ser una de las principales metas estratégicas en las políticas de
administración del agua en el largo plazo.
Esta problemática, no sólo es una preocupación local, sino que afecta a
toda la humanidad. Como consecuencia existe una renovada preocupación
mundial de la importancia que tiene el agua en el desarrollo económico, la
calidad de vida, la sustentabilidad del medio ambiente y la estabilidad política.
13
Según la FAO (Organización de las Naciones Unidas para la agricultura y
la alimentación) el agua será el recurso no renovable más estratégico del mundo,
será el petróleo del futuro y la humanidad pagará caro el no haber tenido
debidamente en cuenta las previsiones de oferta y demanda de bienes, en
función de la disponibilidad de agua y otros recursos naturales, especialmente
los no renovables.
En nuestra ciudad, casi la totalidad del agua de consumo proviene del
subsuelo, y presenta una serie de deficiencias, tanto en la calidad del agua así
como en la continuidad y presión del suministro, entre otros; pero también los
problemas están ligados a la deficiente gestión comercial, con grandes niveles
de pérdidas, sobrecostos laborales, entre otros (PROINVERSION, 2006). Según
datos estadísticos, la población de Piura atendida con agua en el año 2000
alcanzó el 46% y la servida con alcantarillado el 82%, porcentajes que no han
mejorado en los últimos años, y por el contrario se ha palpado un descenso en
relación a años precedentes1
Todos estos factores han contribuido a que, a comienzos del año 2001,
la empresa EPS GRAU S.A., proveedora de los servicios de agua en Piura,
fuera declarada en insolvencia por INDECOPI. Las autoridades al parecer han
comprendido la naturaleza del problema y han decidido promover la
Participación del Sector Privado como una alternativa de gestión para mejorar la
calidad de los servicios y actualmente ya se encuentra implementado el
Proyecto de Aguas Superficiales (PAS), el cual pretende solucionar los
problemas de agua y alcantarillado de alrededor de 400 mil pobladores de Piura
y Castilla. Con este proyecto, se pretende que la población cuente con el
servicio de agua, en forma fluida y permanente las 24 horas del día.
1 Documental Piura. Disponible en
http://www.documentalpiura.com/economia/economia_agua.htm.
14
Aunque el problema de desabastecimiento de agua ya se solucionó en
parte, la o las empresas encargadas de su gestión y distribución necesitan
contar con mecanismos adecuados (Pronósticos), que les permitan conocer cuál
es la demanda estimada de este elemento en el corto, mediano y largo plazo; es
decir necesitan herramientas que les permita conocer con algún nivel de
precisión, cuales son los volúmenes de consumo para los períodos
mencionados. Este conocimiento es crucial para elaborar planes de expansión
de la empresa y para tomar las previsiones del caso, con la finalidad de brindar
un servicio de óptima calidad.
1.2 Predicciones utilizando redes neuronales.
Los pronósticos son necesarios para la planificación de las operaciones
de las empresas, para detectar flujos de demanda insatisfecha y para analizar
las contingencias del sistema. La implementación óptima de una técnica de
predicción debe satisfacer ciertos requerimientos básicos. Las estimaciones
deben ser suficientemente precisas, sobre todo en los periodos críticos
(veranos). Los métodos de pronósticos existentes son múltiples, van desde los
más elementales, como por ejemplo los métodos tradicionales (métodos
cualitativos y cuantitativos), hasta los métodos más sofisticados de reciente
aplicación como los sistemas expertos, dentro de los cuáles, destacan las redes
neuronales. Los métodos de pronóstico cualitativo están basados en el juicio
personal, cuyas limitaciones saltan a la vista, mientras que los métodos
tradicionales cuantitativos están basados en el análisis clásico de las series de
tiempo o en la metodología de Box Jenkins, a través de los modelos ARIMA;
éstos últimos, además están basados en supuestos que muchas veces no se
cumplen, como por ejemplo el de linealidad de los parámetros del modelo o el de
que, las variables se encuentren relacionadas mediante alguna forma funcional
15
conocida. Una buena alternativa en estas situaciones y aún en aquellas en
donde si se cumplen los supuestos del modelo es la formulación y uso de las
redes neuronales artificiales (ANR).
1.3 Objetivos de la Investigación:
El objetivo de la presente investigación es diseñar y construir una red
neuronal que permita pronosticar la demanda de agua en la ciudad de Piura, a
partir de la demanda histórica del agua registrada por la empresa EPS GRAU
S.A e identificar los factores que dificultan su elaboración.
1.4 Importancia del estudio.
La elaboración de pronósticos es una actividad intrínseca a las
actividades de la empresa. El sector empresarial se ve cada vez más beneficiado
por este tipo de conocimientos, debido a que las expectativas sobre el futuro de
muchas variables, entre ellas la demanda y abastecimiento de sus productos,
generan impactos diversos que pueden tener consecuencias económicas
importantes. El futuro es en gran medida incierto, es por ello que la elaboración
de pronósticos requiere que se consideren posibles escenarios futuros,
exploración de rutas viables, e identificación de los riesgos y beneficios
asociados con diferentes resultados. Esto ha conducido, a un número cada vez
más creciente de investigadores interesados en elaborar pronósticos y a realizar
estudios a “futuro” (Schwartz, P. 1991). Los sistemas de planificación tradicional
dentro de las empresas, se inician con un proceso de pronóstico elemental, bien
sea elaborado con un simple crecimiento sobre resultados anteriores, o mediante
herramientas tecnológicas que permiten efectuar innumerables cálculos para
tratar de que el pronóstico sea lo más cercano a la realidad. Muchas de estas
herramientas son extremadamente costosas, y peor aún, son pocas las personas
16
que pueden efectuar un pronóstico seguro a partir de los resultados de las
mismas.
Los sistemas de pronóstico que mayormente utilizan las empresas en
nuestro medio son de tipo cualitativo y cuantitativo; los primeros están
relacionados con la experiencia personal y últimos con los métodos tradicionales,
los cuales están basados en algún modelo específico, como los modelos de
regresión y cuya aplicación requiere que se cumplan determinados supuestos.
Con ambos sistemas de pronósticos, existe una amplia variedad de
procedimientos, pero es importante comprender que “ninguno es universalmente
aplicable” (Chatfield, 1995, p.66). Es el analista quien debe elegir el
procedimiento más adecuado para un conjunto de condiciones dadas, como la
cantidad de información disponible, el nivel de dificultad que el pronóstico
presenta y el grado de precisión o confianza necesaria en éste. En relación a los
pronósticos de la demanda de agua potable en la ciudad de Piura, este trabajo
pretende llenar un vacío en esta materia, de manera que se pueda obtener un
panorama más amplio sobre el abastecimiento futuro de este elemento. El
renovado interés acerca de los aspectos del agua a nivel global ha estimulado
varios esfuerzos en este tema. Estos nuevos esfuerzos también aprovechan los
adelantos en las capacidades de las computadoras, la disponibilidad de mejores
datos sobre el agua, y los nuevos conceptos sobre el desarrollo de escenarios.
Las proyecciones sobre el uso global del agua, son cada vez más complejas en
cuanto a su enfoque, y cada vez más detalladas en cuanto a su escala en el
espacio y en el tiempo. Hasta hace algunos años, la mayoría de las
proyecciones eran variantes de la misma metodología –el futuro del uso del agua
se basaba en proyecciones sobre la población, y en la intensidad del uso
industrial, comercial y residencial (por ejemplo, agua por individuo o por hogar) y
17
en la utilización de los métodos denominados tradicionales. Con el advenimiento
de las computadoras, se han aperturado nuevas líneas de investigación que
combinan los dos enfoques: el cualitativo y cuantitativo y que en muchos países
desarrollados se vienen aplicando con bastante éxito.
Esta nueva tendencia, tiene que ver con la construcción de sistemas
inteligentes basados en redes neuronales, los cuáles son programas de
computadora que actúan como un experto humano y que bajo determinadas
circunstancias (sobre todo cuando el comportamiento de la variable es altamente
no lineal), proporcionan resultados iguales o mejores que los métodos
tradicionales (Nojek, Britos, Rossi & García, 2003). Esta nueva tendencia en la
elaboración de pronósticos, aún no tiene un uso extendido en países en vías de
desarrollo y menos en nuestra localidad, lo que ha guiado nuestro interés hacia
ésta investigación. El presente trabajo está motivado básicamente por las
siguientes razones importantes:
La creciente importancia de estas técnicas emergentes, como uno de los
mecanismos para el manejo de grandes volúmenes de información.
El poco conocimiento que tienen las empresas de las bondades de esta
metodología.
La necesidad de tener alternativas viables a los métodos tradicionales de
pronósticos.
1.5 Alcances y limitaciones
Este trabajo, se enmarca dentro de una serie de investigaciones sobre
pronósticos de las principales variables (como la demanda de agua y luz) que
manejan empresas que prestan servicios orientados a la satisfacción de las
18
necesidades básicas de la población; está orientado a la solución de un
problema de nuestra realidad. En este sentido, es uno de los primeros intentos
en aplicar estas herramientas de investigación emergentes, como lo son las
“redes neuronales” en la elaboración de pronósticos de demanda de agua en la
ciudad de Piura. Este intento, además permite sentar las bases para nuevas
investigaciones sobre pronósticos en otro tipo de empresas o mejorar los ya
existentes.
Sin embargo, la investigación ha tenido ciertas dificultades. La mayor de
ellas es el acceso y la disponibilidad de información y la calidad de la misma. En
cuanto a las limitaciones de los datos podemos mencionar las siguientes:
• Muchos datos no son registrados adecuadamente. La subestimación del
consumo doméstico o la falta de medición del mismo, atentan contra la
continuidad, confiabilidad y calidad de la serie de datos utilizados.
• Aún existen muchas instalaciones clandestinas y viviendas que no
cuentas con medidores del consumo de agua, y no parece cercana la
fecha en que esto se resuelva, lo que se traduce en una subestimación
del verdadero consumo familiar.
• Otra dificultad está relacionada a la actitud pasiva que tienen nuestras
autoridades, sobre la implementación de nuevas tecnologías y en general
sobre la investigación.
Como resultado de estas limitaciones, de las cuáles la más crítica en este
trabajo, es la relacionada a los datos, no se debe suponer que incrementando la
sofisticación del modelo, obtendremos mejores pronósticos. Siempre los
modelos “perfectos” alimentados con datos imperfectos serán de valor limitado.
19
1.6 Antecedentes.
El hombre, desde sus inicios se interesó por conocer el estado de las
cosas y en particular de los fenómenos que afectaban directamente a su sistema
de vida; la evolución hacia formas de vida mucho más humanas, se nutrió en
gran parte de las inquietudes de los seres humanos, sobre los acontecimientos
que se sucedían día a día y de los que aun estaban por suceder. El
conocimiento de estos hechos, en cierto modo dirigió sus actividades cotidianas
y a medida que evolucionó, fue perfeccionando sus conocimientos y se vio
obligado a estudiar científicamente el comportamiento futuro de muchos
fenómenos.
Este interés, se extendió al ámbito de la empresa, quienes aprovechan
este tipo de conocimientos para su propio beneficio. Los encargados de la
planificación de una empresa deben considerar el futuro, no sólo inmediato, sino
aquél que va más allá de algunos cuantos años.
En nuestro país, son pocas las empresas que cuentan con
departamentos y personas calificadas para realizar estas tareas; los métodos
que mayormente se utilizan son los cualitativos, relacionados con la experiencia
personal. En el caso de los métodos cuantitativos, los más usuales están
relacionados a métodos tradicionales de predicción, que básicamente están
sustentados en algún modelo específico y cuya aplicación requiere que se
cumplan determinados supuestos.
20
Tabla 1 Población Total y Servida de Agua Potable de las localidades de EPS Grau S.A.
Año
Piura-Castilla
Población total
hab.
Población servida
% Hab.
2005 348,618 91.0% 317,114
2006 359,862 91.0% 327,474
2007 365,260 92.0% 336,039
2008 370,739 93.0% 344,787
2009 376,300 94.0% 353,722
2010 381,945 95.0% 362,848
2015 405,418 95.0% 385,147
2020 430,334 95.0% 408,817
2025 454,529 95.0% 431,803
2030 480,276 95.0% 456,262
2035 519,343 95.0% 493,376
Fuente: Anexo 2 Software del PMO.
A raíz del proceso de privatización, desde la ciudad de Lima, la consultora
Hytsa-Ecsa (2003) ha elaborado pronósticos de demanda del servicio de agua
en Piura hasta el año 20352, en el cuál se estimó que para el año 2005 y 2006 la
cobertura de agua llegaría al 91% de la población (Tabla 1), cifra que en el año
2005 se encuentra muy alejada de la realidad, ya sea porque los supuestos en
que se basaron dichos pronósticos no se cumplieron (aún no se implementó la
concesión del agua a operadores privados) o por alguna deficiencia del método
utilizado, el cuál por cierto no se menciona en dicho estudio.
2 Hytsa –Ecsa. Estudio de Asesoría para el proceso de inversión privada en la EPS Grau
S.A, 2003.
21
En otro estudio hecho por Proinversión (2006), se utiliza el crecimiento
poblacional, el número de conexiones, y volúmenes demandados, nivel de
medición y porcentaje de agua no contabilizada, para estimar la demanda de los
servicios de agua potable y alcantarillado. Cabe destacar, que si bien éstas
variables son importantes en el establecimiento de las políticas de cobertura de
agua, por sí mismas, podrían tener ciertas limitaciones, en el sentido que no
toman en cuenta los cambios de actitud que se producen en los consumidores,
lo cual puede reorientar sus hábitos de consumo, hacia un uso más eficiente del
agua. Tampoco toman en cuenta factores relacionados con el tiempo (factores
estacionales) y que son notoriamente marcados en nuestra ciudad. Otra
limitación de estos resultados es que los pronósticos son anuales y no hay datos
sobre periodos más cortos, como meses o trimestres. Esto sugiere que los
métodos tradicionales usados, carecen de una dinámica importante del mundo
real y muchas de las estimaciones hechas anteriormente han subestimado la
cobertura de este servicio. La inexactitud de esas proyecciones enfatiza la
necesidad de desarrollar mejores métodos de proyecciones. Las proyecciones
que se realizan actualmente son mucho más complejas en cuanto a su enfoque,
y cada vez más detalladas en cuanto a su escala en el tiempo y en el espacio.
Recientemente, las proyecciones manejan escenarios mucho más complejos,
debido a la creciente capacidad de las computadoras para manejar un número
significativo de cálculos y al surgimiento de nuevos métodos dentro del área de
los sistemas expertos.
22
CAPITULO II: MARCO TEORICO
La elaboración de pronósticos está íntimamente relacionada con la
construcción de modelos. Estos, van desde el simple esquema mental,
sustentado en la experiencia del investigador, hasta la construcción de
sofisticados modelos estadísticos, que enlazan a través de ecuaciones, el
comportamiento presente y pasado, de la variable motivo del pronóstico. Los
primeros se denominan métodos cualitativos y los últimos métodos cuantitativos.
En los últimos años han surgido nuevas herramientas que combinan las
dos metodologías y que tienden a elaborar pronósticos de manera automática, a
través de una nueva metodología denominada redes neuronales, enmarcada
dentro de un campo del conocimiento más amplio llamado, Sistemas expertos, el
cual a su vez forma parte de lo que hoy en día se conoce como Inteligencia
Artificial. Para efectos de contextualizar el trabajo, optaremos por clasificar a los
métodos de pronóstico mencionados, de la siguiente manera:
2.1 Métodos tradicionales de predicción
Entre éstos se encuentran los métodos cualitativos y cuantitativos. Los
métodos cualitativos, están basados sólo en la experiencia del investigador y se
utilizan cuando no existen registros históricos de la variable a pronosticar. En
este caso los métodos estadísticos juegan un papel relativamente secundario.
Aquí lo más importante es contar con un grupo de expertos, dotados de
“intuición” (Uriel, 1995a), que tengan un buen conocimiento tecnológico o
especializado acerca del fenómeno en consideración. Dentro de los más
importantes se encuentran, los métodos Delphi y cross-impact (impacto
cruzado).
23
Los métodos cuantitativos, parten del supuesto que se tiene registros de
información sobre el pasado de la variable que se quiere estudiar. Esta
información forma una serie temporal, la cual se caracteriza por corresponder a
periodos regulares de tiempo, pudiendo ser anual, mensual, trimestral, etc. El
papel del investigador en este caso es, tratar de extraer todo los conocimientos
contenidos en los datos y en base al patrón de conducta observado en el
pasado, realizar conjeturas sobre el futuro (Uriel, E., 1995b). Aquí, Los patrones
observados en la serie se formalizan a través de un modelo estadístico, cuyos
parámetros se estiman a partir de los datos históricos. Existe una amplia
variedad de modelos, variando en la complejidad de la forma funcional y en los
procedimientos de estimación de sus parámetros. Dentro de éstos a su vez
podemos considerar a los modelos univariantes y multivariantes o causales.
En el análisis univariante, el procedimiento consiste en pronosticar
valores futuros de una variable, utilizando solamente, la información histórica de
la variable objeto del estudio. Aquí se pueden considerar los métodos de
descomposición (métodos clásicos), métodos de suavización exponencial y
modelos ARIMA univariantes.
Los métodos de descomposición, consideran en general, que la serie,
surge de la interacción de cuatro componentes (no necesariamente todas):
tendencia, factor cíclico, movimiento estacional y movimiento irregular
(Berenson, Levin, Krehbiel, 2001). La tendencia refleja las variaciones a largo
plazo y se puede estimar utilizando métodos de regresión. El factor cíclico
consiste en variaciones superiores a un año que pueden o no presentar
periodicidad. Los movimientos estacionales se presentan en forma regular en
series clasificadas en periodos menores a un año. Como por ejemplo la
demanda de agua en los meses de verano. El movimiento irregular está
asociado a factores no previsibles.
24
Los métodos de suavización exponencial, permiten también estimar la
tendencia, pero a diferencia de los otros métodos de estimación de la tendencia,
éste método asigna diferentes ponderaciones a las observaciones de la serie,
pudiéndose hacer que las observaciones más recientes tengan una mayor
importancia en el pronóstico.
En los métodos anteriores, el investigador, establece un “modelo” a priori
y después procede a los cálculos correspondientes.
En los modelos ARIMA, se considera que la serie temporal ha sido
generada por un proceso estocástico y se procede a identificar el modelo
generador de las observaciones, para luego estimar y verificar el modelo. Si se
acepta que éste representa a la serie, se lo utiliza para elaborar los pronósticos.
En el análisis multivariante, se considera que la serie no sólo es
determinada por su pasado, sino que pueden existir otras variables externas que
la determinan. En este caso tenemos los modelos causales como la regresión
múltiple y los modelos multivariantes de series temporales.
Otro de los aspectos que diferencian a las técnicas es el horizonte del
pronóstico. Algunas sirven para horizontes que van desde unos pocos minutos
hasta algunas semanas, meses o trimestres y otras permiten hacer pronósticos a
un horizonte mayor. Aunque estas técnicas suelen ser bastante automáticas, sin
embargo permiten la intervención humana, ya sea de un operador o un experto,
si esto se justifica, con el objetivo de evaluar constantemente los resultados y
ajustar los modelos si es necesario, con el fin de mejorar la predicción. La
elección de un “buen” modelo de predicción está basada en alguna medida de
error, sin embargo también es importante que sus resultados sean interpretables.
Aunque en muchas situaciones se han obtenido resultados bastante
buenos con éstos métodos, hoy en día han surgido nuevas alternativas, que
pueden proporcionar resultados con igual o mejor precisión. Estas tecnologías
25
están relacionadas con los sistemas expertos, motivo de la presente
investigación.
2.2 Métodos modernos de predicción
Los progresos de la ciencia en el área de la informática, han permitido
que cierto tipo de problemas de difícil tratamiento con los métodos tradicionales,
encuentren actualmente posibilidades de solución. Las técnicas actuales están
utilizando las capacidades humanas no sólo como instrumentos para el
desarrollo de más conocimientos, sino que tratan de utilizar dichas capacidades
para implementar algoritmos que simulen dichas capacidades. Es en esta línea
de investigación, que surge “La inteligencia artificial”, como una de las áreas más
fascinantes y prometedoras de la ciencia moderna, la cual tiene como uno de
sus instrumentos para solucionar sus problemas, a las redes neuronales.
2.3 Inteligencia artificial (IA)
El hombre desde sus inicios ha soñado con dominar al mundo; en este
intento, ha ido creando diferentes instrumentos, siendo uno de los más
significativos el descubrimiento de las máquinas. Pero no sólo se interesó en su
creación, sino que intentó dotarles de algún tipo de “inteligencia”. Muestras de de
ello se encuentra a través de toda la historia, como por ejemplo el mito del
coloso de rodas entre los griegos, el “motor analítico de Charles Babbage que
calculaba logaritmos (ELGUEA, 1987); sin embargo, fue sólo a partir de 1943,
cuando estos intentos vieron la luz, gracias a Warren Mc Culloch y Walter Pitts,
quienes propusieron un modelo de neurona de cerebro humano y animal. Estas
neuronas, inspiradas en el cerebro, proporcionaron una representación simbólica
de la actividad cerebral. Tiempo después, Nobert Wiener sistematizó estas y
otras ideas dentro de un campo denominado inteligencia artificial. Un evento que
marco el ingreso de la Inteligencia artificial en las Ciencias, fue el congreso de
Darthmouth en 1956 en el cuál se sentó las bases de esta nueva disciplina y se
26
reconoció explícitamente que el pensamiento puede ser comprendido de manera
formal y científica y que es posible transmitirlo a las máquinas (ELGUEA, J., Op.
Cit., p 24).
En los años 50, tras la propuesta de Alan Turin sobre la inteligencia de
las máquinas en su artículo “Maquinaria Computacional e Inteligencia” (Alan
Mathison TuringAlan Mathison Turing,Londres (1912-1954). Matemático,
Computador Científico y Filósofo, considerado el padre de la Ciencia de la
Computación y la computación digital moderna, fue el responsable por la
formalización de la idea del computador de propósito general), se generaron dos
propuestas de investigación. La primera corriente fue fundada por John Von
Neuman, quién trató de hacer analogías del cerebro humano y construyó a partir
de esto las computadoras y diseñó los primeros programas que se almacenaban
en su memoria (Ibid). La otra corriente fue la que inició Mc Culloch, quién se
centró más en la forma en que el cerebro procesa la información a diferencia de
Von Neuman, quien trataba de imitar las condiciones físico-químicas del cerebro.
El trabajo realizado por Mc Culloch y Walter Pitts fue el primero dentro de
la Inteligencia Artificial y aportó conocimientos sobre la fisiología básica y
funcionamiento de las neuronas en el cerebro. Ambos propusieron un modelo
constituido por neuronas artificiales, que podían estar “encendidas” o
“apagadas”, en respuesta a la estimulación producida por una cantidad suficiente
de neuronas vecinas. Aunque los primeros programas de IA fallaron, debido a
una falta de conocimiento del objeto de estudio, las investigaciones se
multiplicaron.
Esta nueva rama de conocimiento, surge ante la necesidad de solucionar
problemas complejos, los cuáles se pensaba, sólo podían ser resueltos por
personas, debido a que su formulación y resolución requerían ciertas habilidades
como la de pensar, memorizar, aprender, ver, etc.
27
Figura 1 Areas de la inteligencia artificial
Desde entonces se han dado muchas definiciones, pero la mayoría de
autores, coinciden en que es la parte de la ciencia que se ocupa del diseño de
sistemas de computación inteligentes, con características muy similares a las
que se asocian al razonamiento humano (ver por ejemplo a Barr y Feigenbaum
(1981), página 4). Esta disciplina engloba varias áreas de interés, como son los
sistemas expertos, reconocimiento de patrones, redes bayesianas, redes
neuronales, algoritmos evolucionarios, lógica difusa, sistemas basados en
reglas, entre otras. Aunque cada una de ellas constituye por sí misma un área de
investigación particular, la mayor parte, si no todas, disponen de alguna
componente de los sistemas expertos, formando parte de ellas (Castillo,
Gutierrez y Haidi, 1999).
Redes
bayesianas
Sistemas
expertos
Redes
neuronales
Reconocimiento
de patrones
Sistemas
basados
en reglas
Algoritmos
evolucionarios
Lógica
difusa
28
2.4 Redes neuronales
2.4.1 Neuronas Biológicas
El cerebro humano está conformado por millones de neuronas, que se
interconectan formando una “Red Neuronal”. Estas, continuamente reciben
señales de entrada de muchas fuentes (millones de instrucciones), las
procesan y emiten una respuesta que permiten la vida normal del ser
humano.
Las neuronas son las células que forman la corteza cerebral de los
seres vivos y cada una está formada por tres elementos: el cuerpo, axón y
dendritas, como se observa en la figura 02.
Figura 2 Neurona biológica
Las dendritas forman una estructura de filamentos muy fina que
rodean el cuerpo de la neurona. El Axón, es un tubo delgado y largo que se
ramifica en su extremo en pequeños bulbos finales que casi tocan las
dendritas de las células vecinas. La pequeña separación entre los bulbos
finales y las dendritas se le denomina sinápsis. Las neuronas, en forma muy
Axón Dendritas
29
similar a las demás células del cuerpo, funcionan a través de impulsos
eléctricos y reacciones químicas. Los impulsos eléctricos que utiliza una
neurona para intercambiar información con las demás, viajan por el axón, que
hace contacto con las dendritas de la neurona vecina mediante la sinapsis. La
intensidad de la corriente transmitida depende de la eficiencia de la
transmisión sináptica. Una neurona en especial, transmitirá un impulso
eléctrico por su axón, si hay suficientes señales de las neuronas vecinas que
transmiten en un tiempo corto a través de sus dendritas. La señal que se
transmite a la neurona, podrá ser además, ya sea inhibitoria o excitatoria. La
neurona dispara, esto es, manda el impulso por su axón, si la excitación
excede su inhibición por un valor crítico, el umbral de la neurona.
2.4.2 Redes Neuronales Artificiales (RNA)
Las redes neuronales artificiales, constituyen un área de la IA y se
crearon con la finalidad de resolver problemas que en un principio se creía,
sólo podrían ser solucionados por el cerebro humano.
Las redes neuronales constituyen un enfoque totalmente diferente de
analizar los datos con respecto a las técnicas tradicionales. En lugar de
utilizar modelos preconcebidos, éstas utilizan el cerebro humano y su
estructura, para desarrollar una estrategia, que permita la solución de los
problemas en forma similar a la que resultaría de algún experto humano. Un
elemento esencial de una red neuronal, es su capacidad de aprendizaje a
partir de los datos disponibles. Este aprendizaje está inspirado en la forma de
aprender que tiene lugar en las neuronas, el cual se va perfeccionando en la
medida que la red adquiere más entrenamiento, es decir tienen la capacidad
de aprender a realizar tareas a partir de una experiencia inicial.
Las redes neuronales artificiales constan de una arquitectura en red
muy parecida a las redes neuronales biológicas, con un gran número de
30
elementos de procesamiento altamente interconectados (neuronas), los
cuales trabajan al mismo tiempo, para la solución de problemas específicos.
Las RNA, tal como las personas, aprenden de la experiencia y son capaces
de manejar las imprecisiones e incertidumbres que aparecen cuando se trata
de resolver problemas relacionados con el mundo real (reconocimiento de
formas, toma de decisiones, etc.), ofreciendo soluciones robustas (tolerantes
a cambios de las condiciones imperantes) y de fácil implementación. La
información contenida en ella, se codifica en la estructura de la red y en los
pesos de las conexiones, los cuáles se van modificando según el proceso de
entrenamiento. Basándose en las informaciones o impulsos recibidos, la
neurona realiza una serie de cálculos y envía su propia señal, la cual está
basada en el potencial de cada neurona. Si este potencial supera cierto
umbral, se envía un impulso eléctrico al axón; en caso contrario, no se envía
señal.
Se estima que el cerebro humano está compuesto de más de cien mil
millones de neuronas y más de 1000 sinápsis a la entrada y salida de cada
neurona, sin embargo, es importante notar que aunque el tiempo de
computación de la neurona (unos pocos milisegundos) es casi un millón de
veces menor que en los actuales elementos de las computadoras, ellas tienen
una conectividad miles de veces superior a las actuales supercomputadoras.
Como ya se menciono anteriormente una de las características de las
redes neuronales es su aprendizaje adaptativo, sin embargo hay que
mencionar que también poseen la capacidad de autorganizarse; mientras que
en la fase del aprendizaje se va modificando cada elemento procesal, la
autoorganización consiste en la modificación de la red completa en función de
algún objetivo específico. Esta característica de las redes permite la
generalización de resultados, es decir la capacidad de responder
31
apropiadamente cuando se les presentan datos o situaciones a las cuales no
había sido expuesta anteriormente. Otra característica importante es que las
redes son tolerantes a fallos; las redes pueden aprender a reconocer patrones
con ciertas distorsiones o ruido (tolerancia a fallos en los datos) o continuar
realizando su función (con cierta degradación), aunque se destruya cierta
parte de la red.
2.4.3 Arquitectura de las Redes Neuronales
Una red neural, relaciona un conjunto de variables de entrada o inputs
(independientes) , a un conjunto de una o más variables de
objetivo u outputs (dependientes) . La diferencia entre una red
neural y los otros métodos de pronóstico, es que, ésta hace uso de una o más
capas ocultas, en las cuales las variables de entrada son transformadas por
alguna función especial, denominada función de salida o de transferencia.
Mientras esta aproximación de capa oculta parece esotérica, representa una
forma muy eficiente para modelar procesos estadísticos altamente no
lineales.
La figura siguiente, muestra un esquema de una red neuronal:
Figura 3 Red multicapa
32
Figura 4 Neurona
En la figura 3, se muestra una red neuronal artificial típica,
caracterizada por neuronas interconectadas y arregladas en tres capas
(aunque esto último puede variar). La información fluye por medio de la “capa
de entrada”, pasa a través de la “capa oculta” y se emite por la “capa de
salida”. La figura 4 muestra una unidad neuronal típica sugerida por
McCulloch y Pitts (1943). En ella se pueden distinguir las siguientes
componentes: un conjunto de conexiones de entrada, un conjunto de pesos,
una función procesadora, un umbral de activación y un valor de salida.
2.4.4 Elementos de una Red Neuronal
2.4.4.1 Neuronas: Unidades procesadoras
Las neuronas son los elementos procesadores de la red neuronal.
Aquí el cuerpo de la neurona se representa como una combinación lineal
de los estímulos. Es decir se trata de una unidad de proceso con n
entradas, nxxx ,,, 21 y una unidad de salida:
i
Neurona
x2
xn
x1
)( iixwfy
W1
W2
Wn
DENDRITAS
CUERPO
AXON
AXONES SINAPSIS
Entradas Pesos
Salida
-1
33
)(0
n
jjijj xwfy
Donde, )(xf es la función neuronal (función de salida o función de
transferencia) y ijw son los pesos que indican la aportación que tiene cada
valor de entrada en la suma (el peso iiw 0 indica el valor umbral de
activación para la neurona, y 10x , es un valor auxiliar que permite
introducir el valor umbral en el proceso). Este modelo de neurona tiene
muchas similitudes con las neuronas biológicas: las conexiones son
análogas a las dendritas y axones, los pesos de las ponderaciones
equivalen a las sinapsis y el umbral de activación representa la actividad
de la neurona.
2.4.4.2 Capas de una red
Una red se caracteriza porque tiene capas de entrada, capas
ocultas y capas de salida; cada una de ellas está constituida por un
conjunto de nodos. La capa de entrada tiene como objetivo distribuir la
información contenida en las variables de entrada hacia la capa oculta y
está constituida por tantos nodos como variables de entrada existan. La
capa de salida por su parte se encarga de proporcionar los resultados del
entrenamiento de la red. Una vez que el modelo ha sido definido, la
determinación del número de nodos de entrada y salida es trivial, lo que no
ocurre con la determinación del número de capas ocultas y el número de
nodos ocultos en cada capa. La construcción de la estructura de
procesamiento de la red es arbitraria. En relación a la construcción de las
capas ocultas, existen múltiples aproximaciones que producen resultados
similares, sin embargo es importante seleccionar aquellos factores que
34
conduzcan a seleccionar una configuración óptima. Esos factores incluyen
la cantidad de patrones de entrenamiento (calidad de los datos), el número
de nodos de entrada y salida y la relación entre los datos de entrada y
salida. Puede ser tentador construir una red con muchas unidades de
procesamiento y capas ocultas, cayendo en la trampa de que “mientras
más grande es la red, mejor es el modelo”. Esta filosofía puede fácilmente
resultar en un pobre rendimiento del modelo. Cuando la estructura de
procesamiento oculta de una red es muy grande y compleja para el modelo
que está siendo desarrollado, la red puede tender a memorizar los
conjuntos de entrada y salida más que aprender las relaciones entre ellos.
Dicha red puede entrenar bien, pero tener un pobre rendimiento cuando se
le presentan valores de entrada fuera del rango del conjunto de
entrenamiento. Adicionalmente, el tiempo de entrenamiento de la red se
incrementará significativamente cuando la red es innecesariamente grande
y compleja. Es mejor iniciar con el diseño de una red simple que usa
relativamente pocas capas ocultas y nodos de procesamiento. Si el grado
de aprendizaje no es suficiente, o ciertas tendencias y relaciones no se
pueden captar, la complejidad de la red puede ser incrementada en un
intento por mejorar el aprendizaje. En la práctica usualmente es mejor
utilizar múltiples capas ocultas para solucionar problemas complejos. Para
modelar adecuadamente un problema complejo, un diseño con una capa
simple puede requerir un incremento sustancial en el número de nodos
ocultos comparados con la construcción de 3, 4 o 5 capas ocultas. En
términos sencillos, un diseño simple con una capa oculta con 10 nodos,
puede no aprender y rendir bien como una red con dos capas ocultas
conteniendo 5 nodos en cada una. Una razón para esto es que la
construcción de múltiples capas ocultas crea un creciente cruce de
35
información y de relaciones. De esta manera, la habilidad de aprendizaje
de la red es controlada tanto por el número total de capas y nodos ocultos.
2.4.4.3 Funciones de transferencia o de salida.
Las funciones de transferencia de un nodo, )(Sf , tienen el
propósito de controlar la potencia (fuerza) de la señal de salida del nodo.
Inicialmente McCulloch y Pitts, consideraban que estas funciones sólo
podían tomar los valores 0 y 1. Desde entonces se han dado numerosas
actualizaciones, empleando otro tipo de funciones, dentro de las cuales
destacan aquellas que tienen como salidas, valores que fluctúan entre -1 y
1. La entrada a una función de transferencia es el producto punto (interno)
del vector que contiene las señales de entrada al nodo y el vector que
contiene los pesos del nodo 3. Dentro de las funciones de transferencia
más usuales se encuentran la función lineal, escalar, sigmoide, gausiana y
tangente hiperbólica. Una red puede incorporar múltiples tipos de
funciones, en las diferentes capas. Para muchas tareas de modelación, la
función sigmoide debería ser el modelo base para medir los resultados.
Una regla general es que la función sigmoide produce el modelo más
preciso, pero su aprendizaje es más lento. Si frecuentemente se desea
entrenar modelos similares y la velocidad de entrenamiento es crítica,
diferentes combinaciones de funciones de transferencia, incluyendo redes
híbridas, son dignas de investigar para descubrir modelos de
entrenamiento más rápido que exhiban una aceptable precisión.
Las funciones de transferencia más utilizadas son las siguientes:
Funcione lineal o identidad: son aquellas cuya salida es igual al nivel de
activación de la unidad. En las neuronas con este tipo de funciones, si la
3 , donde es el vector de entradas y es el vector de pesos.
36
suma de las señales de entrada es menor que un límite inferior, la
activación se define como 0 (ó -1). Si dicha suma es mayor o igual que el
límite superior, entonces la activación es 1. Si la suma de entrada está
comprendida entre ambos límites, la activación se define como una función
lineal de la suma de las señales de entrada. Simbólicamente:
xxxf ;)( .
Figura 5 Función de transferencia lineal
Funcione escalón: utilizada cuando las salidas de la red son binarias. La
salida se activa sólo cuando el estado de activación es mayor o igual a
cierto umbral. Dos funciones clásicas son la función signo, )sgn(x y la
función escalón estándar, )x(Y , definidas como,
casootroen,1
0xsi,1)xsgn( ,
casootroen
xsi
xY,1
0,0
)(
37
Figura 6 Función de transferencia signo
Figura 7 Función de transferencia escalón unitario
Funcion sigmoidal: son funciones monótonas que dan una salida gradual
no lineal para las entradas. Para la mayoría de los valores del estímulo de
entrada, el valor dado por la función es cercano a uno de los valores
asintóticos, es decir a los valores comprendidos en la zona alta o baja de la
función. Esta función está definida como: axe1
1)x(f , siendo a una
constante. Figura 8.
38
Figura 8 Función de transferencia logística
Función Gaussiana: esta función altera significativamente la dinámica de
aprendizaje de una red neural. A diferencia de la función sigmoide, ésta
actúa como un controlador probabilístico de la salida. Además esta función
es más probable produzca un estado intermedio, es decir el centro y ancho
de estas funciones pueden ser adaptados, lo cual las hacen más
adaptativas que las funciones sigmoidales.
2)x
(2
1
e2
1)x(f
a=1
a=2 a=0.5
39
Figura 9 Función de transferencia gausiana con: 2,10
Las funciones hiperbólicas, tangente hiperbólica y secante hiperbólica
son las contrapartes a las funciones sigmoides y gausianas. La tangente
hiperbólica es similar a la sigmoide, pero puede exhibir diferente dinámica
durante el entrenamiento. Puede acelerar el aprendizaje para algunos
modelos y también tiene un impacto sobre la precisión predictiva. El gráfico
de la tangente hiperbólica es similar a la función sigmoide (Figura 8), con la
diferencia que la salida varía en el intervalo [-1, 1]
La experimentación con las funciones de transferencia para cada
modelo individual es el único método concluyente para determinar si
alguna de las funciones de transferencia no sigmoides, ofrecen ambas
características, aprendizaje y precisión.ddd
2.4.5 Forma de conexión (arquitectura) entre las redes
Otra consideración del diseño de la red, está relacionada a la forma de
controlar sus conexiones. Esto permite que el flujo lógico sea introducido en
ella. La información puede ser canalizada y procesada en un área localizada
de la red. El paso a través de los nodos puede ser construido de manera que
40
reciban sólo una conexión de la capa precedente y pasar la información hacia
la próxima capa; así como también se pueden organizar en capas conectadas
por varios tipos de uniones, dependiendo de la manera como las salidas de
las neuronas están canalizadas para convertirse en entradas de otras
neuronas. Esto tiene el efecto de crear conexiones que salten una capa. La
mayoría de diseños trabajan mejor totalmente conectados. Entonces
atendiendo a estos criterios, las neuronas se pueden clasificar como:
- Propagación hacia delante: Conectan neuronas de una capa con neuronas de
la capa siguiente, es decir ninguna salida de las neuronas es entrada de
neuronas del mismo nivel o de niveles precedentes.
- Propagación hacia atrás: Cuando las salidas pueden estar conectadas como
entradas de neuronas de niveles previos o del mismo nivel, incluyéndose ellas
mismas. En el caso particular que las conexiones sean hacia atrás, la
arquitectura es adecuada para tratar modelos dinámicos y temporales, como
el que se pretende implementar en el trabajo. En la figura 10, se ilustran este
tipo de redes.
41
Figura 10 (a) Red con tres capas con conexión hacia delante. (b) Red con conexiones laterales. (c) Red con conexiones hacia atrás o
recurrentes.
42
2.4.6 Formas de Aprendizaje
La característica principal de las redes es su capacidad de aprender a
partir de los datos. Dependiendo de este tipo de información, las formas de
aprendizaje se pueden clasificar en dos categorías, según lo señala Martín
del Brio, B. & Sanz M. (2002):
- Aprendizaje no supervisado: en este caso, es la red, la que tiene que
descubrir por si misma los patrones, sin información externa. Dentro de los
más importantes en esta categoría, tenemos: al aprendizaje Hebbiano, que
consiste en modificar los pesos de acuerdo con algún criterio de correlación
entre las actividades neuronales; el aprendizaje competitivo, donde
neuronas diferentes se conectan con pesos negativos (inhibitorios) que
fuerzan una competición para ganar la actividad neuronal.
- Aprendizaje supervisado: aquí se proporciona a la red, los patrones
para el aprendizaje junto con la salida deseada; si la respuesta de la red, no
coincide con la salida deseada, se procede a modificar los pesos de las
conexiones, con el fin de que la salida obtenida se aproxime a la deseada.
Este proceso es controlado por una especie de agente externo que determina
la respuesta que debería generar la red a partir de un patrón de entrada
determinado y los pesos se obtienen minimizando alguna función de error4,
que mide la diferencia entre los valores de salida deseados y los calculados
por la red.
En este grupo se encuentran el perceptron simple, la adalina y el
perceptrón multicapa. Estos modelos son los pioneros de las redes
4
43
neuronales, siendo propuestos los dos primeros a finales de los años
cincuenta. El auge de estos modelos, comenzó en la década del 80, debido a
la revolución informática que permitía llevar a cabo simulaciones antes
difícilmente abordables.
- Algoritmos de Aprendizaje para una neurona
Dependiendo los tipos de aprendizaje, también hay dos categorías de
algoritmos de entrenamiento, los algoritmos supervisados y los no
supervisados. En el aprendizaje supervisado, se requiere patrones de entrada
y patrones de salida deseada, es decir, la red necesita una especie de
instructor que le muestre las respuestas correctas; en cambio en el
aprendizaje no supervisado, la red neuronal establece su propia organización
de los datos de entrada.
En la investigación utiliza el aprendizaje supervisado, a través de la red
denominada peceptrón multicapa y con una variante del algoritmo de
entrenamiento de Backpropagation.
Los algoritmos de aprendizaje supervisado, se pueden clasificar de dos
maneras:
El algoritmo de corrección del error, que altera los pesos de la neurona
después de la presentación de un patrón para corregir el error de salida.
Algoritmo basado en el gradiente: modifica los pesos de la neurona después
de la presentación de un patrón5 para minimizar el error cuadrático medio
sobre todo los patrones. Esto se logra modificando los pesos en dirección
5 Cada caso u observación asociado a las variables de entrada del modelo y a las variables de
salida es denominado patrón de entrenamiento.
44
opuesta al gradiente de la función de error; este es el algoritmo que utiliza la
red utilizada en el presenta trabajo.
En la fase de entrenamiento, el algoritmo mencionado actualiza los pesos de
acuerdo a la siguiente regla:
, que matemáticamente está
dada por:
En este caso,
: se refiere a la etapa de aprendizaje
: el peso nuevo
: es la tasa de aprendizaje que varía entre 0 y 1. Hay que tener en cuenta
que este valor es fundamental en el proceso de entrenamiento de la red, ya
que controla el cambio de los pesos en cada iteracción. Un valor pequeño
hace disminuir la velocidad de convergencia y la posibilidad de quedar
atrapado en un mínimo local; en cambio, un ritmo de aprendizaje demasiado
grande puede provocar inestabilidades en la función de error y evitar que se
produzca la convergencia debido a que se darán saltos en torno al mínimo sin
alcanzarlo. En general la tasa de aprendizaje suele estar comprendida entre
0.05 y 0.5 (Rumelhart, Hinton y Williams, 1986).
: es el gradiente de la función de error con respecto a los pesos
Este algoritmo basado en la técnica del descenso por el gradiente, calcula las
derivadas de la superficie de error respecto a cada peso, E , con la
45
finalidad de encontrar el valor mínimo de la función de error, aunque nadie
garantiza que se llegue o que sea el camino más rápido hacia él. Frente a
estas dificultades surgen otros métodos, dentro de los cuáles se encuentra el
algoritmo de Levenberg-Marquardt. Este método, si bien acelera la
convergencia, es mucho más complejo de implementar. La actualización de
pesos con este algoritmo se realiza con la siguiente aproximación:
Donde:
: es un parámetro establecido generalmente en un valor pequeño como
0.01 (Hagan, Demuth, Beale, 1996).
6: es la matriz jacobiana.
: es el vector de errores.
6
46
2.4.7 Elección inicial de los pesos
El proceso de entrenamiento de la red, comienza con un conjunto
inicial de pesos para las diferentes conexiones. Esta asignación se puede
realizar de diversas formas, siendo una de las más utilizadas la asignación de
un peso aleatorio a cada conexión.
2.4.8 Entrenamiento de la red
Durante el proceso de aprendizaje, se debe distinguir dos fases: la
fase de aprendizaje o entrenamiento y la fase de operación o funcionamiento
de la red, existiendo un conjunto de datos de entrenamiento y un conjunto de
datos validación o de prueba, utilizados en la fase correspondiente (Bishop,
1995; Ripley, 1996)
Después del cálculo de los pesos en la fase de aprendizaje, es
importante comprobar la calidad del modelo resultante a través de alguna
medida de error. Algunas de las medidas más usuales son:
- La suma de los cuadrados de los errores, definida como:
2r
1ppp b̂b
- El error cuadrático medio, definido como:
rbbECMr
p
pp /ˆ2
1
- La raíz cuadrada del error cuadrático medio, definida como:
rbbr
p
pp /ˆ2
1
47
- El error máximo:
2
ppr,,1p
b̂bmax
donde pb̂ es la salida de la red para el vector de entrada pb.
2.4.9 Validación
Así mismo es importante realizar una validación cruzada para obtener una
medida de la calidad del modelo. En este sentido, los datos disponibles
(patrones) se deben disponer en dos partes: una parte destinada al
entrenamiento de la red y la otra parte a la comprobación. El entrenamiento
es usualmente medido en épocas, el número de presentaciones del conjunto
de entrenamiento a la red.
Cuando el error de comprobación es mucho mayor que el error de
entrenamiento, entonces se produce un problema de sobreajuste durante el
proceso de entrenamiento. En realidad, ambos errores deberían ser similares,
lo cual indica que se han capturado las tendencias reales del modelo.
Típicamente cuando el número de épocas de entrenamiento se incrementa,
veremos los siguientes gráficos, independientemente del tipo de modelo de
ANN.
48
Figura 11 Errores de prueba y entrenamiento como una función de las épocas de entrenamiento
El error del conjunto de entrenamiento, mide cuán bien la ANN modela
los datos. Debido a que nunca entrenamos sobre el conjunto de datos de
prueba y los términos de error son no correlacionados, el error del conjunto de
prueba es una medida de que tan bien el modelo sigue el patrón F o
generaliza los conjuntos de datos. En la sección A del gráfico, el error del
conjunto de prueba comienza a aprender el patrón de la serie de tiempo,
indicado por el error decreciente. En Z épocas, el error del conjunto de prueba
es mínimo-la red ANN ha encontrado la función F en su nivel óptimo. Más allá
de éste mínimo, en la sección B, el error del conjunto de entrenamiento
continúa decreciendo, mientras que error del conjunto de prueba se
incrementa. Este hecho se explica porque al inicio la red se adapta
progresivamente al conjunto de aprendizaje, adaptándose al problema y
mejorando la representación, luego en un momento dado, el sistema se ajusta
demasiado a las particularidades de los patrones empleados en el
entrenamiento, captando incluso el “ruido” en ellos presente, de manera que
el error que comete ante patrones diferentes a los empleados en el
F
Conjunto prueba Conjunto Entrenamiento
Epocas de entrenamiento
49
entrenamiento comienza a crecer, produciéndose el sobreaprendizaje o sobre
ajuste (Del Brio, M., Sanz A., 2002).
2.4.10 Análisis de las series de tiempo utilizando una red neuronal
Teniendo en cuenta que el objetivo principal del estudio de las series
de tiempo es el pronóstico, entonces antes de seleccionar un método se debe
tener en cuenta la forma cómo éste va ha ser utilizado, que precisión se
espera de los pronósticos, cuál es la disponibilidad de recursos
computacionales, la cantidad de datos disponibles y que tan lejos se va a
pronosticar. Además algunos métodos de pronóstico producen sólo
pronósticos puntuales, sin embargo en algunos casos es deseable obtener
pronósticos en intervalos. A diferencia de los métodos tradicionales, las redes
neuronales necesitan una “reducida” cantidad de datos para pronosticar el
futuro de la serie; basadas en estos datos, los parámetros de la red son
afinados usando un algoritmo de aproximación.
La racionalidad para el uso de redes neurales en el pronóstico de las
series de tiempo, es, a partir de información histórica de la serie, construir un
modelo, que permita predecir valores futuros de ésta información.
En términos formales, una serie de tiempo es una secuencia de
vectores, que dependen del tiempo: Teóricamente, puede
ser vista como una función contínua de la variable temporal . Para propósitos
prácticos, sin embargo, la variable temporal, es vista en término de pasos
discretos del tiempo, conduciendo a una instancia del tiempo, en cada
intervalo de tiempo fijo. El tamaño del intervalo del tiempo, depende de la
naturaleza del problema y de la disponibilidad de los datos y puede ser
periodos de milisegundos, horas, días, meses, trimestres o años.
50
En el problema del pronóstico, formalmente, se trata de encontrar
, dónde d es llamado el intervalo para el
pronóstico y la función F, representa el patrón subyacente que determina a la
serie , tan cerca como sea posible, mientras que es el error de medida o
residual de los datos.
51
CAPITULO III: METODOLOGIA
El trabajo se enmarca dentro del tipo de investigación exploratoria
aplicada. La investigación se inicia con una exploración del comportamiento de
la demanda de agua durante el periodo de análisis (2007-2009), básicamente
para analizar si la serie es o no estacionaria. Luego, el estudio es típicamente
explicativo, puesto que aporta elementos para determinar el grado de influencia
de la serie con sus valores pasados. Teniendo en cuenta que el estudio busca
un instrumento que permita realizar pronósticos relacionados a una realidad
específica, la demanda de agua en la ciudad de Piura, se trata de una
investigación aplicada.
3.1 Población y Muestra
Para el desarrollo de la investigación, se consultarán las bases de datos
de la Empresa EPS GRAU S.A. Si bien, la empresa cuenta con información
histórica de varios años, en muchos de ellos, la información está incompleta o es
poco confiable, por lo que sólo se utilizarán los datos correspondientes a los
últimos 3 años (2007 a 2009), la cual constituye la muestra.
3.2 Diseño y Construcción de la Red Neuronal
Cuando se diseña una red, el investigador usualmente debe tener en
cuenta los siguientes aspectos:
3.2.1 Capas de entrada y salida
El número de nodos en la capa de entrada (dos) será igual al número
de variables de entrada del modelo. Como en total existen 33 observaciones
asociadas a las variables de entrada y de salida, el modelo es entrenado
usando el 70% de éstos patrones, dejando el resto de observaciones para la
validación (15%) y prueba (15%) del modelo.
52
3.2.2 Capas ocultas. Procesamiento
En la investigación se ha usado dos capas, la primera con dos
neuronas y la segunda con 30; esta configuración es el resultado de ensayar
diferentes valores o configuraciones.
3.2.3 Funciones de transferencia
La función de transferencia utilizada en la capa oculta es la función
sigmoidal, cuya expresión matemática es:
En la capa de salida se utilizó una función lineal, es decir:
3.2.4 Datos de entrenamiento
Antes de que la red sea creada y entrenada, los datos para el modelo
deben ser organizados y preprocesados, si es necesario. Mientras se
disponga de más datos de entrenamiento, es probable que mejor sea el
modelo y también el modelador puede considerar diseños mucho más
complejos. En este caso, es posible emplear rigurosos conjuntos de prueba
para el análisis del posible sobre entrenamiento y para chequear la
integridad del modelo. Una vez que la información para los modelos es
reunida o generada, se requiere la preparación y formateo de los datos y su
almacenamiento en disco en un formato adecuado. Esas tareas se pueden
lograr fácilmente utilizando hojas de cálculo o programas estadísticos.
El archivo de datos puede contener tanto los datos de entrenamiento
así como datos de prueba, puede tener un formato de texto o usar formato
de entrada universalmente compatible ASCII (tex). En este archivo, las
variables están dispuestas en columnas, donde cada una de ellas representa
a una variable y cada fila, representa un caso o patrón de entrenamiento.
53
La preparación apropiada de los datos, puede marcar la diferencia
entre modelos neurales exitosos y no exitosos. Algunos modelos pueden
obtener grandes beneficios de transformaciones elementales de los datos de
entrada y salida. Por esta razón es importante entender como diferentes
representaciones de datos de entrenamiento influyen sobre el modelo neural
que está siendo creado.
Los datos de entrenamiento de una red neural, pueden ser de dos
clases: continuos y binarios. Para muchas variables de entrada, los datos
pueden ser procesados y representados en algunos de esas clases. Cuando
se decide por una de ellas, se debería considerar el impacto sobre lo que
esta siendo modelado. El conocimiento de la magnitud de los cambios en las
variables continuas, mejora el aprendizaje del modelo, proporcionando
información adicional. La mayor falla que el modelador de la red neural debe
considerar es evitar el uso de variables de entrada o salida ilimitadas.
Otro problema puede ocurrir cuando se dispone de una gran cantidad
de datos como entradas del modelo.
3.2.5 Normalización de datos
Las redes neurales de backpropagación requieren que todas las
variables de entrenamiento sean normalizadas entre 0 y 1. Esto se debe a
que la señal de salida del nodo está restringida al rango 0 a 1. Aún si todo
los datos de entrenamiento ya estuvieran entre los límites 0 y 1, la
normalización puede ser deseable. Por ejemplo, si todos los datos de
entrenamiento estuvieran entre 0.01 y 0.02, sería mejor normalizar los datos
sobre un rango más amplio para que la red pueda resolver y predecir las
variables objetivo sobre un rango óptimo.
54
3.3 Datos de salida de la red
Cuando se grafica, imprime o pronostica, toda las entradas y salidas
deben ser retornadas a sus escalas originales. Si nuevos datos son
presentados a la red, hay siempre la posibilidad de normalizar los datos para
que caigan en el rango de 0 a 1. Esto puede no ser un problema, sin
embargo, se debería notar que cuando las entradas a una red son
significativamente diferentes del rango de los datos que fueron usados
durante el entrenamiento, la precisión del modelo puede ser cuestionable.
3.4 Proceso de Investigación
En la primera fase del proyecto, la información fue analizada utilizando el
análisis exploratorio de datos, con la finalidad de identificar posibles valores
anómalos y para caracterizar y estudiar si la serie es o no estacionaria. Como
ésta no cumplía con este requisito, ésta se diferenció y fueron los dos primeros
rezagos de las primeras diferencias ( ) las que sirvieron
como entradas a la red y las primeras diferencias ( ) como valores
deseados o variable de salida. Todo este análisis se realizó usando los
programas estadísticos StatGraphics y Eviews.
Con los resultados de los análisis previos de la serie, se procedió a
plantear el modelo conceptual (estructura de la red) y el modelo matemático. El
proceso de entrenamiento de la red, se realizó por medio del software Científico
Matlab, utilizando funciones neuronales básicas implementadas dentro de éste
programa.
55
CAPITULO IV: DESCRIPCION DE RESULTADOS
4.1 Evaluación del comportamiento de la serie de datos
La figura 12, muestra que la serie que representa el consumo de agua de
la ciudad de Piura entre los años 2007 y 2009 tiene una tendencia, sin embargo,
la tendencia no es suave y da la impresión de no ser estacionaria; es decir, al
parecer, tanto la media como la varianza cambian con el transcurso del tiempo.
Figura 12 Volumen total de consumo de agua en Piura. Años 2007-2009 (Anexo2).
El análisis del correlograma y correlograma parcial, nos darán mayores
elementos de juicio para comprobar esta presunción.
Por su parte el análisis descriptivo del consumo de agua (Figura 13), a
través del histograma y de la prueba de Jarque Bera, muestra que la distribución
del consumo de agua, se puede considerar que se aproxima a una distribución
1000000
1050000
1100000
1150000
1200000
1250000
En
e-0
7
Ma
r-0
7
Ma
y-0
7
Jul-
07
Sep
-07
No
v-0
7
En
e-0
8
Ma
r-0
8
Ma
y-0
8
Jul-
08
Sep
-08
No
v-0
8
En
e-0
9
Ma
r-0
9
Ma
y-0
9
Jul-
09
Sep
-09
No
v-0
9
Vo
lum
en
(m
3)
CONSUMO DE AGUA EN LA CIUDAD DE PIURA
56
normal, aunque con ciertas irregularidades en los extremos y centro de la
distribución. Esta apreciación se confirma al observar los valores de la asimetría
(Skewness) y curtosis, que en el caso de una distribución normal deberían ser 0
y 3 respectivamente, pero que en el caso en estudio, son de -0.703 y 2.40, los
cuales si bien es cierto no son iguales a los valores teóricos, no se desvían
significativamente. La prueba estadística lo confirma, si se observa el valor
P>0.05, con el cuál no se puede rechazar la hipótesis que los datos siguen una
distribución normal.
Figura 13 Estadísticos descriptivos del consumo de agua
4.2 Evaluación del Autocorrelograma y Autocorrelograma parcial
En el Tabla 2, se muestra la función de autocorrelación (ACF) y la función
de autocorreloción parcial (PACF) del consumo de agua en Piura. Se puede
apreciar dos hechos significativos. En primer lugar, la ACF decrece rápidamente
como se aprecia en la Figura 14; esta función hasta el rezago 6 es
estadísticamente diferente de cero en forma individual, ya que todas ellas están
fuera de los límites de confianza del 95%; lo mismo sucede a partir del rezago 20
al 35. En segundo lugar, podemos apreciar que la PACF, Figura 15, después del
primer rezago decrece de manera considerable y todos sus valores son
0
1
2
3
4
5
6
7
1080000 1120000 1160000 1200000
Series: AGUASample 2007M01 2009M12Observations 36
Mean 1168960.Median 1177446.Maximum 1225866.Minimum 1072127.Std. Dev. 46148.57Skewness -0.703069Kurtosis 2.400095
Jarque-Bera 3.505666Probability 0.173282
57
estadísticamente no significativos. Por otra lado, la prueba de Ljung-Box (LB),
corrobora estos resultados; en todo los rezagos las pruebas son
estadísticamente significativas (p<0.05), lo cuál nos permite concluir que no
todos los coeficientes de autocorrelación muestral ( ) son cero.
Tabla 2 Autocorrelación y Autocorrelación parcial del consumo de agua (M3)
Rezago Autocorrelation Std.
Error(a)
Box-Ljung Statistic Partial
Autocorrelation
Std.
Error Value df Sig.(b)
1 .863 .160 29.138 1 .000 .863 .167
2 .744 .158 51.413 2 .000 -.006 .167
3 .645 .155 68.648 3 .000 .014 .167
4 .542 .153 81.190 4 .000 -.067 .167
5 .477 .151 91.239 5 .000 .090 .167
6 .374 .148 97.630 6 .000 -.186 .167
7 .287 .146 101.523 7 .000 .001 .167
8 .184 .143 103.179 8 .000 -.156 .167
9 .137 .140 104.129 9 .000 .183 .167
10 .070 .138 104.387 10 .000 -.193 .167
11 -.002 .135 104.388 11 .000 .011 .167
12 -.006 .132 104.389 12 .000 .137 .167
13 -.042 .130 104.495 13 .000 -.066 .167
14 -.024 .127 104.531 14 .000 .133 .167
15 -.035 .124 104.612 15 .000 -.134 .167
16 -.081 .121 105.066 16 .000 -.103 .167
17 -.113 .118 105.981 17 .000 -.060 .167
18 -.169 .115 108.158 18 .000 -.125 .167
19 -.210 .111 111.690 19 .000 -.099 .167
20 -.268 .108 117.813 20 .000 -.045 .167
21 -.277 .105 124.823 21 .000 .081 .167
22 -.317 .101 134.621 22 .000 -.137 .167
23 -.377 .097 149.584 23 .000 -.100 .167
24 -.389 .094 166.797 24 .000 .028 .167
25 -.399 .090 186.605 25 .000 .123 .167
26 -.371 .085 205.454 26 .000 -.047 .167
27 -.349 .081 223.960 27 .000 -.014 .167
28 -.312 .076 240.603 28 .000 .058 .167
29 -.252 .072 253.017 29 .000 .080 .167
30 -.198 .066 261.973 30 .000 -.032 .167
31 -.147 .060 267.914 31 .000 -.099 .167
32 -.149 .054 275.529 32 .000 -.092 .167
33 -.145 .047 285.116 33 .000 -.060 .167
34 -.122 .038 295.315 34 .000 .070 .167
Fuente: Consumo de agua
58
Figura 14 Autocorrelograma del consumo de agua en Piura, 2007-2009
Figura 15 Autocorrelograma parcial del consumo de agua en Piura, 2007-2009
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
987654321
Rezago
1,0
0,5
0,0
-0,5
-1,0
AC
F
Límite de confianzainferior
Límite de confianzasuperior
Coeficiente
Volumen Total Consumo de Agua (M3)
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
987654321
Rezago
1,0
0,5
0,0
-0,5
-1,0
PA
CF
Límite de ConfianzaInferior
Límite de confianzasuperior
Coeficientes
Volumen Consumo de Agua (M3)
59
Otra prueba para verificar si la serie es o no estacionaria, es la prueba de
Dickey-Fuller aumentada. Los resultados de las pruebas, Tabla 3, muestran que
toda las pruebas son no significativas (P>0.05), lo cual nos conduce a aceptar la
hipótesis de que la serie tiene una raíz unitaria, lo que indica nuevamente que la
serie es no estacionaria.
Tabla 3 Prueba de Dickey Fuller aumentada
Modelo t-Statistic Prob.*
Sin intercepto 1.635464 0.9728
Con intercepto -1.850153 0.3515
Con intercepto y tendencia -2.203331 0.4731
*MacKinnon (1996) one-sided p-values.
Esta conclusión ya se podía visualizar del análisis de los diferentes
gráficos y de los análisis anteriores. Todos los resultados nos llevan a la
conclusión de que la serie es no estacionaria, por lo que se debe buscar alguna
transformación que conduzca a una serie estacionaria.
El requisito de estacionariedad para los datos de entrada a la red, es
importante porque cuando los datos están correlaconados, la velocidad de
convergencia del algoritmo de entrenamiento es menor y se corre el riesgo de
que la red no converja a su punto óptimo.
60
4.3 Análisis de la serie en primera diferencia
En contraste con la figura de los datos originales, no se observa ninguna
tendencia en esta serie, aunque si evidencia cierto comportamiento cíclico, entre
Enero-2007 a Abril-2008 y de aquí a Febrero del 2009.
Figura 16 Gráfico del consumo de agua, en primeras diferencias
4.4 Evaluación del Autocorrelograma y Autocorrelograma parcial de las
primeras diferencias
Tanto la función de autocorrelación, Tabla 4 y las funciones de
autocorrelación, Figura 17 y 18, no evidencian coeficientes de correlación ni de
correlación parcial significativos. Todos se encuentran dentro de los límites de
confianza al 95%, lo que es un indicativo que la serie en primeras diferencias es
estacionaria. Además la prueba de Ljung Box, resulta ser no significativa
(P>0.05) en casi todos los rezagos, a excepción del rezago 33, indica que la
-40,000
-30,000
-20,000
-10,000
0
10,000
20,000
30,000
40,000
I II III IV I II III IV I II III IV
2007 2008 2009
PRIMERAS DIFERENCIAS
61
correlación conjunta es cero hasta el rezago 32, lo que nuevamente confirma
que la serie es estacionaria.
Tabla 4 Volumen de consumo de agua (M3). Primera diferencia
Rezago Autocorrelation Std.
Error(a)
Box-Ljung Statistic Partial
Autocorrelation
Std.
Error Value df Sig.(b)
1 -.146 .162 .809 1 .368 -.146 .169
2 .061 .160 .954 2 .621 .040 .169
3 .021 .157 .972 3 .808 .036 .169
4 -.099 .155 1.385 4 .847 -.096 .169
5 .019 .152 1.400 5 .924 -.012 .169
6 -.264 .150 4.512 6 .608 -.261 .169
7 .069 .147 4.734 7 .692 .001 .169
8 -.256 .144 7.868 8 .447 -.257 .169
9 .187 .142 9.614 9 .383 .151 .169
10 .004 .139 9.615 10 .475 -.006 .169
11 -.176 .136 11.281 11 .420 -.190 .169
12 .280 .133 15.694 12 .206 .148 .169
13 -.078 .130 16.056 13 .246 -.007 .169
14 .133 .127 17.151 14 .248 .025 .169
15 -.040 .124 17.253 15 .304 .033 .169
16 .131 .121 18.419 16 .300 .123 .169
17 .068 .118 18.748 17 .343 .115 .169
18 -.189 .115 21.474 18 .256 -.123 .169
19 -.031 .111 21.554 19 .307 -.186 .169
20 -.196 .108 24.880 20 .206 -.017 .169
21 .026 .104 24.941 21 .250 -.071 .169
22 .033 .100 25.050 22 .295 .114 .169
23 -.054 .096 25.363 23 .332 .018 .169
24 -.032 .092 25.482 24 .380 -.171 .169
25 .069 .088 26.091 25 .403 .034 .169
26 .056 .083 26.549 26 .433 -.131 .169
27 -.103 .079 28.279 27 .397 -.086 .169
28 -.038 .074 28.550 28 .436 -.095 .169
29 .013 .068 28.585 29 .487 -.084 .169
30 -.022 .062 28.705 30 .533 .010 .169
31 .050 .056 29.515 31 .542 .000 .169
32 -.003 .048 29.519 32 .593 -.048 .169
33 .011 .039 29.593 33 .638 .069 .169
Fuente: Datos del consume de agua, 2007-2009
62
Figura 17 Autocorrelograma del consumo de agua en primeras diferencias.
Figura 18 Autocorrelograma parcial del consumo de agua en primeras
diferencias.
La prueba de Dickey Fuller aumentada, corrobora además todo los
resultados anteriores, al rechazar la hipótesis (P<0.05) de que los modelos
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
987654321
Rezago
1,0
0,5
0,0
-0,5
-1,0
AC
F
Límite de confianzainferior
Límite de confianzasuperior
Coeficientet
CONSUMO DE AGUA: PRIMERA DIFERENCIA
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
987654321
Lag Number
1,0
0,5
0,0
-0,5
-1,0
PA
CF
Límite de confianzainferior
Límite de confianzasuperior
Coeficiente
CONSUMO DE AGUA: PRIMERA DIFERENCIA
63
sometidos a prueba tienen raíz unitaria, lo cual significa que la serie en primera
diferencia es estacionaria.
Tabla 5 Prueba de Dickey Fuller aumentada
Modelo t-Statistic Prob.*
Sin intercepto y sin tendencia -6.052467 0.0000
Con intercepto -6.534990 0.000
Con intercepto y tendencia -6.661749 0.000
*MacKinnon (1996) one-sided p-values.
El análisis anterior, nos permite entrenar la red, con los datos expresados
en primeras diferencias. Además al restringirse la muestra a 33 observaciones,
se ha trabajado con un modelo que contempla sólo dos rezagos para las
primeras diferencias, es decir:
Donde ; es el valor de las primeras diferencias rezagado en un
periodo y es el valor de las primeras diferencias rezagada en dos periodos.
64
4.5 Arquitectura de la red neuronal
La red tiene dos capas, una capa de entrada con dos neuronas, y una
capa oculta con 30 neuronas. La configuración elegida de 30 neuronas, es
consecuencias de una serie de ensayos, en donde se probó diferentes
configuraciones, siendo la mencionada la que da la solución obtenida.
Figura 19 Arquitectura de la red neuronal
4.6 Entrenamiento de la red nuronal
Los datos utilizados para entrenar la red, están basados en las primeras
diferencias, donde las entradas o patrones son los valores correspondientes a
y los valores deseados son los correspondientes a .
Antes de entrenar los datos en la red, éstos se han normalizado al
intervalo [0, 1], que es un requisito para las redes de Backpropagation. Para el
entrenamiento de la red, se utilizó el algoritmo de Levenberg-Marquardt (Figura
20).
1
1
Σ
Σ
1
1
Σ
Σ
Σ
•
•
•
1
65
Figura 20 Entrenamiento de la red
El algoritmo de entrenamiento para en la sexta iteración, aunque el
óptimo se logra en la iteración 4, a partir de la cual el error de validación
comienza a incrementarse (Figura 21). En esta figura, la forma decreciente que
toma el error cuadrático medio, muestra que la red está aprendiendo; el Error
Cuadrático Medio (EMC) se inicia en un valor grande que va decreciendo hasta
66
lograr un valor pequeño, a partir del cual nuevamente comienza a aumentar; es
en este punto que la red muestra su mejor rendimiento, en donde el error
cuadrático medio final es bastante pequeño (EMC=0.0361). Otra característica
de este gráfico es que el conjunto de prueba y de validación poseen
características similares. No ocurre ningún sobre ajuste significativo del modelo,
hasta la 4ta iteración, en donde ocurre el mejor rendimiento de la validación.
Figura 21 Evaluación del rendimiento de la red.
El gráfico de la regresión (Figura 22), muestra las regresiones entre las
salidas de la red y los correspondientes datos de entrada. Las salidas de la red,
se adecuan bastante bien a los datos de entrenamiento, prueba y validación, lo
que es corroborado con el coeficiente de correlación, el que se encuentra por
encima de 0.9 para la respuesta total.
67
Figura 22 Grado de ajuste del modelo
4.7 Pronóstico.
Una vez que la red ha sido entrenada y su rendimiento es el adecuado
(error de entrenamiento pequeño), se procede a la realización de pronósticos
utilizando para ello la función , la cuál usa los pesos de la red entrenada.
Los pronósticos se realizan mediante la transformación inversa a las
operaciones realizadas para calcular las primeras diferencias, es decir, los
68
valores pronosticados se obtienen con la ecuación: , siendo la
diferencia estimada con la red.
En la investigación se encontró el consumo de agua estimado para el
periodo siguiente al último mes de la serie, es decir para enero del 2010,
mediante: 1222381+11937=1234318
69
CAPITULO V: CONCLUSIONES Y RECOMENDACIONES
6.1. Conclusiones.
Luego de revisar los resultados arrojados por la investigación, se ha
llegado a las siguientes conclusiones:
1. Se ha logrado diseñar y construir una red neuronal a partir de la cual se
puede pronosticar el consumo de agua para periodos adicionales a los
utilizados en la investigación. En este punto hay que tener en cuenta que
una vez que se tienen nuevos datos, hay que ir entrenando nuevamente la
red; la elaboración de los pronósticos con esta metodología, es un proceso
dinámico, en el que hay que alimentar a la red con la nueva información
disponible, para mejorar su rendimiento y mejores pronósticos.
2. Este trabajo no se puede considerar como una investigación totalmente
completa y teniendo en cuenta que el estudio de las redes neuronales está
en una evolución contínua, hay mucho que investigar y profundizar
6.2. Recomendaciones
1. Para mejorar el rendimiento de la red, se debe intentar con
diferentes algoritmos de entrenamiento.
2. Difundir las bondades del uso de las Redes Neuronales, no solo en
la empresa sujeta de investigación, sino a otros ámbitos.
70
REFERENCIAS BIBLIOGRAFICAS
01. Acosta, B. A. y Zuluaga M. (2000). Tutorial sobre Redes Neuronales Aplicadas en Ingeniería Eléctrica y su implementación en un sitio Web. Revista Colombiana de Tecnologías Avanzadas. Pereira-Colombia.
02. Ashley, R. (2003). Statistically significant forecasting improvements: How much out-of-sample data is likely necessary? International Journal of Forecasting, 19, 229–239.
03. Barr, A. & Feigenbaum, E. A. (1981). The Handbook of Artificial Intelligence. Volume I. William Kaufman. Los Altos, California, CA.
04. Berenson, M. L., Levine, D. M. y Krehbiel T. C. (2001). Estadística para Administración (2ª ed.). Pearson Educación. México.
05. Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford. Oxford University Press.
06. Castiglione, F. (2002). Forecasting price increments using an artificial Neural Network. Adv. Complex Systems, 1, 1-12.
07. Castillo, E., Gutiérrez, J. M. & Hadi, A. S. (1999). Expert Systems and Probabilistic Network Models. Edit. Springer Verlag. New York, USA.
08. Castillo, E., Cobo, A. y Gutiérrez, J. M (1999). Introducción a las Redes Funcionales con Aplicaciones: Un nuevo paradigma neuronal Edit. Paraninfo. Madrid España.
09. Castillo, E. & Alvarez, E. (1991). Expert Systems: Uncertainty and Learning. Computational Mechanics Publications and Elsevier Applied Science, London, U.K.
10. Chatfield, C. (1995). The analysis of time series. An Introduction. Fifth Edition. Chatman &Hall/CRC. London.
11. Chen, A. S., Leung, M. T. & Daouk, H. (2003). Application of neural networks to an emerging financial market: Forecasting and trading the Taiwan Stock Index. Computers & Operations Research, 30(6), 901–924
12. Cipriano, A, Prina J.P y Ramos M.E. (1996). Predicción de demanda. Pontificia Universidad Católica de Chile. Facultad de Ingeniería. Noviembre de 1996.Demuth, H.B., Beale, M. & Hagan M. (1992-2010). Neural Network Toollbox 6. User’s Guide. Matlab. The MathWorks. Massachusetts.
13. Durkin, J. (1994). Expert Systems: Design and Development. Maxwell Macmillan, New York.
14. Hagan, M. T., Demuth, H.B., & Beale, M. (1996). Neural Network Design. PWS Publishing Company, Boston.
15. Husken, M. & Stagge, P. (2003). Recurrent neural networks for time series classification. Neurocomputing, 50, 223–235.
16. David, J.C., McKay (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
71
17. McCulloch, W. S. & Pitts, W. (1943). A logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5, 115-133.
18. Mendelsohn, L. B. (2000). Trend Forecasting With Technical Analysis. Marketplace Books, United States of America.
19. PROINVERSION (01-2006): Plan Maestro Optimizado para las ciudades y localidades de Piura, Catacaos, Las Lomas, Paita y Anexos. Lima.
20. Nojek, S., Britos, P., Rossi, B. & García M. R. (2003). Pronóstico de Ventas: Comparación de Predicción basada en Redes Neuronales versus Método Estadístico. Departamento de Ingeniería Industrial. Instituto Tecnológico de Buenos Aires. Av. Madero 399 (C1106ACD). Buenos Aires - Argentina.
21. Ruiz, C.A., Basualdo, M.S. (2001). Redes Neuronales: Conceptos Básicos y Aplicaciones. Rosario-Argentina.
22. Ripley, B.D. (1996). Pattern recognition and neural networks. Cambridge: Cambridge University Press.
23. Rumelhart, D.E., Hinton, G.E. & Williams, R.J. (1986). Learning internal representations by error propagation. En: D.E. Rumelhart y J.L. McClelland (Eds.). Parallel distributed processing (pp. 318-362). Cambridge, MA: MIT Press.
24. Schwartz, P. (1991). The Art of the Long View. Currency/Doubleday Press, New York.
25. Situngkir, H. & Surya, Y. (2004). Neural Network Revisited: Perception on Modified Poincare Map of Financial Time Series Data. Europhysics Conference of European Physical Society.
26. Uriel, E. (1995). Análisis de datos. Series Temporales y Análisis Multivariante. Edit. AC. Madrid-España.
27. Uriel, E. (1995). Series temporales, Modelos ARIMA. 3ª Ed. Editorial Paraninfo. Valencia-España.
28. Zhang, G.P, Keil, M., Rai, A., & Mann, J. (2003). Predicting information technology project escalation: A neural network approach. European Journal of Operational Research, 146, 115–129.
72
LINKOGRAFIAS
1. CRIADO, B., J., M. (2002). Sistemas Expertos. Extraido el 20 de Julio, 2010 de http://www.monografias.com/trabajos16/sistemas-expertos/sistemas-expertos.shtml#REFEREN.
2. Documental Piura. Disponible en http://www.documentalpiura.com/economia/economia_agua.htm.
3. ELGUEA, J. (1987). Inteligencia artificial y psicología: la concepción contemporánea de la mente humana. Recuperado de http://biblioteca.itam.mx/estudios/estudio/estudio10/sec_14.html
4. SAMPER, J. (2002). Sistemas expertos. El Conocimiento al Poder. Extraido el 10 de Junio del 2010 de http://www.monografias.com/trabajos23/sistemas-expertos/sistemas-expertos.shtml
73
ANEXO 1
Programa para entrenar y simular la red neuronal artificial
% Programa que entrena una red neuronal artificial con 1 capa oculta
% Piura, julio 2007
clear
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%definiendo las variables del la red
%El indice comienza en 3 porque se esta considerando dos rezagos
y=load('tesis.txt');
for i=2:size(y)
d(i-1)=y(i)-y(i-1); %Datos expresados en primeras diferencias
end;
d=transpose(d);
n=size(d);
for j=2:n+1
d1(j-1)=d(j-1);%Diferencias rezagas un periodo
end;
d1=transpose(d1);
n=size(d1);
for j=2:n+1
d2(j-1)=d1(j-1);%Diferencias rezagadas dos periodos
end;
d2=transpose(d2);
d=d(3:35);
d1=d1(2:34);
d2=d2(1:33);
z=[d1,d2,d];
save dif.txt z;
% definiendo la topologia de la red
n0=2; % numero de neuronas en la entrada
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
alfa=0.4; % tasa de aprendizaje, varia entre 0 y 1
nepocas=1000; % Nº de veces que se le presenta un patron de calibracion
%a la red o Nº de iteraciones
74
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
[npat,m]=size(z);
[znorm,PS]=mapminmax(z,0.02,0.98); %transforma los datos al intervalo 0, 1
mx=znorm(1:npat,1:n0); % matriz de entrada x
mxa=[ones(npat,1),mx]; % matriz de entrada aumentada con unos
my=znorm(1:npat,n0+1:m); %mariz de deseados y
mx1=transpose(mxa);%matriz mx transpuesta
my1=transpose(my);%matriz my transpuesta
numHiddenNeurons = 30; % Adjust as desired
net = newfit(mx1,my1,numHiddenNeurons,{'logsig','purelin'});
%Crea la red
%Por defecto usa el algoritmo de entrenamiento de Levenberg-Marquardt
net=init(net); %inicia la red, con nuevos pesos
net.divideParam.trainRatio = 70/100; % Adjust as desired
net.divideParam.valRatio = 15/100; % Adjust as desired
net.divideParam.testRatio = 15/100; % Adjust as desired
[net,tr]=train(net,mx1,my1); %Entrena la red
my2=sim(net,mx1); %simula la red: estima los valores de la serie
zest=[mx,my2']; %concatena las matrices input con los valores estimados
difer_desn = mapminmax('reverse',zest,PS);%Diferencias desnormalizadas
dif=difer_desn(1:npat,n0+1:m); %seleccion de los valores estimados de y
yorig=dif+y(4:36); %devuelta a los valores originales.
75
ANEXO 2
Tabla 6 Consumo de agua (en ) en la ciudad de Piura en el periodo
2007 y 2009
MES 2007 2008 2009
ENERO 1072127 1174766 1203740.1
FEBRERO 1073776 1199821 1221799
MARZO 1091671 1191716 1222770
ABRIL 1083116 1167242 1225866
MAYO 1115433 1181833 1224685
JUNIO 1110257 1175476 1220749
JULIO 1109462 1176289 1218131
AGOSTO 1110982 1167910 1187010
SEPTIEMBRE 1140323 1185001 1175641
OCTUBRE 1143189 1181976 1197158
NOVIEMBRE 1144040 1177991 1210444
DICIEMBRE 1176900 1200894 1222381
Fuente: EPS GRAU
76
Tabla 7 Datos de las primeras diferencias, primeras diferencias rezagadas uno y dos periodos.
d d(-1) d(-2)
-0.8555 1.7895 0.1649
3.2317 -0.8555 1.7895
-0.5176 3.2317 -0.8555
-0.0795 -0.5176 3.2317
0.152 -0.0795 -0.5176
2.9341 0.152 -0.0795
0.2866 2.9341 0.152
0.0851 0.2866 2.9341
3.286 0.0851 0.2866
-0.2134 3.286 0.0851
2.5055 -0.2134 3.286
-0.8105 2.5055 -0.2134
-2.4474 -0.8105 2.5055
1.4591 -2.4474 -0.8105
-0.6357 1.4591 -2.4474
0.0813 -0.6357 1.4591
-0.8379 0.0813 -0.6357
1.7091 -0.8379 0.0813
-0.3025 1.7091 -0.8379
-0.3985 -0.3025 1.7091
2.2903 -0.3985 -0.3025
0.2846 2.2903 -0.3985
1.8059 0.2846 2.2903
0.0971 1.8059 0.2846
0.3096 0.0971 1.8059
-0.1181 0.3096 0.0971
-0.3936 -0.1181 0.3096
-0.2618 -0.3936 -0.1181
-3.1121 -0.2618 -0.3936
-1.1369 -3.1121 -0.2618
2.1517 -1.1369 -3.1121
1.3286 2.1517 -1.1369
1.1937 1.3286 2.1517