PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

81
PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS PARA EL MANTENIMIENTO PREDICTIVO DE REDES DE DISTRIBUCIÓN DE AGUA POTABLE PRESENTADO POR: MANUELA CORTÉS HENAO ASESOR: ING. JUAN GUILLERMO SALDARRIAGA UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA CIVIL Y AMBIENTAL BOGOTÁ D.C. DICIEMBRE DE 2014

Transcript of PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Page 1: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

PROYECTO DE GRADO DE INGENIERÍA CIVIL

MINERÍA DE DATOS PARA EL MANTENIMIENTO PREDICTIVO DE REDES DE DISTRIBUCIÓN DE AGUA POTABLE

PRESENTADO POR: MANUELA CORTÉS HENAO

ASESOR: ING. JUAN GUILLERMO SALDARRIAGA

UNIVERSIDAD DE LOS ANDES FACULTAD DE INGENIERÍA

DEPARTAMENTO DE INGENIERÍA CIVIL Y AMBIENTAL BOGOTÁ D.C.

DICIEMBRE DE 2014

Page 2: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

A mis papás,

por su apoyo incondicional

Page 3: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

i

Tabla de contenido

1. INTRODUCCIÓN Y OBJETIVOS ......................................................................................................... - 1 -

1.1. Introducción ............................................................................................................................ - 1 -

1.2. Objetivos ................................................................................................................................. - 3 -

1.2.1. Objetivo General ................................................................................................................. - 3 -

1.2.2. Objetivos Específicos ........................................................................................................... - 3 -

1.3. Contenido................................................................................................................................ - 3 -

2. ANTECEDENTES ............................................................................................................................... - 4 -

3. MARCO TEÓRICO ............................................................................................................................ - 8 -

3.1. Minería de Datos ..................................................................................................................... - 8 -

3.1.1. Definición ........................................................................................................................ - 8 -

3.1.2. Funcionalidades de la minería de datos ........................................................................ - 12 -

4. MÉTODO PARA LA INTERPRETACIÓN DE LA MINERÍA DE DATOS .................................................. - 16 -

4.1. Minería de Datos Utilizando Información Histórica .............................................................. - 16 -

Modelos estadísticos .................................................................................................................... - 16 -

EPR ................................................................................................................................................ - 19 -

RankBoost.B .................................................................................................................................. - 22 -

ZINHPP .......................................................................................................................................... - 25 -

Algoritmo A-Priori y Minería de Episodios .................................................................................... - 27 -

Índice de Condición Técnica .......................................................................................................... - 28 -

Conclusiones ................................................................................................................................. - 29 -

4.2. Minería de Datos Utilizando Información en Tiempo Real .................................................... - 30 -

SCADA ........................................................................................................................................... - 33 -

Tipo de Sensores ........................................................................................................................... - 35 -

PipeNET ......................................................................................................................................... - 39 -

WaterWise .................................................................................................................................... - 44 -

Page 4: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

ii

SmartPipes .................................................................................................................................... - 50 -

iWidget ......................................................................................................................................... - 55 -

InfraSense ..................................................................................................................................... - 60 -

Head Loss Ratio ............................................................................................................................. - 62 -

PCA + ARMA .................................................................................................................................. - 64 -

Conclusiones ................................................................................................................................. - 66 -

4.3. Parámetros de Clasificación .................................................................................................. - 67 -

5. CONCLUSIONES Y RECOMENDACIONES ........................................................................................ - 70 -

6. BIBLIOGRAFÍA................................................................................................................................ - 72 -

Índice de Ilustraciones

Ilustración 1.Minería de datos como un paso en el proceso de descubrimiento de conocimiento ...... - 10 -

Ilustración 2. Arquitectura típica de un Sistema de minería de datos .................................................. - 12 -

Ilustración 3. Estructura del Sistema de Predicción .............................................................................. - 24 -

Ilustración 4. Rol del Monitoreo para la Extensión de la Vida de una Tubería y su Reemplazo ............ - 32 -

Ilustración 5. Implementación de la Fusión de los Datos de Diferentes Sensores ................................ - 33 -

Ilustración 6. Disposición General de un Sistema SCADA. ..................................................................... - 35 -

Ilustración 7. Sensor Típico de Corrosión. ............................................................................................. - 36 -

Ilustración 8. Arquitectura del Sistema PipeNET. .................................................................................. - 39 -

Ilustración 9. Instalación del Sistema PipeNET. ..................................................................................... - 41 -

Ilustración 10. Ejemplo del Algoritmo para Detector Cambios en la Presión. ....................................... - 42 -

Ilustración 11. Manifestación de una Fuga por Ondas Acústicas. ......................................................... - 43 -

Ilustración 12. Ubicación de la unidad de procesamiento. ................................................................... - 46 -

Ilustración 13. Instalación del Sistema WaterWise. .............................................................................. - 46 -

Ilustración 14. Esquema del Flujo de Información en WaterWise. ....................................................... - 47 -

Ilustración 15. Ejemplo de la Información Obtenida para un Nodo en una Semana. ............................ - 48 -

Ilustración 16. Ejemplo del Algoritmo para Detector Cambios en la Presión en WaterWise ................ - 48 -

Ilustración 17.Ejemplo Algoritmo de Localización de la Fuga WaterWise. ............................................ - 49 -

Page 5: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

iii

Ilustración 18. Esquema Propuesto para SmartPipes. .......................................................................... - 51 -

Ilustración 19. Esquema de un Nodo Sensor......................................................................................... - 52 -

Ilustración 20. Esquema de la Instalación del Sensor............................................................................ - 52 -

Ilustración 21. Cambios de Presión a Causa de una Fuga. .................................................................... - 54 -

Ilustración 22. Mediciones de los Sensores en el Montaje de Campo. ................................................. - 55 -

Ilustración 23. Imágenes de la Interfaz del Usuario del Sistema iWidget.............................................. - 57 -

Ilustración 24. Arquitectura del Sistema iWidget. ................................................................................ - 58 -

Ilustración 25. Arquitectura del Sistema iWidget. ................................................................................ - 59 -

Ilustración 26. Diagrama del Sistema InfraSense. ................................................................................. - 61 -

Ilustración 27. Patrón del Indicador HLR al Presentarse una Fuga. ...................................................... - 63 -

Ilustración 28. Datos Simplificados Usando PCA. .................................................................................. - 65 -

Ilustración 29. Diagrama de Flujo del Método Propuesto. ................................................................... - 66 -

Page 6: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 1 -

1. INTRODUCCIÓN Y OBJETIVOS

1.1. Introducción

El agua es el recurso de mayor importancia para la existencia humana, pues toda la vida biológica,

así como la mayor parte de los bienes que se consumen dependen de manera directa o indirecta de

éste. Sin embargo, este recurso no siempre se encuentra dónde se necesita, cómo se necesita y con

la calidad mínima aceptable para el uso humano (Grayman, et al., 2014, p. 6).

Debido a lo anterior, el ser humano ha conseguido maneras de superar los inconvenientes

nombrados, con el fin de poder garantizar el acceso de la población a este recurso. En primer lugar,

desde la época de los romanos, se han desarrollado redes de distribución de agua potable, para

asegurar que los habitantes que no viven cerca a fuentes de agua, puedan tener acceso a este

recurso. En segundo lugar, para garantizar la calidad mínima aceptable, se crearon plantas de

tratamiento, donde, después de diversos tratamientos, se garantiza la calidad mínima requerida

para el consumo que realizan los humanos.

De esta manera, las redes de distribución de agua potable se convirtieron en uno de los pilares

básicos de las civilizaciones modernas, al garantizar el acceso al recurso donde se necesita, cuando

se necesita y con la calidad necesaria. Sin embargo, el aumento acelerado de la urbanización ha

generado una carga cada vez mayor en la gestión y administración del recurso del agua (Grayman,

et al., 2014, p. 9). De manera específica, el aumento del uso de la redes, junto con presupuestos

irrisorios para el mantenimiento de éstas, ha generado un detrimento general en la calidad de la

infraestructura y por ende, de la calidad que se puede obtener del recurso.

Según la Sociedad de Ingenieros Civiles de América, ASCE por sus siglas en inglés, en sus reportes

acerca del estado de la infraestructura de América, el agua potable recibe una calificación pobre.

Esto ocurre porque, en general, la infraestructura para la distribución del agua potable está llegando

al final de su vida útil, pues la mayoría de las tuberías tienen más de 100 años de uso. Igualmente,

Page 7: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 2 -

las pérdidas que presentan las tuberías se estiman en siete billones de galones de agua potable al

día (ASCE, 2013).

Esta situación, unida con el aumento constante de la población urbana en el mundo que lleva a

esperar a que en el año 2030 cinco billones de personas vivan en áreas urbanas (United Nations

Population Fund, 2007), genera que la gerencia integral de las redes de distribución de agua potable,

se haya convertido en un tema de gran importancia para garantizar que éstas van a seguir

funcionando y siendo útiles a la sociedad. Entre los diferentes métodos utilizados para garantizar su

funcionamiento, se encuentra la inspección manual e inspección por circuitos cerrados de

televisión.

En los últimos años, se ha empezado a utilizar el acceso y el análisis a la información en tiempo real

que se obtiene de sensores colocados en las redes. Esto con el fin de poder conocer cuál es el estado

de la red física y cuál es el estado del agua, con el fin de maximizar la efectividad del sistema, y

disminuir las fallas que pueden interrumpir el servicio y reducir su calidad. A la vez, al ser en tiempo

real, permite que las compañías de distribución de agua potable reparen o reemplacen rápidamente

tuberías, permite disminuir la probabilidad del rompimiento de otros tubos por la presencia de

variaciones anormales en la presión y permite disminuir el número de clientes con quejas acerca del

estado del servicio, entre otros (Romano, et al., 2014).

En el presente trabajo, se busca realizar una exploración de qué es lo que se está realizando a nivel

mundial en el tema del acceso y análisis de la información en tiempo real en redes de distribución

de agua potable, con el fin de garantizar un buen funcionamiento éstas. Concretamente, se busca

conocer cómo esta información se utiliza para realizar mantenimientos predictivos a las redes, con

el fin de disminuir las fallas en éstas.

Page 8: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 3 -

1.2. Objetivos

1.2.1. Objetivo General

Con este proyecto se busca establecer cuál es el estado del arte del uso de la minería de datos como

herramienta para determinar el mantenimiento predictivo de redes de distribución de agua potable.

1.2.2. Objetivos Específicos

Investigar qué es la minería de datos, cómo se hace y para qué funciona, con el fin conocer

sus usos potenciales en las redes de distribución de agua potable en Colombia.

Determinar la efectividad de la minería de datos como herramienta determinante para la

toma de decisiones de mantenimiento predictivo de redes de distribución de agua potable.

Investigar las últimas tecnologías que han sido desarrolladas para el uso de la minería de

datos como herramienta de mantenimiento en los sistemas de distribución de agua potable.

1.3. Contenido

Como se nombró, en este trabajo se realizará una exploración de qué se está realizando en la

minería de datos aplicada a las RDAP. La organización del trabajo consiste en: en el segundo capítulo

se realiza una revisión de los antecedentes que hay del tema; en el tercer capítulo se continúa con

un marco teórico, donde se exponen los conceptos generales de las RDAP y de la minería de datos.

En el cuarto capítulo, se realiza la investigación de qué datos se obtienen de la redes, y cómo se

analizan, para conocer cuál es el estado de éstas. El último capítulo presenta las principales

conclusiones del trabajo.

Page 9: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 4 -

2. ANTECEDENTES

Una red de distribución de agua potable, en adelante RDAP, “(...) está considerada por todo el

sistema de tuberías desde el tanque de distribución hasta aquellas líneas de las cuales parten las

tomas o conexiones domiciliarias.” (OMS, Cosude, 2005). Actualmente, y desde hace varios siglos,

estas redes se construyen subterráneamente, debido a que éstas “(…) requerían menor cantidad

de material que estructuras en arco, por lo que eran, generalmente, más económicas. También, no

estaban sujetas a efectos del viento y erosiones que podían debilitar las estructuras superficiales.”

(Aicher, 1995, p. 11). Por último, las estructuras subterráneas, al aislar el agua del medio ambiente,

previenen que ésta se contamine y por lo tanto, la calidad disminuya, evitando potenciales

problemas de salud en la población que consume el agua.

Sin embargo, a pesar de las aparentes ventajas de la construcción subterránea de las redes, también

se generan problemas, pues una vez las tuberías son construidas y utilizadas en el tiempo, éstas se

van desgastando y se dificultaba conocer cuál es su estado real. Es decir, por la edad y el uso

continuo de la infraestructura, ésta se va desgastando sin poder conocer en tiempo real cuál es su

estado y qué tan cerca está de la falla. En la práctica, el deterioro de las tuberías puede ser

clasificado en dos categorías: estructural, que genera una disminución de la capacidad de soportar

las solicitaciones a las que la tubería se encuentra sometida; y funcional, que hace referencia a la

degradación de la superficie interna de la tubería, generando una menor capacidad hidráulica y

disminución de la calidad del agua (Berardi, et al., 2008, p. 2). Ambos tipos de deterioro son

igualmente importantes y preocupantes dado que el primero aumenta la probabilidad de falla del

tubo, mientras que la segunda puede generar riesgos en la salud de los usuarios.

Como consecuencia de lo anterior, a través de la historia se han generado diversos métodos con el

fin de conocer si las redes están cercanas a fallar, si es necesario realizar mantenimientos predictivos

y/o correctivos, si es necesario realizar cambios de infraestructura, entre otras consideraciones.

Todo lo anterior se realiza con el fin de evitar la interrupción del servicio, así como los altos costos

sociales y económicos que puede llegar a generar la detención del servicio de agua potable, “(…)

Page 10: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 5 -

como lo son las pérdida de agua y energía, costos de reparación, demoras de tráfico y pérdidas de

producción en fábricas por servicio inadecuado de agua.” (Xu, et al., 2010)

Hasta hace unos años, e incluso hoy en día en algunos países en vía de desarrollo, la decisión de

dónde realizar rehabilitación y/o renovación de tuberías se hace por medio del número de quejas

colocadas por los usuarios del sistema, la variación de diversos indicadores en los puntos de control

de las redes, e incluso la experiencia de los operarios al escuchar los sonidos de las redes. Una vez

tomada la decisión de dónde rehabilitar, el procedimiento se realiza por medio de aperturas de

zanja, o excavaciones que varían de profundidad y propiedades según las características de cada

lugar, siempre considerando que la tubería puede no estar fallando y el procedimiento puede ser

realizado en vano. Por lo tanto, como es de esperarse, este método es costoso en tiempo y en

recursos, debido a que es necesario realizar señalizaciones adecuadas, “(…) desviar el tráfico de las

calles afectadas, demoler y reconstruir los andenes y vías, bloquear negocios y entradas vehiculares

(…)” (Mackenzie, 2003), entre otros, además del riesgo laboral implícito que existe. Por lo tanto, es

posible observar la complejidad técnica y logística de esta opción.

Por otro lado, el incremento de la población de los centros urbanos genera que las compañías de

acueducto y alcantarillado se centren en la construcción de infraestructura y no en el

mantenimiento y rehabilitación de la misma. Es decir que, se centran en ampliar la cobertura, mas

no en garantizar el servicio actual. Esto lleva a que la mayoría de la infraestructura haya cumplido,

o esté cerca de cumplir su vida útil, que se refleja en mayores probabilidades de daño, fugas e

incumplimiento de servicio. Se conoce que en Estados Unidos la mayoría de tubería supera los 100

años de longevidad (ASCE, 2013), mientras que en Bogotá, Colombia, el 38% de las tuberías tiene

entre 80 y 50 años de haber sido construida (Gómez, 2012) . Igualmente, como se observa en la

Gráfica 1, se conoce que el 20% de la infraestructura del acueducto se encuentra en estado crítico,

y el 25% en colapso. También se conoce que, en el año 2012, en Bogotá había más de 8,000

kilómetros de tuberías, a las que al 28% se les debía hacer rehabilitación; pero tan sólo 40 kilómetros

(0%) había recibido algún tipo de tratamiento, ver Gráfica 2.

Page 11: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 6 -

Gráfica 1. Estado de las Tuberías de Distribución de Agua Potable en Bogotá. (Ruíz, 2012)

Gráfica 2. Características de la Red de Acueducto en la Ciudad de Bogotá (Gómez, 2012)

De acuerdo con lo anterior, es un hecho de que a nivel mundial, y específicamente en Bogotá, es

necesario la utilización y aplicación de nuevos métodos, más confiables y efectivos, que permitan

conocer con precisión dónde realizar mantenimiento correctivo de tuberías que han fallado, a la vez

que permiten conocer con anticipación dónde realizar mantenimiento predictivo con el fin de

Estable20%

Medio35%

Crítico20%

Colapsado25%

Longitud Total de laTubería

Longitud de TuberíaRehabilitada

Longitud de Tuberíaque debería habersido rehabilitada

km 8000 40 2000

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

Lon

gitu

d d

e tu

ber

ía (

km)

Page 12: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 7 -

garantizar el funcionamiento continúo y estable de la red, y el ahorro de los costos nombrados

anteriormente.

Por último, investigadores han afirmado que los métodos y las técnicas actuales utilizadas para

analizar redes e identificar lugares de falla, están llegando a sus límites, por lo que es importante

identificar nuevos enfoques que promuevan la administración proactiva de redes de distribución de

agua potable. (Romano, et al., 2014). Esto, unido al hecho que “(…) monitorear la infraestructura se

ha convertido en un tema atractivo para los investigadores en los últimos años. Avances en

electrónica y la disminución en los costos de sensores y componentes eléctricos han convertido en

una realidad el concepto de infraestructuras inteligentes.” (Sadeghioon, et al., 2014), han permitido

que cada vez más empresas de manejo y distribución de agua potable se encuentren interesadas en

instalar y aplicar esta última tecnología, pues analizando de manera adecuada los datos

recolectados, es posible realizar mantenimientos predictivos y correctivos con el fin de evitar la falla

de la red, y por ende la interrupción del servicio. Como afirman los autores “(…) la tendencia de

introducir el concepto de distribución inteligente de agua está permitiendo aumentar la efectividad

operacional y de gestión.” (Kim, et al., 2014).

Page 13: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 8 -

3. MARCO TEÓRICO

3.1. Minería de Datos

3.1.1. Definición

En primer lugar es necesario realizar la distinción entre “Big Data” y minería de datos, pues a pesar

de que son dos conceptos que están estrechamente interconectados, hacen referencia a procesos

diferentes. El primero concierne con “(…) datos de alto volumen, alta complejidad y constante

crecimiento que proviene de múltiples fuentes que son autónomas (…)” (Wu, et al., 2014). Como

afirman los autores este término cumple con el teorema HACE, es decir que “Big Data” empieza con

grandes volúmenes de fuentes Heterogéneas y Autónomas con control distribuido y

descentralizado, que busca explorar relaciones Complejas y Evolutivas entre los datos.

El reto con estos datos es poder descubrir conocimiento útil, que pueda ser utilizado en diversos

campos. Por el contrario, el segundo concepto hace referencia a los procesos asociados a detectar

información, patrones, modelos, relaciones, entre otros, de grandes cantidades de datos, con el fin

de poder obtener información de éstos. O, en otras palabras, es el descubrimiento de modelos en

una información dada (Leskovec, et al., 2011), donde los modelos pueden ser estadísticos, de

aprendizaje computacional, de resumen o agrupamiento, entre otros. Por lo tanto, es posible

afirmar que el segundo concepto es la manera de procesar el primero con el fin de encontrar

información. En este trabajo se explica y se hace énfasis en el segundo concepto. A continuación se

hace un recuento de lo qué es la minería de datos, su significado, su contexto y sus aplicaciones.

De acuerdo con Berry, la idea central de la minería de datos consiste en que los datos del pasado

contienen información que puede ser útil en el futuro. Es necesario, entonces, descubrir aquellos

patrones en los datos históricos con el fin de poder predecir información futura. Por lo tanto, los

autores definen la minería de datos como “(…) la exploración y el análisis de grandes cantidades de

datos para descubrir patrones y reglas con significado.” (Berry & Linoff, 2011, p. 7). Minn afirma que

Page 14: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 9 -

la minería de datos “(…) es una nueva tecnología poderosa que hace parte de un proceso para

descubrir información de múltiples pasos, con el fin de extraer patrones y modelos útiles de bases

de datos sin filtros.” (Minns, 2000, p. 1). Kumar define la minería de datos como “(…) una nueva

tecnología que ayuda a extraer información escondida y predictiva (tendencia futuras y

comportamientos) de grandes bases de datos, facilitando que los tomadores de decisiones hagan

decisiones proactivas y basadas en conocimiento.” (Kumar, et al., 2009, p. 1). También, se conoce

que “(…) los datos tienden a ser voluminosos, pero carecen de valor en la medida que no se puede

realizar un uso directo de los mismos, es a través de la información escondida que los datos

adquieren valor y usabilidad (…)” (Kumar, et al., 2009, p. 2). Como se nombró “(…) la minería de

datos es la búsqueda de relaciones y patrones globales que existen en grandes bases de datos pero

están escondidas en una gran cantidad de información. Estas relaciones representan un

conocimiento valioso de la base de datos y, si la base de datos es un fiel espejo, el mundo real está

registrado en los datos.” (Holsheir & Siebes, 1994, p. 2).

Luego de haber definido lo que es la minería de datos, es lógico pensar, y muchos autores lo han

afirmado, que el proceso de minería de datos es un proceso de descubrimiento de conocimiento en

bases de datos, o KDD1 por sus siglas en inglés (Kumar, et al., 2009) (Berry & Linoff, 2011).Otros

autores afirman que es un paso más en la creación de conocimiento y otros afirman que es la

creación de conocimiento. Más allá de la manera cómo se quiera interpretar, en cualquiera de los

casos es posible observar que al final, la minería de datos permite adquirir un conocimiento que no

era conocido previamente y que, además, no era posible observar de manera directa e intuitiva en

la base datos. En la Ilustración 1 se observa cómo funciona el proceso de adquisición de

conocimiento por medio de la minería de datos, donde se muestra como un proceso iterativo de 7

pasos.

1 Knowledge discovery in databases o Knowledge discovery from data

Page 15: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 10 -

Ilustración 1.Minería de datos como un paso en el proceso de descubrimiento de conocimiento Adaptado de (Han & Kamber, 2006, p. 6)

Estos pasos son:

1. Filtración de los datos: busca eliminar ruido y datos inconsistentes.

2. Integración de los datos: en caso de que se utilicen varias bases de datos.

3. Selección de datos: escoge los datos que son relevantes para el objetivo específico y los

toma de la base de datos.

4. Transformación de los datos: los datos se consolidan en formas apropiadas para la minería,

por medio de operaciones como agregación, resumen, entre otras.

5. Minería de Datos: Aplicación de métodos con el fin de extraer patrones de los datos.

6. Evaluación de los patrones: Identifica, con base en medidas previamente establecidas, la

significancia de los patrones encontrados.

Bases de datos

Almacenamiento

de datos

Patrones

Conocimiento

Filtración e

integración

Selección y

transformación

Minería de

datos

Evaluación y

presentación

Page 16: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 11 -

7. Presentación de la información: Los patrones identificados se hacen asequibles a los

tomadores de decisiones, empleando técnicas de visualización de datos y presentación de

conocimientos.

A partir de lo anterior, se han desarrollado métodos para facilitar la interacción entre los datos y los

usuarios de los mismos. En la Ilustración 2 se observa cuál es la arquitectura típica de un sistema de

minería de datos en la actualidad. En la parte inferior del diagrama se tiene una o varias bases de

datos, que proveen información continua y constante al sistema. Es posible utilizar técnicas de

filtración e integración a los datos. Luego se tiene el servidor, que es el encargado de identificar los

datos relevantes, basado en los algoritmos colocados, y en los intereses del usuario final.

Continuando, a la derecha del diagrama se tiene la base de conocimiento, que es utilizada para guiar

la búsqueda o evaluar patrones resultantes de posible interés. La manera como se organiza la

información depende de los intereses del usuario final y de los algoritmos definidos por el mismo.

A continuación, se tiene el motor de minería de datos que consiste en módulos funcionales que

aplican diversos algoritmos con el fin de identificar patrones en los datos. En seguida, se tiene el

módulo de evaluación de los patrones identificados, que permite que el módulo de minería de datos

centre la búsqueda en patrones de interés, por medio del establecimiento de umbrales que filtren

los patrones identificados. Por último se tiene la interfaz del usuario, que es el que permite que los

usuarios se comuniquen con el sistema de minería de datos, permitiendo que el primero especifique

qué está buscando, cómo lo está buscando, cuáles son los umbrales permitidos, entre otros. Así

mismo, permite que el usuario evalúe de manera manual los patrones encontrados, así como que

pueda visualizar los patrones de diferentes formas. (Han & Kamber, 2006)

Page 17: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 12 -

Ilustración 2. Arquitectura típica de un Sistema de minería de datos Adaptado de (Han & Kamber, 2006, p. 8)

3.1.2. Funcionalidades de la minería de datos

Existen varias funcionalidades, o tareas, que puede realizar la minería de datos. Éstas dependen del

tipo de patrones que se quieren encontrar. Sin embargo, por lo general se clasifican en dos

categorías: minería de datos descriptiva y minería de datos predictiva. La primera, como su nombre

lo indica busca describir, o caracterizar, la propiedades generales de una base de datos. Esto,

también se puede definir como minería de datos dirigida, pues se busca encontrar valores de

variables previamente establecidas. La segunda, busca realizar inferencias en los datos con el fin de

realizar predicciones a futuro de una variable que no ha sido tenido en cuenta o que no ha sido

Interfaz del Usuario

Evaluación de Patrones

Motor de Minería de

Datos

Servidor de la Base de

Datos

Base de Conocimiento

Base de Datos

Almacén de Datos

Internet Otros depósitos

de información

Limpieza, Integración y Selección de Datos

Page 18: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 13 -

medida a partir de la información conocida o variables independientes; por esto también es

conocida como minería de datos no dirigida en donde se busca descubrir estructuras de datos sin

considerar variables previamente establecidas. A continuación se enumeran las funcionalidades

más conocidas y utilizadas.

Clasificación: Consiste en examinar las características de nuevos objetos y asignarlos en una

de varias clases definidas previamente (Minns, 2000). Esta tarea se caracteriza porque se

tiene una definición clara y no ambigua de las clases, tal que todos los datos pueden ser

asignados a una de éstas (Berry & Linoff, 2011). La información obtenida se presenta,

generalmente, por medio de gráfico circulares, gráficos de barras, tablas

multidimensionales y reglas de caracterización (Kumar, et al., 2009). Lo anterior se realiza

con el fin de poder predecir en un futuro la clase a la que pertenecería un objeto cuya clase

es desconocida.

Estimación: Está relacionada con valores continuos, y busca conocer un valor desconocido

de una variable continua. Usualmente se utiliza como una tarea de clasificación pero

diferenciada para valores continuos. Es común utilizar modelos estadísticos de regresión,

análisis de supervivencia, entre otros (Berry & Linoff, 2011).

Predicción: Se considera igual que clasificación o estimación, pero los datos se clasifican de

acuerdo con un valor futuro o estimado según el modelo. Por lo tanto, la única manera de

conocer qué tan acertado estuvo el modelo, es necesario esperar para corroborar qué tan

exacta estuvo la predicción (Berry & Linoff, 2011). De este modo, de acuerdo con la precisión

de la predicción, es posible realizar ajustes al modelo con el fin de mejorar el nivel de

predicción del mismo. La razón por la que no se considera como una tarea de clasificación

o estimación, radica en la importancia de considerar las relaciones temporales entre las

variables independientes y las variables dependientes.

Page 19: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 14 -

Patrones frecuentes y análisis de asociación: Busca determinar, como su nombre lo indica,

patrones que se repiten de manera constantes en los datos. Esto permite facilitar análisis

de asociaciones y correlaciones. (Han & Kamber, 2006).

Clustering: Consiste en segmentar poblaciones heterogéneas en un número de grupos más

homogéneos, sin considerar clases definidas previamente. En todos los casos se busca

maximizar la similitud entre objetos de la misma clase y minimizar la similitud entre objetos

de diferentes clases. Entre los algoritmos utilizados se encuentran métodos jerárquicos,

estadísticos, de densidad, entre otros (Kumar, et al., 2009).

Análisis atípicos: Un dato atípico es un dato que es completamente diferente, o

inconsistente, con los datos obtenidos, por lo tanto no puede ser agrupado en clases

definidas o en clústeres. Esto puede ocurrir por errores de medición, o por la variabilidad

inherente de los datos. En la mayoría de los casos este tipo de datos suele ser descartado,

sin embargo, en el tema de interés un dato atípico puede dar más información del estado

del sistemas que los datos típicos. Usualmente, se utilizan pruebas de estadística con el fin

de determinar cuáles datos son considerados atípicos (Han & Kamber, 2006).

Análisis Evolutivo: Describe y modela tendencias en objetos cuyo comportamiento está

cambiando en el tiempo. Se caracteriza porque tiene en cuenta la relación entre los datos

y el tiempo en que estos ocurrieron. Se suele utilizar análisis de series de tiempo, análisis

de datos basado en similitudes y patrones de periodicidad recurrentes (Han & Kamber,

2006, p. 28).

A partir de lo anterior es posible concluir que la minería de datos es la unión de diversas disciplinas

y técnicas, como la estadística, la tecnología de bases de datos, ciencia de la información,

aprendizaje de máquinas, redes neuronales, lógica difusa, entre otros, que busca conocer patrones

en grandes cantidades de datos, con el fin de adquirir conocimiento del mundo real que se

encontraba atrapado en bases de datos. Igualmente, es posible clasificar la minería de datos como

Page 20: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 15 -

minería de datos usando información histórica y minería de datos utilizando información en tiempo

real. Lo primero, hace referencia a minería de datos que se aplica a bases de datos que tienen

información que ha sido almacenada durante un tiempo determinado, mientras que el segundo

hace referencia a la minería de datos que es realizada en tiempo real sobre información que es

adquirida en el momento y que se va sumando de manera paulatina a los análisis realizados. Sin

embargo, ambos buscan encontrar patrones con el fin de adquirir conocimiento en un campo

específico.

Page 21: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 16 -

4. MÉTODO PARA LA INTERPRETACIÓN DE LA MINERÍA DE DATOS

Como se nombró, es posible clasificar la minería de datos en dos grandes grupos, usando

información histórica y usando información en tiempo real. En el presente capítulo se realiza un

recuento de los métodos reportados en la literatura con base en esta división. En primer lugar se

listan los métodos que pueden clasificarse en el primer grupo, y se continúa con los métodos que

clasifican en el segundo. Se termina realizando un resumen de acuerdo con los parámetros utilizados

para la clasificación.

4.1. Minería de Datos Utilizando Información Histórica

De manera general, la minería de datos utilizando información histórica busca conocer de manera

precisa los lugares físicos, o las tuberías, donde una RDAP va a fallar en un futuro, de acuerdo con

un análisis numérico de ciertos datos previos, usualmente los del año inmediatamente anterior. En

otras palabras, por medio del “(…) análisis de datos existentes de las compañías de agua

relacionados con la infraestructura física y con los registros históricos de eventos de falla (…)”

(Berardi, et al., 2008, p. 2) se busca determinar dónde y cuándo va fallar la red en el futuro cercano.

A continuación se listan los métodos más relevantes para este fin.

Modelos estadísticos

Los modelos estadísticos, como su nombre lo indica, utilizan herramientas estadísticas para realizar

el análisis de los datos históricos y lograr hacer predicciones precisas del futuro cercano. Estos

métodos se caracterizan porque proporcionan un medio de análisis que es eficiente en costo y que

permiten utilizar la información histórica para identificar patrones de falla de las tuberías (Xu, et al.,

2010, p. 2). Existen dos tipos de modelos estadísticos, los modelos determinísticos y los modelos

probabilísticos. Los primeros buscan determinar los patrones de falla de manera probabilística, por

medio de modelos de tiempo lineal (Kettler & I.C., 1985) y modelos de tiempo exponencial. Los

segundos buscan determinar la probabilidad de falla de una tubería específica por medio de

Page 22: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 17 -

modelos como árboles de decisión, modelos de Poisson tiempo dependientes, modelos de vida útil

acelerada, entre otros. A pesar de las diferencias de enfoque, todos los modelos basados en

estadística buscan determinar las tasas de falla de las tuberías con una expresión única en la que las

tuberías comparten las mismas variables explicativas (Xu, et al., 2010, p. 2); así mismo asumen que

todas las tuberías con características similares y trabajando en ambientes semejantes

experimentaran los mismos patrones de deterioro y los mismos patrones de falla (Wang, et al.,

2013, p. 2).

A continuación se listan cuatro modelos estadísticos que fueron utilizados para la predicción de las

fallas de tuberías en una gran ciudad de Texas, Estados Unidos, entre el año 2000 y 2005, que se

caracteriza por tener más de cien mil clientes en un área mayor a 40,000 hectáreas; se tienen más

de 1500 kilómetros de tuberías, con un promedio de 22 años. El objetivo era realizar un comparativo

entre estos métodos con el fin de establecer cuál es el mejor modelo predictivo para determinar el

número de fallas en la red para esta ciudad. Los métodos utilizados se presentan a continuación

(Yamijala, et al., 2009).

Modelo de tiempo lineal

Conocido en inglés como time linear ordinary least squares. En este tipo de modelo se asume que

la variable de interés es una función lineal de un set de variables explicativas, o independientes. Los

autores definen una relación lineal del número de fallas por tubería en seis meses en función del

diámetro, de la longitud, del material, del año de instalación, la presión de operación, el uso de suelo

encima de la tubería, la temperatura, la cantidad de agua lluvia en la vecindad de la tubería, el tipo

de suelo alrededor de la tubería, la máxima humedad alrededor de la tubería, la diferencia entre el

máximo y el mínimo de humedad del suelo y, por último, la corrosividad del suelo en los seis meses.

Page 23: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 18 -

Modelos de tiempo exponencial

Conocido en inglés como time exponential ordinary least squares regression. Este tipo de modelos

extiende la regresión lineal a una regresión más compleja y más general, en donde la variable de

interés es función de un vector no lineal de parámetros. Los autores plantean que el número de

fallas por longitud por año depende de manera exponencial del tiempo que ha pasado desde la

última falla y del año de instalación.

GLM

También conocido como modelo lineal generalizado. Se caracteriza porque relaciona la respuesta

media de una distribución condicional de probabilidad con una función de predicción. Es decir, se

asume que las variables independientes son probabilísticas y se pueden relacionar con la variable

dependiente por medio de las covarianzas. Por lo tanto, es posible obtener las probabilidades de

falla en la red.

Logistic GLM

Como su nombre lo indica es un modelo lineal logístico generalizado, que permite predecir la

probabilidad de un resultado discreto a partir de un grupo de variables explicativas que pueden ser

discretas, continúas, dicótomas o una combinación de éstas. El valor de este enfoque consiste en

que, para las empresas de RDAP puede ser más valioso conocer si al menos va a ocurrir una falla en

el sistema, que el número total de fallas que van a ocurrir. Se caracteriza porque la variable

dependiente, que es la probabilidad de falla, tiene una relación no lineal con las variables

independientes que se suele modelar por medio de transformaciones logit.

Ahora bien, a pesar de las diferencias estructurales de estos métodos, todos buscan determinar las

fallas en la red, bien sea por la predicción de las tuberías exactas que van a fallar, o por la

determinación de las probabilidades de falla, con base en la información histórica reciente de la red.

Page 24: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 19 -

Igualmente, todos dependen de la disponibilidad de una gran cantidad de información histórica, que

en muchos casos es difícil de encontrar en compañías de acueductos. Esto, con el fin de obtener

inferencias más sólidas acerca de las predicciones de las fallas. Por esta razón sólo es aconsejable

utilizarlo en aquellas empresas con información histórica de, al menos, cinco años.

Luego de aplicar los diferentes modelos al set de datos, los autores encontraron que el modelo más

robusto para determinar el número de fallas futuras es el de tiempo exponencial. Sin embargo,

ninguno de los modelos presento un ajuste significativo.

A partir de lo anterior, es posible concluir que, a pesar de que los modelos pretenden ser bastante

explicativos, al incluir una gran cantidad de variables que afectan el correcto desarrollo de las

tuberías, en muchos casos es difícil obtener acceso a esa gran cantidad de información. Así mismo,

los modelos mostraron no tener una alta significancia, lo que implica que su capacidad de predecir

las fallas futuras es poca y de baja confiabilidad. Por último, se nombró que la edad promedio de las

tuberías es de 22 años, que es un valor inferior a la edad promedio de las tuberías en Bogotá, lo que

lleva a que este modelo no sea de gran aplicabilidad al contexto específico de Bogotá.

EPR

También conocido como regresión polinómica evolutiva, o evolutionary polynomial regression. Es

un método desarrollado por Giustoli y Savic (Giustoli, et al., 2004) (Giustoli & Savic, 2006) que se

caracteriza por ser un modelo de dos pasos en el que, primero, se debe identificar la estructura del

modelo por medio de un código entero MOGA (algoritmos genéticos multi-objetivo) y, segundo, se

debe realizar la estimación de los parámetros del modelo identificado. De manera más específica,

EPR utiliza algoritmos genéticos para encontrar la estructura de los datos y luego utiliza mínimos

cuadrados para encontrar los parámetros. El algoritmo se caracteriza porque el resultado que arroja

consiste de diversas formulaciones matemáticas. Con el fin de determinar cuál presenta un mejor

ajuste, se suele calcular un coeficiente de determinación. En resumen, el método “(…) incorpora las

Page 25: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 20 -

potentes capacidades de regresión de las técnicas numéricas tradicionales de regresión y la

capacidad superior de búsqueda de la programación genética.” (Xu, et al., 2010, p. 2).

Berardi (Berardi, et al., 2008) utilizó este algoritmo para analizar una base de datos que contenía

un inventario de todas las tuberías y sus fallas de una RDAP en Gran Bretaña. Específicamente, se

tenía información acerca del diámetro, material, longitud, año de instalación, número de

propiedades de las tuberías y el número total de fallas registradas a nivel individual de cada tubería

durante un período de 14 años, entre 1986 y 1999. En la Tabla 1 se resume las características de la

red analizada.

Tabla 1. Características de la Red. (Berardi, et al., 2008, p. 4)

Característica Valores

Año de Instalación de la Tubería Desde 1910 hasta 1999

Diámetro Desde 32 mm hasta 250 mm

Longitud Total de 172,984 m

Propiedades dadas Total de 19,494

Número de tuberías 3,669

Número de fallas 354

A partir de los datos se observa que, como ocurre en la mayoría de RDAP, el número de fallas

corresponde a menos del 10% del número total de tuberías. También se conoce que, varías tuberías

fallaron más de una vez en el mismo período y que no se conoce el tiempo entre fallas en éstas. Con

base en esta información, el autor decidió agrupar las tuberías en clases bajo el supuesto que

tuberías de características similares fallan en forma similar. Por lo tanto, el autor buscó conocer la

predicción de una falla en una tubería, según la clasificación realizada de las tuberías basada en la

edad, el diámetro, la longitud, el número de tuberías y el número de propiedades por clase.

Una vez ejecutado el algoritmo, se obtuvieron 14 modelos con coeficientes de determinación

variando entre 0.550 y 0.859. A partir de los modelos obtenidos se concluye que las fallas dependen

de la edad, el diámetro y la longitud. Adicionalmente, en todos los casos se obtuvo una relación

Page 26: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 21 -

inversa entre el diámetro y el número de fallas, así como una relación directa entre la longitud y el

número de fallas. A pesar de la gran cantidad de modelos obtenidos, no se realizan pruebas para

demostrar la confiabilidad del algoritmo, por lo que no es posible conocer la precisión del mismo. A

la vez, el autor sólo aplicó este método para tuberías con diámetros de hasta 250 mm, por lo que

no se ha probado la efectividad del mismo para RDAP con tuberías de mayor tamaño.

Este algoritmo fue utilizado por unos investigadores chinos (Xu, et al., 2010) en una red en la ciudad

de Beijing. La base de datos utilizada contiene información acerca del diámetro, la longitud, el año

de instalación, el material de la tubería, información espacial, entre otros. A la vez, tenían una base

de datos de 19 años, entre 1987 y el 2005, acerca de las fallas presentadas incluyendo el año de la

falla y el motivo de la misma. Al igual que con Berardi, los autores agruparon la información en clases

según el diámetro de la tubería y el año de instalación. Así mismo, asignaron 16 años de información

de fallas a los grupos anteriormente mencionados, y dejaron 3 años de datos para poder validar los

modelos. Esta información se resume en la Tabla 2. Los autores buscaron encontrar el número de

fallas de las tuberías en función de los diámetros equivalentes, la edad equivalente y la longitud

equivalente.

Tabla 2. Información del Modelo, Caso Beijing. (Xu, et al., 2010, p. 3)

Datos para la construcción del modelo Datos de validación del

modelo Set 1 Set 2

Período de observación Año Instalación-2002 1987-2002 2003-2005

Año de instalación 1987-2002 1901-1986 1901-2005

Diámetro (mm) 75-600 75-600 75-600

Longitud (km) 2028 1270 4194

Fallas 112 256 194

En este caso, se obtuvieron 12 ecuaciones para seleccionar, con coeficientes de determinación

variando entre 0.178 y 0.719. A pesar de los resultados obtenidos, los autores concluyeron que no

llegan a un modelo estadísticamente significativo debido a que el número de fallas registradas no

es significativo en comparación del número total de datos manejados. Contrastando con el estudio

Page 27: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 22 -

realizado por Berardi, se observa que en ambos casos se obtiene una gran cantidad de modelos de

los que es posible seleccionar uno con base en los coeficientes de determinación y el criterio del

investigador. A la vez, en ambos estudios se observa que las variables explicativas son las mismas,

tal que el número de fallas se puede modelar en función del diámetro, edad y longitud de las

tuberías. Sin embargo, en general, se puede observar que en este último estudio se utilizó un set de

datos con tuberías de mayor tamaño, por lo que se demuestra que este algoritmo no está

restringido a tubería de diámetros menores a 250 mm. Sería igualmente deseable que se probara

hasta qué tamaño de diámetros es posible utilizar EPR.

Por último, los autores utilizan la ecuación obtenida con el fin de probar la capacidad de predicción

de futuras fallas en la red. En general, se obtuvo que el modelo sub estima el número total de fallas

que se van a presentar, a pesar de que el nivel de predicción de las fallas estuvo cercano al 80%.

Esto ocurre debido a que, según los autores, no todas las fallas históricas han sido detectadas, lo

que lleva a que, si las fallas registradas han sido subestimadas, también lo estarán las fallas futuras

predichas. Por lo tanto, a medida que se tiene mayor cantidad y calidad de información histórica,

será posible actualizar el modelo y obtener predicciones más precisas. Igualmente, con los

resultados de predicción, las empresas de manejo de RDAP pueden establecer políticas de prioridad

de detección de fallas en tuberías, así como mejorar la eficiencia en la detección de las mismas.

RankBoost.B

En este estudio, los autores (Wang, et al., 2013), proponen formular la tarea de predecir qué

tuberías van a fallar como un problema de categorización. En otras palabras, se crea un sistema que

categoriza las tuberías según su riesgo de falla en el próximo año. Según lo obtenido, las empresas

de servicio público pueden organizar su plan de mantenimiento predictivo para el siguiente año.

El método utilizado consiste en, primer lugar, utilizar el algoritmo que categoriza las tuberías

conocido como RankBoost.B; luego se introduce un indicador de desempeño que mide la precisión

del sistema predictivo. A continuación, se explica cada uno de los pasos a seguir.

Page 28: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 23 -

El algoritmo RankBoost.B, se utiliza para resolver problemas bipartita de categorización. En otras

palabras, el algoritmo crea un modelo robusto de forma iterativa, tal que en cada iteración

encuentra objetos débiles, o de baja significancia, que necesita categorizar; luego actualiza el peso

de cada instancia según el desempeño que fue asignado al anterior objeto. Finalmente, los objetos

débiles se combinan de forma lineal para formar un modelo robusto de categorización. Dicho de

otro modo, el algoritmo asigna un valor a cada tubería, a medida que nueva información se va

analizando, el algoritmo actualiza el valor de la tubería, con el fin de representar el riesgo de falla

de la misma. El resultado final consiste en una puntuación entre 0 y 1 que representa la probabilidad

de falla de la tubería en el siguiente año.

El segundo paso consiste en calcular un indicar de desempeño, que permite conocer cómo se está

comportando el sistema. En este caso se calcula un indicador conocido como el área bajo la curva,

AUC. Valores menores a 0.5 indican que la capacidad de categorizar del modelo se puede mejorar;

un valor de 0.5 indica que el algoritmo tiene igual capacidad de categorización que uno en el que

los valores son asignados de manera aleatoria, y valores mayores a 0.5 indican que el algoritmo es

capaz de discriminar el orden de los datos.

Con base en lo anterior, este algoritmo consta de dos partes, la primera es un algoritmo de

aprendizaje que es alimentado por la información histórica de las tuberías y el status de las mismas

en el año actual; la segunda parte es un sistema de predicción que se alimenta de toda la

información histórica incluido el año actual, tal que es posible obtener cuál va a ser el status de las

tubería en el siguiente año. Esto se observa esquemáticamente en la Ilustración 3. Es posible notar

que la predicción realizada está basada en los datos disponibles al final del año. Dado que cada año

se instalan una mayor cantidad de tuberías, es de esperar que el sistema, cada año, aumente la

información que contiene en sus bases de datos. Igualmente, se espera que cada año la compañía

actualice las bases de datos, con el fin de mejorar la predicción para el siguiente año. Por último,

este sistema de predicción no considera nueva tuberías instaladas en el siguiente año, lo que es

Page 29: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 24 -

razonable dado que no se puede predecir sobre la falla de tuberías que aún no han sido instaladas

(Wang, et al., 2013, p. 4).

Ilustración 3. Estructura del Sistema de Predicción (Wang, et al., 2013, p. 4)

Este método fue aplicado en una empresa de acueducto de una gran ciudad china con más de

500,000 tuberías de agua, sumando casi 6,000 kilómetros de longitud. La base de datos tiene

información recolectada entre los años 1931 y 2011, por lo que se tienen 80 años de datos

históricos. En promedio la edad de las tuberías es de 10 años. Los autores dividieron los atributos

dados por la empresa en tres grupos. El primero incluye características físicas del tubo, como el

diámetro, longitud, material y número de uniones. El segundo grupo contiene características

ambientales y operacionales como la presión, la cantidad de lluvia promedio en la región de la

tubería, el número de veces que se ha excavado cerca del tubo en los últimos 10 años, el tipo de

suelo, la profundidad de la instalación, la exposición, entre otros. El tercer grupo contiene datos

para la identificación del tubo como dónde se encuentra, cuál es la identificación, cuándo fue

instalada, cuándo presentó una falla, entre otros.

En primer lugar se realizó una filtración de los datos, que consistió en eliminar los atributos que

tenían una gran cantidad de valores faltantes o no registrados, como la presión, así como se eliminó

Page 30: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 25 -

aquellos atributos considerados irrelevantes, específicamente se eliminó el departamento al que la

tubería pertenece dentro de la empresa, la región donde se encuentra localizada, el número de

identificación y el número de identificación de cada falla. Luego se dividió el set de datos en dos, la

primera parte para entrenar el algoritmo y la segunda para probarlo.

Luego de correr el algoritmo, se obtuvo que la empresa de acueducto donde se realizó el estudio

hubiese podido prevenir el 50% de las fallas de sus tuberías en el 2011 si hubiesen hecho

mantenimiento predictivo al 6.98% de todas las tuberías al final del año 2010. Por lo tanto, es

recomendable que las empresas que utilicen este algoritmo realicen planes de mantenimiento

predictivo según los resultados obtenidos, con el fin de prevenir mayor cantidad de fallas. Sin

embargo, los autores señalan que sería recomendable incluir información como la temperatura y la

presión de la tubería, datos que no se encontraban disponibles en las bases de datos.

Por último, los autores afirman que la base de datos con la que trabajaron es la base de datos real

más grande que se ha utilizado en la literatura de la predicción de la falla de tuberías. Esto hace que

los resultados y conclusiones presentadas tengan mayor significancia estadística y se demuestre que

el algoritmo tiene mayor capacidad de procesamiento de datos.

ZINHPP

Es el acrónimo de Zero Inflation Non Homogeneous Poisson Process. Los procesos de Poisson no

homogéneos se utilizan para predecir la ocurrencia de una falla en el tiempo, siendo su principal

característica, como su nombre lo indica, la no homogeneidad en el tiempo. Esto permite

representar, de manera adecuada, los mecanismos de deterioro por la edad de las tuberías de agua

por medio de la modelación de la tasa de falla (Economou, et al., 2012, p. 2). En otras palabras, un

modelo NHPP es una distribución de Poisson con una media que varía en el tiempo, tal que el

número total de fallas para cada tubería puede representarse como variables aleatorias que tienen

una distribución de Poisson.

Page 31: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 26 -

Sin embargo, dado que las fallas en las tuberías tienden a ser procesos anómalos en la vida útil de

las tuberías, se presenta una gran cantidad de ceros en las bases de datos. Estadísticamente, la gran

cantidad de ceros representa un problema al momento de realizar cálculos futuros. Por lo tanto, los

autores plantean un modelo ZINHPP que puede considerar una mayor cantidad de ceros que un

proceso no homogéneo de Poisson, por medio de la distribución de mayor probabilidad para las

posibilidades de ninguna falla. Por otro lado, en la mayoría de modelos se asume que tuberías de

similares características, presentan la misma falla. Este modelo permite incorporar la diferencia que

puede existir entre diversas tuberías de características similares, por medio de la consideración de

las diferentes resistencias que las tuberías pueden tener.

Este modelo fue aplicado a dos sets de datos de la vida real. El primero eran 1,349 tuberías que

hacen parte de un sistema de acueducto de América del Norte, que por razones de confidencialidad

no es posible revelar el lugar geográfico exacto. El segundo set de datos consiste de 532 tuberías de

la ciudad de Manukau en Nueva Zelanda. Los datos son presentados en la Tabla 3. Para el caso de

Estados Unidos, todas las tuberías son de hierro fundido, tienen el mismo diámetro y sólo se tiene

como variable independiente la longitud de la tubería. Para el caso de Nueva Zelanda todas las

tuberías son de fibrocemento con longitudes mayores a 5 metros. Se tiene que las variables

independientes son la longitud de la tubería, el diámetro que varía entre 25 mm y 300 mm, la

máxima presión absoluta y el máximo cambio de presiones en un día.

Tabla 3. Datos de Estudio Modelo ZINHPP. (Economou, et al., 2012, p. 3)

Norteamérica Nueva Zelanda

Número de Tuberías 1349 532

Total de fallas 5425 175

Falla más temprana registrada 1962 1990

Falla más tardía registrada 2003 2001

Instalación más temprana 1945 1930

Instalación más tardía 1960 1983

Page 32: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 27 -

Luego de correr el modelo en los dos sets de datos fue posible observar que el modelo presenta

mejora ajuste para los datos de Nueva Zelanda. Esto ocurre debido a que, como era de esperarse,

esta base de datos tiene mayor cantidad de datos que permiten predecir las fallas en un sistema.

Así mismo, el modelo muestra su utilidad al permitir la modelación de grandes cantidades de ceros,

o de gran cantidad de tuberías que no presentan ninguna falla.

A pesar de las bondades que los autores afirman que el modelo tiene, es posible observar que es un

modelo cuya aplicación a bases de datos con grandes cantidades de datos no está demostrada.

Además la cantidad de variables utilizadas para predecir las fallas es mínima en comparación con

otros modelos que han sido presentados. Por lo tanto, no se recomendaría utilizar este algoritmo.

Algoritmo A-Priori y Minería de Episodios

El algoritmo A-Priori busca analizar una colección de datos frecuentes. En otras palabras, su objetivo

es encontrar reglas validadas por indicadores que se encuentren por encima de ciertos niveles de

confianza establecidos. Esto se realiza por medio del cómputo de ítems frecuentes, seguido de la

extracción de reglas de asociación de los mismos (Ferro, et al., 2004, p. 2). El primer paso se puede

calcular por medio de uso de algoritmos de “fuerza bruta”, que cuenta, de forma sencilla, el número

de veces que un ítem se repite. Sin embargo, debido a la alta cantidad de datos, el costo

computacional de este enfoque es muy alto. Por lo tanto, el algoritmo A-Priori busca reducir este

costo, por medio de la propiedad de monotonicidad de los datos analizados, permitiendo así la

reducción del espacio de búsqueda.

Las operaciones realizadas por medios de algoritmos A-Priori se caracterizan porque no tienen un

orden temporal preciso. En los análisis de eventos físicos que ocurren en una RDAP es importante y

necesario conocer el orden temporal. Por lo tanto, la minería de episodios permite incluir la

dependencia temporal en los datos analizados, estableciendo ventanas de tiempo en donde los

datos adquiridos por medio del algoritmo A-Priori son clasificados. Es así que, lo que estos dos

Page 33: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 28 -

algoritmos buscan, es encontrar relaciones de dependencia entre objetos que pertenecen a una red

en el tiempo, por medio de la identificación de ítems frecuentes en el espacio de búsqueda.

Ahora bien, los autores aplican este método en la red de acueducto del área de Nápoles, Italia.

Específicamente, se analizaron cerca de un millón de datos de los tres últimos años con el fin de

identificar las causas de un vaciado repentino de uno de los tanques. Los resultados encontrados

consisten en que es posible calcular el tiempo que se demora en vaciarse un tanque inferior, una

vez un tanque superior ha sido vaciado. A pesar de que este método no permite conocer cuándo y

dónde se va a presentar una falla, si permite establecer las relaciones de dependencia que no son

identificables de manera trivial, tal que se puede conocer cómo va a responder una red ante una

falla y cuáles objetos se van a ver más rápida y seriamente afectados. Además, es posible establecer

la probabilidad de falla de un objeto y, dadas las relaciones previamente establecidas, el tiempo que

la empresa tiene para actuar y reparar la falla antes de que se propague por toda la red.

Índice de Condición Técnica

El índice de Condición Técnica, o TCI, es un número entre 0 y 100 que describe el estado que

presenta un objeto. El máximo valor indica que el objeto tiene las condiciones de diseño, y el mínimo

valor indica un estado de degradación total (Berge, et al., 2013, p. 2). Los autores utilizan este índice

en una estación de bombeo, que la dividen en subsistemas, compuesto por diversos nodos, donde

a cada nodo se le asigna un valor de TCI. Al final, se calcula el valor del TCI de la estación como la

suma ponderada de todos los índices del subsistema. A pesar de que el estudio fue realizado en

una estación de bombeo, el mismo procedimiento puede ser aplicado a las RDAP, dividiendo una

red en DMAs y asignando a cada uno de éstas un TCI.

En el estudio de la bomba, los autores definieron dos variables de seguimiento en cada nodo, los

kilovatios y la temperatura. Por medio del seguimiento, bien sea en tiempo real o de los datos

históricos, se establece el valor del TCI por medio de reglas de asignación. Es decir que, si las

variables independientes están entre ciertos rangos, se asigna un valor del TCI de acuerdo con los

Page 34: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 29 -

criterios establecidos previamente por los expertos. Luego, se establecen acciones a tomar según el

nivel del indicador. En la Tabla 4 se observan los valores establecidos por los autores para el

problema de la bomba. Sin embargo, estos valores pueden cambiar según la importancia del sistema

que se está evaluando y del criterio de los agentes que toman decisiones sobre el sistema en

cuestión.

Tabla 4.Valores y Acciones para el TCI. (Berge, et al., 2013, p. 3)

Valor Acción Color

90-100 No se necesitan más acciones Verde

80-90 Observar la tendencia y evaluar la necesidad de mejoramiento Amarillo

0-80 Necesidad de acción y mejoramiento Rojo

Como se nombró este no es un método que haya sido desarrollado para RDAP. Sin embargo, es

posible observar que su implementación en este tipo de redes no representa un desafío mayor. En

primer lugar es necesario determinar hasta qué punto es posible dividir la red en subsistemas a los

que se les puede realizar seguimiento. Una vez establecidos los nodos, se procede al

establecimiento de variables de seguimiento que pueden ser obtenidos en la red, o en las bases de

datos, como la presión de operación, la temperatura, o la humedad del suelo. Con esto se definen

rangos para establecer el valor de cada TCI. Por último, la ventaja de este método, más allá de su

simplicidad, consiste en que permite asignar la importancia de cada nodo, lo que además de permitir

conocer el estado de cada uno de éstos, por medio de los TCI individuales, permite conocer el estado

de la red en diferentes niveles de agregación, por medio de los TCI agregados, ponderado por lo

pesos asignados. Sin embargo, este no es un método que ha ya sido aplicado a RDAP y que, además,

no está reportado en la literatura, por lo que no es posible conocer su efectividad.

Conclusiones

Los métodos y modelos presentados anteriormente no abarcan toda la literatura que se encuentra

acerca de la minería de datos utilizando información histórica. Sin embargo, se presentaron debido

Page 35: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 30 -

a que se considera que son los métodos más relevantes y de mayor aplicabilidad en el caso

colombiano. A partir de lo encontrado y discutido, es posible observar que estos métodos pueden

dividirse en dos grandes grupos, aquellos que utilizan herramientas estadísticas para predecir

futuras fallas de los sistemas, y aquellos que se basan en herramientas “puras” de la minería de

datos. En el primer grupo entran los modelos estadísticos, EPR, ZINHPP y podría incluirse TCI. En el

segundo grupo entraría el RankBoost.B y el algoritmo A-Priori y de minería de episodios. Ahora

bien, dada la aplicabilidad mostrada por los autores, y por la cantidad de datos que puede manejar

cada uno de estos métodos, se recomendaría explorar la aplicación de EPR y RankBoost.B al caso

colombiano, con el fin de observar la adaptabilidad de los modelos a los datos, y la confiabilidad de

los resultados obtenidos.

4.2. Minería de Datos Utilizando Información en Tiempo Real

Anteriormente se mencionó que la minería de datos en tiempo real hace referencia al análisis y

tratamiento de datos que son adquiridos en tiempo real, y que se van sumando de manera paulatina

a las bases de datos y a los análisis realizados. Esta información en tiempo real es adquirida por

medio de sensores que son colocados en ciertas partes de una red de tuberías, tal que se tiene “(…)

un flujo continuo de datos para tener conocimiento del desempeño de la tubería y su estado de

salud.” (Liu & Kleiner, 2012).

Dado que las tuberías para la distribución de agua potable son subterráneas, es necesario que los

sensores se encuentren bajo tierra. Sin embargo, tener este tipo de sensores, bajo tierra, en

constante funcionamiento y contacto con el suelo, implica grandes retos en la capacidad de

transmitir información, así como en el correcto funcionamiento de los mismos y su respectivo

mantenimiento. “Excavar trincheras para reparar o reemplazar sensores es extremadamente

costoso, por lo tanto los sensores deben tener una vida operacional larga sin ningún tipo de

mantenimiento. Esto significa que los sensores deben ser robustos y consumir una pequeña

cantidad de energía, con el fin de que tengan la vida útil deseada.” (Sadeghioon, et al., 2014, p. 3).

Sin embargo, otros autores afirman que las redes de monitoreo subterráneo ofrecen “(…) muchas

Page 36: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 31 -

ventajas como la ocultación, facilidad de implementación, secuencia temporal de los datos,

confiabilidad, densidad de cobertura, calidad del servicio, etc.” (Van Hieu, et al., 2009, p. 1).

Más allá de las oportunidades y retos que esta tecnología ofrece, lo cierto es que las redes de

sensores inalámbricos subterráneos, UWSN por sus siglas en inglés, han aumentado su usabilidad

en los últimos años, especialmente para el monitoreo y seguimiento de tuberías en general. Por lo

tanto, más allá de su confiabilidad, deben ser estructuras fáciles de instalar en tuberías nuevas y

tuberías existentes, a la vez que deben ser no invasivos con el fin de no interferir en el correcto

funcionamiento de la estructura, así como no deben generar amenazas a la integridad estructural

de la tubería.

Por otro lado, el uso de sensores para el monitoreo continuo de redes es relevante para el concepto

de monitoreo de salud estructural, que se define como “(…) el proceso para implementar una

estrategia de identificación de daño para diversas infraestructuras.” (Liu & Kleiner, 2012, p. 1). Es

decir, es importante para asegurar que la red continuará realizando su labor a pesar de su inminente

envejecimiento y el daño acumulado. En la Ilustración 4 se observa cómo funciona, de manera

general, el monitorio constante de las tuberías, con el fin de determinar cuál es su condición,

conocer cuál es su tasa de deterioro y, a partir de esto, determinar una acción a realizar.

Page 37: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 32 -

Ilustración 4. Rol del Monitoreo para la Extensión de la Vida de una Tubería y su Reemplazo (Liu & Kleiner, 2012, p. 1)

Actualmente existen dos tipos de técnicas, la primera se basa en el uso de un único sensor para el

monitoreo de una red; la segunda en el uso de múltiples sensores con el fin de caracterizar de

manera completa la condición de una tubería y de una red. Esta última representa una mayor

complejidad, dado que se necesita escoger cuáles tipos de sensores utilizar, tal que sean

compatibles entre ellos mismos, a la vez que se necesita un programa que pueda integrar y analizar

los diversos datos recogidos por los sensores. En la Ilustración 5 se observa cómo funciona un

sistema compuesto de múltiples sensores, en dónde se tienen tres niveles de análisis, el nivel del

sensor, el nivel de fusión de datos, donde se validan las señales y se identifican patrones, y el nivel

de decisión, donde los operarios deciden qué acciones tomar de acuerdo con la información

obtenida.

A continuación se nombran los métodos desarrollados en la última década que buscan cumplir con

todo lo anterior, unido con la capacidad de detectar de manera rápida y temprana fallas en las redes

que pueden amenazar con su continuo funcionamiento.

Page 38: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 33 -

Ilustración 5. Implementación de la Fusión de los Datos de Diferentes Sensores (Liu & Kleiner, 2012, p. 5)

SCADA

Un sistema SCADA hace referencia a un sistema de control y adquisición de datos. “Es un sistema

de adquisición de datos basado en computador, diseñado para obtener datos de operaciones de

una colección de sitios en campo geográficamente remotos, y transmitir estos datos por medio de

links de comunicación a uno o más centros de control, para poder visualizar, controlar y reportar.”

(Yoon, et al., 2007, p. 1). En otras palabras es un sistema “(…) diseñado para recolectar información

en campo, transferirla a una central de cómputo, donde un operador la puede visualizar en forma

gráfica o de texto, permitiendo que el operador monitoree o controle todo el sistema desde una

localización central en tiempo real.” (U.S. Department of Commerce, 2006, pp. 2-6). Sin embargo,

Page 39: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 34 -

un sistema SCADA, a pesar de que asiste a los operarios en la operación de una red, no provee una

función de control completa y robusta.

De acuerdo con Ferro, un sistema SCADA provee una gran cantidad de medidas y alarmas en

diferentes parte de una red. Sin embargo, las alarmas transmitidas al centro de control no explican

la causa de la misma, por lo tanto un sistema SCADA no puede basarse únicamente en la adquisición

de datos, es necesario que exista un software que permita el manejo de los datos y de las alarmas,

así como permite identificar y visualizar datos falsos y la investigación de las primeras causas de

porqué se activaron las alarmas (Ferro, et al., 2004, pp. 1-2).

Usualmente, un sistema SCADA está compuesto de un hardware y un software. El hardware típico

está compuesto de sensores, equipos de comunicación, y uno o varios centros de control. El

software busca decirle al sistema cuándo y cómo monitorear, qué rango de parámetros son

aceptables y qué respuesta iniciar cuando los parámetros están por fuera de los rangos establecidos.

En la Ilustración 6 se observan los componentes y la configuración general de un sistema SCADA. A

la izquierda se presenta el centro de control, que recoge y registra la información obtenida de los

sitios de campo, genera un registro visual de la información recolectada y genera acciones de

acuerdo con los eventos detectados. También es responsable de generar alarmas centrales, análisis

de tendencia y reportes de cómo está el sistema. A la derecha de la ilustración se tienen los sensores

de campo, que registran información de manera constante y envían la información a los centros de

control. Por último, en la zona de la mitad de la ilustración se tienen los protocolos de comunicación

entre el centro de control y los centros en el campo. Esta información puede ser transmitida por

líneas telefónica, radio frecuencia, satélites, entre otros.

Page 40: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 35 -

Ilustración 6. Disposición General de un Sistema SCADA. (U.S. Department of Commerce, 2006, pp. 2-7)

A partir de lo anterior, es posible observar que la mayoría de datos adquiridos sobre el

funcionamiento de una red, son recolectados por medio de sistemas SCADA. Sin embargo, los

algoritmos con los que se analiza esta gran cantidad de información en tiempo real todavía siguen

en desarrollo. Los métodos y programas nombrados a continuación, buscan, en la mayoría de los

casos, desarrollar sistemas de apoyo a la decisión, en los que se integra la información obtenida de

los sistemas SCADA con programas computacionales de minería de datos, que filtren y seleccionen

los datos, tal que se puedan identificar patrones del desempeño y funcionamiento de la red, con el

fin de realizar acciones correctivas o preventivas sobre la misma.

Tipo de Sensores

Hasta el momento se ha mencionado que en el campo se utilizan diversos sensores con el fin de

determinar cuál es el estado de la red. Por lo tanto, se va a realizar un recuento de cuáles son los

sensores que se utilizan, para qué se utilizan y cómo se utilizan.

Page 41: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 36 -

Corrosión

Son sensores que miden la tasa de corrosión de una tubería. Funciona por medio de resistencias

eléctricas que miden la cantidad de metal perdido a causa de la corrosión. En otras palabras, un

elemento metálico que se encuentra subterráneo experimentará pérdida de material debido a la

corrosión. Como consecuencia experimentará un cambio, específicamente un aumento en su

resistencia eléctrica. Por lo tanto, a mayor aumento de su resistencia eléctrica con respecto al valor

original o un valor de referencia, mayor habrá sido la corrosión experimentada por un tubo.

En la Ilustración 7 se observa un sensor típico de corrosión. Es recomendable que esté fabricado con

el mismo material de la tubería, con el fin de que las características sean las mismas. También se

recomienda que al momento de colocar el sensor, sea colocado cerca del objeto de interés, tal que

ambos se encuentren a la misma temperatura y así disminuir los posibles errores presentados por

diferencias de temperatura. Como es de esperarse, estos sensores se colocan en sitios específicos

de las tuberías, sin embargo es raro que éstas se corroan de manera uniformes. Por lo tanto, colocar

un único sensor en tuberías de gran longitud no garantiza que se presente una buena representación

de la condición en la que éstas se encuentran.

Ilustración 7. Sensor Típico de Corrosión.

Page 42: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 37 -

Sensores de Emisiones Acústicas

“Las pruebas de emisión acústica se basan en la detección de ondas de sonido generadas dentro del

material (por ejemplo, cuando una grieta se propaga).” (Liu & Kleiner, 2012, p. 2). Estos sensores

se colocan dentro de la tubería o encima de la misma para monitorear la actividad acústica. Las

señales que son obtenidas de las tuberías son comparadas con señales o patrones conocidos de

eventos que han sido registrados previamente. De esta forma, si el patrón coincide con alguno

conocido, es posible conocer cuál es el problema que se está presentando.

Actualmente existen diversos tipos de sensores que se utilizan para este fin. Más allá de cuáles son

los sensores utilizados, existen dos variables generales con los que todos los sensores están

relacionados. La primera es el espaciamiento de los sensores y la segunda la duración del monitoreo.

El espaciamiento es importante dado que determina la precisión de los datos obtenidos, donde a

mayor espaciamiento menor precisión y viceversa. Sin embargo, el espaciamiento óptimo es aquel

que permite que dos sensores capturen el mismo evento acústico y, además, tenga suficiente

información para identificar la fuente del evento. Para el caso del tiempo de monitoreo, a mayor

tiempo de monitoreo mayor representación de la situación de la tubería, pero esto representa un

mayor funcionamiento permanente de los sensores. Por el contrario, a menor tiempo de monitoreo

es posible colocar sensores temporales en las tuberías, tal que estos se puede ir desplazando por la

longitud de la misma.

Sensores de fibra óptica

Actualmente se implementa un sensor de fibra óptica para monitorear la corrosión de las tuberías.

Éste mide los cambios en el grosor de la pared de la tubería por medio del cambio en la deformación

superficial que se presenta por la variación en los estados de esfuerzos. Para poder calcular el

cambio en el grosor de una tubería es necesario colocar tres tipos de sensores. El primero mide la

deformación que es causada por el adelgazamiento de la pared por las variaciones en la presión

interna de la tubería. Los otros dos sensores compensan por la variación operacional que se

Page 43: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 38 -

presenta en la temperatura y la presión de la tubería. En otras palabras, estos últimos buscan

disminuir el error que se puede presentar por los cambios de presión y de temperatura que ocurren

por la operación de la tubería. En algunos casos, la literatura ha reportado que estos sensores

también se utilizan para medir la deflexión de las tuberías por movimientos de tierra.

Sensores de Presión

Para el monitoreo de tuberías, es usual utilizar sensores de presión piezoeléctricos. “Éstos se basan

en el principio de que una presión externa ejercida en cristales piezoeléctricos causan una

deformación elástica, que es convertida a una señal eléctrica.” (Yoon, et al., 2007, p. 85). Por lo

tanto, a mayor variación de las señales eléctricas recibidas, se está presentando mayor variación de

la presión dentro de la tubería.

Estos sensores se caracterizan por su alta precisión, que es del orden del 1%, así de como su rápida

respuesta en el tiempo. También por su facilidad de instalación, uso y su adaptabilidad a la mayoría

de materiales utilizados para las tuberías.

Detectores de resistencia de temperatura

Como su nombre lo indica, es un sensor para detectar la temperatura, que funciona por medio de

los efectos termoeléctricos de ciertos materiales. Este efecto indica que un material presenta un

cambio lineal en su resistencia eléctrica debido a los cambios de temperatura que se encuentran en

ciertos rangos establecidos (Yoon, et al., 2007, p. 87). Este tipo de sensor es ampliamente utilizado

por su sencillez, facilidad de aplicación y capacidad de obtención de medida precisas bajo

condiciones normales de operación. Además presenta gran estabilidad y repetitividad.

Se nombraron los sensores más utilizados para el monitoreo de redes de tuberías. Esto no implica

que los sensores nombrados sean los únicos que existen en el mercado, mas si son los sensores que

se suelen utilizar en los métodos que se van a nombrar a continuación. Por último, vale la pena

Page 44: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 39 -

resaltar que en muchos casos, cada empresa manda a fabricar sus sensores de acuerdo con sus

propias necesidades.

PipeNET

El sistema PipeNET, que fue instalado y probado durante 22 meses en la ciudad de Boston, está

basado en una red de sensores con conexión inalámbrica, cuyo objetivo es el de “(…) detectar,

localizar y cuantificar las explosiones, fugas y otras anomalías en tuberías de agua como bloqueos o

válvulas de control que están mal funcionando.” (Stoianov, et al., 2009, p. 1). También se puede

utilizar para monitorear la calidad del agua en sistemas de distribución de agua potable y monitorear

los niveles de agua en alcantarillados. Todo lo anterior lo permite debido a que soporta el análisis y

recolección de grandes cantidades de datos recolectados de múltiples lugares geográficos.

En la Ilustración 8 se muestra la arquitectura general del sistema. Está compuesto por tres tipos de

sensores, sensores piezoeléctricos para medir la presión y la velocidad de flujo de una tubería,

medidas que permiten detectar grandes fugas y explosiones; sensores de emisiones acústicas para

detectar pequeñas fugas, que pueden ser las precursoras de explosiones catastróficas; y sensores

genéricos que permiten monitorear la calidad del fluido que se está transportando.

Ilustración 8. Arquitectura del Sistema PipeNET. (Liu & Kleiner, 2012, p. 4)

Page 45: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 40 -

Este proyecto fue financiado por instituto de Cambridge-MIT y fue desarrollado en dos fases. La

primera consistió en evaluar los componentes críticos del sistema por medio de la instalación del

montaje en una infraestructura real. Es decir que se realizó el montaje en la infraestructura existente

de la ciudad de Boston, por medio de la realización de unas pruebas de instalación de los sensores

en escala pequeña. Específicamente se instalaron los sensores en tres nodos de la red, con el fin de

conocer la durabilidad de los sensores, la confiabilidad del protocolo de comunicación bajo

condiciones de operación normal y conocer la facilidad de instalación, mantenimiento y costo

asociado a cada montaje. La segunda fase consistió en realizar una serie de algoritmos para detectar

y localizar la posición exacta de la fuga, que fueron probados en un laboratorio. Luego de haber

ensayado lo anterior, se procedió a validar en el laboratorio la capacidad de capturar y transmitir

grandes cantidades de datos en tiempo real, así como el alcance de las técnicas de análisis de datos.

Para la parte de la instalación en la infraestructura existente, como se nombró, se utilizaron tres

tipos de sensores. Los sensores de presión recolectaban información en intervalos de 5 minutos,

por un período de 10 segundos, con una tasa de captación de información de 100 muestras por

segundo. Es decir, que en el período de medición se obtenía en cada sensor un total de 1,000 datos.

También se utilizaron sensores ultrasónicos para corroborar las mediciones de presión. Dado el alto

consumo energético de estos sensores, sólo se utilizaban cuando las mediciones de presión

excedían un umbral definido. Acerca de la utilización de los otros sensores no se da ninguna

información. Por último, la tasa de envío de datos era de 600 muestras por segundo. Sin embargo,

no todos los datos eran enviados a la central; el sensor puede calcular medidas estadísticas básicas,

como la media, la desviación estándar y el máximo y mínimo, que luego eran enviados a la central

de control. Así mismo, lo sensores no están comunicados directamente a la central de control; por

medio de conexión Bluetooth se conectan con antenas que se comunican con cajas de control,

conocidas como Stargates, colocadas en postes cercanos, que vía GPRS, la misma red de los

celulares, envían la información a la central de control. En la Ilustración 9 se puede observar cómo

es la instalación de uno de estos sensores.

Page 46: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 41 -

Ilustración 9. Instalación del Sistema PipeNET. (Stoianov, et al., 2009, p. 2)

Después de haber instalado y probado el sistema, se encontró que, en primer lugar, es necesario

que los sensores no funcionen con baterías comerciales, pues debido a su baja durabilidad se

presentaron grandes intervalos de tiempo en los que no se tuvo información dado que no fue

posible ir a realizar el cambio de baterías. En segundo lugar, se presentaron problemas para separar

los datos que eran recolectados y los que debían ser enviados. Esto ocurrió por la gran cantidad de

datos manejados, unido con la baja capacidad de almacenamiento interno de los sensores, así como

por el hecho de que la recolección de datos y el envío de los mismos eran tareas realizadas en el

mismo sitio interno del sensor.

Ahora bien, luego de haber expuesto el funcionamiento físico del sistema, se procede a exponer los

algoritmos desarrollados por los autores con el fin de poder detectar pequeñas y grandes fugas. Es

necesario recordar que estos algoritmos sólo fueron probados en el laboratorio. Se desarrolló un

algoritmo para el análisis de los datos de presión, conociendo que grandes fugas generan caídas en

la presión del sistema. Por lo tanto, por medio de transformaciones que permiten detectar pulsos

de presión, es posible determinar aquellos cambios de presión que generan los pulsos de mayor

magnitud. Esto se puede observar en la Ilustración 10, donde en la imagen (a) se muestra el montaje

Page 47: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 42 -

del laboratorio, en la imagen (b) se muestran los datos recogidos por los sensores, donde el color

rojo representa el sensor más cercano a la falla, y el color verde el sensor más lejano, en la imagen

(c) se muestra las transformaciones realizadas, tal que a más cercano a 1 sea el valor de la

transformada mayor es la caída en presión, y a más cercano a -1 mayor es el aumento en la presión.

Ilustración 10. Ejemplo del Algoritmo para Detector Cambios en la Presión. (Stoianov, et al., 2009, p. 5)

Es posible observar que con este algoritmo se puede identificar el sensor más cercano a donde

ocurre la fuga, a la vez que es posible conocer qué tan grande es la fuga. Sin embargo, para poder

llevar a cabo el mismo fue necesario que toda la información fuese transmitida a los computadores,

donde luego era almacenada y procesada. Se espera que, en un futuro, el análisis pueda ser

Page 48: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 43 -

realizado en los sensores, de tal forma que la cantidad de información que es transmitida y

almacenada en los computadores sea disminuida, minimizando los costos operacionales.

Luego, se desarrolló un algoritmo para el análisis de los datos acústicos. Este algoritmo se basa en

el hecho de que en el momento en que se presenta una fuga, se presenta una señal acústica, que

se propaga de manera uniforme en las dos direcciones horizontales, de magnitud relativamente alta

en bandas de frecuencia que son características del material de la tubería. En otras palabras, “(…) si

no se presenta una fuga u otras fuentes de señales auditivas en la tubería, la señal en los diferentes

sensores no debe estar correlacionada. No obstante, si se presenta una fuga, todos los sensores

deberían ‘oírla’, aunque la señal recibida por diferentes sensores estará desplazada en el tiempo

dependiendo de la localización de éstos con respecto a la fuga.” (Stoianov, et al., 2009, p. 6). En la

Ilustración 11 se observa como se ve una fuga en los datos obtenido por un sensor. El algoritmo

debe hallar señales parecidas, o correlacionadas en los otros nodos, con el fin de poder determinar

el lugar de la fuga.

Ilustración 11. Manifestación de una Fuga por Ondas Acústicas. (Stoianov, et al., 2009, p. 6)

Page 49: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 44 -

Analizando el comportamiento de estos algoritmos, a pesar de que no son perfectos, permitieron

detectar una gran cantidad de fugas simuladas en el laboratorio. Adicionalmente, el último

algoritmo sólo detectaba fugas que estuviesen a 30 centímetros de un sensor cuando éstos estaban

separados a máximo 3 metros de distancia. Esto puede ocurrir debido a la escala pequeña de

implementación del experimento. Es decir, que es necesario probar estos algoritmos en la

información enviada por los sensores colocados en la red, con el fin de determinar el alcance y la

confiabilidad de los mismos.

Sin llegar a ser un sistema perfecto, y con mucho camino por delante, PipeNET ha sido uno de las

primeras aproximaciones al desarrollo de un sistema de apoyo de toma de decisiones basado en los

datos obtenidos en campo en tiempo real, y en los análisis realizados con el fin de adquirir

información del estado del sistema. Así mismo, es un sistema de bajo costo de producción,

instalación y mantenimiento que puede ser aplicado en una gran cantidad de materiales. Por lo

tanto, es necesario esperar para conocer el resultado de la tercera fase del estudio, que es la

implementación del software desarrollado en el laboratorio, en la información obtenida de los

sensores colocados en la red.

WaterWise

WaterWise “(…) es un sistema integrado de hardware y software que busca monitorear, analizar y

modelar grandes sistemas urbanos de distribución de agua en tiempo real.” (Allen, et al., 2011, p.

1). Por medio de éste, se busca implementar una red inalámbrica de sensores de bajo costo para

realizar monitoreo online de parámetros hidráulicos y de calidad de la red; aplicar algoritmos de

minería de datos para poder realizar la detección remota de y fugas y roturas; y, por medio de

mediciones en tiempo real de presión y flujo de los sensores, poder asimilar esta información en

modelos hidráulicos que permitan mejorar las estimaciones realizadas de la red.

Page 50: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 45 -

Este proyecto fue realizado en la ciudad de Singapur y fue financiado por una fundación en Singapur

unido con el MIT. Se colocaron 25 sensores en 60 kilómetros cuadrados del centro de la ciudad. La

red en esta área se caracteriza por tener más de 19,000 uniones y más de 20,000 tuberías. La

distancia promedio entre sensores era de un kilómetro. El costo aproximado de realizar el montaje

fue de $500,000 dólares americanos.

Durante el estudio se utilizaron dos tipos de sensores, ambos con la capacidad de recolectar de

forma continua grandes cantidades de datos y transmitirlos, en tiempo real, a los servidores del

proyecto. Adicionalmente, ambos tipos de sensores están en la capacidad de realizar análisis

internos de los datos, en caso de ser necesario. El primer tipo de sensor era la unión de un

transductor de presión, un hidrófono (o sensor acústico) y un caudalímetro. Los primeros dos podían

recoger hasta 2,000 datos por segundo, mientras que el caudalímetro tan sólo recolectaba un dato

por segundo. El segundo sensor utilizado consistía en los mismos anteriores unido con un sensor de

calidad de agua, con una frecuencia de 0.033 datos por segundos. Además se le incluyó una memoria

digital de 2 Gb capaz de almacenar los datos de varios días, en caso de que la comunicación

inalámbrica se viese interrumpida. Todos los datos capturados por los sensores son procesados por

unidades de procesamiento resistentes al agua, como el que se observa en la Ilustración 12 (a).

Adicionalmente, todos los sensores están equipados con un modem USB de tecnología 3G para

poder transmitir por medio de internet y de forma continua los datos recolectados. También tienen

una unidad GPS para coordinar el reloj interno del sensor con la hora universal, permitiendo la

uniformidad y homogeneidad de los datos recolectados.

En cuanto a la instalación física de los sensores, cada nodo estaba conectado a la tubería, como se

muestra en la Ilustración 13. Específicamente los sensores de presión y de acústica, que se observan

en la Ilustración 13 (a) se colocan al lado de la pared de la tubería, mientras que los sensores de

caudal y calidad de agua están conectados con el interior de la tubería (Ilustración 13 (b)).

Adicionalmente, los sensores se comunican por medio de cables eléctricos a la unidad de

Page 51: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 46 -

procesamiento, que se encuentra sobre el suelo, Ilustración 12 (b), y está alimentada por baterías

que se recargan durante el día por medio de energía solar.

(a) Unidad de procesamiento de los sensores

(b) Conexión a la tubería

Ilustración 12. Ubicación de la unidad de procesamiento. (Allen, et al., 2011, p. 5)

(a) Sensor WaterWise

(b) Conexión a la tubería

Ilustración 13. Instalación del Sistema WaterWise. (Allen, et al., 2011, p. 4)

Luego de conocer cómo funcionan los sensores y cómo están instalados, se procede a conocer la

forma en que los datos se analizan. Esto se observa en la Ilustración 14. En primer lugar, los diversos

sensores recogen los datos de las diferentes tuberías, luego se realizan diversos algoritmos de

Page 52: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 47 -

reducción y filtración, con el fin de sólo considerar datos relevantes y no redundantes. Esta

información filtrada es transmitida a los servidores. Estos tres pasos se realizan en cada unidad de

procesamiento de los nodos. Los datos recibidos por el servidor son analizados para obtener las

medidas estadísticas básicas como la media, el mínimo, el máximo y la desviación estándar. Después

de obtener estos valores, los datos son archivados para usos futuros, y los valores son calibrados y

transmitidos a la base de datos para que puedan ser visualizados en la plataforma web del sistema.

Ilustración 14. Esquema del Flujo de Información en WaterWise. (Allen, et al., 2011, p. 6)

El sistema WaterWise se caracteriza porque toda su interfaz al usuario está soportada en la web.

Esto permite que un usuario, desde cualquier lugar del mundo, pueda tener acceso a la visualización

de la información hidráulica y de calidad del agua, a la detección de anomalías y a modelaciones

hidráulicas de la red. Todo lo anterior se obtiene con los valores estadísticos calculados

anteriormente. Además, el usuario puede tener acceso a la información agregada de los diferentes

sensores, así como a la información obtenida de manera individual por cada uno de éstos. Un

ejemplo de la información obtenida en un sensor se muestra en la Ilustración 15, donde se muestran

los registros de presión del nodo sensor para una semana.

Page 53: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 48 -

Ilustración 15. Ejemplo de la Información Obtenida para un Nodo en una Semana. (Allen, et al., 2011, p. 7)

Otro de los objetivos del sistema, como se nombró al inicio, es el de aplicar algoritmos de minería

de datos para poder realizar la detección remota de fugas y roturas. La metodología que los autores

utilizan para detectar una fuga y poder localizarla es la misma que utiliza el sistema PipeNET. La

diferencia radica en que, para este caso, el algoritmo fue probado en una red real de gran tamaño,

y no sólo en el laboratorio como en el caso de Stoianov. En la Ilustración 16 se observa el resultado

del algoritmo, donde, al igual que en el caso anterior, un valor de la transformada cercano a 1 indica

una fuerte caída en la presión del sistema, mientras que un valor cercano a -1 indica un fuerte

aumento en la presión.

Ilustración 16. Ejemplo del Algoritmo para Detector Cambios en la Presión en WaterWise (Allen, et al., 2011, p. 9)

Luego de identificar una fuga, es necesario proceder a localizar dónde se encuentra la misma. Para

esto, los autores utilizan un método similar al de PipeNET. El algoritmo de localización está basado

Page 54: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 49 -

en un procedimiento de búsqueda en gráficas, que determina el lugar físico que presenta un mejor

ajuste a las diferencias relativas de tiempo entre las llegadas de los frentes que simbolizan los

cambios de presión en los diferentes nodos de sensores. En otras palabras, compara las gráficas de

presión de cada nodo, y aquel donde primero se presentó la disminución de presión es el más

cercano a la fuga. De manera similar, el siguiente nodo donde se presentó una disminución es el

siguiente más cercano, y así consecutivamente. De esta manera, es posible ir creando un perímetro

de nodo para localizar la fuga. Un ejemplo, aplicado a 3 nodos se encentra en la Ilustración 17. Para

el futuro, con el fin de mejorar el alcance y la confiabilidad del sistema, se busca experimentar con

la red de sensores, con el fin de analizar fugas de mayor realismo, así como se busca determinar si

existe algún beneficio de utilizar múltiples parámetros para estimar el sitio donde ocurrió la fuga.

Ilustración 17.Ejemplo Algoritmo de Localización de la Fuga WaterWise. (Allen, et al., 2011, p. 9)

Por último, los autores hacen especial énfasis en la confiabilidad de la transmisión de los datos entre

los nodos y el servidor, tal que se pueda garantizar que un alto porcentaje de los datos recogidos

son transmitidos. En la literatura se ha reportado que un 99.99% de los datos recogidos son enviados

de manera satisfactoria (Doherty & Teasdale, 2006, p. 4). En la red reportada se alcanzó una

confiabilidad del 86%. Entre las causas encontradas de la baja confiabilidad se encuentra la pausa

en la actividad de los sensores debido a baterías descargadas, problemas de software y

Page 55: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 50 -

mantenimiento; y pausas en el envío de datos debido a problemas de la red de datos. Esta falta de

datos genera una imprecisión en los datos analizados y, por ende, lleva a la necesidad de realizar

estimaciones que reducen la confiabilidad de los algoritmos aplicados.

La importancia de este sistema radica en que demuestra que es posible realizar la implementación

de redes de sensores inalámbricos en RDAP existentes, sin necesidad de incurrir en altos costos de

operación y reparación. De manera específica, su valor radica en que prueba los algoritmos en las

redes existentes de la ciudad y no en unas cuantas tuberías en un laboratorio. Adicionalmente, no

sólo se preocupa por la precisión de los algoritmos, sino que revisa la confiabilidad y durabilidad de

los datos, logrando así, la construcción de un sistema robusto y confiable. Se espera que, en un

futuro el desarrollo de este sistema esté basado en la implementación de algoritmos de minería de

datos en los nodos de los sensores, que permitan disminuir la cantidad de datos transmitidos, así

como permitan conocer el sitio de las fugas sin necesidad de que los datos sean analizados en el

servidor principal.

SmartPipes

Este proyecto consistió en el diseño, desarrollo y realización de pruebas en una red inteligente de

sensores inalámbricos, para la detección de fugas en tuberías pláticas de transporte de agua, basado

en los cambios indirectos de presión presentados. Se realizaron pruebas en campo y en el

laboratorio, esto último con el fin de validar los resultados y algoritmos obtenidos. Finalmente, este

sistema se caracteriza por hacer hincapié en el uso de sensores de consumo ultra bajo de energía,

con el fin de garantizar una larga vida útil de los mismos, así como una fuerte confiabilidad para la

captura de datos y el envío de los mismos.

La red de sensores propuesta por los autores consiste en una cantidad de sensores colocados en

función del presupuesto y del tamaño de la red. Se caracteriza porque cada nodo sensor está

comunicado con el nodo inmediatamente anterior y el nodo inmediatamente posterior por medio

de radio frecuencia. Para cada 4 o 5 nodos existe un nodo maestro, que también se comunica por

Page 56: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 51 -

medio de radio frecuencia, y tiene la capacidad de conectarse a internet y transmitir la información

que ha recibido de los nodos. Luego, la información que ha sido colocada en internet, puede ser

consultada por cualquier aparato que tenga conexión a la web. Esquemáticamente, lo anterior se

observa en la Ilustración 18.

Ilustración 18. Esquema Propuesto para SmartPipes. (Stoianov, et al., 2009, p. 4)

En la Ilustración 19 se muestra el esquema propuesto para un nodo sensor. Está compuesto por una

unidad micro-controladora, MCU, que es responsable de obtener los datos de las mediciones,

procesar la información, manejar el régimen de energía y enviar la información al transmisor para

que envíe los datos al nodo maestro o a los nodos adyacentes. La unidad de manejo de energía es

la encargada de transformar la energía recibida como voltaje de las baterías, para que pueda ser

utilizable por lo demás elementos. Por último, el acondicionador de señal regula y condiciona las

señales a formato digital, antes de que sean transmitidas al MCU.

Page 57: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 52 -

Ilustración 19. Esquema de un Nodo Sensor. (Stoianov, et al., 2009, p. 4)

En la Ilustración 20 se observa el montaje propuesto para la instalación de los sensores. Es posible

notar que es un sistema no invasivo, pues está colocado sobre la pared externa de la tubería sin

afectar el ambiente interno de la misma. Por lo tanto, el sistema opera basado en el principio de

que cambios en la presión de la tubería generan cambios en el diámetro de la misma. De esta

manera, a medida que el diámetro aumenta, el sensor es forzado a mantener contacto con el clip

colocado. Es así que, el sensor mide la presión interna de la tubería según la magnitud de la fuerza

experimentada entre el sensor y el clip.

Ilustración 20. Esquema de la Instalación del Sensor. (Stoianov, et al., 2009, p. 7)

Los autores también proponen utilizar sensores para detectar las fluctuaciones de la temperatura

en la tubería. La razón por la que se decide monitorear este parámetro consiste en que, según los

MCU

Page 58: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 53 -

autores, una fuga puede no ser registrada por los sensores de presión, pero, “(…) potencialmente

puede cambiar el perfil local de temperatura del suelo, en comparación con las medidas de otros

nodos que se encuentran a mayor distancia de la fuga.” (Sadeghioon, et al., 2014, p. 9).

Adicionalmente, cambios en los flujos pueden generar cambios en la temperatura de la pared de la

tubería en comparación con la temperatura del suelo alrededor.

Como se nombró, se hace especial énfasis en el bajo consumo de energía. Esto se logra manteniendo

en estado de hibernación a los sensores. Por medio de alarmas programadas, se inicializan los

sensores para que capturen y procesen los datos, luego creen paquetes de datos y los envíen a otros

nodos para así, volver a quedar en estado de hibernación. En este estado el componente MCU corta

el suministro de energía a todos los demás componentes, con el fin de minimizar el consumo. Con

base en la teoría de que las condiciones estructurales de la tubería presentan tasas de cambio muy

pequeñas, se determinó que los sensores funcionaran por tres segundos aproximadamente cada 6

horas, lo que permite obtener una vida útil teórica de los sensores de 100 años, si se utilizan dos

baterías de litio AA.

Después de haber diseñado lo sensores, se realizó un montaje de laboratorio y se colocó un nodo

sensor en una tubería de la RDAP. Para el montaje del laboratorio, se simuló una pequeña fuga que

se convirtió en un rompimiento. Los resultados obtenidos se muestran en la Ilustración 21, donde

es posible notar que una fuga se puede identificar como una disminución momentánea y repentina

de la presión del sistema. Al igual que con los sistemas pasados, SmartPipes identifica cuáles fueron

los dos sensores que más pronto identificaron la disminución de la presión, para localizar la fuga

entre estos dos. Sin embargo, este sistema no permite conocer de manera exacta la localización

física de la fuga.

Page 59: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 54 -

Ilustración 21. Cambios de Presión a Causa de una Fuga. (Stoianov, et al., 2009, p. 11)

Para el montaje en campo, por medio del manejo de diversas válvulas se buscó simular fugas en el

sistema de tuberías. Los resultados se muestran en la Ilustración 22. A partir de ésta, es posible

concluir que el sensor propuesto es capaz de registrar de forma fiel los cambios en la presión del

sistema, pues cada una de las disminuciones repentinas de la presión está acorde con una válvula

abierta. Adicionalmente, es posible observar que, cuando la presión disminuye, también lo hace la

temperatura de la tubería. Sin embargo, no es posible determinar un patrón dominante entre la

temperatura del suelo y fugas en el sistema. Por este motivo, la hipótesis que los autores habían

señalado no es válida.

Page 60: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 55 -

Ilustración 22. Mediciones de los Sensores en el Montaje de Campo. (Stoianov, et al., 2009, p. 12)

A partir de los datos presentados, es posible concluir que tanto los sensores de presión como de

temperatura funcionan para determinar si se han presentado fugas en el sistema. Estas fugas se

registran como caídas de temperatura y de presión súbitas y repentinas. Adicionalmente, el uso de

sensores con ultra-bajo consumo de energía representa una ventaja dado que garantiza una larga

vida útil del sistema, así como la confiabilidad del mismo. Sin embargo, este sistema no hace énfasis

en el tipo de algoritmos utilizados, ni desarrolla un algoritmo para establecer la localización exacta

de la fuga. Esto, unido al hecho de que tan sólo fue probado en un punto de una RDAP, genera que

el sistema tenga baja confiabilidad y credibilidad. Tan sólo en la medida que otros investigadores

prueben y validen la metodología aquí propuesta, será recomendable aplicar este sistema a otras

redes.

iWidget

iWidget es un proyecto de la comunidad europea, que cuenta con la participación de 9

organizaciones distribuidas en toda la Unión Europea. Es un proyecto que inició en el año 2012 y

tiene como fecha de finalización el año 2015, por lo que todavía está en desarrollo y la bibliografía

disponibles reducida. Uno de los fines del proyecto consiste en avanzar en el conocimiento y

Page 61: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 56 -

entendimiento de las tecnologías inteligentes de medición, con el fin de alcanzar un manejo

inteligente del recurso y llegar a tener una sociedad inteligente; también se espera “(…) desarrollar

un set de metodologías y herramientas que sean novedosas, robustas y eficientes en costos, que

permitan manejar la demanda urbana de los hogares a través de Europa.” (Savic, 2014)

Entre otras definiciones del proyecto se tiene que “(…) busca encontrar soluciones novedosas

basadas en las tecnologías de información, con el fin de apoyar un manejo integral del agua,

mejorando drásticamente la eficiencia en su uso, disminuyendo el desperdicio por casa y

permitiendo que las empresas de servicios públicos realicen un mejor manejo de la demanda del

recurso.” (iWidget, 2014). En otras palabras, es un proyecto que busca mejorar la eficiencia del uso

del agua, por medio de la implementación de nuevas tecnologías de información y comunicación,

que buscan integrar el manejo del recurso tanto por los usuarios como los proveedores. Todo lo

anterior se realiza para mejorar el entendimiento que tienen los usuarios y los proveedores de los

patrones del uso del agua con el fin de disminuir el uso de este recurso, unido con una disminución

del desperdicio del mismo.

Entre los objetivos específicos del proyecto se encuentra que se quiere manejar y extraer

información relevante de grande cantidades de datos obtenidos de los patrones de consumo de los

usuarios; desarrollar campañas personalizadas de intervención y concientización para inducir los

cambios de comportamientos de los usuarios y de los proveedores; lograr la integración del sistema

iWidget en un sistema de apoyo a la decisión para proveedores y consumidores.

Como es posible notar, este sistema está compuesto por dos módulos, el módulo para los usuarios

del sistema en los hogares, y el módulo para las empresas proveedoras del agua potable. Para el

primer caso, se busca que el sistema analice los patrones de consumo individual de cada hogar. De

esta forma es posible presentar, de manera fácil y entendible, los datos acerca del consumo de un

hogar. Con el fin de mejorar los hábitos del consumo, se espera que el sistema permita comparar el

consumo de un hogar con el consumo de otros usuarios de características similares; comparar el

consumo con perfiles de consumo estándar, como por ejemplo consumidores con factores socio-

Page 62: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 57 -

demográficos similares; comparar el consumo con los usuarios más eficientes; predecir el precio de

la factura del próximo mes, entre otros. Todo lo anterior, para poder dar recomendaciones

personalizadas de cómo mejorar el consumo de agua para poder reducir el desperdicio del recurso.

También se espera que el sistema genere alarmas en caso de que se sospeche que se presenta una

fuga. En la Ilustración 23 es posible observar la interfaz del usuario, donde en la imagen (a) se

muestra las gráficas de consumo a las que un hogar tiene acceso, y en la imagen (b) se muestra

cómo el sistema busca concientizar a los usuarios acerca del uso que le están dando a los recursos,

por medio del uso de caritas felices.

(a)

(b)

Ilustración 23. Imágenes de la Interfaz del Usuario del Sistema iWidget. (Savic, 2014)

En cuanto al módulo para las empresas de servicios públicos, éste consiste en ayudar a predecir la

demanda del sistema y el manejo de la misma. También, permitirá diseñar campañas de

intervención y concientización, por medio del uso de las teorías de cambio de comportamiento de

las ciencias sociales. Se espera, además, optimizar la operación en tiempo real del sistema, en

términos de la eficiencia energética de la distribución del agua, y mejorar la planeación operacional

y el manejo a largo plazo de los activos (Loureiro, et al., 2010, p. 2). Desafortunadamente, para este

módulo no se tienen imágenes disponibles.

Ahora bien, en cuanto a la arquitectura del sistema, en la Ilustración 24 se observa cómo fue

planeada. La idea es que se recolectan datos en los hogares y en la redes de distribución, que luego

Page 63: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 58 -

serán transmitidos a la base de datos del sistema iWidget, en donde, por medio de diversos

algoritmos de minería de datos se podrán conseguir patrones con el fin de dar recomendaciones

para mejorar el consumo de los hogares, y se pueda mejorar las estrategias de operación de las

empresas. Esto último se puede hacer por medio de la presentación de la información a través de

la interfaz gráfica al usuario. De forma más intuitiva, lo anterior se puede observar en la Ilustración

25, donde se observa cómo, después de todo los análisis realizados, se espera tener dos sistemas

de apoyo a la decisión, el primero para los hogares y el segundo para las empresas prestadoras de

los servicios.

Ilustración 24. Arquitectura del Sistema iWidget. Adaptado de (iWIDGET, s.f., p. 7)

Page 64: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 59 -

Ilustración 25. Arquitectura del Sistema iWidget. (Savic, 2014, p. 4)

A pesar de que es un proyecto que todavía está en desarrollo y que todavía no se tienen los

productos finales esperados, es posible observar la envergadura del mismo. No sólo se espera tener

el montaje de un hardware para ambas partes del sistema, también se espera tener un software

especialmente diseñados para las necesidades y requerimientos de cada parte. Así mismo, es

posible observar la significancia de este proyecto, en el que están incluidos más de cinco países de

Europa. Aunque actualmente sólo se están realizando pruebas en campo en Inglaterra, Portugal y

Grecia, si el proyecto logra crear un sistema exitoso, que cumpla con los objetivos planteados al

inicio, se logrará mejorar el consumo y distribución del agua por parte de los usuarios y las empresas

prestadoras del servicio respectivamente.

Page 65: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 60 -

InfraSense

InfraSense es un sistema de “(…) recolección de datos y tecnología de administración que extrae

indicadores estáticos y dinámicos que caracterizan la ocurrencia de inestabilidades hidráulicas y

flujos inestables.” (Hoshkins & Stoianov, 2013, p. 1). Lo anterior se realiza por medio del desarrollo

de algoritmos que, de manera dinámica, establecen umbrales para poder definir eventos anormales.

Este sistema está compuesto de sensores de bajo consumo energético, colocados en hidrantes, que

de manera continua registran la presión del sistema; así como de un sistema de manejo de datos

que permite aplicar los algoritmos desarrollados con el fin de correlacionar y analizar altos

volúmenes de datos que están sincronizados en el tiempo, es decir, que fueron tomados en el mismo

instante de tiempo. Como afirman los autores, el sistema InfraSense es comparable con la caja negra

de un avión, que de manera continua extrae registros del desempeño del sistema, y a la vez, obtiene

indicadores esenciales que describen el comportamiento dinámico del mismo.

En la Ilustración 26 se observa el diagrama del sistema, en donde se muestra cómo funciona. En

primer lugar se tiene una gran cantidad de datos que son registrados por cada uno de los nodos

colocados. Toda la información recolectada es transmitida a una base de datos central, donde es

almacenada durante cuatro meses. A la vez, a los datos se le aplican algoritmos, con el fin de calcular

los indicadores estáticos y dinámicos del sistema, que indican el estado actual de la red. La

combinación de estos indicadores, con información topológica de la red y de las propiedades físicas

de las tuberías, por medio de promedios ponderados, permite obtener un sistema de alerta que

funciona con los colores de un semáforo. Por lo tanto, es posible obtener qué áreas de la red

necesitan intervención con el fin de garantizar el funcionamiento de la misma y reducir el riesgo de

fugas y explosiones.

Page 66: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 61 -

Ilustración 26. Diagrama del Sistema InfraSense. (Hoshkins & Stoianov, 2013, p. 4)

De manera específica, los indicadores estáticos hacen referencia a información acerca de las

características que presentan bajas tasas de cambio en un sitio durante el horario diurno, como por

ejemplo la presión de operación. A estos datos se les calcula el rango intercuartil, el primer y tercer

cuartil, la media, el mínimo y el máximo, con el fin de obtener el resumen de las características de

la red. Los indicadores dinámicos hacen referencia a la identificación y caracterización de eventos

transitorios que pueden generar altas presiones en las tuberías, así como cambios dramáticos en los

caudales transportados. En otras palabras, un evento transitorio es aquel donde “(…) los gradientes

absolutos entre una serie de puntos tiene una baja probabilidad de ocurrencia (…)”, inicia donde

“(…) el gradiente entre datos de puntos cercanos excede un valor contante (…)” y termina cuando

Page 67: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 62 -

“(…) ha pasado un tiempo fijo desde que ocurrió el último gradiente destacable.” (Hoshkins &

Stoianov, 2013, p. 6).

La importancia de este sistema radica en permite conocer el estado de una red por medio del análisis

de mayor cantidad de datos de parámetros analizados y no sólo se basa en análisis de la presión de

la red. Así mismo, al tener mayor cantidad de datos para realizar el análisis, permite tener una visión

más completa del estado de la red. Lo anterior, unido a que, luego de realizar los análisis, a cada

nodo en la red se le asigna un color cada 24 horas, es posible conocer qué nodo(s) de la red están

en riesgo de fallar, y por lo tanto necesitan revisiones predictivas, o, en algunos casos se necesitan

mantenimientos reactivos. Por último, este sistema es utilizado en 3 empresas de acueductos en el

Reino Unido, lo que demuestra su usabilidad y confiabilidad (InfraSense Labs Research, s.f.).

Head Loss Ratio

Este estudio propone un nuevo algoritmo de detección en tiempo real de fugas en RDAP usando,

exclusivamente, mediciones en tiempo real de la presión en el sistema, por medio de un sistema

SCADA colocado en la red. Para esto, proponen el uso de un indicador llamado Relación de Pérdida

de Carga, o Head Loss Ratio, que es la relación entre dos mediciones de presión como indicador de

una fuga, o una explosión, en una red. Más detalladamente, se espera que un HLR permita detectar

el efecto de anomalías locales, como fugas y/o consumos anormales en la redes de distribución.

Este indicador se caracteriza por estar calculado con información de presiones de 3 o 4 nodos, por

lo que se puede interpretar como la relación entre las presiones de dos sectores de la red, y no debe

interpretarse como la relación entre puntos específicos.

Luego de definir el indicador, se procede a desarrollar el algoritmo para detectar fugas usando el

indicador. Este algoritmo consiste en calcular, en un momento dado, los indicadores para cada

tripleta o cuádrupla de sensores previamente identificados. Luego, se grafican los valores obtenidos

para cada uno de los grupos, y se revisa si los valores están contenidos entre unos valores umbrales

previamente definidos. En caso de que si estén contenidos, se procede a repetir el procedimiento

Page 68: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 63 -

para el siguiente instante de tiempo, de lo contrario es posible que exista una fuga en los sectores

analizados y es necesario proceder a intervenir la fuga.

El algoritmo propuesto fue validado por medio de simulaciones en el software EPANET2. Se simuló

una red de 63,088 metros de longitud, con una demanda diaria de 2,630 metros cúbicos por día,

que fue obtenida de una parte de la red de la ciudad de Yokohama, Japón. La utilidad del indicador

se demuestra en que las presiones de la red presentan pequeñas variaciones cuando existe una gran

cantidad de ruido en el ambiente; por el contrario, el indicador presenta grandes divergencias en el

patrón de relaciones en el momento en que ocurre una fuga. Esto se observa en la Ilustración 27

(a), donde se observa como decaen los valores del indicador cuando se presenta una fuga, en

comparación con los valores de presión registrados mostrados en la Ilustración 27 (b).

(a)

(b)

Ilustración 27. Patrón del Indicador HLR al Presentarse una Fuga. (Ishido & Takahashi, 2014, p. 7)

La importancia del método presentado radica en que permite detectar fugas únicamente utilizando

información acerca de las presiones de la red. Sin embargo, todavía no permite conocer en qué lugar

exacto del tramo se presentó la fuga. Así mismo, todavía no ha sido probado en redes reales, por lo

que su usabilidad y confiabilidad no están demostradas.

Hasta el momento, todas las metodologías presentadas consisten en sistemas que buscan crear

programas de apoyo a la decisión que integren de manera satisfactoria la recolección de datos, el

análisis de los mismos y la visualización de los resultados, con el fin de poder tomar decisiones

acerca de la red por parte de las empresas prestadoras del servicio y/o de los hogares. A

Page 69: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 64 -

continuación se nombran algoritmos descritos en la literatura que buscan optimizar el proceso de

recolección y análisis de datos, mas no proveen soluciones integrales para el manejo de RDAP.

PCA + ARMA

En este estudio se plantea un algoritmo que permite mejorar la calidad del monitorio de las redes,

así como prolongar la vida útil de los sensores, por medio de la disminución de la cantidad de datos

transmitidos. Esto se logra por medio de la predicción de cuál va a hacer el comportamiento de los

datos, detectando sólo aquellos eventos considerados importantes y por ende, sólo transmitiendo

datos considerados como relevantes. Para lograr esto se propone el uso de un algoritmo conocido

como Análisis de Componente Principal, PCA por sus siglas en inglés, y un modelo de predicción para

el monitoreo de datos hidráulicos basado en el modelo de series de tiempo ARMA o modelo auto

regresivo de media móvil (Mohamed, et al., 2013, p. 1).

Al momento de instalar una red de sensores inalámbricos, una de las mayores preocupaciones es la

duración de las baterías de los sensores, pues sólo en la medida que los sensores trabajen de forma

continua y constante adquiriendo y transmitiendo datos, se tendrá un sistema confiable y robusto.

Existen diversas maneras de reducir el consumo energético de los sensores, puede ser por la

reducción del número de datos que un sensor toma, o por la reducción de los datos que deben ser

transmitidos a una central de datos. El enfoque del presente estudio consiste en reducir el número

de datos que son recogidos por los sensores, y por ende reducir el número de transmisiones

realizadas.

En primer lugar se utiliza un algoritmo tipo PCA con el fin de reducir la cantidad de datos que son

recogidos y manipulados de manera local en el sensor. Esta herramienta estadística, que se basa en

la alta correlación temporal de los datos recogidos en un día, busca reducir estas correlaciones para

disminuir el uso de recursos energéticos y computacionales del sensor. Por lo tanto, se espera poder

reducir los datos hasta en un 80% sin perder información, logrando simplificar la información

obtenida y la redundancia de los datos. Basicamente, el algoritmo calcula un valor con base en los

Page 70: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 65 -

promedios históricos y recibe una corección de acuerdo con el valor actual recibido, con el fin de

asegurar que el patrón presentado se asemeja al patrón calculado por medio del algoritmo. En la

Ilustración 28 se observa como, los datos calculados por medio del algoritmo, presentan el patrón

de los datos adquiridos, logrando reducir el número de datos sin disminuir la información

presentada.

Ilustración 28. Datos Simplificados Usando PCA. (Mohamed, et al., 2013, p. 4)

Una vez que los datos han sido reducidos, se procede a realizar una predicción del valor futuro del

sensor por medio del método ARMA. Si el valor calculado se encuentra en un rango de error

establecido, este dato no es transmitido pues es redundante y no genera información nueva. Si, por

el contrario, el valor no está en el rango especificado, se considera que se tiene un evento que es

transmitido, y por ende es incluido en los análisis posteriores. En la Ilustración 29 se observa el

diagrama de flujo, en donde se resume la metodología propuesta.

Page 71: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 66 -

Ilustración 29. Diagrama de Flujo del Método Propuesto. (Mohamed, et al., 2013, p. 3)

Conclusiones

Los métodos y sistemas presentados, al igual que con los métodos de minería de datos utilizando

información histórica, no abarcan toda la literatura disponible. No obstante, se presentaron debido

a que se considera que son los sistemas que mayor relevancia han tenido en el estudio de la minería

de datos usando información en tiempo real, que permiten una rápida localización de una fuga, y

que tienen potencial de, en un futuro, predecir qué lugares de la red tienen mayor probabilidad de

presentar una falla, con el fin de realizar mantenimientos predictivos. Adicionalmente, se

seleccionaron debido a que no sólo presentan algoritmos de minería de datos, sino que pretenden

desarrollar sistemas completos y robustos de toma de decisiones como solución al problema de

fugas y explosiones que pueden llegar a generar tanto daño a la empresa prestadora del servicio y

a la comunidad. Con base en lo anterior, es posible observar que todos los sistemas nombrados

están soportados en redes de sensores inalámbricos, y en muchos casos se utilizan sistemas SCADA

Page 72: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 67 -

instalados anteriormente; luego se analizan estos datos con el fin de obtener información acerca

del estado de la red, y según sea el caso, proceder a tomar medidas preventivas o correctivas.

4.3. Parámetros de Clasificación

En el presente subcapítulo, se busca resumir de forma gráfica los métodos presentados

anteriormente según sus características y sus parámetros de análisis.

Page 73: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 68 -

Tabla 5. Resumen Métodos Basados en Información Histórica

Métodos Lugar Características de

la Red Parámetros Resultados

Modelos Lineales

Texas, Estados Unidos

Área de 40mil hectáreas 1,500 km de tuberías Edad Promedio de 22 años

Diámetro Longitud Material Año de Instalación Humedad Temperatura

-Modelos con baja significancia

EPR

Una red de Gran Bretaña

14 años de bases de datos

Año de Instalación Diámetro Longitud # de Propiedades # de Tuberías # de Fallas

-No se realizó una validación de los resultados obtenidos -Fallas sólo dependen de la edad, el diámetro y la longitud de las tuberías

Una red de Beijing, China

19 años de bases de datos

Año de Instalación Diámetro Longitud # de Fallas Período de observación

-Modelo predice el 80% de las fallas del siguiente año -El número de fallas es subestimado

RankBoost.B Gran ciudad de China

Más de 500,000 tuberías 6,000 kilómetros de longitud 80 años de bases de datos Edad promedio de 10 años

Diámetro Longitud # de uniones Material Presión Tipos de suelo Profundidad de la excavación

-Realizado mantenimiento predicativo al 7% de todas las tuberías, se hubiese podido prevenir el 50% de las fallas del siguiente año -Base de datos real más grande utilizada en la literatura

ZINHPP

Ciudad de Norteamérica Manakau, Nueva Zelanda

1,349 tuberías Material hierro fundido 532 tuberías Material fibrocemento

Diámetro Longitud Total de fallas Falla más temprana registrada Falla más tardía registrada Instalación más temprana y más tardía registrada

-Baja significancia -Sólo aplicable a bases de datos y redes pequeñas

A-Priori y Minería de Episodios

Nápoles, Italia 3 años de bases de datos

No registra Establece relaciones de causalidad, no triviales, entre los objetos de una red

TCI Oslo, Noruega No registra No registra

Establece un valor entre 0 y 100 para indicar el estado de la red, según pesos establecidos por el operario.

Page 74: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 69 -

Tabla 6. Resumen Métodos Basados en Información en Tiempo Real

Métodos Lugar Características de

la Red Parámetros Resultados

PipeNET Boston, Estados Unidos

3 Nodos de la Red Presión Datos Acústicos

-Sólo fue probado en 3 nodos de la red -Montaje de laboratorio -Falta establecer si los resultados de laboratorio son aplicables a redes existentes -No permite conocer el lugar exacto de la falla

WaterWise Singapur

25 sensores Área de 25 km2

Más de 19mil uniones Más de 20mil tuberías

Presión Decibeles Caudales

-Interfaz del usuario está soportada en la Web -Permite conocer resultados individuales de nodos y diferentes niveles de agregación de resultados -No permite conocer el lugar exacto de la falla -86% de confiabilidad en la transmisión de datos.

SmartPipes Montaje de laboratorio y un nodo en la red

No reporta

Presión Temperatura de la red Temperatura del Suelo

-Baja confiabilidad y credibilidad -No permite conocer el lugar exacto de la falla

iWidget

Atenas, Grecia Barcelos, Portugal Sur de Inglaterra

No reporta

Patrones de consumo de los hogares

-Sistema de apoyo a la decisión para usuarios y operadores -Sistema de alarma de fugas para los hogares -Campañas de concientización del uso del agua -Operación óptima de la red

InfraSense Nápoles, Italia 3 años de bases de datos

No registra Establece relaciones de causalidad, no triviales, entre los objetos de una red

Head Loss Ratio

Montaje de laboratorio y simulación computacional

63,088 metros de tuberías Demanda de 2,630 m3 por día

Presión

-Baja confiabilidad pues no ha sido probado en redes reales - No permite conocer el lugar exacto de la falla

PCA+ARMA No reporta No reporta Presión

-No se ha probado en redes reales -No permite conocer el lugar exacto de la falla, pero permite estimar tramos con mayor probabilidad de encontrar la fuga

Page 75: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 70 -

5. CONCLUSIONES Y RECOMENDACIONES

En las últimas décadas, las RDAP han ido aumentado de tamaño a medida que en los centros

urbanos aumentan los habitantes. Esto representa un reto para las empresas, debido a que deben

aumentar su infraestructura, mantener en buen estado la existente y, simultáneamente, mantener

una alta calidad en la prestación del servicio. Conociendo que cada vez las tuberías utilizadas tienden

a superar los 50 años de edad, el último punto mencionado parece más difícil de alcanzar. Por este

motivo se ha convertido en un tema crítico el desarrollo de métodos y sistemas que permitan, por

medio de la minería de datos, conocer cuál es el estado actual de la red y en qué partes es necesario

realizar mantenimiento predictivo (o reactivo) con el fin de garantizar el servicio.

En el presente documento se realizó una investigación exhaustiva de cuáles son los métodos que

son utilizan en la actualidad y/o se están desarrollando. Fue posible notar que estos métodos se

pueden diferenciar en dos grupos, aquellos basados en información histórica, que es analizada por

medio de modelos estadísticos o algoritmos de minería de datos, y otros basados en información

obtenida en tiempo real, que es analizada por medio de la minería de datos.

Los primeros métodos tienden a basarse en la información física de las tuberías de la red, como las

longitudes, diámetros, edad, entre otros, así como en datos sobre fechas de falla de tuberías y

espaciamiento entre eventos. Con esta información es posible calcular qué tuberías van a fallar en

el próximo año, o, en su defecto, cuál es la probabilidad de que se presente una falla. Con estos

resultados, las empresas de servicios públicos pueden realizar mantenimiento preventivo a las

redes, para evitar el colapso del servicio y el gasto económico que representa solucionar una falla

de una tubería.

El segundo grupo de métodos tienden a basarse en los datos recolectados por sensores en la red

acerca de la presión, temperatura, acústica, entre otros. Luego de procesar los datos, se busca

determinar en tiempo real, anomalías en la operación de la red, que suelen presentarse por

pequeñas fugas, o por grandes explosiones. Por lo tanto, es posible conocer al instante qué sector

Page 76: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 71 -

de la red está fallando, unido con la causa de la falla, tal que los operadores pueden decidir qué tipo

de intervención realizar en la red. No obstante, ninguno de los métodos presentados logra

identificar de manera exacta el lugar de la fuga, por lo que es necesario desarrollar algoritmos que

permitan realizar lo anterior, para complementar los avances desarrollados. Así mismo, fue posible

observar que este tipo de métodos buscan desarrollar sistemas de apoyo de toma de decisiones,

con el fin de que las empresas de manejo de aguas tengan una herramienta completa y robusta para

el manejo de sus redes, que les permita conocer el estado de éstas, así como optimizar la operación

y funcionamiento de las RDAP.

Al final, sin importar la cantidad de métodos que existen en la literatura, el problema radica en la

selección del algoritmo para aplicar a una red determinada. Lo anterior porque, si bien un algoritmo

ha mostrado ser útil en un ambiente específico, esto no garantiza que se va a presentar el mismo

comportamiento en otro escenario. Como afirma Izquierdo “(…) algunos algoritmos pueden

presentar un mejor desempeño que otros en algunos problemas, y presentar un desempeño peor

en otros problemas. Esto indica que las reglas que rigen el algoritmo aplican mejor a ciertos

problemas que otros (…)”. (Izquierdo, et al., 2013, p. 2).

Por último, de acuerdo con la investigación presentada, se concluye que elegir un método para

utilizarlo en las redes de Colombia, es una tarea difícil, pues como se nombró, el hecho de que el

método haya funcionado para otras redes no implica que lo vaya a hacer en el caso colombiano. Sin

embargo, se recomendaría mezclar un algoritmo basado en información histórica, con uno que

utilice información en tiempo real, debido a que de esta forma las empresas pueden conocer cuáles

son las tuberías que van a fallar, o tienen mayor pobabilidad de hacerlo el próximo año, y por medio

de un seguimiento en tiempo real, pueden conocer cómo se está desempeñando y si es necesario

realizar algún tipo de intevención.

Page 77: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 72 -

6. BIBLIOGRAFÍA

Aicher, P. J., 1995. Guide to the Aqueducts of Ancient Rome. s.l.:Bolchazy-Carducci Publishers.

Alegre, H. & Cabrera, E., n.d. Performance Indicator. [Online]

Available at: http://www.iwawaterwiki.org/xwiki/bin/view/Articles/PerformanceIndicators

Allen, M. et al., 2011. Real-time in-network distribution system monitoring to improve operational

efficiency. Journal AWWA, pp. 63-75.

Anon., n.d. EPR website. [Online]

Available at: http://www.hydroinformatics.it/

ASCE, 2013. Report Card 2009 Grades. [Online]

Available at: http://www.infrastructurereportcard.org/a/#p/drinking-water/overview

Berardi, L., Giustolisi, O., Kapelan, Z. & Savic, D. A., 2008. Development of pipe deterioration models

for water distribution systems using EPR. Journal of Hydroinformatics, Volume 10.2, pp. 113-128.

Berge, S., Lund, B. & Ugarelli, R., 2013. Conditioning Monitoring for Early Failure Detection-

Frognerparken Pumping Station as Case Study, s.l.: s.n.

Berry, M. & Linoff, G., 2011. Data Mining Techniques For Marketing, Sales, and Customer

Relationship Management. 3ra ed. s.l.:John Wiley & Sons, Inc..

Doherty, L. & Teasdale, D., 2006. Towards 100% Reliability in Wireless Monitoring Networks, Malaga,

España: Performance Evaluation of Wireless Ad Hoc, Sensor, and Ubiquitous Networks.

Economou, T., Zoran, K. & Bailey, T., 2012. On the prediction of underground water pipe failures:

zero inflation and pipe specific effect. Hournal of Hydroinformatics, pp. 872-885.

Ferro, A., Giugno, R. & Pulvirenti, A., 2004. Probabilistic Apriori and episode mining technique for

intelligent management of water supply networks. 6th Internationcal Conference on

Hydroinformatics.

Giustoli, O. & Savic, D., 2006. A symbolic data-drien technique based on evolutionary polynomial

regression, s.l.: Journal of Hydroinformatics.

Giustoli, O., Savic, D., Doglioni, A. & Laucelli, D., 2004. Knowledge Discovery by Evolutionary

Polynomial Regression. 6th International Conference on Hydroinformatics.

Gómez, Y., 2012. La red de alcantarillado de Bogotá tiene más de medio siglo. El Tiempo, 8 Agosto.

Page 78: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 73 -

Grayman, W. M., Loucks, D. P. & Saito, L., 2014. Toward a Sustainable Water Future.

Reston(Virginia): EWRI.

Han, J. & Kamber, M., 2006. Data Mining, Concepts and Techniques. s.l.:Elsevir Inc..

Holsheir, M. & Siebes, A., 1994. Data Mining: The search for knowledge in databases, s.l.: Technical

Repoert CS-R9406.

Hoshkins, A. & Stoianov, I., 2013. InfraSense: a distributed system for the continuous analysis of

hydraulic transients, s.l.: 12th International Conference on Computing and Control for the Water

Industry, CCWI2013.

InfraSense Labs Research, n.d. nfraSense TS Technologies: Monitoring and Analysing the Dynamic

Hydraulic Conditions in Water Supply Systems with Severn Trent Water, Essex & Suffolk Water, &

Bristol Water, London: s.n.

Ishido, Y. & Takahashi, S., 2014. A new indicator for real-time leak detection in water distribution

networks: design and simulation validation. 16th Conference on Water Distribution System Analysis,

WDSA.

IWA, 2006. Performance Indicators for Water Supply Services - Second Edition. [Online]

Available at: http://www.iwapublishing.com/template.cfm?name=isbn1843390515

iWidget, 2014. iWidget. [Online]

Available at: http://www.i-widget.eu/images/pdf/iWIDGET-Project-Flyer-low-res-

web_Mar2014.pdf

iWIDGET, n.d. Improved Water efficiency through ICT technologies for integrated supply-Demand

side manaGEmenT, s.l.: s.n.

Izquierdo, J., Montalvo, I., Pérez-García, R. & Campbell, E., 2013. Mining Solutions Spaces for

Decision Making in Water Distribution Systems, s.l.: s.n.

Kettler, A. & I.C., G., 1985. An analysis of pipe breakage in urban water distribution networks, s.l.:

Canadian Journal of Civil Enginering.

Kim, J., Choi, D., Kim, D. & D., L., 2014. Water distribution operation systems based on smart meter

and sensor network. 16th Conference on Water Distribution System Analysis, WDSA.

Kumar, D., Ish, M. & Dhanya, C., 2009. Data mining and its applications for modelling rainfall

extremes. Journal of Hydraulic Engineering, 15(1), pp. 25-50.

Page 79: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 74 -

Leskovec, J., Rajaraman, A. & Ullman, J. D., 2011. Mining of Massive Datasets. s.l.:Cambridge

University Press.

Liu, Z. & Kleiner, Y., 2012. State-of-the-Art Review of Technologies for Pipe Strcutural Health

Monitoring. IEEE Sensors Journals, 12(6), pp. 1987-1993.

Loureiro, D. et al., 2010. Smart metering use cases to increase water and energy efficiency in water

supply systems, London: IWA.

Mackenzie, A., 2003. Viabilidad de las Nuevas Metodologías para la Renovacion y Rehabilitación de

Tuberías en Redes de Acueducto en Colombia, s.l.: s.n.

Minns, A., 2000. Subsymbolic methods for data mining in hydraulic engineering. Journal of

Hydroinformatics, 2(1), pp. 3-14.

Mohamed, M. I. M., Wu, W. & Moniri, M.-., 2013. Data reduction methods for wireless smart sensors

in monitoring water distribution systems, s.l.: 12th International Conference on Computing and

Control for the Water Industry, CCWI2013.

OMS, Cosude, 2005. Guía para el Diseño de REdes de Distribución en Sistemas Rurales de

Abastecimiento de Agua, s.l.: s.n.

Park, S. & Jung, S., 2014. Principal component analysis of water pipe flow data. 16th Conference on

Water Distribution System Analysis, WDSA.

Pérez, R., Cugueró, M., Cugueró, J. & Sanz, G., 2013. Accuracy Assesment of Leak Localisation

Method depending on available measurements, s.l.: s.n.

Petersen, S., Myrhe, B. & Rostum, J., 2013. Wireless instrumentation for the water and wastewater

industry, s.l.: 12th International Conference on Computing and Control for the Water Industry,

CCWI2013.

Rogers, D., 2004. Locating leaks in water networks - What, where and when. 6th Internation

Conference on Hydroinformatics.

Romano, M., Woodward, K. & Kapelan, Z., 2014. Statistical Process Control Techniques for Early

Detection of Pressure Management Valve Failures in Water Distribution Systema, s.l.: Water

Distribution System Analysis .

Ruíz, C. A., 2012. Nuevas Metodologías y Tecnologías para la Renovación y/o Rehabilitación de

Tuberías en Sistemas de Agua Potable, Bogotá: s.n.

Page 80: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 75 -

Sadeghioon, A., Metje, N., Chapman, D. N. & Anthony, C., 2014. SmartPipes: Smart Wireless Sensor

Networks for Leak Detection in Water Pipelines. Journal of Sensor and Actuator Networks.

Sala, D. & Kolakowski, P., 2013. Detection of leaks in a small-scale water distribution network based

on pressure data-experimental verification, s.l.: s.n.

Savic, D., 2014. Improved Water efficiency thorugh ICT technologies for integrated supply-Demand

side manaGemenT - 318272, s.l.: s.n.

Savic, D., 2014. Sistemas Inteligentes de Agua: Desde el diseño optimizado de la operación de estos

sistemas hasta el análisis sensorial. Bogotá, s.n.

Savic, D. et al., 2013. iWIDGET: Integrating smart metering and ICT technologies to improve water

efficiency for utilities and households, s.l.: s.n.

Stoianov, I., Nachman, L. & Madden, S., 2009. PIPENET: A Wireless Sensor Netwrok for Pipeline

Monitoring, s.l.: s.n.

U.S. Department of Commerce, 2006. Guide to Supervisory Control and Data Acquisition (SCADA)

and Industrial Control Systems Security. s.l.:s.n.

United Nations Population Fund, 2007. State of the world population 007, unleashing the potential

of urban growth. [Online]

Available at: http://www.unfpa.org/swp/2007/english/introduction.html

Van Hieu, B. et al., 2009. Wireless Transmission of Acoustic Emission Signals for Real-Time

Monitoring of Leakage in Underground Pipes, s.l.: KSCE Journal of Civil Engineering.

Wang, R. et al., 2013. Pipe Failure Prediction: A Data Mining Method. ICDE Conference, pp. 1208-

1219.

Wu, X., Zhu, X., Wu, G.-Q. & Ding, W., 2014. Data Mining with Big Data. IEEE Transactions on

Knowledge and Data Engineering, January, 26(1), pp. 97-107.

Xu, Q., Chen, Q., Li, W. & Ma, J., 2010. Pipe break prediction based on evolutionary data-driven

methods with brief recorded data. Reliability Engineering and System Safety, 14 June.pp. 942-949.

Yamijala, S., Guikema, S. & Brumbelow, K., 2009. Statistical models for the analysis of water

distribution system pipe break data. Reliability Engineering and System Safety, Issue 94, pp. 282-

293.

Page 81: PROYECTO DE GRADO DE INGENIERÍA CIVIL MINERÍA DE DATOS ...

Universidad de los Andes Departamento de Ingeniería Civil y Ambiental Centro de Investigaciones en Acueductos y Alcantarillados – CIACUA Minería de datos para el mantenimiento predictivo de redes de distribución de agua potable

Manuela Cortés Henao - 76 -

Yoon, M., Warren, C. B. & Adam, S., 2007. Pipeline System Automation and Control. Nueva York:

ASME.