Evaluación de algoritmos de aprendizaje de máquina no ...

Evaluación de algoritmos de aprendizaje de máquina no

supervisados sobre datos climáticos

Juan Sebastián Ramírez Gómez

Universidad Nacional de Colombia

Facultad de Administración, Departamento de Informática y Computación

Manizales, Colombia

2019

Evaluación de algoritmos de aprendizaje de máquina no

supervisados sobre datos climáticos

Evaluation of unsupervised Machine Learning algorithms with climate data

Juan Sebastián Ramírez Gómez

Tesis de investigación presentada como requisito parcial para optar al título de:

Magister en Administración de Sistemas Informáticos

Director (a):

Ph.D. Néstor Darío Duque Méndez

Línea de Investigación:

Minería de datos

Grupo de Investigación:

Grupo de Ambientes Inteligentes Adaptativos - GAIA

Universidad Nacional de Colombia

Facultad de Administración, Departamento de Informática y Computación

Manizales, Colombia

2019

A mi madre, mi luz de vida.

A mi padre, mi apoyo constante.

A mi hermano, mi ejemplo y Ph.D favorito.

A mi esposa, mi incondicional amor.

"And however difficult life may seem, there is always something you can do and succeed at."

Stephen Hawking.

Agradecimientos

Agradezco inmensamente al profesor Néstor Darío Duque Méndez por la tutoría que me

brindó para esta tesis, aportándome absoluto compromiso, rigurosidad y compañerismo en

este largo viaje estudiantil que tuve. Gracias a él pude llevar a cabo este trabajo y a cumplir

mi mayor propósito: Aprender a hacer investigación y a dar los primeros pasos en la

ciencia. Muchas gracias profesor.

Quiero agradecer a la Universidad Nacional de Colombia por acogerme una vez más en

su institución y permitirme formar allí por tercera vez. Todo lo que soy como profesional se

lo debo a esta grandiosa universidad. También agradezco al Grupo de investigación de

Ambientes Inteligentes Adaptativos GAIA por permitirme hacer parte de él y poder

desarrollar mi tesis con todas las herramientas, espacios, recursos y conocimiento que me

brindó a lo largo de este tiempo, al igual que el increíble compañerismo de sus integrantes.

Finalmente, agradezco eternamente a mi familia y esposa, quienes siempre me apoyaron

hasta el último día, me motivaron en los momentos más difíciles y me alimentaron el alma

para no rendirme en el camino. Su persistencia, paciencia y amor me impulsan cada día a

salir adelante. Muchas gracias.

Resumen

Para el uso de datos climáticos los investigadores tienen dificultades al determinar qué

algoritmo de agrupamiento puede ser el de mejor desempeño para el procesamiento y

análisis de un dataset específico. No se cuenta con información clara que permita dar un

acercamiento de qué algoritmo de clustering emplear basados en la cantidad de instancias,

cantidad y tipos de variables y calidad del conjunto de datos (datasets con datos faltantes

y datos atípicos) para obtener un buen desempeño.

En esta investigación se presenta la evaluación de algoritmos de aprendizaje de máquina

no supervisados con K-means, K-medoids y Agrupamiento jerárquico, aplicados a tres

datasets con variables climatológicas (temperatura, precipitación, humedad relativa y

radiación solar), para tres estaciones climáticas ubicadas en el departamento de Caldas,

Colombia, a diferentes alturas sobre el nivel del mar (municipio de Villamaría, la ciudad de

Manizales y el Parque Nacional Natural Los Nevados), los cuales comprenden 430.635

instancias, 530.802 instancias y 248.297 instancias respectivamente. Se definen 5

escenarios de ejecución con 2, 3 y 5 clústeres para cada uno de los dos algoritmos

particionados y 5 escenarios de ejecución para el algoritmo jerárquico, para cada una de

las estaciones climáticas, y adicionando 3 escenarios más (uno para cada algoritmo)

empleando computación paralela, y aplicando para los diversos escenarios una variedad

de tratamientos con diferente cantidad y agrupación de variables y utilizando distancia

euclidiana como medida de distancia; Davis-Bouldin como método de evaluación de

calidad de los clústeres; aplicación de normalización con técnicas como range-

transformation y z-transformation; Definición de número de iteraciones del algoritmo y

reducción de dimensionalidad con Análisis de Componentes Principales. Además, se

evalúa el costo computacional de los algoritmos según las características establecidas

para los escenarios. Esta investigación entrega conclusiones que pueden orientar al

investigador sobre algunas decisiones en análisis de clústeres en datos meteorológicos,

como también para identificar las características más importantes a tener en cuenta al

momento de construir el escenario de mejor desempeño según las necesidades y

requerimientos particulares.

Palabras clave:

Agrupamiento, aprendizaje de máquina, climatología, K-means, K-medoids, aglomerativo.

Abstract

For the use of climate data, researchers have difficulties in determining which clustering

algorithm may be the best performer for the processing and analysis of a specific dataset.

There is no clear information that allows to give an approach about which clustering

algorithm to use based on the quantity of records, quantity and types of variables and

quality of the data set (datasets with missing data and outliers data) to get a good

performance.

In this research we present the evaluation of unsupervised machine learning algorithms

with K-means, K-medoids and Linkage-complete, applied to three datasets with

climatological variables (temperature, rainfall, relative humidity and solar radiation), for

three meteorological stations located in the department of Caldas, Colombia, at different

heights above sea level (municipality of Villamaría, the city of Manizales and Los Nevados

National Park), which include 430,635 records, 530,802 records and 248,297 records

respectively. 5 scenarios are defined for 2, 3 and 5 clusters for each of the two partitioned

algorithms and 5 scenarios for the hierarchical algorithm, for each of the meteorological

stations, and adding 3 more scenarios (one for each algorithm) using parallel computing,

and applying a different quantity and grouping of variables for the different scenarios and

using Euclidean distance as a measure of distance, Davis-Bouldin as a method of quality

evaluation of clusters, application of normalization with techniques such as range-

transformation and z -transformation, definition of number of iterations of the algorithm and

reduction of dimensionality with Principal Components Analysis. In addition, the

computational cost of the algorithms is evaluated according to the characteristics

established for the scenarios. This research provides conclusions that can guide the

researcher about some decisions in clusters analysis in meteorological data, as well as

identify the most important characteristics to take into consideration when constructing the

best performance scenario according to the particular needs and requirements.

Keywords:

Clustering, Machine Learning, Climate, K-means, K-medoids, agglomerative.

CONTENIDO

Introducción .................................................................................................................. 11

Estado del arte ............................................................................................................... 13

1. Marco teórico .......................................................................................................... 15 1.1 Minería de datos y KDD ................................................................................. 15 1.2 Aprendizaje de máquina (Machine Learning) ............................................... 17

1.2.1 Aprendizaje Supervisado ............................................................................ 17 1.2.2 Aprendizaje no Supervisado ....................................................................... 18

1.3 Clustering ....................................................................................................... 18 1.4 Técnicas de agrupamiento ............................................................................ 21

1.4.1 Agrupamiento Jerárquico ........................................................................... 22 1.4.2 Agrupamiento Particionado ........................................................................ 29

1.5 Criterios de distancia para algoritmos de clustering................................... 33 1.6 Medidas de evaluación del clúster ................................................................ 34 1.7 Normalización ................................................................................................. 36 1.8 Reducción de dimensionalidad ..................................................................... 37 1.9 Bodega de datos CDIAC ................................................................................ 37

2. Problema de investigación .................................................................................... 38

3. Objetivos de la investigación ................................................................................ 38 3.1 Objetivo general ............................................................................................. 38 3.2 Objetivos específicos .................................................................................... 39 3.3 Pregunta de investigación ............................................................................. 39

4. Metodología ............................................................................................................ 39 4.1 Características de los escenarios ................................................................. 39

4.1.1 Variables climáticas para utilizar ................................................................ 40 4.1.2 Estaciones climatológicas .......................................................................... 40

4.2 Extracción de datos ....................................................................................... 42 4.3 Criterios de los escenarios ............................................................................ 42

4.3.1 Criterios de conformación de los escenarios ............................................ 42 4.4 Establecimiento de escenarios ..................................................................... 43

4.4.1 K-means ....................................................................................................... 43 4.4.2 K-medoids .................................................................................................... 46 4.4.3 Aglomerativo con el método Linkage-complete ........................................ 48

4.5 Diseño computacional de los escenarios ..................................................... 50 4.5.1 Desarrollo computacional de los escenarios ............................................ 50 4.5.2 Desarrollo de escenarios para computación paralela ............................... 53

4.6 Características del hardware ......................................................................... 55

5. Marco experimental y resultados .......................................................................... 56 5.1 Algoritmo K-means ........................................................................................ 56 5.2 Algoritmo K-medoids ..................................................................................... 83 5.3 Algoritmo Aglomerativo con Linkage-Complete .........................................100 5.4 Computación paralela ...................................................................................109 5.5 Transformada de Fourier de Tiempo Reducido STFT sobre variables ......111

6. Discusión y validación ......................................................................................... 114

10 Evaluación de algoritmos de aprendizaje de máquina no supervisados

sobre datos climáticos

6.1 Discusión....................................................................................................... 114 6.2 Validación con un nuevo dataset................................................................. 121

7. Conclusiones y recomendaciones ..................................................................... 123 7.1 Conclusiones ................................................................................................ 123 7.2 Recomendaciones ........................................................................................ 125

Bibliografía .................................................................................................................. 127

11

Introducción

La meteorología ha sido un área de mucho interés y curiosidad no solamente para la

sociedad en general, sino también para la comunidad científica en particular en aras de

comprender el comportamiento y las condiciones climáticas que se presentan en el planeta

tierra. Las comunidades del mundo han aprovechado los fenómenos climatológicos para

programar cultivos y cosechas en determinados calendarios y obtener alta productividad

de recursos alimenticios según los tiempos de lluvias y sol; saber cuándo habrá fuertes

vientos y precipitaciones para tomar acciones preventivas en temas de desastres

naturales; como también para aprovechar los buenos escenarios climáticos en topografías

complicadas para viajar y transportar con el fin de mover turismo y economía sin mayores

riesgos.

Por lo tanto, basado en este interés de explorar la forma en que los datos se tratan en

meteorología desde las ciencias de la computación, esta investigación abarcará un estudio

de algoritmos de aprendizaje de máquina no supervisados aplicados a datos climáticos,

donde se evaluarán comportamientos de los algoritmos cuando se provee un conjunto de

datos de estaciones climáticas localizadas en diferentes regiones y alturas del

departamento de Caldas, Colombia. El Centro de Datos e Indicadores Ambientales de

Caldas (CDIAC) cuenta con una bodega de datos de más de 35 millones de registros

recopilados por más de 50 años la cual permite mostrar los valores de las variables y el

cálculo de los indicadores orientados a observar y entender fenómenos y comportamientos

a nivel climático y de calidad del aire en Manizales y Caldas. No obstante, esta bodega de

datos no se le ha aprovechado suficientemente para aprendizaje de máquina no

supervisado, buscando patrones entre los datos y situaciones, abriéndose una oportunidad

para el desarrollo de esta investigación, empleando el enfoque propuesto.

La investigación evalúa algoritmos de agrupamiento en el procesamiento de datos

climáticos buscando comportamientos en diferentes escenarios. Para llegar a ello se

deberá determinar y seleccionar los algoritmos de agrupamiento más representativos a

partir del abordaje del estado del arte, establecer diferentes escenarios de trabajo a partir

de un conjunto de datos climáticos, aplicar los algoritmos de agrupamiento seleccionados



en cada uno de los escenarios de trabajo definidos y comparar los resultados obtenidos

entre los diferentes algoritmos de agrupamiento en los escenarios de trabajo, empleando

métricas de evaluación de desempeño y rendimiento.

Este estudio emplea el uso de los tres algoritmos de agrupamiento más representativos

acorde al abordaje del estado del arte, como también se utilizará computación paralela

para la evaluación de algunos escenarios de trabajo en computación paralela. Las métricas

de evaluación de comportamientos se dan a través de valoración de desempeño

empleando índices de evaluación de clústeres y a nivel de rendimiento empleando análisis

de tiempo de procesamiento, consumo de memoria RAM, CPU y disco duro. Por otro lado,

el conjunto de datos climáticos a utilizar lo brinda el Instituto de Estudios Ambientales

(IDEA) de la ciudad de Manizales, cuya bodega de datos es administrada y gestionada por

el grupo de investigación de Ambientes Inteligentes Adaptativos (GAIA) de la Universidad

Nacional de Colombia, del cual el maestrante hace parte.

Como limitantes dentro de la investigación, no se tuvo en cuenta bases de datos ni

registros externos a la bodega de información del Centro de Datos e Indicadores

Ambientales de Caldas (CDIAC) que pudieran contribuir a ampliar y complementar un

desarrollo investigativo de mayores variables para descubrir información y patrones a nivel

más específico dentro de Manizales y Caldas en términos climatológicos y meteorológicos.

Esta investigación, dentro de sus resultados esperados, tiene como fin evaluar y conocer

los comportamientos de los algoritmos de agrupamiento bajo diferentes escenarios de

trabajo específicos por medio del procesamiento de datos climáticos, y ofrecer

conocimiento de interés a los investigadores que trabajan en los campos de la climatología

y machine learning.

Dentro de la metodología se plantearán cuatro etapas de trabajo dentro de la investigación

basadas en los objetivos de la investigación. La primera etapa contempla en determinar y

seleccionar los algoritmos de agrupamiento más representativos a partir del abordaje del

estado del arte llevándose a cabo una serie de actividades como revisión bibliográfica,

extracción de los algoritmos de agrupamiento y posterior selección de tres algoritmos. En

13

la segunda etapa se contempla establecer diferentes escenarios de trabajo a partir de un

conjunto de datos climáticos por medio de actividades como obtención del conjunto de

datos y preparación de los datos climáticos, y creación de dieciocho escenarios de trabajo

para cada uno de los tres algoritmos de agrupamiento seleccionados. En la tercera etapa

se contempla aplicar los algoritmos de agrupamiento seleccionados en cada uno de los

escenarios de trabajo definidos a través de actividades como la construcción de entornos

para procesar los datos y aplicación de los dos algoritmos en cada uno de los seis

escenarios de trabajo definidos para los tres valores de K. Y finalmente, en la cuarta etapa

se contempla comparar los resultados obtenidos entre los diferentes algoritmos de

agrupamiento en los escenarios de trabajo, empleando métricas de evaluación de

desempeño y rendimiento, por medio de actividades como la obtención de los dieciocho

resultados generados por cada algoritmo, agrupación de tres resultados por cada valor de

K en cada algoritmo de agrupamiento, comparación de resultados para cada algoritmo,

extracción de resultados y posterior definición de conclusiones.

El estudio va a permitir que los algoritmos de clustering se implementen en la bodega de

datos del CDIAC y realizar análisis descriptivos para encontrar patrones y similitudes de

agrupación de datos, y las evaluaciones de desempeño. También permitirá aportarle a

futuros proyectos e investigaciones una evaluación entre algoritmos de agrupamiento para

conocer sus comportamientos, como también un horizonte más claro sobre qué algoritmos

de agrupamiento tienen mejor comportamiento en determinados escenarios de trabajo

para el procesamiento de datos climáticos, contribuyendo así a nuevo conocimiento en las

ciencias de la computación y las ciencias ambientales.

Estado del arte

El clima y los escenarios atmosféricos han sido abordados por diversidad de investigadores

para adquirir conocimiento de interés. Se ha empleado información ambiental, climática y

meteorológica en (Arroyo, Herrero, Tricio, & Corchado, 2017; Asadi Zarch, Sivakumar, &

Sharma, 2015; Carro-Calvo, Ordóñez, García-Herrera, & Schnell, 2017; Carvalho, Melo-

Gonçalves, Teixeira, & Rocha, 2016; J. Chen, Song, & Xu, 2015; L. Chen & Jia, 2017;

Falquina & Gallardo, 2017; Kalteh, Hjorth, & Berndtsson, 2008; Sheridan & Lee, 2011;



Wang et al., 2013; Zheng et al., 2017; Zuo, Hua, Dong, & Hao, 2017) y contaminantes

atmosféricos en (Cashman et al., 2016; Gallo, Faccilongo, & La Sala, 2017; Jiang, Ye, Xie,

& Tang, 2017; Meghea, Mihai, Lacatusu, & Iosub, 2012), buscando determinar

comportamientos y patrones dentro del área estudiada, ya sea para predecir situaciones,

relacionar causas y efectos, comprender la formación e impacto de los desastres naturales

y efecto invernadero dentro de una región, al igual que realizar mediciones de la zona para

finalmente proveer mejoras, conclusiones y consideraciones en pro del medio ambiente.

Actualmente, en el análisis de datos climáticos se usan muchos algoritmos para procesar

registros, como lo muestra la tabla 1 que recopila más de 30 estudios que emplearon

algoritmos de clustering para datos climáticos, empleando diversas fuentes de información

y registros, líneas de tiempo y objetivos diferentes.

Tabla 1. Revisión bibliográfica para algoritmos de agrupamiento con datos climáticos.

Clustering Algoritmo empleado Método empleado Datos utilizados

Línea del

tiempo de los

datos

Autores Año

Agrupamiento Jerárquico Aglomerativo Ward. Temperatura y precipitación. 19 años. Falquina et al. 2017

Agrupamiento Jerárquico Aglomerativo Linkage-Complete. Precipitación y evapotranspiración. 49 años. Asadi Zarch et al. 2015

Agrupamiento Jerárquico Aglomerativo No definido. Precipitación. 2 años. Clay et al. 2019

Agrupamiento Jerárquico Aglomerativo Ward. Temperatura, humedad y velocidad del viento. 13 años. Abdul et al. 2018

Agrupamiento Jerárquico Aglomerativo No definido. Temperatura, radiación solar y precipitación. 20 años. Conradt et al. 2016

Agrupamiento Jerárquico AglomerativoLinkage-Average y

Linkage-Complete.

Temperatura, velocidad del viento, radiación solar

y presión atmosférica.6 años. Arroyo et al. 2017

Particionados K-means. N/A Precipitación y temperatura Max y Min. 20 años. Carvalho et al. 2016

Particionados K-means. N/A Temperatura. 25 años. Farah et al. 2019

Particionados K-means. N/A Radiación solar. 1 año. Soubdhan et al. 2014

Particionados K-means. N/ATemperatura, velocidad del viento y humedad

relativa.4 años. Khedairia et al. 2012

Particionados K-means. N/A Precipitación. 14 años. Schneider et al. 2018

Particionados K-means. N/A Temperatura, velocidad y dirección del viento,

precipitación, humedad relativa y radiación solar.

6 años. Franceschi et al. 2018

Particionados K-means. N/A Temperatura y radiación solar. 3 años. Yadav et al. 2015

Particionados K-means. N/A Velocidad del viento. 1 año. Hao et al. 2019

Particionados K-means. N/A Radiación solar. No definido. Han et al. 2019

Particionados K-means. N/A Radiación solar. 2 años. André et al. 2019

Particionados K-means. N/ATemperatura, radiación solar, humedad relativa y

velocidad del viento.2 años. Lin et al. 2018

Particionados K-means. N/A Temperatura y precipitación. 19 años. Falquina et al. 2017

Particionados K-means. N/AImágenes satelitales de observaciones de

precipitaciones.2 años. Mokdad et al. 2017

Particionados K-means. N/A Radiación solar. No definido. Li et al. 2017

Particionados K-means. N/ARadiación solar, temperatura, velocidad y dirección

del viento.2 años. Ghayekhloo et al. 2015

Particionados K-medoids. N/A Temperatura máxima. 63 años. Bador et al. 2015

Particionados K-medoids. N/A Velocidad del viento. 1 año. Hao et al. 2019

Particionados K-medoids. N/A Temperatura, radiación solar y precipitación. 20 años. Conradt et al. 2016

Particionados K-medoids. N/A Temperatura máxima y mínima. 40 años. Pokorná et al. 2018

Particionados K-medoids. N/ATemperatura, velocidad del viento, radiación solar

y presión atmosférica.6 años. Arroyo et al. 2017

Otros Stepwise Cluster Analysis (SCA). N/A Climáticos (temperatura y precipitación). 13 años. Zheng et al. 2017

Otros Stepwise Cluster Analysis (SCA). N/A Climáticos (temperatura y precipitación). 20 años Wang et al. 2013

Otros

STPSS (Space-time Permutation Scan

Statistics). N/A

Forestales y climáticos (temperatura, velocidad del

viento y humedad relativa).30 años. Parente et al. 2016

Otros

SODCC (Second Order Data Coupled

Clustering). N/ATemperatura del aire. 70 años. Chidean et al. 2015

Otros

SODCC (Second Order Data Coupled

Clustering). N/AVelocidad del viento. 35 años. Chidean et al. 2018

15

K-means, K-medoids y Agrupamiento Jerárquico fueron los más empleados por los

autores. No obstante, no se cuenta con orientaciones claras sobre cuál algoritmo y qué

parámetros específicamente aplicar para obtener los mejores resultados con los datos

disponibles.

Autores como Arroyo et al. (2017) abordaron diversos algoritmos de clustering como K-

means y aglomerativo con varios métodos a los cuales les aplicaron datos climáticos con

una serie de métricas para encontrar desempeños, en especial el desempeño

computacional. Khedairia & Khadir (2012) utilizaron herramientas de clustering para ver el

comportamiento de los datos según la cantidad de agrupamientos establecidos.

Franceschi, Cobo, & Figueredo (2018) recomendaron para datos ambientales específicos

algunos modelos de agrupamiento buscando las mejores proyecciones de material

particulado en la región estudiada. Pokorná, Kučerová, & Huth (2018) demostraron con

clustering las técnicas adecuadas para ver las tendencias anuales de temperatura. Mokdad

& Haddad (2017) obtuvieron con algoritmos particionados propuestos las mejores

estimaciones de precipitación en las regiones estudiadas. Conradt, Gornott, & Wechsung

(2016) emplearon clustering para mejorar la reducción de ruido en análisis de parámetros

de radiación solar y temperatura. Otros autores como Ghayekhloo, Ghofrani, Menhaj, &

Azimi (2015) emplearon comparativas entre algoritmos no supervisados utilizando datos

climáticos para encontrar rendimientos superiores en los mismos.

1. Marco teórico

A continuación, se relacionan y precisan algunos conceptos de interés para esta Tesis.

1.1 Minería de datos y KDD

La minería de datos es una prometedora e interdisciplinaria área de estudio compartida

por varios campos entre ellos los sistemas de bases de datos, aprendizaje de máquina,

sistemas de información inteligentes, estadística, almacenes de datos y adquisición de

conocimiento en sistemas expertos (Deogun & Raghavan, 1999). Los algoritmos de

minería de datos son imprescindibles para el descubrimiento de conocimiento (Bramer,

2007). De hecho, la minería de datos y el descubrimiento de conocimiento son

herramientas inteligentes que ayudan a acumular y procesar datos para luego hacer uso

de ellos (Pechenizkiy, Puuronen, & Tsymbal, 2008). No sorprende que la minería de datos,

como un tema realmente interdisciplinario, se pueda definir de muchas maneras diferentes

(J. Han, Kamber, & Pei, 2012). Sin embargo, la minería de datos es un término vivido que



caracteriza el proceso que encuentra un pequeño conjunto de piedras preciosas a partir

de una gran cantidad de materia prima. Además, muchos otros términos tienen un

significado similar a la minería de datos, como, por ejemplo, minería de conocimiento a

partir de datos, extracción de conocimiento, análisis de datos o patrones, arqueología de

datos y dragado de datos.

Por su parte, el descubrimiento de conocimiento en bases de datos (Knowledge Discovery

in Databases or KDD), se ha definido como la extracción no trivial de información implícita,

previamente desconocida y potencialmente útil de los datos, constituyendo un proceso del

cual la minería de datos forma parte (Bramer, 2007). Este concepto (Deogun & Raghavan,

1999), también implica un conjunto de procesos de la minería de datos usados para

extraer y verificar patrones, que, incluyen limpieza de los datos, transformación de

presentaciones, algoritmos, selección de parámetros y evaluación para posterior

interpretación (Pechenizkiy et al., 2008).

Muchas personas tratan la minería de datos como un sinónimo del descubrimiento de

conocimiento, mientras que otros ven la minería de datos como simplemente un paso

esencial en el procesamiento de descubrimiento de conocimiento. Este descubrimiento de

conocimiento se define como una secuencia iterativa dada por los siguientes pasos (J. Han

et al., 2012):

1. Limpieza de datos: Remover ruido y datos inconsistentes.

2. Integración de datos: Donde múltiples orígenes de datos puede ser combinados.

3. Selección de datos: Donde los datos relevantes a la tarea de análisis son recuperados

de la base de datos.

4. Transformación de datos: Donde los datos son transformados y consolidados en

formas apropiadas para la minería al llevar a cabo operaciones de resumen o agregación.

5. Minería de datos: Un proceso esencial donde métodos inteligentes son aplicados a

extraer patrones de datos.

6. Evaluación de patrones: Identificar los verdaderos patrones de interés representando

conocimiento basado en medidas de interés.

7. Presentación del conocimiento: Donde las técnicas de representación de

visualización y conocimiento son usadas para presentar conocimiento a los usuarios.

Diversos investigadores se han referido al procesamiento de datos desde diversas

perspectivas de estudio e investigación, como por ejemplo: Lokers, Knapen, Janssen, van

Randen, & Jansen (2016) dicen que el conocimiento se deriva principalmente de los datos,

pues estos son la materia prima para producir información a través de la adición de

significado. Otros autores como (Cashman et al., 2016) denominan el descubrimiento de

17

conocimiento en bases de datos como el estudio de recolectar, armonizar, procesar y

analizar datos para obtener información útil.

1.2 Aprendizaje de máquina (Machine Learning)

Abordando desde el contexto de los investigadores, el aprendizaje de máquina es una

disciplina científica del ámbito de la inteligencia artificial que tiene el potencial de resolver

el problema de la marea de datos que inunda organizaciones, gobiernos e individuos

(Bramer, 2007). El término se refiere a la detección automatizada de patrones significativos

en los datos (Ben-David & Shalev-Shwartz, 2014; Kanevski, Pozdnukhov, & Timonin,

2008). En las últimas décadas se ha vuelto parte de la tecnología como motores de

búsqueda, para traer los mejores resultados, software anti-spam para filtrar mensajes y

asegurar transacciones de tarjetas de crédito ante posibles fraudes, al igual que en

cámaras digitales para detectar rostros y aplicaciones móviles para reconocer comandos

de voz. También se ha vuelto parte de la medicina, bioinformática, astronomía, ciencias de

la vida, biología y agricultura (Wrzesień, Treder, Klamkowski, & Rudnicki, 2018). El

aprendizaje de máquina, también conocido por sus siglas ML, “deja que los datos sugieran

un modelo”, como alternativa a la estadística que “ajusta un modelo a los datos”

(Pechenizkiy et al., 2008). Gran parte del arte del aprendizaje de máquina es reducir una

gama de problemas bastante dispares a un conjunto de prototipos bastante estrechos

(Alpaydın, 2014). El aprendizaje de máquina, como otra definición, es el estudio de los

algoritmos computacionales que mejoran automáticamente a través de la experiencia.

Dentro del aprendizaje de máquina existen dos tipos, según los datos disponibles y el

interés por el resultado, según lo describen autores como Ben-David & Shalev-Shwartz

(2014), Bramer (2007) y Wrzesień et al., (2018), los cuales son: aprendizaje supervisado

y aprendizaje no supervisado.

1.2.1 Aprendizaje Supervisado

Para este primer tipo de aprendizaje de máquina, en los datos disponibles hay un atributo

designado especialmente (la clase) y el objetivo es utilizar los datos dados para predecir

el valor de ese atributo para las instancias que aún no se han visto. Los datos de este tipo

se llaman etiquetados, y la minería de datos usando datos etiquetados se conoce como

aprendizaje supervisado (Aggarwal & Reddy, 2013; Bramer, 2007), que consiste en

variables descriptoras y una variable especial que describe la propiedad global del sistema

que es interesante para el investigador. Esta variable seleccionada es llamada la variable

de decisión y es aquí donde el aprendizaje de máquina se desarrolla para predecir esa

variable de decisión en función de los descriptores (Wrzesień et al., 2018), utilizando un

conjunto de ejemplos para los que se conocen tanto descriptores como respuestas.

Generalmente la variable de decisión puede ser numérica o categórica. Simplemente se

refiere a una característica que es capaz de distinguir diferentes clases. Dentro del

aprendizaje supervisado, la estabilidad de los algoritmos ha ganado una atención cada vez

mayor en los últimos años. Esto se define como la sensibilidad hacia la perturbación de los



datos. Esto quiere decir que con una pequeña cantidad de perturbación introducida en los

datos no se esperan cambios drásticos.

1.2.2 Aprendizaje no Supervisado

Para este segundo tipo de aprendizaje, el objetivo es extraer la mayor cantidad de

información que se pueda de los datos disponibles (Bramer, 2007). Aquí, no hay distinción

entre los datos de entrenamiento y prueba. Se procesa los datos de entrada con el objetivo

de llegar a algún resumen o versión comprimida de esa información. Agrupar un conjunto

de datos en subconjuntos de objetos similares es un ejemplo típico de dicha tarea (Ben-

David & Shalev-Shwartz, 2014). En ausencia de información específica etiquetada (Franco

& Steiner, 2018), el clustering o agrupamiento puede considerarse un modelo conciso para

este tipo de datos. En este caso, los datos sin etiqueta presentan otro desafío en la

selección de características, tales como la definición de la relevancia en el sistema. Sin

embargo, es posible creer que la selección de subconjuntos de características puede

ayudar a la mejora del aprendizaje no supervisado (Aggarwal & Reddy, 2013), en donde

uno de los métodos de aprendizaje de máquina no supervisado más utilizados es el

agrupamiento de datos o cluster analysis.

Finalmente, este tipo de aprendizaje se refiere al análisis de datos donde no se define

ninguna variable especial de decisión(Acciani, Chiarantoni, Fornarelli, & Vergura, 2003).

Por ende, el objetivo del análisis es encontrar la estructura de los datos mediante el

agrupamiento o la identificación de variables ocultas que puedan explicar los patrones

observados en un conjunto de datos (Wrzesień et al., 2018).

1.3 Clustering

La definición de Clustering ha sido dada de diversas maneras por una gran variedad de

investigadores que trabajan en el campo de la minería de datos y aprendizaje de máquina,

en donde se resaltan sus similitudes y puntos de encuentro entre sí, por lo que se tienen

conceptualizaciones como: Es una técnica de aprendizaje de máquina no supervisado

cuyo objetivo es descomponer una enorme cantidad de elementos dados en

agrupamientos cuyos datos tienen similitudes entre sí (Asadi Zarch et al., 2015). Clustering

puede ser definido como una clasificación de aprendizaje no supervisada de patrones en

grupos (Hao et al., 2019). Las técnicas de clustering o agrupamiento dividen un conjunto

de datos en grupos de objetos similares según las medidas de similitud (Arroyo et al., 2017;

Bramer, 2007). Así mismo, clustering es definido como el procedimiento de organizar una

gran variedad de objetos que tienen miembros similares, en donde el clúster es una

colección de objetos que son similares entre sí y al mismo tiempo son diferentes con los

de otros clústeres (Mayer, Winkler, & Fry, 2014). También, es definida como una técnica

que permite a los datos ser agrupados en clústeres cuyos objetos son similares, y

diferentes de otros grupos (Franceschi et al., 2018).

19

Otra definición la aportan los autores Nguyen et al., 2015, quienes determinan que el

clustering es un método no supervisado de agrupación de datos usando una medida

específica de similitud, donde los algoritmos de agrupamiento intentan organizar los datos

no etiquetados en grupos cuyos elementos sean similares entre sí, definiendo estos grupos

como clústeres los cuales son diferentes unos a los otros. Similares aportes se encuentran

en otras definiciones como, por ejemplo, es la tarea de agrupar un conjunto de objetos de

modo que objetos similares terminen en el mismo grupo y objetos diferentes se separen

en diferentes grupos. (Ben-David & Shalev-Shwartz, 2014).

Los problemas de agrupamiento son quizás uno de los campos más estudiados por los

investigadores dentro de la minería de datos y el aprendizaje de máquina (Aggarwal &

Reddy, 2013), ya que siempre ha existido el desafío de agrupar y analizar información ya

sea de imágenes, textos, redes sociales, datos biológicos y médicos, entre muchos otros,

con el fin de interpretar sucesos y descubrir conocimiento que a simple vista es imposible

encontrar. No obstante, estos problemas se pueden resolver utilizando una amplia

variedad de métodos.

El clustering es muy útil en muchas tareas como la segmentación de imágenes,

recuperación de información, análisis de documentos, reconocimiento de patrones, análisis

de redes, entre otras, y puede ser utilizado ya sea como una tarea exploratoria o un paso

de preprocesamiento. Incluso si el objetivo es describir y revelar los patrones escondidos

en los datos, el clustering se convierte en una tarea exploratoria autónoma por sí misma

(Aggarwal & Reddy, 2013).

Las técnicas de clustering pueden ser divididas, en términos generales, en dos categorías:

particionados y jerárquicos (Arroyo et al., 2017). Los algoritmos de agrupamiento

particional dividen un conjunto de datos en un número de clústeres específico, buscando

minimizar ciertos criterios. Por el contrario, los algoritmos de agrupamiento aglomerantes

empiezan con cada patrón en un clúster distinto, y sucesivamente los clústeres se unen y

se fusionan hasta que se cumple un criterio de detención. Este asunto se abordará de

forma más detallada en la sección 1.4 “Técnicas de agrupamiento”.

La figura 1 muestra como un conjunto de datos se puede agrupar de diferentes maneras

significativas, dada diferentes nociones implícitas de distancia (o similitud) entre objetos,

por ejemplo, agrupamiento de grabaciones de voz por el acento del hablante versus

agrupamiento del contenido, clustering de películas por temas de película versus

agrupamiento por el sentimiento de revisión, agrupar cuadros por tema versus agruparlos

por estilos, y así sucesivamente.



FIGURA 1. Agrupamiento de datos en dos posibles clústeres. (Ben-David & Shalev-

Shwartz, 2014)

La figura 2 muestra cómo se visualiza el agrupamiento de datos a partir de patrones o

similitudes. En (a) los datos de los cuatro clústeres son diferentes uno al otro ya sea en

tamaño o distancia. En (b) un grupo de datos encuentra similitudes con otro grupo de datos

dentro de una escala cuyos valores, por ejemplo, de tamaño (f2), son diferentes. En (c) un

grupo de datos encuentra similitudes con otro grupo de datos dentro de una escala cuyos

valores, por ejemplo, de distancia (f1), son diferentes.

FIGURA 2. Agrupamiento de patrones de datos (Aggarwal & Reddy, 2013)

La agrupación de datos es la clasificación no supervisada de muestras en grupos. En otras

palabras, tiene como objetivo agrupar muestras similares en un grupo llamado clúster.

Encontrar agrupamientos en un espacio de alta dimensión es computacionalmente costoso

y puede degradar el rendimiento del aprendizaje, por lo que se exige utilizar la selección

de características para la agrupación con el fin de aliviar el efecto de la alta

dimensionalidad. Como una tarea de aprendizaje no supervisada, es necesario encontrar

21

una forma de validar la bondad de las particiones después de la agrupación, de lo contrario,

sería difícil hacer uso de diferentes resultados de agrupamiento.

1.4 Técnicas de agrupamiento

Existen muchas técnicas de agrupamiento para aplicar sobre diversidad de conjuntos de

datos. A continuación, se mencionan algunas de las principales técnicas de clustering


I. Agrupamiento basado en Densidad.

Consiste en tratar con grupos de datos que no tienen formas esféricas que se

producen por los datos espaciales, es decir, datos con referencia a un espacio

concreto de dos o tres dimensiones correspondientes. Aquí se encuentran

algoritmos como:

DBSCAN: Estima la densidad contando el número de puntos en un vecindario de

radio fijo y considera dos puntos como conectados si se encuentran dentro del

vecindario del otro.

DENCLUE: Adopta otro enfoque para generalizar la noción de grupos basados en

la densidad. La densidad en algún punto se estima mediante la suma de las

influencias de todos los puntos de datos.

OPTICS: Genera un nuevo ordenamiento de agrupación de los puntos de la base

de datos en vez de crear una agrupación explícita.

II. Agrupamiento basado en Grillas.

Es eficiente para atraer grandes conjuntos de datos multidimensionales. Estos

algoritmos dividen el espacio de datos en un número finito de celdas para formar

una estructura de cuadrícula y luego forman grupos de celdas en la estructura de

cuadrícula. Los grupos corresponden a regiones que son más densas en puntos de

datos que sus alrededores. Aquí se encuentran algoritmos como:

AMR: Agrupación de refinamiento de malla adaptable. Aplica cuadrículas de mayor

resolución a las regiones más densas localizadas, ya que divide el espacio de

características en múltiples resoluciones.

NSGC: Nuevo algoritmo de agrupación de cuadrícula cambiante. El algoritmo

divide cada dimensión del espacio en un número igual de intervalos.

CLIQUE: Se encarga de encontrar automáticamente la agrupación del subespacio

de datos numéricos de alta dimensión. Ubica grupos integrados en subespacios de



datos de alta dimensión sin mucha intervención del usuario para discernir

subgrupos importantes.

III. Agrupamiento particionado.

Tiene como objetivo descubrir las agrupaciones presentes en los datos mediante

la optimización de una función específica y la mejora iterativa de la calidad de las

particiones. Aquí se encuentra el algoritmo K-means, que divide las instancias en

grupos acorde a patrones, donde cada uno es diferente al otro. Para este algoritmo

se encuentran diversas variaciones, como, por ejemplo: K-medoids, K-medians, K-

modes, X-means, entre otros.

IV. Agrupamiento jerárquico.

Abordan el problema de la agrupación mediante el desarrollo de una estructura de

datos basada en un árbol binario llamada dendrograma. Aquí se encuentran dos

tipos de agrupamientos: Aglomerativos y divisivos.

No obstante, para mantener el enfoque del desarrollo de esta investigación y con base en

la revisión de trabajos previos, se optará para el análisis algoritmos de agrupamiento

jerárquico y de agrupamiento particionado.

1.4.1 Agrupamiento Jerárquico

Dentro de las técnicas de agrupamiento que provee el aprendizaje de máquina no

supervisado, el agrupamiento jerárquico es uno de los más empleados por los autores en

el análisis de datos climatológicos (Abdul Halim et al., 2018; Arroyo et al., 2017; Asadi

Zarch et al., 2015; Clay & King, 2019; Conradt et al., 2016; Falquina & Gallardo, 2017), no

solamente por ofrecerles buenos resultados sino también por su simplicidad, con el fin de

obtener niveles o jerarquías de los nodos, ya sea que se fusionen o se separen, para

permitirle a los investigadores analizar los datos desde cualquier nivel.

Los algoritmos de agrupamiento jerárquico fueron desarrollados para superar las

desventajas de los algoritmos de agrupamiento basados en partición. Los algoritmos

particionados generalmente requieren de un valor o parámetros K previo (número de

clústeres) para obtener una solución de agrupamiento, mientras que los algoritmos

jerárquicos pueden ser detenidos y revisados en cualquier nivel de agrupamiento deseado.

Los algoritmos de agrupamiento jerárquicos fueron desarrollados para ser mecanismos

sencillos para agrupar los objetos de datos (Aggarwal & Reddy, 2013).

El proceso de agrupamiento jerárquico se visualiza a través de un dendrograma que es un

árbol en inversa en el cual las agrupaciones son las ramas que se unen en diferentes

alturas que indican las distancias entre las subcategorías (Conradt et al., 2016). Cortar el

23

árbol en cualquier nivel de altura produce un agrupamiento intermedio y elegir una altura

de corte determina el número de grupos.

A diferencia de los algoritmos de agrupamiento particionados, los algoritmos jerárquicos

son algoritmos determinísticos, lo que significa que cuando se aplica en el mismo conjunto

de datos, proporciona los mismos resultados de agrupación en cada ejecución (Aggarwal

& Reddy, 2013).Los algoritmos de agrupamiento jerárquico se dividen en dos categorías:

Aglomerativos y divisivos.

Aglomerativos

En esta primera categoría de algoritmos de agrupamiento jerárquicos, los algoritmos de

agrupamiento aglomerativos empiezan con cada elemento en un único clúster, llamado

también como singleton, y posteriormente los clústeres, de forma sucesiva, se van

fusionando hasta que se cumple un criterio de pausa o detención. Esta fusión de cada par

de clústeres continúa hasta que finalmente todos se hayan fusionado en un único clúster

que contendrá todos los datos, y así mismo toda la jerarquía formada (Arroyo et al.,

2017;Asadi Zarch et al., 2015). La formación de esta jerarquía comienza por tomar los

clústeres que se ubican desde el nivel inferior y durante el proceso de fusión de cada par

de clústeres se van creando niveles ascendentes de agrupamientos (Aggarwal & Reddy,

2013) cuya agrupación jerárquica es denominada agrupamiento jerárquico aglomerativo

(HAC), donde los algoritmos en esta categoría generan un árbol de clústeres o

dendrograma mediante el uso de técnicas heurísticas (Arroyo et al., 2017). Un

dendrograma contiene gran cantidad de líneas que forman una letra U inversa que

conectan puntos de datos dentro de un árbol jerárquico. La altura de cada U significa la

distancia entre los dos puntos de datos conectados. Por lo tanto, los algoritmos que

emplean la fusión para generar el árbol de clústeres se denominan aglomerativos.

Los pasos básicos que intervienen en un algoritmo de agrupamiento jerárquico

aglomerativo son los siguientes:

- Primero, al emplearse una medida de distancia, se construye una matriz de

disimilitud y todos los puntos de datos se representan de forma visual en la parte

inferior del dendrograma.

- Segundo, los conjuntos de datos más cercanos se fusionan en cada nivel y luego

la matriz de diferencias se va actualizando.

- Finalmente, este proceso de fusión se lleva a cabo hasta obtener el clúster final el

cual contendrá todos los objetos de datos en un único grupo. Este último

representaría el vértice del dendrograma y determinaría la finalización de todo el

proceso de fusión (Aggarwal & Reddy, 2013).



Para comprender un poco más la jerarquía de clústeres, también llamada dendrograma,

se aporta el siguiente ejemplo:

Dentro del árbol, la raíz representa todos los conjuntos de datos que se agruparán y

conforman la base de la jerarquía (nivel 0). En cada nivel, los nodos son los subconjuntos

de todo el conjunto de datos y corresponden a los conglomerados. Las entradas en cada

uno de estos clústeres se pueden determinar recorriendo el árbol desde el nodo

seleccionado hasta los puntos de datos del nivel inferior (nivel 0). Cada nivel en la jerarquía

corresponde a un conjunto de clústeres. La base de la jerarquía consiste en todos los

puntos únicos que corresponden a las hojas del árbol (Aggarwal & Reddy, 2013). Con base

a lo anterior, una de las grandes ventajas del agrupamiento aglomerativo es que se puede

cortar la jerarquía en cualquier nivel y obtener los conglomerados correspondientes, cuya

característica lo hace bastante diferente a las técnicas de agrupamiento particionados pues

no requieren de forma obligatoria un valor K (número de clústeres) especificado

previamente por un usuario.

Métodos de medidas de similitud para agrupamiento jerárquico aglomerativo

Las técnicas de agrupamiento aglomerativos son diferentes entre sí en medidas de

similitud. Se pueden aplicar diversos métodos para este algoritmo que permiten darle una

variedad de tratamiento a los datos dentro de un dendrograma. Los métodos ampliamente

estudiados son: Single-Linkage, Complete-Linkage, Average-Linkage, Centroid, Ward y

Lance-Williams.

Single-Linkage

Enlace único o vecino más cercano. La similitud de dos clústeres entre sus miembros más

cercanos. Este método les da más importancia a las regiones en las cuales sus

conglomerados están más cercanos. Sin embargo, unos de sus principales problemas son

la sensibilidad al ruido y datos atípicos (Aggarwal & Reddy, 2013).

La figura 3 muestra una matriz de datos y el árbol que corresponde al single-linkage, en

donde se observa para el árbol que el eje X indica los objetos de datos y el eje Y indica la

distancia a la que se fusionaron los puntos. En el enlace simple, los primeros puntos de

datos (3 y 4) se fusionan a una distancia de 0,1. Luego, el clúster formado por 3 y 4 se

fusionan con el punto de datos 1 en el siguiente nivel a una distancia de 0,15. En el nivel

final, el clúster formado por 3,4 y 1 se fusionan con el punto de datos 2 a una distancia de

0,20.

25

FIGURA 3. Matriz de datos y dendrograma correspondiente a enlace simple. (Aggarwal &

Reddy, 2013)

Los cálculos realizados para el agrupamiento del enlace simple son:

𝒹𝑚𝑖𝑛((3,4), 1) = min(𝒹(3,1), 𝒹(4,1)) = 0.15

𝒹𝑚𝑖𝑛((3,4,1), 2) = min(𝒹(3,2), 𝒹(4,2), 𝒹(1,2)) = 0.20

Complete-Linkage

Enlace completo o diámetro. Mide la similitud de dos clústeres como la similitud de sus

miembros más diferentes. Es igual a elegir el par de clústeres cuya fusión tiene el diámetro

más pequeño. Como este método tiene en cuenta la estructura del clúster, generalmente

obtiene grupos de forma compacta. También es sensible a valores atípicos (Aggarwal &

Reddy, 2013).

La figura 4 muestra una matriz de datos y el árbol que corresponde al complete-linkage,

en donde se observa para el árbol que el eje X indica los objetos de datos y el eje Y indica

la distancia a la que se fusionaron los puntos. En el enlace completo, las fusiones para el

clúster 3 y 4 se comprueban con los puntos 1 y 2, y como la distancia es de 0,20, entonces

los puntos 1 y 2 se fusionan en el siguiente nivel. Finalmente, los clústeres (3 y 4) y (1 y 2)

se fusionan en el nivel final a una distancia de 0,50.



FIGURA 4. Matriz de datos y dendrograma correspondiente a enlace completo.

(Aggarwal & Reddy, 2013)

Los cálculos realizados para el agrupamiento del enlace completo son:

𝒹𝑚𝑎𝑥((3,4), 1) = max(𝒹(3,1), 𝒹(4,1)) = 0.30

𝒹𝑚𝑎𝑥((3,4), 2) = max(𝒹(3,2), 𝒹(4,2)) = 0.50

𝒹𝑚𝑎𝑥((3,4), (1,2)) = max(𝒹(3,1), 𝒹(3,2), 𝒹(4,1), 𝒹(4,2)) = 0.50

Average-Linkage

Enlace promedio. El agrupamiento aglomerativo promedio grupal, cuyas siglas son GAAC,

considera la similitud entre todos los pares de puntos presentes en ambos grupos y

disminuye los inconvenientes asociados con los métodos de enlace único y completo

(Aggarwal & Reddy, 2013). Por ejemplo, los conglomerados 𝐶𝑎 y 𝐶𝑏 se fusionarán para

que el clúster final sea 𝐶𝑎 ∪ 𝐶𝑏 (Aggarwal & Reddy, 2013). El nuevo centroide para este

clúster es:

𝐶𝑎∪𝑏 = 𝑁𝑎𝐶𝑎 + 𝑁𝑏𝐶𝑏

𝑁𝑎 + 𝑁𝑏

27

Donde 𝑁𝑎 y 𝑁𝑏 son las cardinalidades de los clústeres 𝐶𝑎 y 𝐶𝑏 respectivamente. La medida

de similitud para GAAC se calcula de la siguiente manera:

𝑆𝐺𝐴𝐴𝐶(𝐶𝑎, 𝐶𝑏) = 1

(𝑁𝑎 + 𝑁𝑏)(𝑁𝑎 + 𝑁𝑏 − 1)∑ 𝑖 ∈ 𝐶𝑎 ∪ 𝐶𝑏 ∑ 𝑗 ∈ 𝐶𝑎 ∪ 𝐶𝑏 , 𝑖 ≠ 𝑗 𝑑(𝑖, 𝑗)

Se puede ver que la distancia entre dos clústeres es el promedio de todas las distancias

pares entre los puntos de datos en estos dos grupos. Por ende, esta medida es realmente

costosa de calcular sobre todo cuando el número de objetos de datos es inmenso


Centroide

Similitud de Centroide. La agrupación aglomerativa basada en centroide calcula la similitud

entre dos grupos al medir la similitud entre sus centroides. La diferencia principal entre

GAAC y la agrupación aglomerativa centroide es que GAAC considera todos los pares de

objetos de datos para calcular la similitud promedio por pares, mientras que la agrupación

aglomerativa basada en centroide utiliza solamente el centroide del conglomerado para

calcular la similitud entre dos grupos diferentes (Aggarwal & Reddy, 2013).

Ward

Varianza mínima. Calcula la distancia entre dos grupos durante el agrupamiento

aglomerativo. Utiliza el criterio de error cuadrado de K para determinar la distancia

(Aggarwal & Reddy, 2013). Para dos clústeres, 𝐶𝑎 y 𝐶𝑏, el criterio de Ward se calcula

midiendo el aumento en el valor del criterio SSE (suma de errores cuadrados) para la

agrupación obtenida al fusionarlos en 𝐶𝑎 y 𝐶𝑏 (Aggarwal & Reddy, 2013). El criterio de

Ward se mide de la siguiente manera:

𝑊(𝐶𝑎∪𝑏 , 𝑐𝑎∪𝑏) − 𝑊(𝐶, 𝑐) =𝑁𝑎𝑁𝑏

𝑁𝑎 + 𝑁𝑏∑(𝑐𝑎𝑣 − 𝑐𝑏𝑣)2

𝑀

𝑣=1

= 𝑁𝑎𝑁𝑏

𝑁𝑎 + 𝑁𝑏𝑑(𝑐𝑎 , 𝑐𝑏)

El criterio de Ward puede interpretarse como la distancia euclídea al cuadrado entre los

centroides de los conglomerados combinados de 𝐶𝑎 y 𝐶𝑏 ponderados por un factor que es

proporcional al producto de cardinalidades de los conglomerados fusionados (Aggarwal &

Reddy, 2013). El algoritmo de Ward no requiere una predefinición del número de clústeres

(valor K), sin embargo, ese número es necesario para el posterior análisis de los resultados

de la agrupación (Falquina & Gallardo, 2017).



Lance-Williams

Recursividad. Este algoritmo abarca o reúne los métodos jerárquicos anteriores (Aggarwal

& Reddy, 2013). Si los puntos i y j se aglomeran en el grupo i U j, entonces se tendrá que

especificar solamente la nueva diferencia entre el grupo y todos los otros puntos (Aggarwal

& Reddy, 2013). La fórmula es la siguiente:

𝑑(𝑖 ∪ 𝑗, 𝑘) = 𝛼𝑖𝑑(𝑖, 𝑘) + 𝛼𝑗𝑑(𝑗, 𝑘) + 𝛽𝑑(𝑖, 𝑗) + 𝛾|𝑑(𝑖, 𝑘) − 𝑑(𝑗, 𝑘)|

En la fórmula anterior, 𝛼𝑖, 𝛼𝑗, 𝛽 y 𝛾 definen el criterio de aglomeración. Los valores de los

coeficientes para los diferentes tipos de métodos anteriormente descritos se muestran en

la tabla 2.

TABLA 2. Coeficientes para cada método de agrupamiento aglomerativo según

disimilitud Lance-Williams. (Aggarwal & Reddy, 2013)

Nombre del método Disimilitud Lance-Williams

Single-Linkage 𝛼𝑖 = 0.5; 𝛽 = 0; 𝑎𝑛𝑑 𝛾 = −0.5

Complete-Linkage 𝛼𝑖 = 0.5; 𝛽 = 0; 𝑎𝑛𝑑 𝛾 = 0.5

Average-Linkage 𝛼𝑖 =

|𝑖|

|𝑖| + |𝑗|; 𝛽 = 0; 𝑎𝑛𝑑 𝛾 = 0

Centroid 𝛼𝑖 =

|𝑖|

|𝑖| + |𝑗|; 𝛽 = −

|𝑖||𝑗|

(|𝑖| + |𝑗|)2; 𝑎𝑛𝑑 𝛾 = 0

Ward 𝛼𝑖 =

|𝑖| + |𝑘|

|𝑖| + |𝑗| + |𝑘|; 𝛽 = −

|𝑘|

|𝑖| + |𝑗| + |𝑘|; 𝑎𝑛𝑑 𝛾 = 0

Divisivos

En esta segunda categoría de algoritmos de agrupamiento jerárquicos, comienzan todos

los objetos de datos dentro de un gran clúster y aquí se dividen progresivamente de a dos

clústeres generando así una jerarquía descendente de agrupamientos (Aggarwal & Reddy,

2013). Es un enfoque descendente donde el procedimiento empieza en lo más alto del

árbol con todos los puntos de datos dentro de un único agrupamiento el cual se divide para

construir el dendrograma. Este método tiene como ventaja que es más eficiente que el

agrupamiento aglomerativo, ya que no hay necesidad de generar una jerarquía completa

o totalmente desarrollada hasta sus hojas individuales (Aggarwal & Reddy, 2013). Es

considerado como un enfoque global ya que contiene la información completa y unida

antes de dividir los datos. El agrupamiento jerárquico divisivo es el proceso inverso al

agrupamiento jerárquico aglomerativo (Aggarwal & Reddy, 2013), ya que se empieza con

29

un gran y único clúster que agrupa todos los datos y de manera recursiva se va dividiendo

en clústeres más pequeños.

El agrupamiento jerárquico divisivo proporciona los siguientes pasos básicos (Aggarwal &

Reddy, 2013):

- Primero, se comienzan con todos los puntos de datos contenidos en el clúster

máximo.

- Segundo, en enfoque k-means bisector se usa para determinar el mecanismo de

división uniforme para obtener C1 y C2 con el fin de maximizar la distancia de Ward

(C1, C2).

- Luego, se utiliza la heurística anteriormente mencionada y se elige el grupo con

mayor error al cuadrado para dividirlo como el siguiente padre.

- Finalmente, se ejecuta repetidamente los dos pasos anteriores hasta que se

construye el dendrograma completo.

Otros algoritmos de agrupamiento jerárquico

Existen otros algoritmos de agrupamiento jerárquicos, diferentes a los anteriormente

vistos. Entre ellos están (Aggarwal & Reddy, 2013):

- CURE (Clustering Using Representatives). Es un algoritmo que incorpora una

característica novedosa de representar un clúster utilizando un conjunto de puntos

representativos bien dispersos. Incorpora características de los métodos de

agrupamiento jerárquicos simple-linkage y Average-linkage.

- CHAMELEON. Es un algoritmo de agrupamiento el cual utiliza métodos de partición

de gráficos a partir de los vecinos más cercanos.

- COBWEB. Es un algoritmo de agrupamiento conceptual que trabaja

incrementalmente al actualizarse los clústeres, objeto por objeto.

1.4.2 Agrupamiento Particionado

Dentro del aprendizaje de máquina no supervisado se encuentran los algoritmos de

clustering particionados. Acorde con la revisión de la literatura, se obtienen dos de los

algoritmos más utilizados con datos climatológicos: K-means y una variación del K-means

denominado K-medoids.



K-means

Dentro del aprendizaje de máquina no supervisado, se encuentran también los algoritmos

particionados o k-means, siendo este el algoritmo de clustering más empleado en una

variedad de análisis de variables y datos climáticos (André et al., 2019; Arroyo et al., 2017;

Bador, Naveau, Gilleland, Castellà, & Arivelo, 2015; Carvalho et al., 2016; Falquina &

Gallardo, 2017; Farah, Whaley, Saman, & Boland, 2019; Franceschi et al., 2018;

Ghayekhloo et al., 2015; S. Han et al., 2019; Hao et al., 2019; Hidalgo et al., 2019; Khedairia

& Khadir, 2012; Lee & Kim, 2018; S. Li, Ma, & Li, 2017; Lin et al., 2018; Mokdad & Haddad,

2017; Schneider, Hampel, Mosquera, Tylmann, & Grosjean, 2018; Soubdhan, Abadi, &

Emilion, 2014; Yadav, Malik, & Chandel, 2015). Por otro lado, también es reconocido como

uno de los algoritmos más simples y eficientes dentro del agrupamiento de datos (Aggarwal

& Reddy, 2013; Khedairia & Khadir, 2012).

K-means es un algoritmo de agrupamiento no supervisado el cual calcula los centroides

para cada grupo y luego calcula las distancias entre el vector de datos actual y cada uno

de los centroides, asignando el vector al grupo de datos cuyo centroide sea el más cercano

a este (Carvalho et al., 2016; S. Li et al., 2017). El agrupamiento con K-means es llevado

a cabo en términos de distancia y no de tiempo (Lee & Kim, 2018). K-means es también

definido como un algoritmo para agrupar datos en un número de clústeres dado, en donde

divide un conjunto de datos en un número determinado de clústeres, acorde a una función

de distancia establecida después de haber definido el dataset y el número de clústeres (S.

Han et al., 2019; C. Li, Sun, Jia, Cai, & Wang, 2016). Su aplicación requiere dos parámetros

como entrada que son: el número de clústeres (k) y sus centroides iniciales, los cuales

pueden ser escogidos por el usuario u obtenidos mediante algún tipo de preprocesamiento

(Arroyo et al., 2017; Mokdad & Haddad, 2017).

Acorde a Aggarwal & Reddy (2013), los pasos que realiza el algoritmo K-means se basan

en un proceso iterativo como el siguiente:

A. Seleccionar los (k) puntos como centroides iniciales.

B. Repetir

C. Formar clústeres (k) asignando cada punto a su centroide más cercano.

D. Recalcular el centroide de cada clúster.

E. Hasta que el criterio de convergencia sea conocido.

Con respecto a lo anterior, el algoritmo realiza una iteración que está acompañada de una

amplia variedad de medidas de distancia para calcular los centroides más cercanos. La

elección de estas medidas puede afectar de forma significativa la asignación del centroide

y la calidad de la solución final (Aggarwal & Reddy, 2013). Entre las medidas de distancia

más populares está la distancia Euclidiana, la distancia Manhattan y la similitud del

Coseno. No obstante, para K-means, la distancia Euclidiana es la métrica más popular, y

31

sobre todo para evaluaciones de datos climáticos llevadas a cabo por una gran variedad

de investigadores (Arroyo et al., 2017; Bador et al., 2015; Carvalho et al., 2016; Falquina

& Gallardo, 2017; Ghayekhloo et al., 2015; S. Li et al., 2017).

Por lo tanto, se pueden obtener diferentes agrupamientos de datos para diferentes valores

de clústeres (k) y medidas de distancia. Los criterios de distancia se detallan de forma más

específica en la sección 1.5 de este capítulo.

Cada algoritmo de agrupamiento tiene su objetivo concreto y razón de ser. Su creación y

desarrollo nace de una necesidad matemática y computacional de resolver un obstáculo y

de proveer un nuevo camino hacia la solución. Es por esto, que, K-means tiene entre sus

funciones llevar a cabo una tarea llamado: la suma de los errores cuadrados (SSE),

también conocida como la suma residual de cuadrados (RSS). Esta formulación

matemática (Aggarwal & Reddy, 2013) consiste en un conjunto de datos 𝐴 = {𝑋1, 𝑋2, . . , 𝑋𝑛}

que consta de N puntos, denotemos el agrupamiento obtenido después de aplicar el

agrupamiento de K-means con 𝐵 = {𝐵1, 𝐵2, … , 𝐵𝑛}. El SSE/RSS (en adelante llamado

solamente SSE) para este agrupamiento se define en una ecuación donde 𝐵𝑛 es el

centroide del clúster 𝐵𝑛. El objetivo es encontrar una agrupación que minimice la

puntuación SSE. La asignación iterativa y los pasos de actualización del algoritmo K-

means apuntan a minimizar la puntuación SSE para el conjunto dado de centroides. La

ecuación mencionada es la siguiente:

𝑆𝑆𝐸(𝐶) = ∑ ∑ ||𝑥𝑖 − 𝑐𝑘||2

𝑥𝑖∈𝐶𝑘

𝐾

𝐾=1

K-means, como algoritmo particionado no supervisado, aparte de proveer características

esenciales dentro del aprendizaje de máquina, también tiene factores que afectan su

rendimiento, entre los cuales se destacan los siguientes (Aggarwal & Reddy, 2013):

- Elegir los centroides iniciales.

- Estimar el número de clústeres (k).

Para elegir los centroides iniciales, existen algunos métodos de inicialización de K-means

empleados para mejorar el rendimiento del agrupamiento como son (Aggarwal & Reddy,

2013):

- Hartigan and Wong: Hace referencia a la densidad del vecino más cercano. Este

método busca que los puntos que están separados y a su vez tienen una gran

cantidad de puntos dentro de su diámetro pueden ser buenos candidatos para los

puntos iniciales.

- Milligan: Este método emplea los resultados obtenidos del método de Ward. El

método de Ward elige los centroides iniciales usando la suma de los errores



cuadrados (SSE) para evaluar la distancia entre dos grupos. Mantiene el

crecimiento aglomerativo lo más pequeño posible.

- Bradley and Fayyad: Este método se encarga de elegir muestras aleatorias de los

datos y posteriormente aplicar K-means a todas estas pequeñas muestras. Luego

se recopilan los centroides de cada una de las muestras y se crea un nuevo

conjunto de datos formado únicamente por estos centroides.

- K-means++: Se encarga de seleccionar los centroides iniciales para agrupar K-

means. Este método se basa en la probabilidad donde el primer centroide se

selecciona al azar. Luego, el siguiente centroide seleccionado es el que está más

alejado del centroide seleccionado actualmente. El proceso de selección continúa

hasta que se tengan todos los centroides para que después el algoritmo K-means

realice el agrupamiento de estos.

Ahora bien, respecto a estimar el número de clústeres (k) para K-means, existen

algunos métodos reconocidos (Aggarwal & Reddy, 2013; Arroyo et al., 2017; Schneider

et al., 2018) empleados para estimar el número correcto de clústeres, puesto que esta

estimación manual es uno de los mayores desafíos para el agrupamiento K-means.

Entre los métodos se encuentran el índice de Calinski-Harabasz, el índice de Gap, el

coeficiente de Silhouette, el índice de Davies-Bouldin, ISODATA, el Criterio de

Información Bayesiana (BIC), entre otros. Estos métodos también son conocidos como

medidas de evaluación de clústeres (Arroyo et al., 2017; Franceschi et al., 2018). Las

medidas de evaluación de clúster se detallan de forma más específica en la sección

1.6.

K-medoids

Es otro de los algoritmos de clustering particionados más empleados por los investigadores

en el campo climatológico según la revisión de literatura (Arroyo et al., 2017; Bador et al.,

2015; Conradt et al., 2016; Hao et al., 2019; Pokorná et al., 2018) y una de las variaciones

del K-means (Aggarwal & Reddy, 2013; Hao et al., 2019) cuya flexibilidad permite modificar

y construir algoritmos más eficientes basados en éste, por lo que K-medoids es el resultado

de una de estas modificaciones (Pokorná et al., 2018).

K-medoids es un algoritmo flexible a los valores atípicos en comparación con K-means

(Aggarwal & Reddy, 2013) y busca minimizar el criterio de error absoluto en lugar de SSE

(suma de errores cuadrados). Es un método de agrupamiento no jerárquico que inclusive

se denota como un algoritmo superior a los jerárquicos (Pokorná et al., 2018).

33

Acorde con la literatura, estos son los pasos que ejecuta el algoritmo:

1. Seleccionar puntos K como los objetos representativos iniciales.

2. Repetir

3. Asignar cada punto al clúster con el objeto representativo más cercano.

4. Aleatoriamente seleccionar un objeto 𝑋𝑖 no representativo.

5. Calcular el costo total S de intercambiar el objeto representativo m con 𝑋𝑖.

6. Si S<0, entonces intercambiar m con 𝑋𝑖 para formar el nuevo conjunto de objetos

representativos K.

7. Hasta que el criterio de convergencia es conocido.

Para tratar el problema de ejecutar múltiples operaciones de intercambios mientras se

obtienen los puntos representativos finales para cada clúster, la literatura propone una

modificación de K-medoids llamada Partitioning Around Medoids (PAM), cuyo algoritmo

minimiza la función objetivo al intercambiar los puntos no medoids y medoids de forma

iterativa hasta alcanzar la convergencia. K-medoids es más robusto comparado con K-

means pero la complejidad computacional de K-medoids es más alta y por lo tanto no es

adecuado para grandes conjuntos de datos (Aggarwal & Reddy, 2013).

1.5 Criterios de distancia para algoritmos de clustering

Dado que no hay conocimiento previo sobre la mejor cantidad de clústeres o el mejor

algoritmo de agrupamiento (Yahyaoui & Own, 2018), algunos autores siguen una

estrategia rigurosa en la que las decisiones se toman con base a parámetros de clústeres

conocidos. A continuación, se proporciona una descripción general de las medidas de

similitud o distancia comúnmente utilizadas en la agrupación.

Euclidiana: Es la métrica más conocida y empleada, donde cada centroide es la mitad o

centro de los puntos de un clúster. Se representa por medio de la siguiente ecuación donde

d es la distancia desde el punto x al centroide c (Arroyo et al., 2017):

𝑑𝑠𝑡2 = (𝑥𝑠 − 𝑦𝑡)(𝑥𝑠 − 𝑦𝑡)′

Seuclidiana: Conocida también como métricas euclidianas estandarizadas, cada diferencia

de coordenada entre filas en x es escalada, dividiéndola por el elemento correspondiente

de la desviación estándar. Se representa por la siguiente ecuación donde v es la matriz

diagonal nXn cuyo elemento diagonal j es 𝑆(𝐽)2, donde s es el vector de desviaciones

estándar (Arroyo et al., 2017):

𝑑𝑠𝑡2 = (𝑥𝑠 − 𝑦𝑡)𝑉−1(𝑥𝑠 − 𝑦𝑡)′



Cityblock: Cada centroide es la mediana en cuanto a componentes de los puntos en ese

grupo. Se representa por la siguiente ecuación donde el exponente p es un valor escalar

y j es una observación en el vector x (Arroyo et al., 2017).

𝑑𝑠𝑡 = ∑ |𝑥𝑠𝑗 − 𝑦𝑡𝑗|

𝑛

𝑗=1

Coseno: Cada centroide es la media de los puntos en ese grupo, después de normalizar

esos puntos a longitudes euclidianas unitarias Se representa por la siguiente ecuación

(Arroyo et al., 2017):

𝑑𝑠𝑡 = 1 −𝑥𝑠𝑦𝑡

′

√(𝑥𝑠𝑥𝑠′)(𝑦𝑡𝑦𝑡

′)

Correlación: Cada centroide es la media en cuanto a componentes de los puntos en ese

grupo, después de centrar y normalizar esos puntos en una media cero y una desviación

estándar de la unidad. Se representa por la siguiente ecuación (Arroyo et al., 2017):

𝑑𝑠𝑡 = 1 −(𝑥𝑠 − �̅�𝑠)(𝑦𝑡 − �̅�𝑡)′

√(𝑥𝑠 − �̅�𝑠)(𝑥𝑠 − �̅�𝑠)′√(𝑦𝑡 − �̅�𝑡)(𝑦𝑡 − �̅�𝑡)′

Minkowski: Es una métrica en un espacio vectorial normalizado que puede considerarse

como una generalización tanto de la distancia euclidiana como de la distancia Manhattan.

Se representa por la siguiente ecuación donde p es un valor positivo escalar del

componente, s y t son los índices de las filas del vector x y j es el índice de la columna del

vector x (Arroyo et al., 2017):

𝑑𝑠𝑡 = √∑ |𝑥𝑠𝑗 − 𝑥𝑡𝑗|𝑝

𝑛

𝑗=1

𝑝

1.6 Medidas de evaluación del clúster

Uno de los mayores desafíos que enfrentan los investigadores que trabajan con algoritmos

de agrupamiento no supervisado es determinar el número de clústeres o valor K para el

algoritmo a emplear. Asignar de forma aleatoria un valor K puede implicar que la cantidad

de clústeres sea muy grande o muy pequeña por lo que se obtengan resultados no

esperados. También es importante evaluar los resultados del agrupamiento (Arroyo et al.,

2017), así que la comunidad científica se ha encargado de desarrollar algunas medidas de

evaluación que permiten que tanto académicos como profesionales del área puedan hacer

uso de métodos para determinar una cantidad de clústeres apropiada para sus

35

investigaciones (conocidas como validaciones internas) y también determinar la calidad de

los resultados del agrupamiento, las cuales se exponen algunas a continuación:

- Calinski-Harabasz Index: Evalúa la validez del clúster basada en la suma de

cuadrados promedio entre y dentro del clúster, o en los medios entre clústeres y la

matriz de covarianza dentro de los clústeres (Aggarwal & Reddy, 2013; Arroyo et

al., 2017). Mide la separación con relación a la máxima distancia entre centros de

clúster, como la suma de las distancias entre los objetos y su centro de agrupación.

- Gap Index: Utiliza la salida de cualquier algoritmo de agrupación en clústeres. Este

índice es especialmente útil en grupos bien separados y cuando se usa con una

distribución de referencia uniforme en la orientación del componente principal

(Arroyo et al., 2017).

- Akaike Information Criterion (AIC): Se ha desarrollado considerando la

probabilidad de registro y agregando restricciones adicionales de la longitud de

descripción mínima (MDL) para estimar el valor de K (Aggarwal & Reddy, 2013).

- Bayesian Information Criterion (BIC): Sirve como una aproximación asintótica a

una transformación de la probabilidad posterior bayesiana de un modelo candidato.

Similar al AIC, el cálculo también se basa en considerar el logaritmo de probabilidad


- Duda and Hart: Método que consiste en detener el proceso de agrupamiento

jerárquico eligiendo el nivel de corte correcto en el dendrograma (Aggarwal &

Reddy, 2013).

- Silhouette Coefficient: Puntúa el rendimiento de agrupación, basado en la

diferencia por pares de distancias entre agrupación y dentro de agrupación. El

número máximo de clústeres óptimo se determina al maximizar el valor de este

índice. Como el objetivo es obtener grupos con una distancia mínima dentro del

grupo y una distancia máxima entre grupos, los valores altos del índice de silueta

son deseables (Aggarwal & Reddy, 2013; Arroyo et al., 2017). Autores como

Conradt et al. (2016) lo definen como la mejor agrupación teórica.

- Newman and Girvan: En este método, el dendrograma se ve como un gráfico y se

propone un puntaje de interpolación (que se usará como una medida de disimilitud

entre los bordes). El procedimiento comienza con el cálculo del puntaje de

intermediación de todos los bordes en el gráfico (Aggarwal & Reddy, 2013). Se



elimina el borde con la mayor puntuación de intermediación. Luego se vuelve a

calcular las puntuaciones de intermediación de los bordes restantes hasta obtener

el conjunto final de componentes conectados. La cardinalidad del conjunto derivado

a través de este proceso sirve como una buena estimación para K.

- ISODATA: Este método consiste en agrupar los datos según el método del

centroide más cercano. Las primeras K-medias se ejecutan en el conjunto de datos

para obtener los clústeres. Los grupos se fusionan si su distancia es menor que un

umbral o si tienen menos de un cierto número de puntos (Aggarwal & Reddy, 2013).

- Davies-Bouldin Index: Similar al índice de Kalinski, este método obtiene grupos

con la distancia mínima intragrupo y la distancia máxima entre los centroides del

grupo. El valor mínimo del índice indica una partición de conjunto de datos

adecuada (Arroyo et al., 2017). Para cada grupo, se calculan las similitudes entre

cada grupo C y todos los otros grupos, y el valor más alto se asigna a C en término

de su similitud de grupo. Este índice se puede obtener promediando todas las

similitudes del grupo, sin embargo, cuanto menor sea este índice, mejor será el

resultado del agrupamiento.

1.7 Normalización

Dentro del procesamiento y análisis de datos climáticos, se han llevado a cabo situaciones

en las cuales unas variables tienen un rango de valores completamente diferentes en

tamaño con respecto a otras, lo que ha conllevado a que se generen agrupamientos muy

desproporcionados o resultados en donde una variable genera el mayor arrastre del

conjunto de datos y hace que el análisis se vuelva desequilibrado debido a la superposición

que genera una variable climática por encima de otra.

Para evitar este problema se aplica normalización a los datos, que consiste en llevar a

otros rangos los valores de un dataset con el fin de que todas las variables estén dentro

de una misma escala de valores.

Los métodos de normalización pueden ser divididos en dos categorías (Aggarwal & Reddy,

2013): Uno de ellos está basado en un enfoque estadístico la cual formula una distribución

de la línea base para corregir la medida de aleatoriedad. Un clustering puede entonces ser

definido “válido” si tiene un valor inusualmente alto o bajo, medido con respecto a la

distribución de referencia. El otro método utiliza valores mínimo y máximo para normalizar

la medida en el rango [0,1].

37

Dentro de la comunidad científica que estudia la información climatológica, varios estudios

han hecho uso de los métodos de normalización (Calliari, Farnia, Ramieri, & Michetti, 2019;

Franceschi et al., 2018; Guo, Gao, & Wu, 2017; S. Han et al., 2019; Hao et al., 2019;

Hidalgo et al., 2019; Lin et al., 2018; Schneider et al., 2018).

1.8 Reducción de dimensionalidad

Es una técnica popular para remover ruido y redundancia de atributos dentro de un

conjunto de datos (Aggarwal & Reddy, 2013). Las técnicas de reducción de

dimensionalidad pueden ser categorizadas principalmente en extracción de características

y selección de características. Respecto al enfoque de extracción de características, éstas

son proyectadas hacia un nuevo espacio con baja dimensionalidad. Un ejemplo de este

tipo de técnicas son el Análisis de Componentes Principales (PCA), Análisis de

Discriminación Lineal (LDA) y Descomposición de Valores Singulares (SVD). Por otro lado,

el enfoque de selección de características busca seleccionar un pequeño subconjunto de

características que minimizan la redundancia y maximizan la relevancia del objetivo.

Ejemplos de este tipo de técnicas son: Relief, Chi Squares, Fisher Score y Lasso.

Respecto a lo anterior, ambos enfoques de reducción de dimensionalidad son capaces de

mejorar el rendimiento del aprendizaje, reducir la complejidad computacional, crear

mejores modelos generalizables y disminuir el almacenamiento requerido (Aggarwal &

Reddy, 2013). Sin embargo, la selección de características es superior en términos de

mejor legibilidad e interpretabilidad, ya que mantiene los valores de las características

originales en el espacio reducido, mientras que la extracción de características transforma

los datos del espacio original en un nuevo espacio con una dimensión más baja, que no

se puede asociar a las características del espacio original. Por ende, un mayor análisis del

nuevo espacio es muy complicado y complejo ya que no hay un significado físico para las

características transformadas y obtenidas de la técnica de extracción de características.

Dentro de la literatura, la técnica del Análisis de Componentes Principales (PCA) es una

de las más populares (Aggarwal & Reddy, 2013), la cual da la solución al proyectar los

datos originales de alta dimensionalidad en un pequeño espacio lineal de baja

dimensionalidad dirigida por vectores propios y matrices de covarianza. Además, una

característica de PCA es que los clústeres pueden ser identificados fácilmente en una

representación gráfica, sin ningún tipo de etiqueta o asignación para cada ejemplo de un

específico grupo de datos. Por lo tanto, estas técnicas son muy útiles para obtener

conocimiento general respecto a la estructura de un conjunto de datos no etiquetados

(Arroyo et al., 2017). Sin embargo, su mayor limitación se basa en el supuesto de linealidad

(Arroyo-Hernández, & Rica, 2016).

1.9 Bodega de datos CDIAC

La bodega de datos es un sistema de almacenamiento de registros climáticos y

meteorológicos de todo el departamento de Caldas, administrado y gestionado por el

Grupo de Ambientes Inteligentes Adaptativos (GAIA:



http://gaia.manizales.unal.edu.co/GAIA), grupo de investigación que hace parte de la

Universidad Nacional de Colombia. La bodega de datos es una gran estructura de

almacenamiento implementada en PostgreSQL que alberga más de 35 millones de datos

ambientales, cuya información se recopila de más de 50 estaciones (125 estaciones

diferentes tienen datos en la fact_table de hidro climatología y 9 de aire), entre ellas las

meteorológicas ubicadas en diferentes sectores geográficos de todo el departamento de

Caldas, y cuya información puede visualizarse a través del Centro de Datos e Indicadores

Ambientales de Caldas (CDIAC: http://cdiac.manizales.unal.edu.co), sistema web

desarrollado y propuesto para permitir que todas las entidades interesadas en el sector

ambiental y climático, no solamente del departamento sino de todo el país, puedan acceder

a conocer toda la información.

2. Problema de investigación

De la revisión realizada se puede afirmar que, a pesar de la aplicación de diversos

algoritmos, la literatura no reporta una forma concluyente de cómo establecer cuál o cuáles

son los algoritmos de agrupamiento que más se recomiendan para ser aplicados en el caso

particular de los datos climáticos, ni tampoco se determina la forma en cómo se comportan

estos algoritmos bajo diferentes situaciones y escenarios concretos.

Para el caso de esta Tesis reviste especial interés las técnicas de aprendizaje no

supervisado, en particular de clustering, enfrentando un espacio abierto relacionado con la

selección de algoritmos y configuraciones más acordes a cada situación y con el objetivo

de entender cuáles presentan mejor desempeño en diferentes situaciones al igual que la

necesidad de evaluación de comportamientos de estos algoritmos bajo diferentes

escenarios relacionados con datos climáticos (Arroyo et al., 2017; Asadi Zarch et al., 2015;

Carro-Calvo et al., 2017; Carvalho et al., 2016; Chidean, Muñoz-Bulnes, Ramiro-Bargueño,

Caamaño, & Salcedo-Sanz, 2015; Falquina & Gallardo, 2017; Parente, Pereira, & Tonini,

2016; Wang et al., 2013; Zheng et al., 2017).

3. Objetivos de la investigación

3.1 Objetivo general

Evaluar algoritmos de agrupamiento por medio del procesamiento de datos climáticos para

encontrar comportamientos en diferentes escenarios.

39

3.2 Objetivos específicos

- Determinar y seleccionar los algoritmos de agrupamiento más representativos a

partir del abordaje del estado del arte.

- Establecer diferentes escenarios de trabajo a partir de un conjunto de datos

climáticos.

- Aplicar los algoritmos de agrupamiento seleccionados en cada uno de los

escenarios de trabajo definidos.

- Comparar los resultados obtenidos entre los diferentes algoritmos de agrupamiento

en los escenarios de trabajo, empleando métricas de evaluación de desempeño y

rendimiento.

3.3 Pregunta de investigación

A partir de los anterior se plantea la siguiente pregunta de investigación:

¿Cómo se comportan los algoritmos de agrupamiento en diferentes escenarios para el

procesamiento de datos climáticos?

4. Metodología

Para esta investigación se propusieron escenarios de trabajo. Los escenarios son

ambientes de trabajo en los cuales un investigador se va a encontrar al momento de

procesar datos con un algoritmo de agrupamiento. El escenario está dado por un conjunto

de datos que puede estar crudo, limpio o con datos faltantes o atípicos, y que contiene

ciertos atributos con una cantidad determinada de instancias.

4.1 Características de los escenarios

Esta parte práctica busca tratar el problema para responder a la pregunta de investigación:

¿Cómo se comportan los algoritmos de agrupamiento en diferentes escenarios para el

procesamiento de datos climáticos?

Para resolver la pregunta, se propuso un enfoque de trabajo investigativo explicado a

continuación.

Se pretendió obtener un conjunto de datos con cientos de miles de instancias de unas

determinadas estaciones climáticas para ciertas variables climáticas de interés, y a través

de unos escenarios de trabajo creados que contemplaban características particulares, se

implementaron en ellos los algoritmos de clustering más representativos del ámbito

climatológico con los datasets previos, con el fin de analizar y encontrar los desempeños



de estos algoritmos bajo una variedad de combinaciones. Se detalla a continuación todo

el proceso que involucró el tratamiento desde la bodega de datos, la creación de

escenarios, la preparación de entornos y posterior procesamiento de los datos.

4.1.1 Variables climáticas para utilizar

Para llevar a cabo la investigación, se emplearon las siguientes cuatro variables

meteorológicas: Temperatura, precipitación, radiación solar y humedad relativa. Estas

variables fueron seleccionadas por ser la más reportadas en la revisión del estado del arte

en investigaciones climáticas con algoritmos de clustering (Arroyo et al., 2017; Asadi Zarch

et al., 2015; Bador et al., 2015; Carvalho et al., 2016; Chidean, Caamaño, Ramiro-

Bargueño, Casanova-Mateo, & Salcedo-Sanz, 2018; Falquina & Gallardo, 2017; Farah et

al., 2019; Ghayekhloo et al., 2015; S. Li et al., 2017; Lin et al., 2018; Wang et al., 2013;

Zheng et al., 2016, 2017).

Variables como velocidad del viento y evapotranspiración no fueron tomadas en cuenta

acorde a las sugerencias dadas por expertos en climatología de la Universidad Nacional

de Colombia, con argumento de la baja influencia de la velocidad del viento para el estudio

y en el caso de la evapotranspiración, porque son datos previamente calculados desde

antes de obtener el dataset.

4.1.2 Estaciones climatológicas

Se utilizarán datos de tres estaciones meteorológicas cuyos nombres son: Hospital de

Villamaría, Hospital de Caldas y Parque Nacional Natural Los Nevados (El Cisne).

La tabla 3 muestra la información de las estaciones a estudiar:

TABLA 3. Información de las estaciones climáticas.

Nombre de la estación Tipología Altitud Ubicación

Hospital de Villamaría

Meteorológica

1790 msnm Hospital San Antonio

Hospital de Caldas 2183 msnm Hospital de Caldas

El Cisne PNNN 4812 msnm Parque Nacional Natural Los Nevados

La escogencia de estas estaciones se justifica en su ubicación y altitud, como también en

la disponibilidad de datos para la línea del tiempo deseada. Se tiene una estación ubicada

en montañas de nevados, otra estación en tierra de temperatura templada y una estación

de temperatura cálida. Estas tres estaciones están ubicadas a diferente altura sobre el

nivel del mar con el fin de tener un conjunto de datos de diferentes elevaciones geográficas.

La Figura 7 muestra la localización de las tres estaciones meteorológicas en un mapa por

relieve, y el mapa de la Figura 8 muestra la misma localización en un mapa por satélite.

41

Figura 7. Ubicación de las tres estaciones meteorológicas en un mapa de relieve para el

departamento de Caldas, Colombia.

Figura 8. Ubicación de las tres estaciones meteorológicas en un mapa satelital para el

departamento de Caldas, Colombia.



4.2 Extracción de datos

Para realizar la extracción de los datos requeridos desde la bodega de datos para

conformar los datasets, se usó el software de administración de bases de datos

PostgreSQL (pgadmin versión 1.22.2). Empleando consultas SQL se obtienen los datasets

de las tres estaciones meteorológicas previamente definidas, cuyos registros se

encuentran entre el 12 de abril de 2012 y el 16 de agosto de 2017, lo que comprende un

margen de tiempo de 64 meses (5.3 años) y para este periodo se extrae información de

las cuatro variables climáticas a analizar.

TABLA 4. Datasets establecidos para la evaluación de los algoritmos no supervisados.

4.3 Criterios de los escenarios

Los escenarios son aquellas atmósferas de trabajo en donde se aplicaron los algoritmos

de clustering. Estos escenarios permitieron en la parte práctica establecer entornos reales

en los cuales, con diversidad de características y parámetros previamente establecidos y

definidos, ejecutar cada uno de los algoritmos de agrupamiento para obtener resultados

de cada entorno, y así analizar y comprender cómo se comportaron los algoritmos en cada

uno de estos escenarios.

4.3.1 Criterios de conformación de los escenarios

Para la creación de los escenarios, se establecieron unos criterios con los cuales se

diferencian los diferentes entornos. A continuación, se definieron estos criterios.

Algoritmos de agrupamiento: Dentro de la literatura abordada, se seleccionaron los tres

algoritmos de agrupamiento que los investigadores más emplearon para el análisis de

datos climáticos. Agrupamiento jerárquico aglomerativo con método de Enlace completo

(Linkage-complete), K-means y K-medoids para agrupamiento particionado.

Número de clústeres (K): La cantidad de clústeres o valor K es el número de

agrupaciones con las que se pretende que el algoritmo divida las instancias. Se propuso

generar tres diferentes agrupaciones cuyo valor K fuera 2, 3 y 5. A pesar de que existen

métodos que proponen estimar la cantidad de clústeres como el índice de Calinski, el

coeficiente de Silhouette, entre otros (Aggarwal & Reddy, 2013; Arroyo et al., 2017), para

la experimentación se establecieron de forma manual unos valores de K, tomando en

cuenta también que autores han empleado este mismo rango de número de clústeres para

evaluar datos meteorológicos con algoritmos de agrupamiento (Arroyo et al., 2017).

Nombre del dataset Número de variables Nombre de variables Registros totales Rango de fecha

Dataset_HospitalDeVillamaria_64meses.xlsx 430.635

Dataset_HospitalDeCaldas_64meses.xlsx 530.802

Dataset_El CisnePNNN_64meses.xlsx 248.297

4

Temperatura,

precipitación,

humedad relativa y

radiación solar.

12 abril 2012 al

16 agosto 2017

43

Normalización: Para la experimentación se utilizó la normalización con Z-transformation

y Range-transformation como parte del proceso de reducir escalas de valores en las

variables para algunos escenarios en específicos (Arroyo et al., 2017; Y. Chen et al., 2017;

Chidean et al., 2015; C. Li et al., 2016; Marzban & Sandgathe, 2006; Ruzmaikin &

Guillaume, 2014; Sivaramakrishnan & Meganathan, 2012; Zheng et al., 2017).

Reducción de dimensionalidad: Se utilizó el Análisis de Componentes Principales (PCA)

al ser empleada por varios trabajos científicos en el ámbito del análisis de datos

climatológicos y del aprendizaje no supervisado (Abdul Halim et al., 2018; Arbolino,

Carlucci, Cirà, Ioppolo, & Yigitcanlar, 2017; Arroyo et al., 2017; Y. Chen et al., 2017;

Falquina & Gallardo, 2017; Franceschi et al., 2018; Khedairia & Khadir, 2012; Mayer et al.,

2014; Ruzmaikin & Guillaume, 2014; Schäfer, Heiskanen, Heikinheimo, & Pellikka, 2016;

Schneider et al., 2018; Yadav et al., 2015).

Número de iteraciones del algoritmo: Esta métrica se encarga de indicarle al algoritmo

el número de veces que debe repetir la tarea de formar clústeres (k) asignando cada punto

a su centroide más cercano y de recalcular el centroide de cada clúster. Para la

experimentación se utilizaron valores de iteración de 1, 10, 100 y 1000, donde cada valor

es diez veces mayor al anterior.

Medida de distancia: Es aquella métrica que se encarga de calcular la distancia entre las

instancias y centroides para posteriormente el algoritmo llevar a cabo la aglomeración de

las instancias. Se utilizó la distancia euclidiana como función de distancia, considerada

como la de mayor confianza (Arroyo et al., 2017) y por ser utilizada en una gran variedad

de trabajos dentro del campo climático (Abdul Halim et al., 2018; Asadi Zarch et al., 2015;

Bador et al., 2015; Conradt et al., 2016; Falquina & Gallardo, 2017; Farah et al., 2019;

Franco & Steiner, 2018; Ghayekhloo et al., 2015; Hao et al., 2019; Hidalgo et al., 2019; Lee

& Kim, 2018; S. Li et al., 2017; Lin et al., 2018; Mokdad & Haddad, 2017; Nguyen et al.,

2015).

Evaluación de calidad de clústeres: Esta métrica consiste en evaluar el resultado del

agrupamiento para determinar la calidad de los clustering. A través de un valor o índice se

determina qué tan bueno o malo quedaron los clustering y permite a los investigadores

conocer la calidad de estos. Para la experimentación se utilizó el índice de Davis-Bouldin

como métrica propuesta de evaluación de calidad de clústeres (Aggarwal & Reddy, 2013;

Arroyo et al., 2017; Gan, Ma, & Wu, 2007; Khedairia & Khadir, 2012; Nguyen et al., 2015;

Yahyaoui & Own, 2018).

4.4 Establecimiento de escenarios

Para los algoritmos de aprendizaje de máquina no supervisados se han establecido

diversos escenarios específicos para cada uno, según las características que la literatura

aborda para cada algoritmo.

4.4.1 K-means



Para el algoritmo particionado como K-means se han establecido 5 escenarios que

contienen un valor de K igual a 2,3 y 5. Esto significa que este algoritmo estará presente

con 45 tratamientos (tres por cada valor de K y para cada uno de los cinco escenarios)

para cada estación meteorológica. Al ser tres estaciones climáticas implica que en total

son 135 tratamientos de ejecución para K-means durante la experimentación.

La tabla 5 expone la creación y establecimiento de los escenarios para el algoritmo

particionado K-means:

45

TABLA 5. Escenarios de trabajo para el algoritmo K-means.

Trat

amie

nto

No

rmal

izac

ión

Re

du

cció

n d

e

dim

en

sio

nal

idad

Nú

me

ro d

e

ite

raci

on

es

Trat

amie

nto

No

rmal

izac

ión

Re

du

cció

n d

e

dim

en

sio

nal

idad

Nú

me

ro d

e

ite

raci

on

es

Trat

amie

nto

No

rmal

izac

ión

Re

du

cció

n d

e

dim

en

sio

nal

idad

Nú

me

ro d

e

ite

raci

on

es

1.1

NO

NO

10

01

.1N

ON

O1

00

1.1

NO

NO

10

0

1.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

1.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

1.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

1.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

1.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

1.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

2.1

NO

NO

10

02

.1N

ON

O1

00

2.1

NO

NO

10

0

2.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

2.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

2.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

2.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

2.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

2.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

3.1

NO

NO

10

03

.1N

ON

O1

00

3.1

NO

NO

10

0

3.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

3.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

3.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

3.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

3.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

3.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

4.1

NO

NO

10

04

.1N

ON

O1

00

4.1

NO

NO

10

0

4.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

4.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

4.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

4.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

4.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

4.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

5.1

NO

NO

10

05

.1N

ON

O1

00

5.1

NO

NO

10

0

5.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

5.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

5.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

5.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

5.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

5.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

Estr

ate

gia

de

clustering

par

a K

-me

ans

(agr

up

amie

nto

par

tici

on

ado

)

K=2

K=3

K=5

Can

tid

ad d

e va

riab

les:

3 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

y r

adia

ció

n s

ola

r. C

anti

dad

de

regi

stro

s: t

od

os

los

del

dat

aset

. D

ato

s

falt

ante

s (m

issi

ng)

: sí

. V

alo

res

atíp

ico

s

(ou

tlie

rs):

sí.

Esce

nar

ios

Cri

teri

o d

e d

ista

nci

a

Eucl

idia

na

Cri

teri

o d

e e

valu

ació

n

Eucl

idia

na

Dav

is-B

ou

ldin

Cri

teri

o d

e d

ista

nci

a

#1

#2

Can

tid

ad d

e va

riab

les:

3 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

y r

adia

ció

n s

ola

r. C

anti

dad

de

regi

stro

s: t

od

os

los

del

dat

aset

. D

ato

s

falt

ante

s (m

issi

ng)

: n

o.

Val

ore

s

atíp

ico

s (o

utl

iers

): n

o.

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

#5

Can

tid

ad d

e va

riab

les:

4 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

, rad

iaci

ón

so

lar

y

pre

cip

itac

ión

. C

anti

dad

de

regi

stro

s:

tod

os

los

del

dat

aset

. D

ato

s fa

ltan

tes

(mis

sin

g):

no

. V

alo

res

atíp

ico

s

(ou

tlie

rs):

no

.

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

#4

Can

tid

ad d

e va

riab

les:

4 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

, rad

iaci

ón

so

lar

y

pre

cip

itac

ión

. C

anti

dad

de

regi

stro

s:

tod

os

los

del

dat

aset

. D

ato

s fa

ltan

tes

(mis

sin

g):

no

. V

alo

res

atíp

ico

s

(ou

tlie

rs):

sí.

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

#3

Can

tid

ad d

e va

riab

les:

4 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

, rad

iaci

ón

so

lar

y

pre

cip

itac

ión

. C

anti

dad

de

regi

stro

s:

tod

os

los

del

dat

aset

. D

ato

s fa

ltan

tes

(mis

sin

g):

sí.

Val

ore

s at

ípic

os

(ou

tlie

rs):

no

.

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Cri

teri

o d

e e

valu

ació

n

Eucl

idia

na

Dav

is-B

ou

ldin

Cri

teri

o d

e e

valu

ació

n

Dav

is-B

ou

ldin

Cri

teri

o d

e d

ista

nci

a



En la tabla anterior se observa que hay escenarios formados por tres y cuatro variables.

Esto es debido a que la variable precipitación está constituida en un alto porcentaje por

datos con valor cero ya que las lluvias no se presentan las 24 horas del día al igual que

tampoco son frecuentes en la región, por lo tanto, evaluar un algoritmo con un dataset que

contiene un atributo con cientos de miles de instancias con valor cero podría generar

resultados diferentes a aquellas ejecuciones en donde la cantidad de ceros es baja, por lo

que se determina que llevar a cabo escenarios con datasets cuyos atributos contienen o

no altas proporciones de ceros es importante para la evaluación del comportamiento de

los algoritmos. Por otro lado, se utilizan todas las instancias de los dataset al determinar

en la literatura que K-means permite procesar grandes cantidades de instancias con

facilidad y rapidez gracias a su simplicidad y eficiencia (Aggarwal & Reddy, 2013; Khedairia

& Khadir, 2012).

4.4.2 K-medoids

Para el algoritmo particionado como K-medoids se han establecido 5 escenarios que

contienen un valor de K igual a 2,3 y 5. Esto significa que este algoritmo estará presente

con 45 tratamientos (tres por cada valor de K y para cada uno de los cinco escenarios)

para cada estación meteorológica. Al ser tres estaciones climáticas implica que en total

son 135 tratamientos de ejecución para K-medoids durante la experimentación.


particionado K-medoids:

47

TABLA 6. Escenarios de trabajo para el algoritmo K-medoids.

Trat

amie

nto

No

rmal

izac

ión

Re

du

cció

n d

e

dim

en

sio

nal

idad

Nú

me

ro d

e

ite

raci

on

es

Trat

amie

nto

No

rmal

izac

ión

Re

du

cció

n d

e

dim

en

sio

nal

idad

Nú

me

ro d

e

ite

raci

on

es

Trat

amie

nto

No

rmal

izac

ión

Re

du

cció

n d

e

dim

en

sio

nal

idad

Nú

me

ro d

e

ite

raci

on

es

1.1

NO

NO

10

01

.1N

ON

O1

00

1.1

NO

NO

10

0

1.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

1.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

1.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

1.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

1.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

1.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

2.1

NO

NO

10

02

.1N

ON

O1

00

2.1

NO

NO

10

0

2.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

2.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

2.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

2.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

2.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

2.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

3.1

NO

NO

10

03

.1N

ON

O1

00

3.1

NO

NO

10

0

3.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

3.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

3.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

3.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

3.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

3.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

4.1

NO

NO

10

04

.1N

ON

O1

00

4.1

NO

NO

10

0

4.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

4.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

4.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

4.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

4.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

4.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

5.1

NO

NO

10

05

.1N

ON

O1

00

5.1

NO

NO

10

0

5.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

5.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

5.2

Ran

ge-

tran

sfo

rmat

ion

NO

10

00

5.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

5.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

5.3

Z-

tran

sfo

rmat

ion

PC

A c

on

3

com

po

nen

tes

10

Cri

teri

o d

e d

ista

nci

aC

rite

rio

de

eva

luac

ión

Cri

teri

o d

e d

ista

nci

aC

rite

rio

de

eva

luac

ión

#1

Can

tid

ad d

e va

riab

les:

3 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

y r

adia

ció

n s

ola

r. C

anti

dad

de

regi

stro

s: 1

0.0

00

. D

ato

s fa

ltan

tes

(mis

sin

g):

sí.

Val

ore

s at

ípic

os

(ou

tlie

rs):

sí.

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Esce

nar

ios

Estr

ate

gia

de

clustering

par

a K

-me

do

ids

(agr

up

amie

nto

par

tici

on

ado

)

K=2

K=3

K=5

Cri

teri

o d

e d

ista

nci

aC

rite

rio

de

eva

luac

ión

Eucl

idia

na

Dav

is-B

ou

ldin

#3

Can

tid

ad d

e va

riab

les:

4 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

, rad

iaci

ón

so

lar

y

pre

cip

itac

ión

. C

anti

dad

de

regi

stro

s:

10

.00

0.

Dat

os

falt

ante

s (m

issi

ng)

: sí.

Val

ore

s at

ípic

os

(ou

tlie

rs):

no

.

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

#2

Can

tid

ad d

e va

riab

les:

3 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

y r

adia

ció

n s

ola

r. C

anti

dad

de

regi

stro

s: 1

0.0

00

. D

ato

s fa

ltan

tes

(mis

sin

g):

no

. V

alo

res

atíp

ico

s

(ou

tlie

rs):

no

.

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

#5

Can

tid

ad d

e va

riab

les:

4 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

, rad

iaci

ón

so

lar

y

pre

cip

itac

ión

. C

anti

dad

de

regi

stro

s:

10

.00

0.

Dat

os

falt

ante

s (m

issi

ng)

: n

o.

Val

ore

s at

ípic

os

(ou

tlie

rs):

no

.

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin

#4

Can

tid

ad d

e va

riab

les:

4 T

ipo

de

vari

able

s: t

emp

erat

ura,

hu

med

ad

rela

tiva

, rad

iaci

ón

so

lar

y

pre

cip

itac

ión

. C

anti

dad

de

regi

stro

s:

10

.00

0.

Dat

os

falt

ante

s (m

issi

ng)

: n

o.

Val

ore

s at

ípic

os

(ou

tlie

rs):

sí.

Eucl

idia

na

Dav

is-B

ou

ldin

Eucl

idia

na

Dav

is-B

ou

ldin



En la tabla anterior se observa que existen escenarios con una cantidad de instancias

pequeña a comparación del tamaño original del dataset. Esto se ha determinado con base

a la literatura que expone que K-medoids al ser muy robusto no es adecuado para grandes

conjuntos de datos (Aggarwal & Reddy, 2013). También se establecen escenarios que no

contienen la variable precipitación, esto con el objetivo de ver el comportamiento cuando

no se tiene en el dataset un atributo con grandes cantidades de ceros.

4.4.3 Aglomerativo con el método Linkage-complete

Para el algoritmo de agrupamiento jerárquico aglomerativo se aplicó el método de Enlace

Completo (Linkage-complete) y se han establecido 5 escenarios para cada estación

climática. Al ser tres estaciones climáticas implica que en total son 45 tratamientos de

ejecución (tres tratamientos por cada escenario) para este algoritmo jerárquico durante la

experimentación. En vista de que este algoritmo no requiere un valor previo de número de

clústeres (k), no es necesario repetir los escenarios para una misma estación climática.


jerárquico:

49

TABLA 7. Escenarios de trabajo para el algoritmo aglomerativo con el método de enlace

completo (Linkage-Complete).

Tratamiento Normalización

1.1 NO

1.2Range-

transformation

1.3Z-

transformation

2.1 NO

2.2Range-

transformation

2.3Z-

transformation

3.1 NO

3.2Range-

transformation

3.3Z-

transformation

4.1 NO

4.2Range-

transformation

4.3Z-

transformation

5.1 NO

5.2Range-

transformation

5.3Z-

transformation

Cantidad de variables: 3 Tipo de

variables: temperatura, humedad

relativa y radiación solar. Cantidad de

registros: 5.000. Datos faltantes

(missing): sí. Valores atípicos

(outliers): sí.

Euclidiana

Escenarios

Criterio de distancia

Estrategia de clustering para agrupamiento jerárquico

aglomerativo (con método Linkage-complete)

#1

#5



relativa, radiación solar y

precipitación. Cantidad de registros:

5.000. Datos faltantes (missing): no.

Valores atípicos (outliers): no.

Euclidiana

#4





5.000. Datos faltantes (missing): no.

Valores atípicos (outliers): sí.

Euclidiana

#3





5.000. Datos faltantes (missing): sí.

Valores atípicos (outliers): no.

Euclidiana

#2



relativa y radiación solar. Cantidad de

registros: 5.000. Datos faltantes

(missing): no. Valores atípicos

(outliers): no.

Euclidiana



En la tabla anterior se observa que existen escenarios con una cantidad de instancias

menor a comparación del tamaño original del dataset. Esto se ha determinado con base a

la literatura científica que expone que utilizar una cantidad de instancias tan alta como

10.000 ejemplos para agrupamiento jerárquico puede ser inapropiado (Arroyo et al., 2017).

Además, su principal inconveniente es su complejidad computacional que hace que la

agrupación jerárquica sea prácticamente útil solo para conjuntos de datos pequeños

(Aggarwal & Reddy, 2013). Por otra parte, se empleó el algoritmo aglomerativo con enlace

completo (Linkage-complete) basados en la revisión bibliográfica como uno de los más

utilizados y tomando en consideración las opiniones de autores quienes manifiestan que

enlace completo produce grupos más razonables y dendrogramas mejor formados en el

sentido de que las secuencias de datos de entrada se distribuyen de manera más uniforme

en las agrupaciones de salida (Aggarwal & Reddy, 2013).

Para las tres anteriores tablas que definen los escenarios para cada uno de los algoritmos,

es importante aclarar que los tratamientos son alternativas que se le da a cada escenario

para que éste pueda ofrecerle al algoritmo tres posibles variaciones para ver posteriores

resultados y comportamientos.

Con base en lo anterior, la cantidad de escenarios para la experimentación queda

establecida de la siguiente manera:

TABLA 8. Cantidad de escenarios para los algoritmos de agrupamiento.

4.5 Diseño computacional de los escenarios

Para la evaluación de algoritmos no supervisados con el uso de datos climáticos se llevó

a cabo el diseño y preparación de escenarios que tendrán implícitos una variedad de

métricas y características con las cuales serán evaluados los tres algoritmos de

agrupamiento definidos previamente. Los escenarios son ambientes de trabajo en donde

los algoritmos serán ejecutados con un conjunto de datos para evaluar posteriormente sus

resultados y desempeños.

4.5.1 Desarrollo computacional de los escenarios

Hoy en día, diversos softwares de minería de datos están disponibles para su uso como

Rapid Miner, Weka, KNIME, R, Orange, Tanagra, entre otros. Estas herramientas proveen

un conjunto de utilidades que permiten contribuir al análisis de datos, visualización de

datos, clustering, análisis predictivos, y demás objetivos que se tengan con un conjunto de

Cisne PNNN: Cantidad

de escenarios

Hospital de Caldas:

Cantidad de

escenarios

Hospital de Villamaría:

Cantidad de escenarios

K-means 5 5 5 1 16

K-medoids 5 5 5 1 16

Aglomerativo 5 5 5 1 16

48

Algoritmo

Estación climáticaEscenarios bajo

computación

paralela

TOTAL DE ESCENARIOS

51

datos. Por las posibilidades que ofrece, para la experimentación se hizo uso de Rapid

Miner.

Rapid Miner es un software de minería de datos empleado para el análisis de un conjunto

de datos a través del uso de diversidad de operadores, herramientas y funcionalidades que

ofrece. Ha sido utilizado por la comunidad científica en temáticas ambientales (Lausch,

Schmidt, & Tischendorf, 2015; Naik & Samant, 2016; Obradovic, Bjelica, Petrovic, Mihic, &

Todorovic, 2016; Pitchayadejanant & Nakpathom, 2017; Yadav et al., 2015). Fue

desarrollado por Ralf Klinkenberg, Ingo Mierswa y Simon Fischer en el 2001 y era conocido

anteriormente como YALE (Yet Another Learning Environment) que traduce a : Otro

ambiente de aprendizaje (Yadav et al., 2015). Es un software open Source implementado

en Java cuyo enfoque modular está diseñado para llevar en ejecución problemas incluso

muy complejos (Naik & Samant, 2016) a través de anidar operadores y permitiendo así

resolver gran cantidad de problemas de aprendizaje. Rapid Miner emplea XML para el

representar conocimiento provisto. Además, tiene a disposición diversidad de operadores

flexibles que permiten la entrada y salida de datos y soportado por más de 100 esquemas

de aprendizaje para tareas de clasificación, regresión, modelado estadístico,

preprocesamiento de datos, análisis de negocios, optimización, y en este caso, de

agrupamiento (Yadav et al., 2015).

Se optó por usar Rapid Miner, ante la versatilidad y opciones que permitía, para diferentes

escenarios. Por otro lado, la confianza que genera por su probada efectividad. Estas dos

razones podrían generar dudas en el uso de librerías independientes.

Por lo tanto, se usó Rapid Miner (versión 9.2) para la creación de los escenarios y la

ejecución de los algoritmos en ellos. La figura 9 muestra el diseño del proceso que ejecuta

todos escenarios con Rapid Miner.



Figura 9. Diseño del proceso para los escenarios de trabajo con Rapid Miner.

El proceso está conformado por ocho operadores explicados a continuación:

1. Dataset, el operador que contiene el conjunto de instancias de las estaciones

climáticas.

2. Replace missing values, el operador que reemplazará los valores vacíos por un

valor numérico para mejorar el procesamiento del dataset.

3. Selección de atributos, el operador que determinará la cantidad y tipo de variables

dependiendo del escenario de trabajo a utiliza.

4. Normalización, el operador que activará el proceso de normalizar los datos.

5. PCA, el operador encargado de activar la reducción de dimensionalidad para los

atributos del dataset.

6. Clustering, el operador que se encarga de ejecutar el algoritmo de agrupamiento.

Es el corazón del proceso ejecutado sobre el dataset y el cual es evaluado

posteriormente.

7. Performance, es el operador que evalúa el rendimiento del algoritmo. No aplica

para algoritmos jerárquicos porque éste mide la calidad de formación de los

clústeres.

53

8. Log, es un operador que registra y almacena las estadísticas de la ejecución del

proceso y del algoritmo, tanto a nivel de hardware como de software.

4.5.2 Desarrollo de escenarios para computación paralela

La computación paralela es una forma de computación por medio de la cual muchas tareas

o instrucciones son ejecutadas al mismo tiempo. El principio de la computación paralela es

usar múltiples procesadores en paralelo para resolver problemas de manera más rápida y

efectiva que con un solo procesador, y con un consumo de energía menor (Oshana, 2015).

Por lo tanto, llevar a cabo unos escenarios de computación paralela permitirá conocer el

comportamiento de los algoritmos al ejecutarse de forma simultánea una variedad de

tareas para observar posteriormente lo que ocurre con las evaluaciones de desempeño y

rendimiento.

Para el desarrollo de estos escenarios se hace uso de una licencia de prueba empresarial

de Rapid Miner que ofrece el uso de 4 procesadores en vez de uno solo. Esta licencia solo

está vigente por 30 días debido a que la adquisición de la licencia tiene un costo de $5.000

dólares al año (https://rapidminer.com/pricing). Para obtener un trial de 30 días fue

necesario hablar con una Especialista de Marketing de Rapid Miner y explicarle los motivos

y razones por los cuales se solicitaba esta demo, argumentándole el motivo académico, el

tipo de investigación y lo que se quería realizar, pues estas demos de licencias

empresariales no son dadas con facilidad a los usuarios. Con el acceso a cuatro

procesadores lógicos se pudo desarrollar escenarios con ejecución simultánea donde cada

proceso tendrá un subproceso con varios algoritmos agrupados según su afinidad, y cada

tarea (u operador) equivaldrá a tener un valor de K diferente para cada algoritmo

particionado, y en el caso del algoritmo de agrupamiento jerárquico será una cantidad de

instancias diferentes para cada dataset. En términos generales, se podrán ejecutar varios

escenarios de trabajo simultáneos para un mismo algoritmo dentro de un único subproceso

para un proceso general del software.

La figura 10 muestra el diseño del proceso que ejecuta Rapid Miner empleando

computación paralela:



Figura 10. Diseño del proceso para los escenarios de trabajo con Rapid Miner empleando

computación paralela (Fuente: El autor del trabajo).

El proceso está conformado por tres operadores explicado a continuación:

1. Dataset, el operador que contiene el conjunto de instancias de las estaciones

climáticas.

2. Loop, el operador que ejecuta varias tareas en su interior y es un subproceso del

proceso mayor de ejecución.

3. Log, es un operador que registra y almacena las estadísticas de la ejecución del

proceso, subproceso y del algoritmo, tanto a nivel de hardware como de software.

Dentro del operador loop se encuentra el diseño de paralelización, presentado en la figura

11:

55

Figura 11. Diseño del subproceso loop para los escenarios de trabajo con Rapid Miner

empleando computación paralela.

El subproceso está conformado por cuatro operadores:

1. Multiply, es un multiplexor que lo que recibe como entrada lo reparte en cuantas

salidas tenga definidas.

2. Filtro de rango, para definir qué rango de instancias serán empleadas en el

procesamiento.

3. Clustering, el operador que se encarga de ejecutar el algoritmo de agrupamiento.

Es el corazón del subproceso quien ejecuta el dataset y el cual es evaluado

posteriormente.

4. Performance, es el operador que evalúa el rendimiento del algoritmo. No aplica

para algoritmos jerárquicos.

4.6 Características del hardware

Para la experimentación se utilizó un computador portátil Lenovo con las siguientes

características: Intel Core i7-6700HQ (8 CPU’s) a 2.6GHz, memoria RAM de 12GB DDR4

a 2133MHz, disco duro de 1TB a 5400 rpm, tarjeta de video NVIDIA GeForce GTX 960M

de 4GB y sistema operativo Windows 10 Home a 64 bits.



5. Marco experimental y resultados

A continuación, se muestran en detalle los resultados obtenidos de la ejecución de cada

uno de los algoritmos de agrupamiento en cada uno de los escenarios establecidos, se

explican las tareas llevadas a cabo y el análisis realizado.

Con relación al desempeño de hardware, las tablas muestran cinco valores que

corresponden a lo siguiente:

Tiempo de ejecución, es el tiempo que tarda el algoritmo en llevar a cabo su ejecución.

Tiempo, es el tiempo que tarda todo el proceso de machine learning en ejecutarse.

Memoria RAM, es el consumo de memoria de acceso aleatorio, o conocida como RAM.

Es el consumo que genera la ejecución del algoritmo de agrupamiento.

Tiempo de CPU, es el tiempo que tarda todo el proceso de machine learning en ejecutarse

para la CPU. (tiempo de todo el proceso, desde que entran los datos al flujo hasta que se

obtiene el log).

Tiempo de ejecución de CPU, es el tiempo que tarda el algoritmo en ejecutarse para la

CPU. (tiempo de solamente el algoritmo de agrupamiento).

5.1 Algoritmo K-means

Para la estación Hospital de Villamaría se diseñaron 5 escenarios de trabajo, cada uno con

3 tratamientos diferentes, para un valor K igual a 2, 3 y 5. K-means fue ejecutado en cada

uno de ellos.

Para la estación Hospital de Villamaría con K=2, se obtuvieron los resultados mostrados

en la tabla 9:

57

TABLA 9. Resultados de K-means con K=2 para estación Hospital de Villamaría.

Clú

ste

r 0

%C

lúst

er

1%

1.1

523.

411

523.

378

100,

033

0,0

-0.2

734.

764

4.92

22.

033.

904.

144

359.

375.

000

203.

125.

000

1.2

523.

411

126.

466

24,2

396.

945

75,8

-0.6

436.

884

7.08

12.

219.

269.

632

468.

750.

000

281.

250.

000

1.3

523.

411

408.

926

78,1

114.

485

21,9

-0.6

584.

481

4.65

51.

660.

873.

048

312.

500.

000

125.

000.

000

2.1

430.

634

86.6

7120

,134

3.96

379

,9-0

.469

6.04

86.

178

3.09

3.27

7.64

029

6.87

5.00

017

1.87

5.00

0

2.2

430.

634

128.

778

29,9

301.

856

70,1

-0.8

127.

783

7.92

72.

208.

655.

688

296.

875.

000

140.

625.

000

2.3

430.

634

132.

287

30,7

298.

347

69,3

-0.8

114.

869

5.02

73.

934.

525.

592

328.

125.

000

171.

875.

000

3.1

520.

819

427.

583

82,1

93.2

3617

,9-0

.456

7.05

97.

237

3.83

3.50

8.71

229

6.87

5.00

012

5.00

0.00

0

3.2

520.

819

395.

606

76,0

125.

213

24,0

-0.7

849.

977

10.1

694.

800.

722.

456

343.

750.

000

140.

625.

000

3.3

520.

819

127.

177

24,4

393.

642

75,6

-0.7

935.

061

5.23

05.

120.

613.

720

312.

500.

000

140.

625.

000

4.1

430.

634

86.6

7120

,134

3.96

379

,9-0

.469

5.72

65.

903

1.68

5.90

0.29

621

8.75

0.00

078

.125

.000

4.2

430.

634

128.

778

29,9

301.

856

70,1

-0.8

128.

940

9.09

52.

844.

027.

936

234.

375.

000

140.

625.

000

4.3

430.

634

298.

402

69,3

132.

232

30,7

-0.7

673.

976

4.11

13.

136.

620.

896

234.

375.

000

93.7

50.0

00

5.1

430.

634

86.6

7120

,134

3.96

379

,9-0

.469

6.22

26.

378

4.17

5.67

5.57

625

0.00

0.00

093

.750

.000

5.2

430.

634

128.

778

29,9

301.

856

70,1

-0.8

128.

886

9.07

65.

328.

579.

768

281.

250.

000

93.7

50.0

00

5.3

430.

634

298.

402

69,3

132.

232

30,7

-0.7

673.

904

4.05

14.

115.

358.

056

281.

250.

000

140.

625.

000

#1 #2 #3 #4 #5

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

De

sem

pe

ño

de

l har

dw

are

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Trat

amie

nto

Esce

nar

ios

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin




en la tabla 10:


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%

1.1

523.

411

523.

374

100,

016

0,0

210,

0-0

.454

4.02

84.

173

3.12

7.64

2.93

626

5.62

5.00

010

9.37

5.00

0

1.2

523.

411

241.

672

46,2

194.

955

37,2

86.7

8416

,6-0

.650

10.6

9810

.873

3.22

5.22

8.72

034

3.75

0.00

017

1.87

5.00

0

1.3

523.

411

408.

931

78,1

330,

011

4.44

721

,9-0

.530

6.87

87.

107

3.92

1.18

5.40

834

3.75

0.00

093

.750

.000

2.1

430.

634

40.9

169,

529

7.30

369

,092

.415

21,5

-0.4

348.

186

8.32

44.

740.

428.

440

312.

500.

000

187.

500.

000

2.2

430.

634

100.

969

23,4

276.

204

64,1

53.4

6112

,4-0

.938

17.6

4717

.794

2.32

3.63

8.47

231

2.50

0.00

017

1.87

5.00

0

2.3

430.

634

87.6

8620

,428

6.31

466

,556

.634

13,2

-1.0

045.

815

5.97

64.

314.

778.

744

218.

750.

000

109.

375.

000

3.1

520.

819

380.

290

73,0

98.7

2819

,041

.801

8,0

-0.4

3319

.436

19.6

323.

924.

269.

616

406.

250.

000

218.

750.

000

3.2

520.

819

360.

192

69,2

50.4

159,

711

0.21

221

,2-0

.904

24.9

0725

.336

3.99

8.96

1.87

262

5.00

0.00

020

3.12

5.00

0

3.3

520.

819

393.

656

75,6

127.

162

24,4

10,

0-0

.529

6.74

06.

921

2.15

1.67

7.74

426

5.62

5.00

010

9.37

5.00

0

4.1

430.

634

40.9

169,

529

7.30

369

,092

.415

21,5

-0.4

348.

956

9.09

14.

436.

271.

224

218.

750.

000

78.1

25.0

00

4.2

430.

634

53.4

6112

,410

0.96

923

,427

6.20

464

,1-0

.938

21.7

9321

.974

2.59

3.87

2.72

028

1.25

0.00

093

.750

.000

4.3

430.

634

132.

239

30,7

298.

394

69,3

10,

0-0

.512

5.90

56.

075

3.88

0.93

8.82

423

4.37

5.00

010

9.37

5.00

0

5.1

430.

634

40.9

169,

529

7.30

369

,092

.415

21,5

-0.4

348.

647

8.79

94.

036.

573.

240

234.

375.

000

109.

375.

000

5.2

430.

634

53.4

6112

,410

0.96

923

,427

6.20

464

,1-0

.938

21.4

6521

.652

4.02

6.73

4.90

421

3.50

0.00

014

0.62

5.00

0

5.3

430.

634

132.

239

30,7

298.

394

69,3

10,

0-0

.512

5.65

15.

789

5.61

1.71

5.32

820

3.12

5.00

078

.125

.000

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Agr

up

amie

nto

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

59


en la tabla 11:


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%C

lúst

er

3%

Clú

ste

r 4

%

1.1

523.

411

523.

373

100,

010

0,0

100,

012

0,0

60,

0-0

.427

5.56

25.

715

3.45

6.14

8.08

826

5.62

5.00

010

9.37

5.00

0

1.2

523.

411

115.

491

22,1

38.9

437,

410

0.38

219

,280

.348

15,4

188.

247

36,0

-0.8

6219

.577

19.7

902.

508.

987.

032

375.

000.

000

171.

875.

000

1.3

523.

411

223.

656

42,7

37.0

077,

133

0,0

81.4

0515

,618

1.31

034

,6-0

.623

9.11

29.

311

2.52

1.01

9.12

035

9.37

5.00

015

6.25

0.00

0

2.1

430.

634

26.5

656,

227

0.35

762

,861

.231

14,2

49.7

0611

,522

.775

5,3

-0.4

9722

.976

23.1

232.

412.

584.

056

359.

375.

000

203.

125.

000

2.2

430.

634

93.3

1721

,719

8.22

146

,044

.557

10,3

60.0

6713

,934

.472

8,0

-0.8

9023

.996

24.1

514.

166.

817.

320

343.

750.

000

187.

500.

000

2.3

430.

634

98.4

5322

,930

.048

7,0

46.2

2410

,757

.809

13,4

198.

100

46,0

-0.9

167.

683

7.83

93.

956.

284.

576

265.

625.

000

109.

375.

000

3.1

520.

819

348.

721

67,0

67.2

9312

,923

.456

4,5

27.8

705,

453

.479

10,3

-0.4

9024

.136

24.3

522.

632.

539.

208

437.

500.

000

250.

000.

000

3.2

520.

819

188.

235

36,1

65.5

3712

,649

.100

9,4

180.

372

34,6

37.5

757,

2-0

.823

22.0

7522

.349

3.48

5.96

1.28

043

7.50

0.00

017

1.87

5.00

0

3.3

520.

819

214.

432

41,2

190.

419

36,6

63.3

5312

,21

0,0

52.6

1410

,1-0

.718

11.9

8712

.350

4.94

6.39

5.59

253

1.25

0.00

017

1.87

5.00

0

4.1

430.

634

22.7

755,

327

0.35

762

,861

.231

14,2

49.7

0611

,526

.565

6,2

-0.4

9725

.440

25.6

671.

725.

702.

792

406.

250.

000

187.

500.

000

4.2

430.

634

60.0

7013

,944

.554

10,3

198.

221

46,0

93.3

1721

,734

.472

8,0

-0.9

8028

.568

28.7

685.

104.

033.

896

234.

375.

000

109.

375.

000

4.3

430.

634

48.6

3911

,31

0,0

215.

742

50,1

117.

486

27,3

48.7

6611

,3-0

.720

7.48

47.

654

3.39

7.83

8.84

028

1.25

0.00

093

.750

.000

5.1

430.

634

22.7

755,

327

0.35

762

,861

.231

14,2

49.7

0611

,526

.565

6,2

-0.4

9725

.802

25.9

733.

341.

342.

488

281.

250.

000

125.

000.

000

5.2

430.

634

60.0

7013

,944

.554

10,3

198.

221

46,0

93.3

1721

,734

.472

8,0

-0.8

9028

.403

28.5

855.

526.

369.

600

312.

500.

000

125.

000.

000

5.3

430.

634

48.6

3911

,31

0,0

215.

742

50,1

117.

486

27,3

48.7

6611

,3-0

.720

7.56

87.

729

2.75

7.93

7.94

426

5.62

5.00

010

9.37

5.00

0

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin



A partir de lo mostrado en las tablas para el algoritmo K-means, según el criterio de

evaluación de clúster (índice de Davis-Bouldin), para K=2 el mejor índice está dado para

los tratamientos 2.2, 4.2 y 5.2, mientras que para K=3 y K=5 el mejor índice está dado por

los tratamientos 2.2, 2.3, 3.2, 4.2 y 5.2. Se aprecia que la normalización de un conjunto de

datos con Range-transformation obtiene la mejor evaluación de clúster para K=2, K=3 y

K=5, independiente de si se utilizan tres atributos (sin precipitación) o con cuatro atributos

(incluyendo precipitación).

Ahora bien, en lo concerniente al agrupamiento, visualmente se determina que para K=2

el escenario 2 es el que agrupa de manera más homogénea las instancias al observar los

tratamientos 2.2 y 2.3 con 29.9% - 70.1% y 30.7% - 69.3% en comparación con el resto de

los escenarios. Para K=3 el escenario 2 es el que agrupa de manera más homogénea las

instancias con un 23.4% - 64.1% - 12.4% para el tratamiento 2.2, y 20.4% - 66.5% - 13.2%

para el tratamiento 2.3. Para K=5, es también el escenario 2 quien agrupa de manera más

homogénea las instancias. Esto significa que el índice de Davis-Bouldin también indica el

mejor equilibrio de agrupación de instancias y que la normalización influye

considerablemente en estos resultados.

Las figuras 12 y 13 muestran el agrupamiento de instancias para el escenario 2 según el

índice de Davis-Bouldin. El atributo precipitación no está presente.

Figura 12. Agrupamiento para K-means entre temperatura VS radiación solar para K=3.

61

Figura 13. Agrupamiento para K-means entre humedad relativa VS radiación solar para

K=3.

Adentrando en la comprensión y análisis de la normalización, el índice de Davis-Bouldin

indica que los escenarios que aplicaron alguna técnica de normalización tuvieron la mejor

evaluación de clustering, como lo evidencian los tratamientos 2.2 y 2.3 para el escenario

2, 3.2 y 3.3 para el escenario 3, 4.2 y 4.3 para el escenario 4 y 5.2 y 5.3 para el escenario

5.

La Figura 14 muestra que la radiación solar es un atributo que genera el mayor arrastre de

las instancias al tener valores tan altos en la escala a comparación de los demás atributos,

lo cual se convierte en una desventaja. No obstante, la figura 15 evidencia cómo se

equilibran los agrupamientos al llevar las instancias a una escala entre 0 y 1, sin embargo,

con el atributo precipitación se presenta un arrastre de instancias, pero en este caso no es

su escala de valores sino la inmensa cantidad de ceros que contiene, aunque no afecta la

calidad del agrupamiento. Mientras que la figura 16 muestra mayor efectividad al balancear

la carga de los mayores agrupamientos, es decir, los agrupamientos se han dado

homogéneos sin que un atributo influya en la formación y arrastre de instancias. Todos con

un valor de K=5.



Figura 14. Agrupamiento con cuatro atributos para K-means sin normalización.

Figura 15. Agrupamiento con cuatro atributos para K-means normalizando con Range-

transformation.

63

Figura 16. Agrupamiento con cuatro atributos para K-means normalizando con Z-

transformation.

Con respecto a la reducción de dimensionalidad, se determinaron 3 componentes

principales con el objetivo de crear combinaciones lineales de las variables originales, por

lo que los cuatro atributos son transformados a tres nuevas variables, y se obtuvieron una

serie de resultados.

Para la figura 17 se observa que la mayoría de las instancias se aglomeran por encima del

eje x (valores positivos) y que la componente principal 1 tiene una dirección paralela al

mismo eje. No hay valores atípicos y los valores negativos en coordenadas (x,y) están

dados para una pequeña porción del clúster 1. El agrupamiento se da a partir de la

componente principal 1 según la observación de la gráfica.

Para la figura 18 se observa que la mayoría de las instancias están por debajo del eje x

(valores negativos) y que la componente principal 1 tiene una leve inclinación hacia la parte

superior derecha. Tampoco hay valores atípicos y los valores negativos en coordenadas

(x,y) están dados casi en la totalidad para el clúster 1. El agrupamiento no se determina

por ninguna de las tres componentes principales. Visualmente se determina que con

normalización los clústeres se forman mejor (más redondeados los agrupamientos).



Figura 17. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos sin

normalización para K=3 en K-means.

Figura 18. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos y

normalizando con Range-transformation para K=3 en K-means.

65

Por otro lado, lo que respecta al número de iteraciones, se obtuvieron a manera general

los siguientes resultados. Las tablas 12, 13 y 14 muestran los cálculos de los centroides

entre cada atributo VS el clúster. Los centroides permiten que las instancias se acerquen

a él según un patrón de similitud gracias a la distancia euclidiana (en este caso la distancia

empleada para la experimentación) para que los agrupamientos se puedan formar.

Tabla 12. Centroides calculados para K=3 con 1.000 iteraciones en K-means.

Tabla 13. Centroides calculados para K=3 con 100 iteraciones en K-means.

Tabla 14. Centroides calculados para K=3 con 10 iteración en K-means.

A nivel computacional los tiempos de ejecución del algoritmo son altos a medida que el

número de iteraciones es mayor, y es debido al ciclo de repetir los pasos en mayor

cantidad. Para una sola iteración la ejecución del algoritmo es muy rápida. No obstante, al

iterar más (diez veces más alto por cada escenario) el cálculo de los centroides permanece

igual para todos los clúster y atributos.

Con relación al desempeño de hardware, se obtuvieron los resultados mostrados en la

figura 19 cuyos tratamientos 1.2, 2.2, 4.2 y 5.2 son los que más tardan en ejecutarse para

el algoritmo, lo que significa que al iterar el algoritmo 1.000 veces lo hace más demorado

en términos computacionales. Los tratamientos 1.3, 2.3, 3.3, 4.3 y 5.3 al tener muy pocas

iteraciones hacen que el algoritmo se ejecute rápidamente.



Figura 19. Tiempo de ejecución de K-means para la estación Hospital de Villamaría.

La figura 20 muestra que los cinco escenarios tienen un consumo de memoria RAM similar

y se observa una tendencia de incremento por escenario que puede estar asociada al

aumento de atributos y a la cantidad de clústeres generados.

Figura 20. Consumo de memoria RAM de K-means para la estación Hospital de

Villamaría.

67

La figura 21 muestra que el tiempo de ejecución de CPU es irregular (no tiene una

tendencia o patrón) para los diferentes valores de K. Además, para los primeros

tratamientos de los tres primeros escenarios propuestos se observan elevados tiempos de

ejecución de CPU, y para los tratamientos de los escenarios 4 y 5 se observa disminución

de los tiempos de ejecución de CPU.

Figura 21. Tiempo de ejecución de CPU de K-means para la estación Hospital de

Villamaría.

Finalmente, los resultados anteriores arrojan para el algoritmo K-means en la estación

Hospital de Villamaría que para K=2, K=3 y K=5 el escenario con el mejor desempeño fue

el número 2 (dataset con todas las instancias y sin datos faltantes ni atípicos, y tres

atributos como temperatura, humedad relativa y radiación solar) porque en él se obtuvo las

mejores evaluaciones de clustering según el índice de Davis-Bouldin acorde a los

resultados de sus tratamientos.

Para la estación Hospital de Caldas se diseñaron 5 escenarios de trabajo y cada uno con

3 diferentes tratamientos para un valor K igual a 2, 3 y 5. K-means fue ejecutado en cada

uno de ellos, al igual que para la estación Hospital de Villamaría, con el fin de comparar

resultados con una estación climática que se encuentra a mayor altura sobre el nivel del

mar y con los mismos atributos para validar el comportamiento y confrontar si los

resultados tienen relación o igualdad con determinados aspectos.

Para la estación Hospital de Caldas con K=2, se obtuvieron los resultados mostrados en

la tabla 15:



TABLA 15. Resultados de K-means con K=2 para estación Hospital de Caldas.

Clú

ste

r 0

%C

lúst

er

1%

1.1

535.

605

535.

604

100,

01

0,0

-0.0

002.

299

2.61

22.

333.

531.

112

593.

750.

000

281.

250.

000

1.2

535.

605

160.

633

30,0

374.

972

70,0

-0.7

157.

863

8.04

51.

115.

104.

408

312.

500.

000

156.

250.

000

1.3

535.

605

157.

143

29,3

378.

462

70,7

-0.7

175.

187

5.32

81.

312.

563.

032

250.

000.

000

109.

375.

000

2.1

530.

801

442.

611

83,4

88.1

9016

,6-0

.514

8.04

38.

184

2.61

0.12

9.46

425

0.00

0.00

010

9.37

5.00

0

2.2

530.

801

385.

988

72,7

144.

813

27,3

-0.9

328.

985

9.13

22.

178.

955.

064

312.

500.

000

171.

875.

000

2.3

530.

801

153.

104

28,8

377.

697

71,2

-0.9

285.

589

5.74

61.

191.

077.

624

250.

000.

000

125.

000.

000

3.1

535.

585

447.

155

83,5

88.4

3016

,5-0

.513

7.96

68.

138

2.59

2.27

9.95

228

1.25

0.00

010

9.37

5.00

0

3.2

535.

585

390.

921

73,0

144.

664

27,0

-0.9

3410

.998

11.1

552.

531.

601.

632

281.

250.

000

125.

000.

000

3.3

535.

585

382.

131

71,3

153.

454

28,7

-0.8

925.

113

5.25

43.

572.

928.

056

234.

375.

000

93.7

50.0

00

4.1

530.

801

442.

611

83,4

88.1

9016

,6-0

.514

8.60

08.

770

2.58

4.52

5.76

828

1.25

0.00

010

9.37

5.00

0

4.2

530.

801

385.

984

72,7

144.

817

27,3

-0.9

3311

.235

11.4

234.

659.

393.

576

312.

500.

000

125.

000.

000

4.3

530.

801

153.

182

28,9

377.

619

71,1

-0.8

915.

234

5.37

43.

812.

005.

904

312.

500.

000

171.

875.

000

5.1

530.

801

442.

611

83,4

88.1

9016

,6-0

.514

8.35

08.

507

4.25

1.40

6.20

834

3.75

0.00

017

1.87

5.00

0

5.2

530.

801

385.

984

72,7

144.

817

27,3

-0.9

3311

.405

11.5

654.

278.

010.

648

343.

750.

000

171.

875.

000

5.3

530.

801

153.

182

28,9

377.

619

71,1

-0.8

915.

405

5.54

64.

562.

623.

736

265.

625.

000

125.

000.

000

Trat

amie

nto

Esce

nar

ios

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

De

sem

pe

ño

de

l har

dw

are

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

#1 #2 #3 #4 #5

69


la tabla 16:


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%

1.1

535.

605

535.

603

100,

01

0,0

10,

0-0

.000

2.53

12.

687

1.61

4.29

1.06

431

2.50

0.00

015

6.25

0.00

0

1.2

535.

605

78.6

1114

,720

7.69

538

,824

9.29

946

,5-0

.776

12.6

5312

.800

1.76

0.76

7.52

028

1.25

0.00

014

0.62

5.00

0

1.3

535.

605

378.

129

70,6

157.

475

29,4

10,

0-0

.478

6.50

46.

669

1.81

6.67

2.88

829

6.87

5.00

012

5.00

0.00

0

2.1

530.

801

369.

704

69,7

37.0

497,

012

4.04

823

,4-0

.437

8.82

78.

967

2.37

8.21

0.81

626

5.62

5.00

012

5.00

0.00

0

2.2

530.

801

335.

244

63,2

52.3

909,

914

3.16

727

,0-0

.954

20.6

2420

.780

3.46

0.59

6.52

840

6.25

0.00

025

0.00

0.00

0

2.3

530.

801

51.9

519,

834

7.14

265

,413

1.70

824

,8-1

.009

6.64

96.

789

3.29

1.46

8.88

831

2.50

0.00

017

1.87

5.00

0

3.1

535.

585

374.

110

69,9

37.1

536,

912

4.32

223

,2-0

.437

9.57

69.

732

4.33

8.76

0.69

631

2.50

0.00

015

6.25

0.00

0

3.2

535.

585

142.

009

26,5

52.4

689,

834

1.10

863

,7-0

.957

20.4

8620

.658

2.83

2.67

4.09

634

3.75

0.00

017

1.87

5.00

0

3.3

535.

585

381.

085

71,2

1.28

10,

215

3.21

928

,6-0

.748

7.18

07.

367

4.44

8.00

9.20

035

9.37

5.00

017

1.87

5.00

0

4.1

530.

801

369.

704

69,7

37.0

497,

012

4.04

823

,4-0

.437

9.76

99.

940

4.04

9.65

2.59

231

2.50

0.00

014

0.62

5.00

0

4.2

530.

801

335.

236

63,2

52.3

919,

914

3.17

427

,0-0

.955

23.9

3124

.103

4.46

0.51

8.96

839

0.62

5.00

021

8.75

0.00

0

4.3

530.

801

376.

423

70,9

153.

321

28,9

1.05

70,

2-0

.739

6.90

07.

032

4.37

7.87

5.89

625

0.00

0.00

010

9.37

5.00

0

5.1

530.

801

369.

704

69,7

37.0

497,

012

4.04

823

,4-0

.437

9.89

110

.047

2.68

1.80

9.53

631

2.50

0.00

015

6.25

0.00

0

5.2

530.

801

335.

236

63,2

52.3

919,

914

3.17

427

,0-0

.955

24.1

3324

.305

4.95

1.56

2.09

632

8.12

5.00

015

6.25

0.00

0

5.3

530.

801

376.

423

70,9

153.

321

28,9

1.05

70,

2-0

.739

6.53

26.

673

4.71

8.48

0.04

826

5.62

5.00

012

5.00

0.00

0

#5

Agr

up

amie

nto

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)




la tabla 17:


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%C

lúst

er

3%

Clú

ste

r 4

%

1.1

535.

605

535.

598

100,

01

0,0

10,

01

0,0

40,

0-0

.129

4.01

94.

173

2.44

4.39

5.89

632

8.12

5.00

017

1.87

5.00

0

1.2

535.

605

80.0

7915

,012

6.69

723

,716

3.03

030

,433

.737

6,3

132.

062

24,7

-0.9

3528

.071

28.2

421.

670.

932.

016

421.

875.

000

250.

000.

000

1.3

535.

605

181.

294

33,8

111.

806

20,9

10,

019

6.94

836

,845

.556

8,5

-0.6

828.

773

8.93

41.

847.

093.

456

281.

250.

000

125.

000.

000

2.1

530.

801

329.

841

62,1

63.0

2811

,921

.093

4,0

89.7

4016

,927

.099

5,1

-0.4

8919

.969

20.1

413.

249.

132.

536

281.

250.

000

109.

375.

000

2.2

530.

801

143.

487

27,0

33.0

336,

221

5.77

040

,657

.216

10,8

81.2

9515

,3-0

.907

29.5

4629

.717

2.84

1.54

9.81

640

6.25

0.00

023

4.37

5.00

0

2.3

530.

801

145.

658

27,4

30.7

745,

821

6.74

640

,857

.604

10,9

80.0

1915

,1-0

.958

8.81

28.

968

1.61

6.40

0.37

632

8.12

5.00

017

1.87

5.00

0

3.1

535.

585

27.1

905,

133

4.11

062

,421

.143

3,9

63.1

7811

,889

.964

16,8

-0.4

8922

.345

22.5

482.

579.

633.

128

359.

375.

000

156.

250.

000

3.2

535.

585

81.7

6315

,321

2.56

139

,714

9.97

728

,033

.245

6,2

58.0

3910

,8-0

.906

24.8

8425

.056

3.21

7.50

8.90

437

5.00

0.00

020

3.12

5.00

0

3.3

535.

585

182.

880

34,1

249.

404

46,6

1.28

10,

258

.176

10,9

43.8

448,

2-0

.818

9.56

49.

736

3.83

7.78

7.88

832

8.12

5.00

015

6.25

0.00

0

4.1

530.

801

329.

841

62,1

63.0

2811

,921

.093

4,0

89.7

4016

,927

.099

5,1

-0.4

8922

.929

23.1

325.

412.

221.

040

375.

000.

000

171.

875.

000

4.2

530.

801

57.2

1510

,821

5.76

440

,681

.295

15,3

143.

494

27,0

33.0

336,

2-0

.909

34.5

4534

.733

3.52

6.05

3.73

637

5.00

0.00

018

7.50

0.00

0

4.3

530.

801

182.

661

34,4

44.6

238,

460

.274

11,4

1.54

00,

324

1.70

345

,5-0

.827

9.04

79.

204

3.09

1.45

4.09

631

2.50

0.00

015

6.25

0.00

0

5.1

530.

801

329.

841

62,1

63.0

2811

,921

.093

4,0

89.7

4016

,927

.099

5,1

-0.4

8922

.847

23.0

974.

849.

954.

584

453.

125.

000

203.

125.

000

5.2

530.

801

57.2

1510

,821

5.76

440

,681

.295

15,3

143.

494

27,0

33.0

336,

2-0

.909

34.0

3034

.218

2.81

7.04

4.00

039

0.62

5.00

020

3.12

5.00

0

5.3

530.

801

182.

661

34,4

44.6

238,

460

.274

11,4

1.54

00,

324

1.70

345

,5-0

.827

9.18

79.

359

5.17

2.18

6.93

632

8.12

5.00

015

6.25

0.00

0

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

71

Según el índice de evaluación de clustering (Davis-Bouldin) el mejor escenario para K=2

está dado por el escenario 2. Para K=3 y K=5 el mejor escenario es también el escenario

2. En esta estación con K=2 y normalizando con Range-transformation y con tres atributos

(excluyendo precipitación), se genera el mejor resultado, mientras que para K=3 y K=5 se

obtiene el mejor resultado normalizando con Z-transformation, también excluyendo del

dataset al atributo precipitación. El escenario con los mejores resultados, una vez más, es

determinado por la evaluación de agrupamiento que provee el índice de Davis-Bouldin.

Con respecto al agrupamiento, para K=2 se observa de manera visual en la tabla 15 que

el mejor equilibrio de instancias agrupadas está dado por el escenario 2 con el 72.7% y el

27.3% para el tratamiento 2.2, y a su vez, con el 28.8% y el 71.2% para el tratamiento 2.3.

En los demás escenarios se observa mayor desbalance. Lo mismo ocurre para K=3 y K=5.

Este resultado valida el ejercicio que la normalización influye notablemente en el

agrupamiento, en especial la técnica de Z-transformation y que el criterio de evaluación de

Davis-Bouldin reafirma lo que visualmente se interpreta en los agrupamientos obtenidos.

Acerca de la normalización, el índice de Davis-Bouldin indica que los escenarios que

aplicaron alguna técnica de normalización tuvieron la mejor evaluación de clustering, como

lo evidencian los tratamientos 2.2 y 2.3 para el escenario 2. Este resultado confirma el

mismo antecedente evidenciado para la estación Hospital de Villamaría.

La figura 22 evidencia el agrupamiento sin normalización en donde el atributo radiación

solar es quien genera la construcción de los clústeres, mientras que en la figura 23 la

normalización permite llevar a menor escala todas las instancias de forma que ya no existe

un atributo que imponga el arrastre al momento de agrupar y solamente el clúster 1

sobresale con respecto a los demás, lo cual se interpreta que agrupa los valores por

encima de 0 (ocurrencia de lluvias), mientras que el resto de valores se mantiene en 0 (no

hubo lluvias) y ya se conoce que este atributo posee una inmensa cantidad de ceros debido

a que la estación climática está ubicada en un lugar donde las lluvias no son constantes y

de mucha frecuencia. Este resultado es muy similar al de la anterior estación climática

(Hospital de Villamaría) validando entonces su comportamiento.



Figura 22. Agrupamiento con cuatro atributos y K=5 para K-means sin normalización.

Figura 23. Agrupamiento con cuatro atributos y K=5 para K-means y normalizando con Z-

transformation.

73

Con relación a la reducción de dimensionalidad, se determinaron también 3 componentes

principales con el objetivo de crear combinaciones lineales de las variables originales, por

lo que los cuatro atributos son transformados a tres nuevas variables (al igual que para la

estación Hospital de Villamaría), y se obtuvo los siguientes resultados mostrados en las

figuras 24 y 25.


eje x (valores positivos) y que la componente principal 1 tiene una dirección paralela al

mismo eje. No hay valores atípicos en cantidad y los valores negativos en coordenadas

(x,y) están dados para una pequeña porción del clúster 0. El agrupamiento se da a partir

de la componente principal 1 según la observación de la gráfica, al ver cómo se corta cada

clúster de forma vertical.



superior derecha. Tampoco hay valores atípicos en cantidad y los valores negativos en

coordenadas (x,y) están dados casi en la totalidad para el clúster 0. El agrupamiento no se

determina por ninguna de las tres componentes principales. Visualmente se determina que

con normalización los clústeres se forman mejor (más redondeados los agrupamientos).

Al observar esto, se encuentra que el resultado es casi igual a la estación climática Hospital

de Villamaría, reafirmando un igual comportamiento.


normalización para K=3 en K-means.




normalizando con Range-transformation para K=3 en K-means.

Por otro lado, lo que respecta al número de iteraciones, se obtuvieron a manera general

los siguientes resultados mostrados en las tablas 18, 19 y 20.

Muestran que el cálculo de los centroides es casi igual para todos los escenarios sin

importar la cantidad de iteraciones. Esto valida el resultado de la estación Hospital de

Villamaría, en donde, a pesar de que mientras aumentan las iteraciones, mayor es el

tiempo de ejecución del algoritmo, sin embargo, el cálculo no se ve afectado, u optimizado

en este caso.

Tabla 18. Centroides calculados para K=5 con 1.000 iteraciones en K-means.

75

Tabla 19. Centroides calculados para K=5 con 100 iteraciones en K-means.

Tabla 20. Centroides calculados para K=5 con 10 iteración en K-means.

En el desempeño del hardware se obtuvieron los siguientes resultados:

La figura 26 muestra que el segundo tratamiento para los cinco escenarios son los que

más tardan en ejecutarse para el algoritmo, lo que significa que la normalización con

Range-transformation es demorada al igual que en la estación Hospital de Villamaría. El

tercer tratamiento para los cincos escenarios, al tener muy pocas iteraciones, hacen que

el algoritmo se ejecute rápidamente, a pesar de emplear otra técnica de normalización.

Figura 26. Tiempo de ejecución de K-means para la estación Hospital de Caldas.

La figura 27 muestra un incremento en el consumo de memoria RAM a medida que se

aumenta el valor de K y la cantidad de atributos. El comportamiento es similar al encontrado

en la estación Hospital de Villamaría.



Figura 27. Consumo de memoria RAM de K-means para la estación Hospital de Caldas.

La figura 28 muestra que el tiempo de ejecución de CPU es irregular (no tiene una

tendencia o patrón) para los diferentes valores de K. Para los tratamientos del escenario 1

se observa disminución y un incremento para los tratamientos del escenario 2. Para los

escenarios 3, 4 y 5 se observa elevaciones y disminuciones de tiempos que oscilan entre

un rango de 100 millones y 200 millones de nanosegundos.

Figura 28. Tiempo de ejecución de CPU de K-means para la estación Hospital de Caldas.

Finalmente, los resultados anteriores arrojan para el algoritmo K-means en la estación

Hospital de Caldas que para K=2, K=3 y K=5 el escenario con el mejor desempeño fue el

77

número 2 (dataset con todas las instancias y sin datos faltantes ni atípicos, y tres atributos

como temperatura, humedad relativa y radiación solar) porque en él se obtuvo las mejores

evaluaciones de clustering según el índice de Davis-Bouldin acorde a los resultados de

sus tratamientos.

Posteriormente, para la estación El Cisne PNNN se diseñaron 5 escenarios de trabajo con

3 tratamientos para cada uno, para un valor K igual a 2, 3 y 5. K-means fue ejecutado en

cada uno de ellos, al igual que para las dos anteriores estaciones climáticas, con el fin de

comparar resultados con una estación climática que se encuentra a la mayor altura sobre

el nivel del mar (cerca de las cumbres nevadas) y con los mismos atributos para validar el

comportamiento y confrontar si los resultados tienen relación o igualdad con determinados

aspectos.

Se obtuvieron los resultados mostrados en las tablas 21, 22 y 23 para la estación El Cisne

PNNN:



TABLA 21. Resultados de K-means con K=2 para estación El Cisne PNNN.

Clú

ste

r 0

%C

lúst

er

1%

1.1

269.

755

269.

750

100,

05

0,0

-0.1

281.

390

1.57

83.

390.

779.

184

421.

875.

000

234.

375.

000

1.2

269.

755

221.

549

82,1

48.2

0617

,9-0

.194

1.64

11.

719

2.66

7.05

5.90

415

6.25

0.00

078

.125

.000

1.3

269.

755

269.

750

100,

05

0,0

-0.1

332.

453

2.53

11.

124.

003.

040

171.

875.

000

93.7

50.0

00

2.1

248.

296

213.

494

86,0

34.8

0214

,0-0

.561

3.46

93.

548

3.45

5.56

8.23

210

9.37

5.00

031

.250

.000

2.2

248.

296

219.

896

88,6

28.4

0011

,4-0

.330

1.90

71.

985

2.94

2.05

0.33

615

6.25

0.00

078

.125

.000

2.3

248.

296

198.

722

80,0

49.5

7420

,0-1

.051

2.65

62.

734

3.25

9.41

7.35

215

6.25

0.00

078

.125

.000

3.1

269.

551

232.

749

86,3

36.8

0213

,7-0

.563

5.03

25.

126

3.38

1.52

0.48

817

1.87

5.00

078

.125

.000

3.2

269.

551

47.9

4817

,822

1.60

382

,2-0

.279

2.54

92.

627

3.20

1.28

4.99

215

6.25

0.00

078

.125

.000

3.3

269.

551

216.

348

80,3

53.2

0319

,7-0

.911

2.81

32.

891

2.51

8.18

8.75

214

0.62

5.00

062

.500

.000

4.1

248.

296

213.

494

86,0

34.8

0214

,0-0

.561

4.54

84.

642

4.16

5.90

5.12

020

3.12

5.00

010

9.37

5.00

0

4.2

248.

296

219.

896

88,6

28.4

0011

,4-0

.330

1.93

82.

016

2.37

6.13

0.87

214

0.62

5.00

062

.500

.000

4.3

248.

296

197.

787

79,7

50.5

0920

,3-0

.902

2.65

72.

751

3.34

7.22

5.91

214

0.62

5.00

046

.875

.000

5.1

248.

296

213.

494

86,0

34.8

0214

,0-0

.561

4.17

34.

266

4.99

7.48

1.64

015

6.25

0.00

062

.500

.000

5.2

248.

296

219.

896

88,6

28.4

0011

,4-0

.330

1.92

32.

016

3.59

3.73

7.40

015

6.25

0.00

062

.500

.000

5.3

248.

296

197.

787

79,7

50.5

0920

,3-0

.902

2.48

52.

548

4.32

4.09

7.54

410

9.37

5.00

046

.875

.000

#1 #2 #3 #4 #5

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

De

sem

pe

ño

de

l har

dw

are

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Trat

amie

nto

Esce

nar

ios

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

79


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%

1.1

269.

755

269.

750

100,

04

0,0

10,

0-0

.000

1.42

51.

541

1.23

9.91

2.12

020

3.12

5.00

093

.750

.000

1.2

269.

755

45.4

6016

,920

9.47

177

,714

.824

5,5

-0.5

989.

798

9.87

63.

133.

139.

616

187.

500.

000

109.

375.

000

1.3

269.

755

221.

633

82,2

48.1

1717

,85

0,0

-0.4

283.

126

3.20

41.

078.

938.

952

140.

625.

000

62.5

00.0

00

2.1

248.

296

55.0

7922

,210

.753

4,3

182.

464

73,5

-0.4

964.

407

4.48

52.

812.

463.

560

156.

250.

000

78.1

25.0

00

2.2

248.

296

35.8

2514

,427

.932

11,2

184.

539

74,3

-0.7

047.

235

7.31

33.

520.

337.

480

187.

500.

000

109.

375.

000

2.3

248.

296

25.9

3910

,418

0.14

072

,642

.217

17,0

-0.7

803.

016

3.09

42.

440.

216.

008

140.

625.

000

62.5

00.0

00

3.1

269.

551

201.

681

74,8

11.1

084,

156

.762

21,1

-0.5

095.

751

5.86

01.

759.

418.

656

218.

750.

000

109.

375.

000

3.2

269.

551

47.4

5517

,618

6.91

669

,335

.180

13,1

-0.6

878.

735

8.86

01.

729.

306.

736

187.

500.

000

62.5

00.0

00

3.3

269.

551

180.

454

66,9

44.6

1916

,644

.478

16,5

-0.5

983.

422

3.50

13.

286.

964.

312

171.

875.

000

93.7

50.0

00

4.1

248.

296

55.0

7922

,210

.753

4,3

182.

464

73,5

-0.4

965.

097

5.18

92.

189.

603.

096

203.

125.

000

109.

375.

000

4.2

248.

296

184.

541

74,3

27.9

3211

,235

.823

14,4

-0.7

058.

563

8.64

84.

538.

102.

784

140.

625.

000

62.5

00.0

00

4.3

248.

296

180.

114

72,5

25.8

1910

,442

.363

17,1

-0.6

253.

032

3.09

52.

782.

994.

696

125.

000.

000

62.5

00.0

00

5.1

248.

296

55.0

7922

,210

.753

4,3

182.

464

73,5

-0.4

964.

689

4.78

24.

067.

016.

224

203.

125.

000

109.

375.

000

5.2

248.

296

184.

541

74,3

27.9

3211

,235

.823

14,4

-0.7

057.

891

7.96

94.

329.

025.

168

156.

250.

000

78.1

25.0

00

5.3

248.

296

180.

114

72,5

25.8

1910

,442

.363

17,1

-0.6

252.

969

3.04

74.

691.

628.

080

125.

000.

000

46.8

75.0

00

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Agr

up

amie

nto

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)




Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%C

lúst

er

3%

Clú

ste

r 4

%

1.1

269.

755

269.

733

100,

04

0,0

30,

01

0,0

140,

0-0

.170

2.09

42.

188

3.59

4.03

3.69

620

3.12

5.00

010

9.37

5.00

0

1.2

269.

755

88.7

4432

,945

.131

16,7

10.8

834,

023

.294

8,6

101.

703

37,7

-0.7

358.

360

8.45

42.

908.

706.

544

140.

625.

000

46.8

75.0

00

1.3

269.

755

94.3

5335

,05

0,0

45.2

3316

,810

7.51

839

,922

.646

8,4

-0.5

334.

407

4.48

52.

881.

614.

048

187.

500.

000

109.

375.

000

2.1

248.

296

27.4

2911

,015

9.67

064

,345

.762

18,4

10.1

884,

15.

247

2,1

-0.5

6510

.048

10.1

262.

827.

335.

296

203.

125.

000

125.

000.

000

2.2

248.

296

25.8

3710

,414

8.99

460

,08.

492

3,4

55.4

9122

,39.

482

3,8

-0.7

3613

.753

13.8

313.

406.

107.

672

187.

500.

000

109.

375.

000

2.3

248.

296

45.9

5218

,525

.551

10,3

73.8

2529

,791

.247

36,7

11.7

214,

7-0

.874

4.07

94.

157

2.99

5.07

0.28

812

5.00

0.00

046

.875

.000

3.1

269.

551

148.

291

55,0

21.5

138,

07.

149

2,7

53.4

3019

,839

.168

14,5

-0.4

9211

.861

11.9

713.

338.

408.

776

187.

500.

000

78.1

25.0

00

3.2

269.

551

8.73

43,

215

1.20

356

,155

.159

20,5

9.50

73,

544

.948

16,7

-0.7

2912

.143

12.2

523.

040.

802.

024

234.

375.

000

125.

000.

000

3.3

269.

551

146.

177

54,2

62.9

1423

,315

.876

5,9

44.5

1816

,566

0,0

-0.5

334.

657

4.73

54.

612.

584.

552

156.

250.

000

78.1

25.0

00

4.1

248.

296

27.8

6511

,25.

278

2,1

45.8

1418

,510

.280

4,1

159.

059

64,1

-0.5

669.

986

10.0

795.

038.

083.

944

203.

125.

000

109.

375.

000

4.2

248.

296

55.4

9122

,325

.837

10,4

9.42

83,

814

8.99

460

,08.

492

3,4

-0.7

3716

.588

16.6

824.

948.

851.

528

140.

625.

000

62.5

00.0

00

4.3

248.

296

145.

979

58,8

25.4

7210

,314

.534

5,9

62.2

7825

,133

0,0

-0.5

674.

062

4.15

63.

868.

257.

872

171.

875.

000

78.1

25.0

00

5.1

248.

296

27.8

6511

,25.

278

2,1

45.8

1418

,510

.280

4,1

159.

059

64,1

-0.5

669.

924

10.0

172.

230.

952.

336

156.

250.

000

62.5

00.0

00

5.2

248.

296

55.4

9122

,325

.837

10,4

9.48

23,

814

8.99

460

,08.

492

3,4

-0.7

3716

.207

16.3

165.

144.

014.

328

218.

750.

000

109.

375.

000

5.3

248.

296

145.

979

58,8

25.4

7210

,314

.534

5,9

62.2

7825

,133

0,0

-0.5

674.

047

4.12

64.

092.

733.

304

140.

625.

000

62.5

00.0

00

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

81

Según el índice de evaluación de clustering (Davis-Bouldin) el mejor escenario para K=2,

K=3 y K=5 está dado por el escenario 2 (tercer tratamiento). Estos tratamientos del

escenario 2 están bajo técnicas de normalización lo que reafirma la importancia de esta

implementación para datasets climáticos en donde el atributo precipitación está excluido.

Con relación a la reducción de dimensionalidad, se presentan unas diferencias con

respecto a las anteriores estaciones, y puede ser dado por las instancias del atributo

temperatura cuyos valores están iguales o por debajo de cero (temperaturas muy bajas

debido a la altitud de la estación).


eje x (valores positivos) y que la componente principal 1 tiene una dirección casi paralela

al mismo eje (similar a las anteriores estaciones). Los valores atípicos (outliers) no los hay

y los valores negativos en coordenadas (x,y) están dados para una pequeña porción del

clúster 2. El agrupamiento se da a partir de la componente principal 1 según la observación

de la gráfica, al ver cómo se corta cada clúster de forma vertical.



superior derecha. Tampoco hay valores atípicos y los valores negativos en coordenadas

(x,y) están dados casi en pequeña fracción para los clústeres 0 y 2. El agrupamiento no se

determina por ninguna de las tres componentes principales. Visualmente no se determina

que con normalización los clústeres se formen mejor.

Al revisar el gráfico con la componente 3 según la figura 29, se confirma que la componente

1 es quien determina el agrupamiento de las instancias y que existe una simetría con los

datos con respecto al eje X (plano positivo y plano negativo). También se observan unos

valores atípicos alejados y desproporcionados del clúster 1.




normalización para K=3 en K-means (escenario 5).


normalizando con Range-transformation para K=3 en K-means (escenario 5).

83


normalizando con Range-transformation para K=3 en K-means (escenario 5).

En el número de iteraciones, hay los mismos comportamientos validados en las anteriores

estaciones climáticas, donde los centroides tienen los mismos valores para cualquier valor

de K y que independiente de si el algoritmo itera una vez o mil veces, el recálculo de los

centroides permanece con el mismo valor.

Finalmente, en el consumo de hardware hay las mismas tendencias en tiempos de

ejecución (algoritmo y CPU) y consumo de memoria RAM con relación a las estaciones

climáticas Hospital de Villamaría y Hospital de Caldas.

5.2 Algoritmo K-medoids

Para la estación Hospital de Villamaría se crearon 5 escenarios con tres tratamientos cada

uno, y para cada valor de K=2, 3 y 5, en donde el algoritmo K-medoids fue ejecutado.

Para la estación Hospital de Villamaría, se obtuvieron los siguientes resultados:



TABLA 24. Resultados de K-medoids con K=2 para estación Hospital de Villamaría.

Clú

ste

r 0

%C

lúst

er

1%

1.1

10.0

0026

62,

79.

733

97,3

-0.3

2019

3.86

719

3.88

92.

200.

492.

256

193.

281.

250.

000

193.

250.

000.

000

1.2

10.0

001.

933

19,3

8.06

680

,7-0

.545

174.

315

174.

315

1.26

3.58

7.80

817

3.75

0.00

0.00

017

3.75

0.00

0.00

0

1.3

10.0

001.

764

17,6

8.23

582

,4-0

.549

202.

442

202.

458

1.17

8.10

3.29

620

1.79

6.87

5.00

020

1.79

6.87

5.00

0

2.1

7.40

76.

449

87,1

958

12,9

-0.3

5810

8.98

410

9.00

01.

344.

279.

040

108.

375.

000.

000

108.

359.

375.

000

2.2

7.40

71.

890

25,5

5.51

774

,5-0

.738

108.

913

108.

929

912.

989.

216

108.

468.

750.

000

108.

468.

750.

000

2.3

7.40

71.

717

23,2

5.69

076

,8-0

.747

105.

596

105.

611

1.71

0.42

0.48

810

5.21

8.75

0.00

010

5.20

3.12

5.00

0

3.1

7.40

76.

449

87,1

958

12,9

-0.3

5815

5.48

615

5.49

11.

633.

243.

208

149.

703.

125.

000

149.

703.

125.

000

3.2

7.40

71.

890

25,5

5.51

774

,5-0

.740

138.

827

138.

845

1.19

1.41

2.04

813

4.98

4.37

5.00

013

4.96

8.75

0.00

0

3.3

7.40

71.

683

22,7

5.72

477

,3-0

.713

111.

392

111.

397

2.61

5.97

8.84

810

8.31

2.50

0.00

010

8.31

2.50

0.00

0

4.1

7.40

76.

449

87,1

958

12,9

-0.3

5814

7.89

614

7.91

22.

265.

506.

080

145.

250.

000.

000

145.

234.

375.

000

4.2

7.40

71.

890

25,5

5.51

774

,5-0

.740

233.

622

233.

637

1.66

1.83

4.97

622

9.87

5.00

0.00

022

9.85

9.37

5.00

0

4.3

7.40

71.

683

22,7

5.72

477

,3-0

.713

111.

786

111.

786

2.08

1.40

9.14

411

1.21

8.75

0.00

011

1.21

8.75

0.00

0

5.1

7.40

76.

449

87,1

958

12,9

-0.3

5814

8.65

314

8.65

31.

870.

534.

696

147.

750.

000.

000

147.

750.

000.

000

5.2

7.40

71.

890

25,5

5.51

774

,5-0

.740

134.

652

134.

652

2.16

3.71

4.38

413

3.96

8.75

0.00

013

3.96

8.75

0.00

0

5.3

7.40

71.

683

22,7

5.72

477

,3-0

.713

112.

582

112.

582

1.95

2.80

0.30

411

1.92

1.87

5.00

011

1.92

1.87

5.00

0

Trat

amie

nto

Esce

nar

ios

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

De

sem

pe

ño

de

l har

dw

are

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

#1 #2 #3 #4 #5

85


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%

1.1

10.0

004.

136

41,4

266

2,7

5.59

756

,0-0

.408

241.

634

241.

650

1.97

2.85

2.67

224

1.01

5.62

5.00

024

1.00

0.00

0.00

0

1.2

10.0

003.

628

36,3

946

9,5

5.41

554

,2-0

.610

290.

810

290.

825

735.

634.

936

289.

937.

500.

000

289.

937.

500.

000

1.3

10.0

005.

382

53,8

3.69

737

,092

09,

2-0

.665

242.

091

242.

107

1.03

7.00

2.35

324

1.28

1.25

0.00

024

1.26

5.62

5.00

0

2.1

7.40

776

110

,31.

791

24,2

4.85

565

,5-0

.690

148.

747

148.

747

1.40

2.46

3.66

414

8.26

5.62

5.00

014

8.26

5.62

5.00

0

2.2

7.40

71.

282

17,3

1.21

216

,44.

913

66,3

-0.6

9711

7.53

311

7.53

31.

594.

281.

192

117.

078.

125.

000

117.

078.

125.

000

2.3

7.40

71.

210

16,3

1.18

816

,05.

009

67,6

-0.6

9112

9.34

812

9.34

81.

099.

413.

416

128.

921.

875.

000

128.

921.

875.

000

3.1

7.40

776

110

,31.

791

24,2

4.85

565

,5-0

.690

205.

754

205.

763

1.66

3.25

6.12

520

1.78

1.25

0.00

020

1.76

5.62

5.00

0

3.2

7.40

71.

282

17,3

1.21

216

,44.

913

66,3

-0.6

9815

1.72

215

1.73

52.

010.

673.

544

149.

218.

750.

000

149.

203.

125.

000

3.3

7.40

71.

191

16,1

1.15

615

,65.

060

68,3

-0.6

6114

9.35

814

9.36

31.

619.

011.

792

145.

984.

375.

000

145.

984.

375.

000

4.1

7.40

776

110

,31.

791

24,2

4.85

565

,5-0

.690

202.

013

202.

032

1.62

3.00

1.93

619

7.10

9.37

5.00

019

7.10

9.37

5.00

0

4.2

7.40

71.

282

17,3

1.21

216

,44.

913

66,3

-0.6

9857

9.67

457

9.68

92.

160.

207.

008

574.

078.

125.

000

574.

062.

500.

000

4.3

7.40

71.

191

16,1

1.15

615

,65.

060

68,3

-0.6

6114

2.66

514

2.66

51.

423.

935.

424

142.

015.

625.

000

142.

015.

625.

000

5.1

7.40

776

110

,31.

791

24,2

4.85

565

,5-0

.690

204.

839

204.

839

2.21

9.24

6.50

420

4.23

4.37

5.00

020

4.23

4.37

5.00

0

5.2

7.40

71.

282

17,3

1.21

216

,44.

913

66,3

-0.6

9814

8.14

114

8.15

61.

404.

410.

704

147.

484.

375.

000

147.

468.

750.

000

5.3

7.40

71.

191

16,1

1.15

615

,65.

060

68,3

-0.6

6114

5.30

814

5.30

82.

468.

807.

040

144.

406.

250.

000

144.

406.

250.

000

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Agr

up

amie

nto

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)




Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%C

lúst

er

3%

Clú

ste

r 4

%

1.1

10.0

0086

88,

716

01,

67.

493

74,9

1.37

213

,710

61,

1-1

.050

284.

949

284.

949

1.34

7.94

2.85

628

4.00

0.00

0.00

028

4.00

0.00

0.00

0

1.2

10.0

003.

047

30,5

373

3,7

946

9,5

1.39

013

,94.

243

42,4

-1.2

2841

3.97

741

3.97

71.

483.

581.

032

410.

984.

375.

000

410.

984.

375.

000

1.3

10.0

004.

146

41,5

920

9,2

444

4,4

3.14

131

,41.

348

13,5

-1.4

0552

6.31

452

6.32

92.

104.

265.

192

524.

500.

000.

000

524.

484.

375.

000

2.1

7.40

780

310

,849

56,

770

89,

64.

855

65,5

546

7,4

-0.7

9321

5.55

821

5.57

499

2.55

6.47

221

4.42

1.87

5.00

021

4.40

6.25

0.00

0

2.2

7.40

71.

927

26,0

607

8,2

870

11,7

3.45

546

,654

87,

4-1

.317

190.

604

190.

604

1.96

0.38

3.98

418

9.45

3.12

5.00

018

9.45

3.12

5.00

0

2.3

7.40

71.

433

19,3

977

13,2

738

10,0

3.71

250

,154

77,

4-1

.222

188.

200

188.

200

1.47

8.95

0.81

618

7.25

0.00

0.00

018

7.25

0.00

0.00

0

3.1

7.40

780

310

,849

56,

770

89,

64.

855

65,5

546

7,4

-0.7

9327

0.10

127

0.11

11.

254.

229.

584

264.

343.

750.

000

26.4

38.1

25.0

00

3.2

7.40

71.

927

26,0

607

8,2

870

11,7

3.45

546

,654

87,

4-1

.323

237.

861

237.

866

2.55

8.80

2.67

223

2.64

0.62

5.00

023

2.62

5.00

0.00

0

3.3

7.40

71.

334

18,0

924

12,5

732

9,9

3.87

552

,354

27,

3-1

.186

232.

208

232.

215

1.89

9.57

9.36

822

6.51

5.62

5.00

022

6.50

0.00

0.00

0

4.1

7.40

780

310

,849

56,

770

89,

64.

855

65,5

546

7,4

-0.7

9327

3.94

327

3.94

81.

754.

420.

136

268.

703.

125.

000

268.

687.

500.

000

4.2

7.40

71.

927

26,0

607

8,2

870

11,7

3.45

546

,654

87,

4-1

.323

227.

374

227.

374

2.60

8.66

8.53

622

6.39

0.62

5.00

022

6.39

0.62

5.00

0

4.3

7.40

71.

334

18,0

924

12,5

732

9,9

3.87

552

,354

27,

3-1

.186

222.

429

222.

429

1.43

3.79

0.41

622

1.04

6.87

5.00

022

1.04

6.87

5.00

0

5.1

7.40

780

310

,849

56,

770

89,

64.

855

65,5

546

7,4

-0.7

9326

9.61

626

9.61

61.

193.

032.

328

268.

328.

125.

000

268.

328.

125.

000

5.2

7.40

71.

927

26,0

607

8,2

870

11,7

3.45

546

,654

87,

4-1

.323

235.

302

235.

318

2.70

9.83

9.75

223

4.09

3.75

0.00

023

4.07

8.12

5.00

0

5.3

7.40

71.

334

18,0

924

12,5

732

9,9

3.87

552

,354

27,

3-1

.186

222.

219

222.

230

2.24

5.20

7.58

422

0.70

3.12

5.00

022

0.68

7.50

0.00

0

#5

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

87

Como primera parte se observa a partir de los resultados obtenidos y mostrados en las

tablas 24, 25 y 26 que el criterio de evaluación de clúster (Davis Bouldin) indica que para

K=2, K=3 y K=5 las mejores evaluaciones de agrupamiento fueron dadas por los

tratamientos 2.2 y 2.3 del escenario 2, lo que indica que el empleo de la normalización

influyó considerablemente en los resultados para determinar los mejores agrupamientos.

La figura 32 muestra cómo se agrupan las instancias a partir del atributo radiación solar

quien es el que genera el arrastre de todos los atributos al tener una escala de valores más

grande que el resto de los atributos del dataset. La figura 33 evidencia cómo la

normalización lleva todas las instancias a una escala de valores entre 0 y 1 permitiendo

que todas las variables queden en igualdad de condiciones y que ahora el agrupamiento

se dé con base al atributo de humedad relativa.

Figura 32. Agrupamiento para cuatro atributos sin normalización para K=5 en K-medoids

con un dataset limpio (escenario 5).



Figura 33. Agrupamiento para cuatro atributos y normalización con rango-transformation

para K=5 en K-medoids con un dataset limpio (escenario 5).

Con relación con la reducción de dimensionalidad, el empleo de Análisis de Componentes

Principales (PCA) no influye en la mejora del índice de evaluación del clúster ya que se

mantiene igual para todos los valores de K para el escenario 5 (sin PCA y con PCA para

cuatro atributos).

Respecto al número de iteraciones, los cálculos de los centroides permanecen

prácticamente iguales para todos los escenarios independientemente si se ha iterado una

vez o mil veces, tal como lo muestran las tablas 27, 28 y 29.

Tabla 27. Tabla de centroides para K=5 con 10 iteración para K-medoids.

89

Tabla 28. Tabla de centroides para K=5 con 100 iteración para K-medoids.

Tabla 29. Tabla de centroides para K=5 con 1.000 iteración para K-medoids.

Los tiempos de ejecución son más lentos a medida que la iteración incrementa para el

algoritmo, no obstante, con este recálculo no se obtiene más óptimo el centroide para una

variable con relación a un clúster.

Finalmente, con respecto al desempeño de hardware, se obtuvieron los siguientes

resultados:

La figura 34 muestra el tiempo de ejecución del algoritmo para cada escenario, y se

encuentra unos tiempos similares y para un mismo rango para los tres valores de K. El

tratamiento 4.2 experimenta un incremento anormal en los tiempos (se consideraría un

proceso de cómputo externo que influyó aquí). La figura 35 evidencia el consumo de

memoria RAM y la tendencia de incremento a medida que se añaden más atributos y más

clústeres. Finalmente, la figura 36 muestra los tiempos de ejecución de la CPU

evidenciando el mismo comportamiento que los tiempos de ejecución del algoritmo.



Figura 34. Tiempo de ejecución para el algoritmo K-medoids para la estación Hospital de

Villamaría.

Figura 35. Consumo de memoria RAM para el algoritmo K-medoids para la estación

Hospital de Villamaría.

91

Figura 36. Tiempo de ejecución de CPU para el algoritmo K-medoids para la estación

Hospital de Villamaría.

Ahora bien, para la estación Hospital de Caldas se ejecutó el algoritmo K-medoids en 5

escenarios de trabajo (3 tratamientos por cada escenario y por cada valor de K). Los

resultados obtenidos fueron los mostrados en las tablas 30, 31 y 32:



TABLA 30. Resultados de K-medoids con K=2 para estación Hospital de Caldas.

Clú

ste

r 0

%C

lúst

er

1%

1.1

10.0

0031

03,

19.

689

96,9

-0.3

5622

1.39

022

1.39

02.

251.

278.

824

220.

062.

500.

000

220.

062.

500.

000

1.2

10.0

009.

846

98,5

153

1,5

-1.1

9824

3.17

624

3.19

21.

452.

391.

784

241.

687.

500.

000

241.

671.

875.

000

1.3

10.0

009.

846

98,5

153

1,5

-1.1

9924

7.80

924

7.80

91.

855.

518.

232

246.

296.

875.

000

246.

296.

875.

000

2.1

1.85

962

633

,71.

233

66,3

-1.0

239.

664

9.66

41.

743.

473.

272

8.78

1.25

0.00

08.

781.

250.

000

2.2

1.85

91.

715

92,3

144

7,7

-2.0

7311

.001

11.0

012.

605.

499.

600

10.9

53.1

25.0

0010

.953

.125

.000

2.3

1.85

91.

718

92,4

141

7,6

-2.2

7911

.814

11.8

1493

7.70

6.45

611

.687

.500

.000

11.6

87.5

00.0

00

3.1

9.97

98.

907

89,3

1.07

210

,7-1

.171

293.

887

293.

903

1.01

5.89

0.14

429

3.07

8.12

5.00

029

3.06

2.50

0.00

0

3.2

9.97

915

31,

59.

826

98,5

-1.6

9237

9.15

237

9.15

21.

114.

897.

968

377.

937.

500.

000

377.

937.

500.

000

3.3

9.97

914

41,

49.

835

98,6

-1.5

8828

7.27

228

7.27

21.

783.

789.

144

285.

890.

625.

000

285.

890.

625.

000

4.1

1.85

962

633

,71.

233

66,3

-1.0

2310

.846

10.8

461.

987.

641.

752

10.6

71.8

75.0

0010

.671

.875

.000

4.2

1.85

91.

715

92,3

144

7,7

-2.0

7813

.439

13.4

392.

446.

702.

624

13.2

65.6

25.0

0013

.265

.625

.000

4.3

1.85

913

97,

51.

720

92,5

-2.2

9011

.877

11.8

772.

295.

816.

056

11.6

71.8

75.0

0011

.671

.875

.000

5.1

1.85

962

633

,71.

233

66,3

-1.0

2311

.001

11.0

012.

526.

768.

848

10.7

50.0

00.0

0010

.750

.000

.000

5.2

1.85

962

633

,71.

233

66,3

-1.0

2310

.330

10.3

301.

941.

857.

872

10.1

25.0

00.0

0010

.125

.000

.000

5.3

1.85

962

633

,71.

233

66,3

-1.0

238.

830

8.83

02.

320.

046.

864

8.65

6.25

0.00

08.

656.

250.

000

Trat

amie

nto

Esce

nar

ios

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

De

sem

pe

ño

de

l har

dw

are

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

#1 #2 #3 #4 #5

93



Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%

1.1

10.0

008.

907

89,1

864

8,6

228

2,3

-1.2

0425

2.85

525

2.87

11.

710.

514.

624

251.

328.

125.

000

251.

312.

500.

000

1.2

10.0

0025

32,

515

31,

59.

593

95,9

-2.6

1440

4.49

240

4.49

21.

969.

229.

920

401.

734.

375.

000

401.

734.

375.

000

1.3

10.0

0025

32,

515

31,

59.

593

95,9

-2.6

1538

5.68

338

5.68

32.

424.

768.

752

383.

296.

875.

000

383.

296.

875.

000

2.1

1.85

992

4,9

1.23

366

,353

428

,7-0

.549

14.0

4914

.064

1.96

7.44

3.31

213

.453

.125

.000

13.4

37.5

00.0

00

2.2

1.85

921

811

,71.

508

81,1

133

7,2

-1.5

3813

.581

13.5

811.

970.

351.

064

13.4

84.3

75.0

0013

.484

.375

.000

2.3

1.85

924

413

,11.

492

80,3

123

6,6

-1.1

510

14.7

2114

.721

1.99

2.87

8.37

614

.609

.375

.000

14.6

09.3

75.0

00

3.1

9.97

99.

483

95,0

206

2,1

290

2,9

-14.

231

436.

077

436.

077

1.12

9.48

9.49

643

4.06

2.50

0.00

043

4.06

2.50

0.00

0

3.2

9.97

99.

573

95,9

153

1,5

253

2,5

-3.5

3454

3.46

554

3.46

52.

656.

269.

576

541.

062.

500.

000

541.

062.

500.

000

3.3

9.97

99.

490

95,1

140

1,4

349

3,5

-1.2

9942

9.63

142

9.64

61.

996.

304.

440

427.

203.

125.

000

427.

187.

500.

000

4.1

1.85

992

4,9

1.23

366

,353

428

,7-0

.549

15.1

5915

.159

1.79

6.35

6.99

214

.937

.500

.000

14.9

37.5

00.0

00

4.2

1.85

921

811

,71.

508

81,1

133

7,2

-1.5

4416

.377

16.3

772.

637.

514.

312

16.2

18.7

50.0

0016

.218

.750

.000

4.3

1.85

924

313

,11.

495

80,4

121

6,5

-1.5

0714

.361

14.3

612.

007.

995.

656

14.1

25.0

00.0

0014

.125

.000

.000

5.1

1.85

992

4,9

1.23

366

,353

428

,7-0

.549

15.3

1515

.315

1.65

7.53

2.16

015

.125

.000

.000

15.1

25.0

00.0

00

5.2

1.85

992

4,9

1.23

366

,353

428

,7-0

.549

14.9

8614

.986

2.23

6.05

2.37

614

.656

.250

.000

14.6

56.2

50.0

00

5.3

1.85

992

4,9

1.23

366

,353

428

,7-0

.549

12.8

4612

.846

2.17

5.09

3.05

612

.656

.250

.000

12.6

56.2

50.0

00

#5

Agr

up

amie

nto

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)



Primero se observa a partir de los resultados obtenidos en las tablas 30, 31 y 32 que el

criterio de evaluación de clúster (Davis Bouldin) para K=2 y K=5 las mejores evaluaciones

Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%C

lúst

er

3%

Clú

ste

r 4

%

1.1

10.0

008.

097

81,0

00,

00

0,0

864

8,6

228

2,3

-1.0

5635

2.98

535

2.98

52.

544.

728.

376

350.

156.

250.

000

350.

156.

250.

000

1.2

10.0

0052

25,

29.

114

91,1

210

2,1

153

1,5

00,

0-1

.280

585.

297

585.

297

2.53

4.83

7.68

058

1.10

9.37

5.00

058

1.10

9.37

5.00

0

1.3

10.0

0052

25,

29.

114

91,1

210

2,1

153

1,5

0,0

-1.2

9656

6.11

356

6.11

31.

770.

062.

624

561.

718.

750.

000

561.

718.

750.

000

2.1

1.85

91.

204

64,8

834,

527

414

,717

89,

612

06,

51.

323

21.7

0821

.708

2.66

1.84

7.17

621

.546

.875

.000

21.5

46.8

75.0

00

2.2

1.85

919

510

,581

4,4

1.22

365

,823

412

,612

66,

8-1

.469

22.9

4322

.943

1.54

0.43

3.82

422

.750

.000

.000

22.7

50.0

00.0

00

2.3

1.85

919

910

,772

639

,146

925

,234

218

,412

36,

6-1

.663

18.4

2518

.425

2.08

5.36

8.08

818

.234

.375

.000

18.2

34.3

75.0

00

3.1

9.97

98.

641

86,6

00,

01.

071

10,7

267

2,7

00,

0-1

.318

538.

464

538.

480

1.64

7.82

0.12

053

5.46

8.75

0.00

053

5.45

3.12

5.00

0

3.2

9.97

98.

873

88,9

377

3,8

130

1,3

405

4,1

194

1,9

-1.4

7959

0.32

659

0.32

61.

982.

162.

272

587.

203.

125.

000

587.

203.

125.

000

3.3

9.97

98.

082

81,0

585

5,9

140

1,4

344

3,4

828

8,3

-1.5

5342

6.01

342

6.01

32.

158.

830.

400

423.

312.

500.

000

423.

312.

500.

000

4.1

1.85

91.

204

64,8

834,

527

414

,717

89,

612

06,

5-1

.323

24.8

8024

.880

2.27

6.36

7.17

624

.656

.250

.000

24.6

56.2

50.0

00

4.2

1.85

919

510

,581

4,4

1.22

365

,823

412

,612

66,

8-1

.482

27.5

7627

.576

1.98

0.50

8.81

627

.312

.500

.000

27.3

12.5

00.0

00

4.3

1.85

920

310

,91.

190

64,0

60,

333

918

,212

16,

5-1

.668

19.3

1619

.331

1.54

8.01

2.07

219

.109

.375

.000

19.1

09.3

75.0

00

5.1

1.85

91.

204

64,8

834,

527

414

,717

89,

612

06,

5-1

.323

25.2

5425

.269

1.51

7.81

2.94

425

.078

.125

.000

25.0

62.5

00.0

00

5.2

1.85

91.

204

64,8

834,

527

414

,717

89,

612

06,

5-1

.323

25.2

4925

.249

2.03

1.42

2.20

024

.953

.125

.000

24.9

53.1

25.0

00

5.3

1.85

91.

204

64,8

834,

527

414

,717

39,

312

56,

7-1

.330

22.1

9122

.207

2.47

1.41

1.26

421

.921

.875

.000

21.9

06.2

50.0

00

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

95

de agrupamiento fueron dadas por el escenario 4 y para K=3 por el escenario 3, lo que

indica que aquí no hay similitud alguna con lo encontrado en la estación Hospital de

Villamaría para K-medoids.

Con respecto a la normalización, ocurre una situación contraria a lo evidenciado con las

anteriores experimentaciones y es que los escenarios en los cuales se aplicó una técnica

de normalización, el índice de evaluación de Davis-Bouldin fue igual o bajo para K=2, 3 y

5, lo que indica que el criterio de agrupamiento no califica estos escenarios como los

mejores agrupados.

Si se analiza la influencia de la reducción de dimensionalidad con PCA, algunos

tratamientos tienen mejor evaluación de clustering que aquellos en donde no se aplicó

PCA, no obstante, a pesar de que el tratamiento 4.3 del escenario 4 tuvo un índice de

evaluación muy bueno, otros escenarios que no hacen uso de normalización y de PCA

obtuvieron un valor similar.

En el número de iteraciones no se observan anormalidades a pesar de que los centroides

permanecen iguales para diferentes números de ciclos del algoritmo.

Con relación al desempeño de hardware, los tiempos de ejecución y los tiempos de

ejecución de CPU son altos para los escenarios 1 y 3, los cuales tienen en común que

procesan instancias faltantes las cuales son reemplazados por el valor promedio de cada

atributo. El resto de los escenarios manejan tiempos bajos. En lo que respecta a consumo

de memoria RAM, todos los escenarios manejan un mismo promedio para cualquier valor

de K. No se observan diferencias considerables dadas por características particulares. Las

figuras 37, 38 y 39 muestran visualmente los resultados:

Figura 37. Tiempo de ejecución de K-medoids para la estación Hospital de Caldas.



Figura 38. Consumo de memoria RAM de K-medoids para la estación Hospital de

Caldas.

Figura 39. Tiempo de ejecución de CPU de K-medoids para la estación Hospital de

Caldas.

Finalmente, para la estación El Cisne PNNN se ejecutó el algoritmo en 5 escenarios de

trabajo, cada uno con tres diferentes tratamientos para K=2, 3 y 5, y se obtuvieron los

resultados mostrados en las tablas 33, 34 y 35:

97

TABLA 33. Resultados de K-medoids con K=2 para estación El Cisne PNNN.

Clú

ste

r 0

%C

lúst

er

1%

1.1

10.0

0041

04,

19.

589

95,9

-0.7

3424

3.92

024

3.92

01.

804.

158.

433

242.

406.

250.

000

242.

406.

250.

000

1.2

10.0

001.

752

17,5

8.24

782

,5-0

.947

220.

318

220.

318

2.04

1.90

2.14

421

9.37

5.00

0.00

021

9.37

5.00

0.00

0

1.3

10.0

001.

752

17,5

8.24

782

,5-0

.979

220.

707

220.

722

1.67

5.42

9.11

221

9.71

8.75

0.00

021

9.70

3.12

5.00

0

2.1

8.94

18.

736

97,7

205

2,3

-0.4

7718

6.90

018

6.91

61.

549.

659.

112

185.

859.

375.

000

185.

843.

750.

000

2.2

8.94

18.

583

96,0

358

4,0

-0.9

4919

7.15

819

7.17

32.

498.

252.

656

195.

937.

500.

000

195.

921.

875.

000

2.3

8.94

18.

684

97,1

257

2,9

-0.9

4818

6.04

118

6.04

11.

368.

465.

320

184.

875.

000.

000

184.

875.

000.

000

3.1

9.79

49.

589

97,9

205

2,1

-0.4

8129

0.58

229

0.58

21.

761.

889.

408

289.

000.

000.

000

289.

000.

000.

000

3.2

9.79

49.

436

96,3

358

3,7

-0.8

2528

6.00

028

6.00

01.

763.

412.

464

284.

609.

375.

000

284.

609.

375.

000

3.3

9.79

49.

297

94,9

497

5,1

-0.8

8227

6.22

727

6.23

12.

189.

905.

888

269.

609.

375.

000

269.

609.

375.

000

4.1

8.94

921

32,

48.

736

97,6

-0.4

9323

5.19

423

5.20

92.

410.

475.

048

233.

765.

625.

000

233.

750.

000.

000

4.2

8.94

937

74,

28.

572

95,8

-0.9

5724

6.33

524

6.33

51.

514.

266.

320

245.

265.

625.

000

245.

265.

625.

000

4.3

8.94

949

85,

68.

451

94,4

-0.9

8518

3.66

018

3.66

02.

481.

649.

192

182.

609.

375.

000

182.

609.

375.

000

5.1

8.94

18.

736

97,7

205

2,3

-0.4

7724

1.15

724

1.17

31.

430.

077.

856

240.

171.

875.

000

240.

156.

250.

000

5.2

8.94

18.

583

96,0

358

4,0

-0.9

5022

5.70

722

5.70

71.

545.

609.

656

224.

531.

250.

000

224.

531.

250.

000

5.3

8.94

18.

472

94,8

469

5,2

-0.9

6319

0.51

019

0.51

02.

447.

676.

192

189.

171.

875.

000

189.

171.

875.

000

Trat

amie

nto

Esce

nar

ios

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Me

mo

ria

RA

M

(byt

es)

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

De

sem

pe

ño

de

l har

dw

are

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)

#1 #2 #3 #4 #5




Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%

1.1

10.0

0036

43,

646

0,5

9.58

995

,9-1

.850

301.

659

301.

659

1.86

6.35

9.98

729

9.40

6.25

0.00

029

9.40

6.25

0.00

0

1.2

10.0

001.

635

16,4

6.61

266

,11.

752

17,5

-5.9

5054

2.49

154

2.49

12.

270.

397.

200

539.

953.

125.

000

539.

953.

125.

000

1.3

10.0

001.

635

16,4

6.61

266

,11.

752

17,5

-6.2

2555

7.76

755

7.76

71.

099.

916.

248

555.

250.

000.

000

555.

250.

000.

000

2.1

8.94

15.

552

62,1

205

2,3

3.18

435

,6-0

.740

231.

495

231.

495

2.13

1.14

9.91

223

0.04

6.87

5.00

023

0.04

6.87

5.00

0

2.2

8.94

15.

492

61,4

3.09

134

,635

84,

0-2

.140

343.

098

343.

098

1.55

2.12

5.87

234

0.93

7.50

0.00

034

0.93

7.50

0.00

0

2.3

8.94

15.

517

61,7

257

2,9

3.16

735

,4-1

.883

297.

049

297.

049

2.47

0.98

5.98

429

4.90

6.25

0.00

029

4.90

6.25

0.00

0

3.1

9.79

420

52,

13.

185

32,5

6.40

465

,4-0

.740

385.

413

385.

413

1.54

0.57

5.36

838

3.21

8.75

0.00

038

3.21

8.75

0.00

0

3.2

9.79

435

83,

76.

344

64,8

3.09

231

,6-1

.997

536.

350

536.

366

2.23

2.43

6.98

453

3.21

8.75

0.00

053

3.21

8.75

0.00

0

3.3

9.79

449

75,

12.

944

30,1

6.35

364

,9-1

.784

581.

644

581.

650

2.10

2.98

9.99

257

4.26

5.62

5.00

057

4.25

0.00

0.00

0

4.1

8.94

921

32,

43.

184

35,6

5.55

262

,0-0

.746

260.

682

260.

697

1.39

8.74

2.89

625

9.48

4.37

5.00

025

9.48

4.37

5.00

0

4.2

8.94

95.

485

61,3

3.08

734

,537

74,

2-2

.198

519.

749

519.

749

2.33

3.93

7.75

251

6.67

1.87

5.00

051

6.67

1.87

5.00

0

4.3

8.94

98.

433

94,2

395

4,4

121

1,4

-0.9

3630

7.42

030

7.42

01.

773.

292.

008

305.

484.

375.

000

305.

484.

375.

000

5.1

8.94

15.

552

62,1

205

2,3

3.18

435

,6-0

.740

271.

345

271.

361

1.65

9.67

9.34

426

9.65

6.25

0.00

026

9.65

6.25

0.00

0

5.2

8.94

15.

492

61,4

3.09

134

,635

84,

0-2

.146

400.

576

400.

576

2.06

0.66

1.57

639

8.31

2.50

0.00

039

8.31

2.50

0.00

0

5.3

8.94

15.

502

61,5

469

5,2

2.97

033

,2-1

.942

291.

886

291.

901

1.45

6.91

4.04

828

9.89

0.62

5.00

028

9.87

5.00

0.00

0

Tie

mp

o

(mili

segu

nd

os)

Me

mo

ria

RA

M

(byt

es)

#5

Agr

up

amie

nto

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

99


Clú

ste

r 0

%C

lúst

er

1%

Clú

ste

r 2

%C

lúst

er

3%

Clú

ste

r 4

%

1.1

10.0

0036

43,

61.

009

10,1

460,

52.

556

25,6

6.02

460

,2-1

.307

300.

303

300.

303

1.05

4.87

9.16

029

7.96

8.75

0.00

029

7.96

8.75

0.00

0

1.2

10.0

001.

752

17,5

1.63

516

,419

72,

04.

554

45,5

1.86

118

,6-1

.738

619.

253

619.

253

2.34

9.65

2.84

061

4.95

3.12

5.00

061

4.95

3.12

5.00

0

1.3

10.0

001.

752

17,5

1.63

516

,419

72,

04.

554

45,5

1.86

118

,6-1

.751

617.

469

617.

469

1.34

5.88

6.56

861

2.84

3.75

0.00

061

2.84

3.75

0.00

0

2.1

8.94

114

91,

71.

536

17,2

1.00

911

,35.

172

57,8

1.07

512

,0-0

.655

292.

231

292.

231

2.32

6.99

9.85

628

9.87

5.00

0.00

028

9.87

5.00

0.00

0

2.2

8.94

126

43,

01.

276

14,3

1.76

919

,815

31,

75.

479

61,3

-1.9

4091

9.21

291

9.21

22.

471.

419.

288

911.

937.

500.

000

911.

937.

500.

000

2.3

8.94

129

93,

31.

428

16,0

1.59

117

,811

01,

25.

513

61,7

-2.0

3475

9.52

475

9.53

92.

064.

959.

744

754.

359.

375.

000

754.

359.

375.

000

3.1

9.79

41.

009

10,3

149

1,5

1.53

715

,76.

024

61,5

1.07

511

,0-0

.656

447.

823

447.

823

2.02

4.52

2.28

044

4.71

8.75

0.00

044

4.71

8.75

0.00

0

3.2

9.79

41.

770

18,1

153

1,6

6.33

164

,626

42,

71.

276

13,0

-1.7

511.

397.

919

1.39

7.92

91.

479.

066.

696

1.37

0.35

9.37

5.00

01.

370.

359.

375.

000

3.3

9.79

44.

258

43,5

40,

02.

944

30,1

2.09

121

,349

75,

1-1

.528

457.

258

457.

263

2.10

1.20

5.92

844

4.53

1.25

0.00

044

4.53

1.25

0.00

0

4.1

8.94

91.

536

17,2

157

1,8

4.68

252

,31.

704

19,0

870

9,7

-7.9

3732

8.06

532

8.06

52.

085.

002.

352

325.

968.

750.

000

325.

968.

750.

000

4.2

8.94

925

92,

91.

261

14,1

5.47

661

,21.

784

19,9

169

1,9

-1.9

7292

4.25

392

4.25

31.

591.

865.

848

917.

703.

125.

000

917.

703.

125.

000

4.3

8.94

91.

240

13,9

2.93

532

,839

54,

412

11,

44.

258

47,6

-1.4

2033

9.43

133

9.43

11.

649.

443.

544

336.

640.

625.

000

336.

640.

625.

000

5.1

8.94

114

91,

71.

536

17,2

1.00

911

,35.

172

57,8

1.07

512

,0-0

.656

340.

625

340.

625

1.96

0.13

2.86

433

8.26

5.62

5.00

033

8.26

5.62

5.00

0

5.2

8.94

126

43,

01.

276

14,3

1.76

919

,815

31,

75.

479

61,3

-1.9

4899

3.77

299

3.78

81.

689.

836.

640

986.

218.

750.

000

986.

203.

125.

000

5.3

8.94

11.

764

19,7

1.34

915

,132

63,

63

0,0

5.49

961

,5-1

.349

331.

556

331.

556

1.90

3.53

3.32

033

0.17

1.87

5.00

033

0.17

1.87

5.00

0

Me

mo

ria

RA

M

(byt

es)

#5

Tie

mp

o d

e C

PU

(nan

ose

gun

do

s)

Tie

mp

o d

e

eje

cuci

ón

de

CP

U

(nan

ose

gun

do

s)

#1 #2 #3 #4

Esce

nar

ios

Trat

amie

nto

Nú

me

ro d

e ít

em

s

De

sem

pe

ño

de

l alg

ori

tmo

De

sem

pe

ño

de

l har

dw

are

Agr

up

amie

nto

Cri

teri

o d

e e

valu

ació

n

de

clú

ste

r: Í

nd

ice

de

Dav

is-B

ou

ldin

Tie

mp

o d

e

eje

cuci

ón

(mili

segu

nd

os)

Tie

mp

o

(mili

segu

nd

os)



Acorde al índice de evaluación de clúster (Davis-Bouldin), para K=2 y K=5 los mejores

criterios fueron para el escenario 4 y para K=3 el escenario 1. Los escenarios para K=5

muestran mayores tiempos de ejecución, lo que significa su complejidad computacional

durante la ejecución del proceso para obtener más clústeres. PCA al crear tres nuevas

variables (componentes) significa una reducción del dataset original lo que finalmente los

tiempos de ejecución son menores. En lo que respecta a las iteraciones, el comportamiento

es igual que las estaciones anteriores: Centroides calculados por igual para cualquier

cantidad de iteraciones y los tiempos de ejecución son mayores a medida que la cantidad

de iteración se incrementa para el algoritmo. Finalmente, en el desempeño de hardware

se valida el mismo comportamiento que las estaciones anteriores en donde el consumo de

memoria RAM y los tiempos de ejecución se elevan paulatinamente a medida que

aumentan los atributos y la cantidad de clústeres.

5.3 Algoritmo Aglomerativo con Linkage-Complete

En la tabla 36, para la estación Hospital de Villamaría se diseñaron 5 escenarios en los

cuales se aplicó el algoritmo de agrupamiento aglomerativo con el método Enlace

Completo (linkage-complete). Este algoritmo no requiere de forma previa un valor de K

(número de clústeres) como si lo requieren obligatoriamente los anteriores algoritmos

particionados. Lo mismo ocurre para el número de iteraciones. Por lo tanto, únicamente

son 5 escenarios con tres tratamientos para cada uno, en esta estación.

Se obtuvo los siguientes resultados:

TABLA 36. Resultados del agrupamiento aglomerativo para estación Hospital de

Villamaría.

1.1 5.000 81.787 81.787 4.832.249.328 78.296.875.000 78.296.875.000

1.2 5.000 80.204 80.210 3.018.301.440 75.671.875.000 75.671.875.000

1.3 5.000 77.671 77.671 3.998.491.928 74.437.500.000 74.437.500.000

2.1 2.407 12.669 12.670 4.888.031.432 11.343.750.000 11.343.750.000

2.2 2.407 9.610 9.610 4.660.395.256 8.828.125.000 8.828.125.000

2.3 2.407 8.981 8.981 4.352.239.560 8.609.375.000 8.609.375.000

3.1 2.407 9.299 9.405 6.156.410.744 8.718.750.000 8.718.750.000

3.2 2.407 8.836 8.836 6.820.019.440 8.250.000.000 8.250.000.000

3.3 2.407 9.192 9.192 7.073.454.304 8.531.250.000 8.531.250.000

4.1 2.407 9.307 9.308 3.975.729.592 8.906.250.000 8.906.250.000

4.2 2.407 9.028 9.028 5.122.837.744 8.562.500.000 8.562.500.000

4.3 2.407 8.634 8.634 6.198.538.304 8.421.875.000 8.421.875.000

5.1 2.407 9.076 9.076 4.237.062.432 8.843.750.000 8.843.750.000

5.2 2.407 9.107 9.107 6.249.893.848 8.562.500.000 8.562.500.000

5.3 2.407 8.991 8.992 3.511.275.344 8.453.125.000 8.453.125.000

Desempeño del hardware

Tiempo de

ejecución

(milisegundos)

Tiempo

(milisegundos)

#1

TratamientoEscenarios Número de ítems Memoria RAM

(bytes)

Tiempo de CPU

(nanosegundos)

#2

#3

#4

#5

Tiempo de

ejecución de

CPU

(nanosegundos)

101

Acorde a los resultados obtenidos, se observa que para un dataset de 2.407 instancias los

tiempos de ejecución del algoritmo son relativamente cortos. Esto es debido a que se

genera una matriz 2.407 x 2.407 lo que en términos computacionales es fácilmente

manejable por el computador y por el algoritmo. Al utilizar datasets con 5.000 instancias,

los tiempos de ejecución se incrementan tanto para el algoritmo como para la CPU en casi

nueve veces.

En términos computacionales estos fueron los resultados:

Figura 40. Tiempo de ejecución del algoritmo aglomerativo.

Figura 41. Consumo de memoria RAM del algoritmo aglomerativo.

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

90.000

1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3 4.1 4.2 4.3 5.1 5.2 5.3

Mili

segu

nd

os

Tratamientos de los escenarios

0

1.000.000.000

2.000.000.000

3.000.000.000

4.000.000.000

5.000.000.000

6.000.000.000

7.000.000.000

8.000.000.000

1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3 4.1 4.2 4.3 5.1 5.2 5.3

Byt

es

Tratamientos de los escenarios



Figura 42. Tiempo de ejecución de CPU del algoritmo aglomerativo.

Las anteriores gráficas evidencian los altos tiempos de ejecución que toma el escenario 1

con respecto a los demás escenarios a pesar de que la diferencia de datos es del doble

con respecto al resto de escenarios. El consumo de memoria RAM permanece entre 3GB

y 7GB para todos los escenarios con picos altos para el escenario 3.

La evaluación de los dendrogramas es un complemento al análisis del agrupamiento de

los datos ya que su comprensión depende 100% de un entendimiento visual y puede

inclusive convertirse en un proceso subjetivo, por lo que a continuación se observan los

resultados más relevantes en la figura 43.

103

Figura 43. Dendrograma para cuatro atributos con un dataset de 3.942 instancias y

distancia euclidiana para agrupamiento aglomerativo con linkage-complete (escenario 5).

La figura anterior muestra como un dataset de solo 3.942 instancias no puede ser

fácilmente visible desde el nivel 0 (nivel inferior) donde cada registro es un nodo para irse

fusionando en cada siguiente nivel. Una vez el dendrograma se ha construido, se puede

decidir en qué punto cortar el gráfico para determinar los valores K y evaluar. La gráfica

evidencia cuatros conglomerados en la parte inferior que hacen alusión a los cuatro

atributos climáticos. Si se cortara el dendrograma más arriba, habría menos agrupaciones,

no obstante, el nivel de similitud (distancia en el eje Y) sería menor, pero si se cortara más

abajo entonces el nivel de similitud sería mayor, aunque habría más agrupaciones finales.

Si se corta el dendrograma en la parte superior se obtendrían dos conglomerados, pero un

nivel de similitud menor. La gráfica muestra que en un rango de similitud pequeño se dan

todas las aglomeraciones, pero para un K=2 el rango de similitud es más amplio. Por lo

tanto, dependiendo de en qué punto se determine el corte, la similitud puede ser mayor o

menor con respecto a las aglomeraciones de los niveles bajos.

Las figuras 44 y 45 muestran un comparativo entre no normalizar y normalizar para un

dataset de alrededor de 5.000 instancias. Con normalización, según la figura 45 se

visualiza de manera más sencilla los nodos y los niveles inferiores del dendrograma. De

hecho, se puede observar las aglomeraciones y sus fusiones en los siguientes niveles.

Además, las distancias de similitud (eje Y) se vuelven más cercanas al haber llevado las



instancias a una escala entre cero y uno, lo que permite acortar las distancias y visualizar

de manera más simple el dendrograma. El gráfico con normalización permite ver cuatro

aglomeraciones en los niveles inferiores, al igual que sucede con la figura 43 en donde con

un dataset pequeño se observa las aglomeraciones de los cuatro atributos climáticos.


distancia euclidiana para agrupamiento aglomerativo con linkage-complete (escenario 1).

105


distancia euclidiana para agrupamiento aglomerativo con linkage-complete y aplicando

normalización con range-transformation (escenario 3).

Con respecto a la reducción de dimensionalidad, empleando PCA se obtuvieron los

mismos gráficos que la figura 45 (normalizando con range-transformation) por lo que se

observa que generar nuevas componentes no altera ni cambia la construcción del árbol.

Para un dataset de solamente tres atributos (sin precipitación) y normalizando para 5.000

instancias, se observa lo siguiente:

La figura 46 evidencia un árbol diferente al obtenido con cuatro atributos, lo que significa

que la precipitación dentro de un esquema normalizado si genera alteración en la

construcción de un dendrograma. Lo que sí se destaca es que al cortar el árbol para un

valor K=3 y K=5 la similitud de distancia es más amplia versus al dendrograma donde se

emplean cuatro atributos, lo que significa que la precipitación influye notablemente en los

rangos de distancia de similitud.



Figura 46. Dendrograma para tres atributos (sin precipitación) con un dataset de 3.942

instancias y distancia euclidiana para agrupamiento aglomerativo con linkage-complete y

aplicando normalización con range-transformation (escenario 2).

Finalmente, la figura 47 muestra el dendrograma para un dataset de 20.000 instancias:

107

Figura 47. Dendrograma para un dataset de 20.000 para agrupamiento aglomerativo con

linkage-complete y distancia euclidiana.

Debido a la inmensa cantidad de instancias dentro del árbol generado es imposible

visualmente analizar los niveles inferiores y el origen de las aglomeraciones. Sin embargo,

hasta un corte de K=4 es posible ver el dendrograma según la figura 48. Un valor K superior

a 4 no es viable el corte ya que no es posible determinar las aglomeraciones que se

observan en la parte derecha debido al tamaño del árbol y a la cantidad de las instancias.

Figura 48. Dendrograma cortado a un valor de K=4.



TABLA 37. Resultados de agrupamiento aglomerativo con Linkage-complete para

estación Hospital de Caldas.

TABLA 38. Resultados de Linkage-complete para estación El Cisne PNNN.

Para las tablas 37 y 38, se validan los resultados obtenidos para la estación Hospital de

Villamaría. Los escenarios 1 se ejecutan lentamente con tiempos hasta ocho veces

mayores que el resto de los escenarios, a pesar de que la diferencia de número de ítems

1.1 5.000 78.454 78.454 7.021.733.128 76.203.125.000 76.203.125.000

1.2 5.000 83.444 83.444 7.359.136.688 78.125.000.000 78.125.000.000

1.3 5.000 101.343 101.492 7.495.140.664 85.109.375.000 85.109.375.000

2.1 1.002 796 802 7.095.685.424 671.875.000 671.875.000

2.2 1.002 1.062 1.062 7.493.057.504 953.125.000 953.125.000

2.3 1.002 961 964 7.727.727.224 859.375.000 859.375.000

3.1 4.979 81.650 81.666 5.619.392.168 73.671.875.000 73.656.250.000

3.2 4.979 90.006 90.006 5.448.990.136 80.234.375.000 80.234.375.000

3.3 4.979 91.647 91.647 3.879.695.680 77.250.000.000 77.250.000.000

4.1 1.002 962 964 6.222.305.840 812.500.000 812.500.000

4.2 1.002 1.044 1.045 5.707.073.944 890.625.000 890.625.000

4.3 1.002 906 917 4.980.822.496 781.250.000 781.250.000

5.1 1.002 1.148 1.158 4.803.851.432 953.125.000 953.125.000

5.2 1.002 967 967 4.266.509.624 765.625.000 765.625.000

5.3 1.002 811 812 7.467.424.808 812.500.000 812.500.000


Tiempo de

ejecución

(milisegundos)

Tiempo

(milisegundos)

#1


(bytes)

Tiempo de CPU

(nanosegundos)

#2

#3

#4

#5

Tiempo de

ejecución de

CPU

(nanosegundos)

1.1 5.000 262.151 262.153 4.881.553.392 244.703.125.000 244.703.125.000

1.2 5.000 147.247 147.247 4.865.530.976 143.234.375.000 143.234.375.000

1.3 5.000 74.749 74.749 6.853.886.360 73.578.125.000 73.578.125.000

2.1 3.942 46.601 46.601 4.056.895.880 41.812.500.000 41.812.500.000

2.2 3.942 39.821 39.821 6.966.283.928 37.500.000.000 37.500.000.000

2.3 3.942 37.694 37.694 3.563.307.024 36.593.750.000 36.593.750.000

3.1 4.795 67.307 67.307 4.302.086.952 65.484.375.000 65.484.375.000

3.2 4.795 67.606 67.606 5.474.073.176 65.687.500.000 65.687.500.000

3.3 4.795 67.010 67.010 4.388.374.624 65.796.875.000 65.796.875.000

4.1 3.950 37.709 37.709 5.342.942.728 36.906.250.000 36.906.250.000

4.2 3.950 37.740 37.740 4.204.845.088 37.156.250.000 37.156.250.000

4.3 3.950 37.835 37.835 5.411.607.272 37.296.875.000 37.296.875.000

5.1 3.942 36.693 36.693 5.784.841.944 35.984.375.000 35.984.375.000

5.2 3.942 38.366 38.366 5.807.874.168 37.453.125.000 37.453.125.000

5.3 3.942 37.070 37.070 5.228.633.656 36.390.625.000 36.390.625.000


Tiempo de

ejecución

(milisegundos)

Tiempo

(milisegundos)

#1


(bytes)

Tiempo de CPU

(nanosegundos)

#2

#3

#4

#5

Tiempo de

ejecución de CPU

(nanosegundos)

109

no es gigante. Respecto a la normalización, ésta influye en los resultados al permitir que

los dendrogramas sean más entendibles visualmente. Por otro lado, el análisis de

componentes principales no tiene relevancia alguna dentro de los resultados al momento

de reducir la dimensionalidad, en especial porque la nueva generación de variables

(componentes) con base a los atributos originales, generan nuevos valores que resultan

imposibles ser comprendidos en términos climáticos para un investigador.

5.4 Computación paralela

Para los escenarios de computación paralela se obtuvieron los siguientes resultados:

TABLA 39. Resultados para K-means bajo computación paralela.

TABLA 40. Resultados para K-medoids bajo computación paralela.

TABLA 41. Resultados para agrupamiento aglomerativo con Linkage-complete bajo

computación paralela.

La tabla 39 muestra los resultados de K-means bajo computación paralela, donde se

ejecuta el algoritmo tres veces con una cantidad de instancias diferente. El tiempo de

ejecución para el subproceso que contiene tres tareas es relativamente bajo a comparación

Clúster 0 % Clúster 1 %

442.611 83,4 88.190 16,6

Clúster 0 % Clúster 1 % Clúster 2 %

369.704 69,7 124.048 23,4 37.049 7,0

Clúster 0 % Clúster 1 % Clúster 2 % Clúster 3 % Clúster 4 %

331.691 62,5 61.687 11,6 90.859 17,1 20.535 3,9 26.029 4,9

Agrupamiento del modelo

530.801

EscenariosNúmero

de ítems

Criterio de

evaluación de

clúster: Índice

de Davis-Bouldin

#1

Desempeño del hardware en paralelo

Número

de

clústeres

2

3

5

-0.514

-0.437

-0.489

18.589 18.589

Memoria RAM

(bytes)

Tiempo de CPU

(nanosegundos)

Tiempo de

ejecución de

CPU

(nanosegundos)

Tiempo de

ejecución

(milisegundos)

Tiempo

(milisegundos)

2.801.064.320 1.750.000.000 1.750.000.000

Clúster 0 % Clúster 1 %

8.780 87,8 1.221 12,2

Clúster 0 % Clúster 1 % Clúster 2 %

3.087 30,9 910 9,1 6.004 60,0

Clúster 0 % Clúster 1 % Clúster 2 % Clúster 3 % Clúster 4 %

1.500 15,0 5.793 57,9 1.284 12,8 614 6,1 810 8,1

1.895.341.336 1.010.406.250.000 1.010.406.250.000

Memoria RAM

(bytes)

Tiempo de CPU

(nanosegundos)

Tiempo de

ejecución de CPU

(nanosegundos)

Tiempo de

ejecución

(milisegundos)

Tiempo

(milisegundos)

Agrupamiento del modelo

10.000

EscenariosNúmero

de ítems

Criterio de

evaluación de

clúster: Índice

de Davis-Bouldin

#1

Desempeño del hardware en paralelo

Número

de

clústeres

2

3

5

-0.421

-0.730

-1.201

1.014.490 1.014.490

Tiempo de

ejecución

(milisegundos)

Tiempo

(milisegundos)Memoria RAM (bytes)

Tiempo de CPU

(nanosegundos)

Tiempo de ejecución de

CPU (nanosegundos)

30

5.000

20.000

EscenariosNúmero

de ítems

#1 8.564.699 8.565.121 1.850.540.792 8.325.828.125.000 8.325.765.625.000



de otros escenarios de K-means en otras estaciones climáticas, a pesar de haberse

procesado más de 1.5 millones de datos, y teniendo como previo conocimiento la eficiencia

de K-means con altos volúmenes de instancias. También se demuestra la optimización de

recursos empleando computación paralela al emplear un consumo de memoria RAM en

comparación de otros escenarios (o la suma de los otros escenarios con K-means), como

también los tiempos del proceso que son bajos si se comparan o se suman con escenarios

de alguna estación climática sin empleo de paralelización. Con relación a los tiempos de

la CPU si se muestra un elevado incremento y esto es debido a los cuatro procesadores

activados que acumulan y suman tiempo al realizar cada uno las tareas del proceso y del

subproceso para finalmente dar un acumulado de esos tiempos de ejecución. Con respecto

a la tabla 40, los resultados de K-medoids bajo computación paralela muestran igualmente

una eficiencia en los recursos computacionales al obtenerse unos tiempos bajos de

ejecución del proceso para una cantidad de 30.000 instancias procesadas dentro de un

subproceso con paralelización. El consumo de memoria RAM se mantiene estándar al

consumo de cualquier escenario de K-medoids de cualquier estación climática, es decir,

un consumo bajo a pesar de ser 30.000 instancias procesadas en tareas ejecutadas dentro

de un subproceso. Y al igual que K-means, los tiempos de CPU son muy altos debido a la

totalidad de tiempo que cada procesador activo suma en su respectiva tarea de ejecución.

Con relación a la evaluación de clústeres, K-means tuvo mejor evaluación para K=2 y el

algoritmo K-medoids lo tuvo para K=5. Finalmente, en la tabla 41 se obtienen los resultados

para el algoritmo jerárquico aglomerativo empleando paralelización, donde, a diferencia de

los algoritmos particionados, se obtienen elevados tiempos en procesamiento, como

también un incremento en la memoria RAM, si se lleva a cabo una comparativa con los

escenarios sin paralelización de las estaciones climáticas. Esto puede deberse a que la

construcción de gigantes matrices de disimilitud son un procesamiento robusto que, dentro

de la paralelización, generó en este escenario un desbordamiento de recursos que

ralentizó el procesamiento, a comparación de otros escenarios no paralelizados, lo que

pudo desencadenar que los tiempos fueran más lentos.

Finalmente, al abordar literatura de la comunidad científica, se corroboran en diversos

trabajos que otros algoritmos no supervisados como SOM K-means, aplicados a conjuntos

de datos climáticos, son más lentos que K-means pero proveen resultados similares

(Arroyo et al., 2017) independiente del tamaño de la muestra de los clústeres. Esto significa

que K-means sigue siendo un algoritmo altamente veloz en su procesamiento. Por otro

lado, el algoritmo GMM (Cluster basado en modelos de mezcla Gaussiana) genera

resultados similares a K-means y K-medoids, aunque en algunos casos se han obtenido

resultados inconsistentes, entregando muestras en diferentes grupos que deberían estar

juntos (Arroyo et al., 2017). Esto corrobora la cercanía de los resultados obtenidos entre

los algoritmos particionados de esta investigación. Aunque en esta investigación no se

experimentó con Linkage-Single para agrupamiento aglomerativo, la literatura aborda que

este método es sensible al ruido y datos atípicos (Aggarwal & Reddy, 2013), pero un

algoritmo como EPLS (método de extracción de características basado en modelos) sería

111

la alternativa para emplear conjuntos de datos con ruido y registros atípicos ya que es

eficiente en el manejo de ellos, al igual que se adapta muy bien con otros algoritmos de

agrupamiento y medidas de distancia (Y. Chen et al., 2017).

5.5 Transformada de Fourier de Tiempo Reducido STFT sobre variables

Con el fin de fortalecer el análisis de los resultados se aplica STFT (Transformada de Fourier de Tiempo Reducido) para identificar si los comportamientos de las variables por las oscilaciones atmosféricas afectan el análisis de clúster realizado. Los datos son registrados con una frecuencia de muestreo de 0, 2s-1 (1 dato cada 5 minutos). Inicialmente se realiza un gráfico tiempo-frecuencia usando la STFT para verificar que la frecuencia de la señal no cambia a lo largo del tiempo. Para mejorar la visualización de las componentes de interés, el cómputo de los algoritmos para el análisis en frecuencia se realiza restando el valor medio de la señal. Así, se elimina una componente en 0 Hz. Se realiza para diferentes variables. Radiación solar. Análisis de frecuencia. La STFT realiza un ventaneo de la señal, este se realizó con una ventana de Kaiser con β= 6 y un solape del 50%. La Figura 49 muestra los resultados para la variable radiación solar y con una visualización alternativa se verifica que la señal presenta componentes de baja frecuencia y no cambian en el tiempo. Esto permite el cálculo de la transformada de Fourier y presentar la señal en el dominio de la frecuencia. En la Figura 50 se presenta el espectro de la señal y se destacan dos componentes, por lo cual en el gráfico se esquematiza el periodo de cada una.

Figura 49. Análisis de frecuencia para la variable radiación solar.

Fuente: Los autores.



Figura 50. Transformada de Fourier para la variable radiación solar.


Temperatura. La STFT realiza un ventaneo de la señal, este se realizó con una ventana de Kaiser con β= 20 y un solape del 70%. En la Figura 51 se verifica que la señal presenta componentes de baja frecuencia y no cambian en el tiempo. Esto permite el cálculo de la transformada de Fourier y presentar la señal en el dominio de la frecuencia.

Figura 51. Análisis de frecuencia y Transformada de Fourier para la variable

temperatura.


113

Humedad relativa. La STFT realiza un ventaneo de la señal, este se realizó con una ventana de Kaiser con β= 20 y un solape del 70%. En la Figura 52 se verifica que la señal presenta componentes de baja frecuencia y no cambian en el tiempo. Esto permite el cálculo de la transformada de Fourier y presentar la señal en el dominio de la frecuencia. Los análisis adicionales realizados permiten, como se sospechaba, determinar que el uso de la normalización en los escenarios propuestos mejora el desempeño de los algoritmos de clustering sin depender del tipo de algoritmo ni del comportamiento de las variables bajo análisis.

Figura 52. Análisis de frecuencia y Transformada de Fourier para la variable humedad

relativa.




6. Discusión y validación

6.1 Discusión

K-means

La tabla 42 muestra una recopilación de los resultados de los criterios de evaluación de

clúster con el índice de Davis-Bouldin para K-means.

Tabla 42. Resumen de los resultados de Davis-Bouldin en K-means para las tres

estaciones climáticas.

En una visión global, para la estación Hospital de Villamaría (altitud baja), se observan los

índices de evaluación para todos sus escenarios y tratamientos. Con respecto a la estación

Hospital de Caldas (altitud intermedia), los índices de evaluación son menores que la

estación anterior (ganándose calidad), y también se mantienen similares para el resto de

sus valores K. No obstante, para la estación El Cisne PNNN (altura máxima), sucede todo

lo contrario: los índices de evaluación vuelven a ser mayores (perdiéndose calidad) y

manteniéndose iguales para sus valores K.

La tabla 43 resalta las mejores evaluaciones de clustering según el índice de Davis-Bouldin

para cada escenario de cada una de las estaciones climáticas.

K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5

1.1 -0.273 -0.454 -0.427 -0.000 -0.000 -0.129 -0.128 -0.000 -0.170

1.2 -0.643 -0.650 -0.862 -0.715 -0.776 -0.935 -0.194 -0.598 -0.735

1.3 -0.658 -0.530 -0.623 -0.717 -0.478 -0.682 -0.133 -0.428 -0.533

2.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.565

2.2 -0.812 -0.938 -0.890 -0.932 -0.954 -0.907 -0.330 -0.704 -0.736

2.3 -0.811 -1.004 -0.916 -0.928 -1.009 -0.958 -1.051 -0.780 -0.874

3.1 -0.456 -0.433 -0.490 -0.513 -0.437 -0.489 -0.563 -0.509 -0.492

3.2 -0.784 -0.904 -0.823 -0.934 -0.957 -0.906 -0.279 -0.687 -0.729

3.3 -0.793 -0.529 -0.718 -0.892 -0.748 -0.818 -0.911 -0.598 -0.533

4.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566

4.2 -0.812 -0.938 -0.980 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737

4.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567

5.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566

5.2 -0.812 -0.938 -0.890 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737

5.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567

Escenarios Tratamiento

#5

#1

#2

#3

#4

Estación El Cisne PNNN

Criterio de evaluación de clúster: Índice de

Davis-Bouldin


Davis-Bouldin


Davis-Bouldin

Estación Hospital de Villamaría Estación Hospital de Caldas

115

Tabla 43. Visualización de los mejores índices de evaluación de clustering para K-means.

En color amarillo se destaca la mejor evaluación de clustering en K-means para cada

escenario de cada una de las tres estaciones climáticas.

Con respecto a K-means, la iteración del algoritmo para formar clústeres asignando cada

punto a su centroide más cercano y recalculando el centroide de cada clúster es un

proceso muy eficiente y sencillo, no solamente por ejecutar dos pasos para cada iteración,

sino también al evidenciarse como es capaz de procesar inmensas cantidades de

instancias con mucha rapidez en cuya experimentación con la estación Hospital de Caldas

empleó más de 530.000 instancias. Esto coincide con el aporte de Khedairia & Khadir

(2012) al definir a K-means como un algoritmo simple y eficiente.

Los tiempos de ejecución del algoritmo mostrados en las tablas 9, 10 y 11 se incrementan

a medida que el valor de k es mayor. Esto se debe a que debe iterar más veces por la

necesidad de crear más clústeres. Para estaciones como Hospital de Caldas y Villamaría

los tiempos de ejecución son más altos al ser datasets de más de 430.000 instancias. Para

la estación El Cisne PNN los tiempos de ejecución son menores al comprender un dataset

de menos de 250.000 instancias.

El consumo de memoria RAM es muy similar para todos los valores de k y para las tres

estaciones climáticas. Si bien difiere en ciertos escenarios de trabajo, el promedio de

consumo es de 2.6Gb de RAM. Esto significa que independiente de las características de

los escenarios y de los datasets, la memoria RAM usa en promedio la misma cantidad de

recursos porque su consumo está dado por lo mínimo que necesita para ejecutar la

funcionalidad del algoritmo.

El tiempo de ejecución de CPU se incrementa a medida que el valor de k es mayor. Esto

se debe al procesamiento que utiliza para la cantidad de clústeres a generar. Para las tres

estaciones climáticas se observa el mismo comportamiento.

K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5

1.1 -0.273 -0.454 -0.427 -0.000 -0.000 -0.129 -0.128 -0.000 -0.170

1.2 -0.643 -0.650 -0.862 -0.715 -0.776 -0.935 -0.194 -0.598 -0.735

1.3 -0.658 -0.530 -0.623 -0.717 -0.478 -0.682 -0.133 -0.428 -0.533

2.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.565

2.2 -0.812 -0.938 -0.890 -0.932 -0.954 -0.907 -0.330 -0.704 -0.736

2.3 -0.811 -1.004 -0.916 -0.928 -1.009 -0.958 -1.051 -0.780 -0.874

3.1 -0.456 -0.433 -0.490 -0.513 -0.437 -0.489 -0.563 -0.509 -0.492

3.2 -0.784 -0.904 -0.823 -0.934 -0.957 -0.906 -0.279 -0.687 -0.729

3.3 -0.793 -0.529 -0.718 -0.892 -0.748 -0.818 -0.911 -0.598 -0.533

4.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566

4.2 -0.812 -0.938 -0.980 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737

4.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567

5.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566

5.2 -0.812 -0.938 -0.890 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737

5.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567

Estación El Cisne PNNN


Davis-Bouldin


Davis-Bouldin


Davis-Bouldin

Estación Hospital de Villamaría Estación Hospital de Caldas


#5

#1

#2

#3

#4



K-medoids

La tabla 44 muestra una recopilación de los resultados de los criterios de evaluación de

clúster con el índice de Davis-Bouldin para K-medoids.

Tabla 44. Resumen de los resultados de Davis-Bouldin en K-medoids para las tres

estaciones climáticas.

Para la estación Hospital de Villamaría (altitud baja), el índice de evaluación se vuelve más

bajo a medida que el valor de K (cantidad de clústeres) aumenta. Con respecto a la

estación Hospital de Caldas (altitud intermedia), los índices de evaluación son más bajos

que la estación anterior y a mayor cantidad de agrupamientos, más bajo aún es el valor de

estos índices (ganándose calidad). No obstante, para la estación El Cisne PNNN (altura

máxima), sucede todo lo contrario: los índices de evaluación vuelven a ser mayores

(perdiéndose calidad).

La tabla 45 resalta las mejores evaluaciones de clustering según el índice de Davis-Bouldin

para cada escenario de cada una de las estaciones climáticas.

K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5

1.1 -0.320 -0.408 -1.050 -0.356 -1.204 -1.056 -0.734 -1.850 -1.307

1.2 -0.545 -0.610 -1.228 -1.198 -2.614 -1.280 -0.947 -5.950 -1.738

1.3 -0.549 -0.665 -1.405 -1.199 -2.615 -1.296 -0.979 -6.225 -1.751

2.1 -0.358 -0.690 -0.793 -1.023 -0.549 1.323 -0.477 -0.740 -0.655

2.2 -0.738 -0.697 -1.317 -2.073 -1.538 -1.469 -0.949 -2.140 -1.940

2.3 -0.747 -0.691 -1.222 -2.279 -1.1510 -1.663 -0.948 -1.883 -2.034

3.1 -0.358 -0.690 -0.793 -1.171 -14.231 -1.318 -0.481 -0.740 -0.656

3.2 -0.740 -0.698 -1.323 -1.692 -3.534 -1.479 -0.825 -1.997 -1.751

3.3 -0.713 -0.661 -1.186 -1.588 -1.299 -1.553 -0.882 -1.784 -1.528

4.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.493 -0.746 -7.937

4.2 -0.740 -0.698 -1.323 -2.078 -1.544 -1.482 -0.957 -2.198 -1.972

4.3 -0.713 -0.661 -1.186 -2.290 -1.507 -1.668 -0.985 -0.936 -1.420

5.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.477 -0.740 -0.656

5.2 -0.740 -0.698 -1.323 -1.023 -0.549 -1.323 -0.950 -2.146 -1.948

5.3 -0.713 -0.661 -1.186 -1.023 -0.549 -1.330 -0.963 -1.942 -1.349

#5

Escenarios

Estación Hospital de Villamaría Estación Hospital de Caldas Estación El Cisne PNNN


Davis-Bouldin


Davis-Bouldin


Davis-BouldinTratamiento

#1

#2

#3

#4

117

Tabla 45. Visualización de los mejores índices de evaluación de clustering para K-medoids.

En color amarillo se destaca la mejor evaluación de clustering en K-medoids para cada

escenario de cada una de las tres estaciones climáticas.

Para K-medoids, la iteración del algoritmo para asignar cada punto al clúster con el objeto

representativo más cercano, luego aleatoriamente seleccionar un objeto 𝑋𝑖 no

representativo, calcular el costo total S de intercambiar el objeto representativo m con 𝑋𝑖,

para luego determinar si S<0 entonces intercambiar m con 𝑋𝑖 para formar el nuevo

conjunto de objetos representativos k, es un proceso robusto, no solamente por ejecutar

cuatro pasos para cada iteración, sino también al evidenciarse la complejidad

computacional que tiene el algoritmo para procesar tan solo 60.000 instancias en donde

una única ejecución tardó hasta 3 horas y 30 minutos. Esta ejecución se hizo para tantear

el potencial de K-medoids antes del diseño de los escenarios, por lo que esta prueba

coincide con la conclusión de Aggarwal & Reddy (2013) respecto a exponer a K-medoids

a altos volúmenes de instancias no es adecuado.

Discusión adicional de los algoritmos particionados

Para los anteriores algoritmos particionados como K-means y K-medoids, la normalización

y el tipo de técnica influye considerablemente en la evaluación de la calidad del clúster. El

índice de Davis-Bouldin al evaluar la calidad del clúster, genera un acercamiento (y

verificando de manera visual) a los mejores resultados de agrupamiento. Además, mientras

el valor de K sea más alto, conllevará a más demanda de requerimientos de hardware y

de tiempo para ejecutar y procesar un dataset, y posteriormente a ejecutar el algoritmo.

También se debe tener en cuenta que K-means y K-medoids no pueden procesar campos

vacíos. Algunos autores omiten los datos faltantes y corruptos para estos algoritmos

(Arroyo et al., 2017), así que los datos faltantes fueron transformados a un valor promedio

del atributo. Esta decisión se llevó a cabo para permitir que el algoritmo se pudiera ejecutar.

Tampoco se quiso reemplazar por el menor o mayor valor porque esto generaría arrastres

de agrupamientos y alteraría el análisis de los resultados.

K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5

1.1 -0.320 -0.408 -1.050 -0.356 -1.204 -1.056 -0.734 -1.850 -1.307

1.2 -0.545 -0.610 -1.228 -1.198 -2.614 -1.280 -0.947 -5.950 -1.738

1.3 -0.549 -0.665 -1.405 -1.199 -2.615 -1.296 -0.979 -6.225 -1.751

2.1 -0.358 -0.690 -0.793 -1.023 -0.549 1.323 -0.477 -0.740 -0.655

2.2 -0.738 -0.697 -1.317 -2.073 -1.538 -1.469 -0.949 -2.140 -1.940

2.3 -0.747 -0.691 -1.222 -2.279 -1.1510 -1.663 -0.948 -1.883 -2.034

3.1 -0.358 -0.690 -0.793 -1.171 -14.231 -1.318 -0.481 -0.740 -0.656

3.2 -0.740 -0.698 -1.323 -1.692 -3.534 -1.479 -0.825 -1.997 -1.751

3.3 -0.713 -0.661 -1.186 -1.588 -1.299 -1.553 -0.882 -1.784 -1.528

4.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.493 -0.746 -7.937

4.2 -0.740 -0.698 -1.323 -2.078 -1.544 -1.482 -0.957 -2.198 -1.972

4.3 -0.713 -0.661 -1.186 -2.290 -1.507 -1.668 -0.985 -0.936 -1.420

5.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.477 -0.740 -0.656

5.2 -0.740 -0.698 -1.323 -1.023 -0.549 -1.323 -0.950 -2.146 -1.948

5.3 -0.713 -0.661 -1.186 -1.023 -0.549 -1.330 -0.963 -1.942 -1.349

#5

Escenarios

Estación Hospital de Villamaría Estación Hospital de Caldas Estación El Cisne PNNN


Davis-Bouldin


Davis-Bouldin


Davis-BouldinTratamiento

#1

#2

#3

#4



La investigación arroja una notable diferencia entre los datasets limpios VS los datasets

con valores faltantes que son reemplazados por un valor promedio del atributo, ya que en

los resultados obtenidos hay variación en el índice de evaluación de agrupamiento el cual

es mejor cuando el dataset está limpio. Por otro lado, los datasets con datos faltantes y

datos atípicos (escenario 1) obtuvieron los resultados de menor desempeño ya que se

encuentra un desbalance en la formación de los clústeres y el índice de evaluación de sus

tratamientos no es el mejor de todos, lo que determina que el utilizar un conjunto de datos

crudo no es recomendable. Además, los datos atípicos (outliers) no generaron afectación

en los resultados obtenidos ya que los índices de evaluación de clustering dados por el

escenario 4 son muy similares, por ejemplo, al escenario 5 el cual utiliza un dataset limpio.

Esto pudo deberse a que la cantidad de outliers era pequeña a comparación del tamaño

del dataset (outliers sujetos a la existencia dentro del dataset), o por el contrario la

normalización permitió reducir esas grandes márgenes de distancia para posteriormente

entregar mejores agrupamientos.

Además, la reducción de dimensionalidad con PCA para datos no etiquetados cuyos

datasets son empleados para los algoritmos descriptivos particionados (K-means y K-

medoids) empleando tres componentes principales no es una buena idea ya que se

desarrolla un panorama de más de dos dimensiones en el plano y es complejo su análisis

pues no se cuenta con una etiqueta para determinar el posicionamiento de los datos en el

plano al ser nuevas variables creadas a partir de una combinación lineal de los atributos

originales, por lo que analizar estos gráficos es difícil para un investigador en términos

climáticos, y por lo tanto es incompresible entender la razón de los agrupamientos, tal como

lo mencionan Aggarwal & Reddy (2013) en que transformar los datos del espacio original

en un nuevo espacio con una dimensión más baja donde no se pueden asociar a las

características del espacio original conlleva a que realizar un análisis del nuevo espacio es

muy complicado y complejo ya que no hay un significado físico para las características

transformadas y obtenidas.

Además, aparte del primer componente, generar varios componentes principales (que son

independientes u ortogonales) dificulta al investigador en el análisis y comprensión de los

datos y las visualizaciones. Por esto, propiciar un PCA con dos componentes podría ser

interesante para determinar en un plano de dos dimensiones el comportamiento de los

datos y hacer más fácil su análisis, y llevar la reducción de atributos iniciales (que son

cuatro) a solamente dos. En términos de evaluación de clustering, PCA no influyó en la

mejora del índice de Davis-Bouldin.

Por otro lado, el número de iteraciones fuerzan al algoritmo a que intente por más veces

formar los clústeres y recalcular los centroides, pero no significa que mientras más veces

lo haga, mejor va a quedar. Llega a un punto donde encuentra el cálculo que necesita,

inclusive con una sola iteración. Visto en la experimentación, un número de iteraciones en

100 fue un valor equilibrado para trabajar con clustering, en donde no se afecta el

119

desempeño computacional en términos de tiempos de ejecución para el algoritmo,

evitando que un investigador reitere por miles de veces de forma innecesaria y se

comprueba que reiterar con un número mayor no afecta en la mejora del índice de

evaluación (recalcular sus centroides para encontrar un valor adecuado).

Agrupamiento aglomerativo con Linkage-Complete

Para el algoritmo de agrupamiento aglomerativo, se optó por realizar un procesamiento

con 20.000 instancias para tantear el previo funcionamiento del algoritmo y determinar la

posterior creación de los escenarios, y se encontró en que el procesamiento fue demasiado

lento y esto se debió a que el algoritmo presentó una gran complejidad computacional

porque una vez se determina y emplea una medida de distancia, se construye una matriz

de disimilitud, y este proceso conlleva a que se genere una matriz de tamaño 20.000 X

20.000 (para un dataset de 20.000 instancias) lo que en términos de hardware se hace

complejo de almacenar y procesar. Después de esto, los conjuntos de datos se fusionan

en cada nivel y posteriormente la matriz de diferencias se va actualizando. Esto finalmente

genera un gran impacto en el procesamiento de la computadora y la ejecución tarda más

de 1 hora y 30 minutos (para un dataset de 20.000 instancias), es decir, tardó 72 veces

más con respecto a los escenarios anteriores de 5.000 instancias. Esta conclusión soporta

las investigaciones de Arroyo et al. (2017) en donde agrupamiento jerárquico no es

recomendable para un dataset de más de 10.000 instancias, por lo que se decidió en crear

escenarios con conjuntos de datos no superiores a los 5.000 instancias.

Agrupamiento jerárquico no puede procesar campos vacíos así que los datos faltantes

fueron transformados a un valor promedio del atributo. Esta decisión se llevó a cabo para

permitir que el algoritmo se pudiera ejecutar. Tampoco se quiso reemplazar por el menor

o mayor valor porque esto generaría arrastres de agrupamientos y alteraría el análisis de

los resultados.

En lo que respecta a atributos, la precipitación al estar dentro de un dataset hace que el

dendrograma se vuelva más complejo de analizar, no solamente por crear una

aglomeración adicional en los niveles inferiores, sino también porque implica incrementar

el dataset con miles de datos más, conllevando a que el gráfico aglomere muchas

instancias y se vuelva estrecho para posteriores visualizaciones y análisis, más allá de que

el conjunto de datos que inicialmente se carga ya viene grande, así que se recomienda

emplear precipitación para un dataset que garantice una cantidad de instancias inferior a

las utilizadas en esta experimentación, es decir, por debajo de 1.000 instancias, para el

algoritmo aglomerativo.

Basándonos en lo anterior, un dendrograma de alrededor de 3.000 instancias (hojas)

puede permitir a un investigador ver con facilidad como se fusionan las instancias desde

el nivel intermedio y enfocar la observación hacia niveles superiores, a pesar de que los

niveles inferiores es imposible visualizarlos, por lo que si un investigador desea evaluar

desde el nivel 0 del árbol se le sugiere emplear conjuntos de datos inferiores a 100



instancias para que los dendrogramas sean más visibles y más fáciles de observar y

analizar desde los niveles más inferiores. Agrupamiento jerárquico es excelente para un

dataset pequeño (Arroyo et al., 2017; Shaukat, Rao, & Khan, 2016).

Por otra parte, la normalización facilitó la construcción de los dendrogramas, contribuyendo

a que las distancias de disimilitud y las distancias de similitud (eje Y) se volvieran más

cercanas al haber llevado los datos a una escala entre cero y uno, lo que permitió acortar

las distancias para poder visualizar de manera más simple el dendrograma. La reducción

de dimensionalidad no fue trascendental en los resultados obtenidos por lo que se concluye

que no fue de utilidad para el algoritmo aglomerativo.

En términos computacionales, el algoritmo emplea recursos de máquina similares en todos

los escenarios, independientemente de las características preestablecidas, pero si se

encuentra tiempos de ejecución y tiempos de CPU altos para el escenario 1 (hasta ocho

veces mayores que el resto de escenarios así la diferencia sean 2.000 instancias), lo que

confirma que el uso de datasets con volúmenes de instancias grandes para agrupamiento

jerárquico aglomerativo puede conllevar a un procesamiento más demorado así el conjunto

de datos sea pequeño si se lleva a otros algoritmos.

Computación paralela

Se llevó a cabo la ejecución del dataset de la estación Hospital de Caldas empleando los

algoritmos K-means, K-medoids y aglomerativo en el escenario 1 que comprende el

dataset crudo, sin normalización, sin reducción de dimensionalidad e iterando los

algoritmos con un valor de 100. Estos fueron los resultados consolidados en las tablas 46

y 47 que demuestran el impacto positivo que tiene el uso de computación paralela para el

mejoramiento de los índices de evaluación de agrupamiento para K-means. Para K-

medoids ocurre lo mismo a excepción de K=3.

Tabla 46. Comparativo de índices de evaluación de agrupamiento para K-means.

Con computación paralela Sin computación paralelaCriterio de evaluación de

clúster: Índice de Davis-

Bouldin

Criterio de evaluación de


Bouldin

-0.000

-0.000

-0.129

3 -0.437

5 -0.489

#1 530.801

2 -0.514

EscenariosNúmero

de ítems

Número

de

clústeres

121

Tabla 47. Comparativo de índices de evaluación de agrupamiento para K-medoids.

6.2 Validación con un nuevo dataset

Para confrontar los resultados de la experimentación anterior, se obtuvo un nuevo dataset

de otra estación climática y se aplicó cada algoritmo a un escenario específico con el fin

de validar los resultados.

La estación climática que se usó para validar los resultados fue la estación Alcaldía de

Marquetalia (clima cálido, similar a las condiciones climáticas de la Estación de Villamaría),

cuyo dataset comprendió 372.242 instancias.

Tabla 48. Estación climática con nuevo dataset para validación de resultados.

Para K-means, el escenario utilizado para la validación fue el escenario 2, que comprende

estas características:

Tabla 49. Escenario 2 para aplicar el algoritmo K-means con el nuevo dataset.

Y estos fueron los resultados:

Con computación paralela Sin computación paralela

#1 10.000

2 -0.421 -0.356

EscenariosNúmero

de ítems

Número

de

clústeres



Bouldin



Bouldin

3 -0.730 -1.204

5 -1.201 -1.056

Nombre de la estación Tipología Altitud Ubicación

Alcaldía de Marquetalia Meteorológica 1591 msnm Marquetalia

Tratamiento NormalizaciónReducción de

dimensionalidad

Número de

iteraciones

2.1 NO NO 100

2.2Range-

transformationNO 1000

2.3 Z-transformationPCA con 3

componentes10

#2



relativa y radiación solar.

Cantidad de registros: todos los

del dataset. Datos faltantes

(missing): no. Valores atípicos

(outliers): no.

Escenario



Tabla 50. Resultados de K-means con el nuevo dataset para la estación climática

Alcaldía de Marquetalia.

Para K-medoids, el escenario utilizado para la validación fue el escenario 5, que

comprende estas características:

Tabla 51. Escenario 5 para aplicar el algoritmo K-medoids con el nuevo dataset.

Y estos fueron los resultados:

Tabla 52. Resultados de K-medoids con el nuevo dataset para la estación climática

Alcaldía de Marquetalia.

Para el algoritmo aglomerativo con 5.000 instancias, dataset limpio y normalizando con

Range-transformation, en la figura 53 se observa un dendrograma claro y expandido en el

plano, igual que el obtenido en el dendrograma de la figura 45. Al aplicar normalización los

dendrogramas se observan con distancias de disimilitud cortas lo que implica que el árbol

pueda ser cortado visualmente hasta para un K=16.

K=2 K=3 K=5

2.1 -0.427 -0.433 -0.501

2.2 -0.675 -0.880 -0.980

2.3 -0.812 -1.026 -1.011


Estación Alcaldía de Marquetalia


Davis-Bouldin

#2

Tratamiento NormalizaciónReducción de

dimensionalidad

Número de

iteraciones

5.1 NO NO 100

5.2Range-

transformationNO 1000

5.3 Z-transformationPCA con 3

componentes10

#5




precipitación. Cantidad de

registros: 10.000 registros. Datos

faltantes (missing): no. Valores

atípicos (outliers): no.

Escenario

K=2 K=3 K=5

5.1 -0.706 -0.510 -2.657

5.2 -1.698 -1.767 -1.786

5.3 -1.704 -1.350 -1.145


Estación Alcaldía de Marquetalia

Criterio de evaluación de clúster: Índice

de Davis-Bouldin

#5

123

Figura 53. Resultados del agrupamiento aglomerativo con Linkage-Complete con el

nuevo dataset para la estación climática Alcaldía de Marquetalia.

Acorde a las anteriores validaciones, se pudo corroborar lo obtenido en el marco

experimental llevado a cabo, donde las mejores evaluaciones de clustering coinciden con

la discusión expuesta en el sub-numeral anterior en las tablas 43 y 45.

7. Conclusiones y recomendaciones

7.1 Conclusiones

Para K-means, en la estación Hospital de Caldas, hay mayor cantidad de evaluaciones de

clustering con mejor calidad a comparación de las otras dos estaciones. Esto se determina

al tomar un valor como referencia para hacer el conteo, en este caso, los índices iguales o

por debajo a -0.700, por lo tanto, un dataset cuyos valores de sus atributos no contienen

condiciones extremas (como altas o bajas temperaturas), como lo evidencia la estación

Hospital de Caldas, generan una aproximación a una gran cantidad de índices de

evaluación de agrupamiento mejores para los clústeres en K-means, a comparación de lo

obtenido con las otras dos estaciones.

Para K-means, el mejor índice de evaluación de clustering para la estación Hospital de

Villamaría tuvo el valor de -1.004 y para la estación Hospital de Caldas el valor fue de -

1.009 según la tabla 43, lo que significa que para un dataset climático extraído de una



región que oscile los 1.790msnm y los 2.183msnm (entre clima cálido y templado), al

utilizar K-means un valor de K con 3 clústeres, normalización con Z-transformation y

número de iteraciones del algoritmo en 10, generan una aproximación a la mejor

evaluación de clustering. Con respecto a la estación El Cisne PNNN, el mejor índice de

evaluación fue dado por el valor de -1.051 según la tabla 43, lo que significa que para un

dataset que proviene de fuentes de elevadas altitudes como los 4.812msnm, emplear un

valor de K con 2 clústeres, normalización con Z-transformation y un número de iteraciones

del algoritmo en 10, genera aproximación a la mejor evaluación de clustering.

Por otro lado, para K-medoids, en la estación El Cisne PNNN, hay mayor cantidad de

evaluaciones de clustering con mejor calidad en comparación de las otras dos estaciones.

Esto se determina al tomar un valor como referencia para hacer el conteo, en este caso,

los índices iguales o por debajo a -0.700, por lo tanto, un dataset cuyos valores de sus

atributos contienen condiciones extremas (como elevadas temperaturas o humedad

relativa del 100%), como lo evidencia la estación El Cisne PNNN, generan una

aproximación a una gran cantidad de índices de evaluación de agrupamiento mejores para

los clústeres en K-medoids, a comparación de lo obtenido con las otras dos estaciones.

Para K-medoids, el mejor índice de evaluación de clustering para la estación Hospital de

Villamaría tuvo un valor de -1.405 según la tabla 45, lo que significa que para un dataset

climático extraído de una región que oscile los 1.790msnm (clima cálido), al utilizar K-

medoids un valor de K de 5 clústeres, normalización con Z-transformation y número de

iteraciones del algoritmo en 10, genera una aproximación a la mejor evaluación de

clustering. Para la estación Hospital de Caldas, el mejor índice tuvo un valor de -14.231

según la tabla 45, lo que significa que para un dataset que proviene de fuentes de altitudes

de 2.183msnm (clima templado), emplear un valor de K con 3 clústeres sin ninguna otra

característica, genera una aproximación a la mejor evaluación de clustering. Con respecto

a la estación El Cisne PNNN, la mejor evaluación de clustering tuvo el valor de -7.937

según la tabla 45, lo que significa que para un dataset que proviene de fuentes de altitudes

de 4.812msnm (clima extremadamente frío), emplear un valor de K con 5 clústeres sin

ninguna otra característica, genera una aproximación a la mejor evaluación de clustering.

Con base a lo anterior y la información vista en la sección de discusiones, los índices de

evaluación de clúster se observan con valores muy bajos para K-medoids a comparación

de los obtenidos en K-means, lo que significa que el agrupamiento y la calidad de los nodos

obtenidos da mejores resultados para K-medoids que para K-means.

Por lo tanto, de los dos algoritmos particionados utilizados para el marco experimental, el

algoritmo que presentó los mejores desempeños y resultados fue K-medoids.

Para agrupamiento aglomerativo con enlace completo (Linkage-Complete), los

procesamientos de datasets que contienen la menor cantidad de instancias y que han

pasado por un proceso de normalización con Range-Transformation tienen los mejores

125

resultados en los dendrogramas en términos gráficos, no solamente porque con menos

instancias el dendrograma es más sencillo de visualizar y analizar, sino también porque la

normalización permite acortar distancias de similitud (eje Y) y hacer más fácil aún la

visualización del dendrograma. A este algoritmo no se le puede aplicar un índice de

evaluación de rendimiento o performance por ser de clustering jerárquico, pues no existen

métricas de desempeño oficiales, excepto que un investigador desarrolle en un software

funcionalidades externas para proveer evaluaciones de desempeño a nivel matemático

(Erman & Suklan, 2015). Basándonos en lo anterior, el investigador es quien determina en

qué punto desea cortar el árbol para obtener un valor de clústeres (K) y a partir de allí

hacer el análisis de los resultados.

Con respecto a computación paralela, K-means tuvo mejores resultados de agrupamiento

en un 100% según el índice de Davis-Bouldin a diferencia de lo obtenido cuando se

ejecutaron individualmente para cada valor de K, lo que evidencia las ventajas de emplear

computación paralela para K-means en búsqueda de obtener mejores evaluaciones de

desempeño en los clústeres. Por otro lado, K-medoids tuvo mejoras en un 66% al aplicar

computación paralela y el otro 34% fue opuesto con 3 clústeres. Esto puede deberse a la

forma en que K-medoids calcula los centros de agrupación, ya que en K-medoids, el nuevo

centro de agrupación es el punto más cercano a la media de los puntos de agrupación. Es

decir, el algoritmo genera centros de agrupación aleatorios, en lugar de una matriz de

partición para la inicialización (Arroyo et al., 2017).

Lo anterior permitió ver que la computación paralela y el uso de más procesadores tuvo

relación directa con el nivel de desempeño del algoritmo. Esto pudo ser dado por la

dependencia de que varias tareas simultáneas o ciclos hayan estado asociadas a

secuencias similares de operaciones.

7.2 Recomendaciones

Luego de la investigación llevada a cabo para la evaluación de algoritmos de aprendizaje

de máquina no supervisados sobre datos climáticos, se han obtenido una serie de aspectos

que se podrían realizar a futuro para emprender investigaciones similares o fortalecer la

investigación realizada con relación al machine learning, el clustering y el análisis de datos

climáticos.

Para trabajos futuros se recomienda emplear otro tipo de escenarios, tratamientos,

algoritmos y otras cantidades de clústeres para ver las evaluaciones de desempeño.

También sería importante saber de qué manera evaluar algoritmos jerárquicos

aglomerativos para determinar la calidad de los dendrogramas con el fin de romper la

subjetividad de cada investigador y aplicar mediciones matemáticas.

Para buscar evaluaciones de clustering con mejores resultados, se recomienda emplear

K-medoids si se cuenta con un dataset pequeño que no supere las 10.000 instancias,



según el marco experimental llevado a cabo. Si el investigador desea emplear una gran

cantidad de instancias, K-means es la alternativa.

Igualmente, se recomienda emplear técnicas como Ordinary Kriging para el manejo de las

grandes cantidades de ceros que contiene una variable dentro de un dataset, para ver qué

ocurre con los resultados y análisis. Además, llevar a cabo escenarios con un valor K

superior a 5 permitiría a los investigadores indagar qué ocurre con el agrupamiento y el

rendimiento para los algoritmos particionados como K-means y K-medoids, tanto a nivel

de máquina como en el desempeño de estos. También se sugiere emplear otros métodos

de normalización como transformación de proporción y rango inter-cuartil para ver cómo

se comportan los clustering con estos análisis. Por otro lado, evaluar datos dentro de una

escala temporal (por día, por jornada, etc.) empleando series de tiempo permitiría conocer

interesantes comportamientos de los clustering y la calidad de sus agrupamientos en una

línea del tiempo para diferentes temporadas o estaciones del año (cómo se daría el

desempeño para temporadas frías o estaciones de verano). También, sería interesante

realizar procesamientos bajo diferentes escenarios que comprendan un conjunto de datos

más grande (de millones de instancias) para K-means, para observar el comportamiento

computacional a mayor escala con el fin de determinar qué tan eficiente es para grandes

datasets, con el fin de detectar nuevos patrones o relaciones.

Con respecto a los algoritmos que demandaron un alto consumo computacional como K-

medoids (particionados) y agrupamiento aglomerativo (con método de Enlace Completo)

se recomienda ejecutarlos en escenarios soportados por servidores de grandes

características de hardware o computadoras de alto rendimiento para observar el

desempeño computacional para conjuntos de datos de más de 100.000 instancias, y que

soporten un avanzado sistema de visualización de datos para poder observar a más detalle

el dendrograma que se construye para un algoritmo jerárquico en donde los datasets son

más grandes a los trabajados en esta experimentación.

Este trabajo se enfocó principalmente en algoritmos de clusterización ya que la esencia de

esta investigación era desarrollar un proyecto que se enfocara en un área específica del

aprendizaje de máquina que profundizara en agrupamiento de datos. No se empleó

aprendizaje de máquina supervisado porque no era parte del alcance de esta investigación.

No obstante, se recomienda para futuras investigaciones hibridar soluciones de algoritmos

supervisados y no supervisados para permitir aplicar metodologías y resolver problemas a

nivel descriptivos apoyados de un alto componente de predicción que podrían proveer

algoritmos, como, por ejemplo, de clasificación, regresión, árboles de decisiones, redes

neuronales, bayesianos, entre otros. Igualmente, resolver problemas a nivel de predicción

apoyados de un alto componente descriptivo usando datos climáticos sería de bastante

interés para la comunidad.

Esta investigación deja las puertas abiertas a nuevas interrogantes, cuyos planteamientos

podrían dar cabida a complementar este estudio. Por ejemplo, al utilizar otras distancias

127

diferentes a la euclidiana, ¿cómo se comportarían los agrupamientos?; Si se quieren

analizar series de tiempo (como días, jornadas, estaciones del año) para líneas de tiempo

de años cuyos datasets son más de 100.000 instancias o un millón de instancias, ¿tiene

que ser definitivamente con K-means o se puede emplear K-medoids usando un mega

servidor?, ¿Cómo determinar las características mínimas de hardware para utilizar K-

medoids para un dataset de un millón de instancias?, ¿Cómo se comportarían otros

algoritmos aglomerativos y particionados?, ¿Qué otros escenarios se podrían crear?,

¿Cómo llevar a cabo la visualización de cientos de miles de datos en un dendrograma para

agrupamiento jerárquico si se cuenta con un potente hardware?, ¿Qué sucede si se

emplean ocho procesadores lógicos en paralelización en vez de cuatro?

Bibliografía

Abdul Halim, N. D., Latif, M. T., Ahamad, F., Dominick, D., Chung, J. X., Juneng, L., & Khan, M. F. (2018). The long-term assessment of air quality on an island in Malaysia. Heliyon, 4(12). https://doi.org/10.1016/j.heliyon.2018.e01054

Acciani, G., Chiarantoni, E., Fornarelli, G., & Vergura, S. (2003). A feature extraction unsupervised neural network for an environmental data set. Neural Networks, 16(3–4), 427–436. https://doi.org/10.1016/S0893-6080(03)00014-5

Aggarwal, C. C., & Reddy, C. K. (2013). DATA Custering Algorithms and Applications. (C. K. R. Charu C. Aggarwal, Ed.). CRC Press.

Alpaydın, E. (2014). Introduction to machine learning. Methods in Molecular Biology, 1107, 105–128. https://doi.org/10.1007/978-1-62703-748-8-7

André, M., Perez, R., Soubdhan, T., Schlemmer, J., Calif, R., & Monjoly, S. (2019). Preliminary assessment of two spatio-temporal forecasting technics for hourly satellite-derived irradiance in a complex meteorological context. Solar Energy, 177(December 2018), 703–712. https://doi.org/10.1016/j.solener.2018.11.010

Arbolino, R., Carlucci, F., Cirà, A., Ioppolo, G., & Yigitcanlar, T. (2017). Efficiency of the EU regulation on greenhouse gas emissions in Italy: The hierarchical cluster analysis approach. Ecological Indicators, 81(May), 115–123. https://doi.org/10.1016/j.ecolind.2017.05.053

Arroyo, Á., Herrero, Á., Tricio, V., & Corchado, E. (2017). Analysis of meteorological conditions in Spain by means of clustering techniques. Journal of Applied Logic, 24, 76–89. https://doi.org/10.1016/j.jal.2016.11.026

Asadi Zarch, M. A., Sivakumar, B., & Sharma, A. (2015). Assessment of global aridity change. Journal of Hydrology, 520, 300–313. https://doi.org/10.1016/j.jhydrol.2014.11.033

Bador, M., Naveau, P., Gilleland, E., Castellà, M., & Arivelo, T. (2015). Spatial clustering of summer temperature maxima from the CNRM-CM5 climate model ensembles & E-OBS over Europe. Weather and Climate Extremes, 9, 17–24. https://doi.org/10.1016/j.wace.2015.05.003

Ben-David, S., & Shalev-Shwartz, S. (2014). Understanding Machine Learning: From Theory to Algorithms. Understanding Machine Learning: From Theory to Algorithms.



https://doi.org/10.1017/CBO9781107298019 Bramer, M. (2007). Principles of Data Mining. Springer. https://doi.org/10.1007/978-1-

4471-4884-5_1 Calliari, E., Farnia, L., Ramieri, E., & Michetti, M. (2019). A network approach for moving

from planning to implementation in climate change adaptation: evidence from southern Mexico. Environmental Science and Policy, 93(November 2017), 146–157. https://doi.org/10.1016/j.envsci.2018.11.025

Carro-Calvo, L., Ordóñez, C., García-Herrera, R., & Schnell, J. L. (2017). Spatial clustering and meteorological drivers of summer ozone in Europe. Atmospheric Environment, 167, 496–510. https://doi.org/10.1016/j.atmosenv.2017.08.050

Carvalho, M. J., Melo-Gonçalves, P., Teixeira, J. C., & Rocha, A. (2016). Regionalization of Europe based on a K-Means Cluster Analysis of the climate change of temperatures and precipitation. Physics and Chemistry of the Earth, 94, 22–28. https://doi.org/10.1016/j.pce.2016.05.001

Cashman, S. A., Meyer, D. E., Edelen, A. N., Ingwersen, W. W., Abraham, J. P., Barrett, W. M., … Smith, R. L. (2016). Mining Available Data from the United States Environmental Protection Agency to Support Rapid Life Cycle Inventory Modeling of Chemical Manufacturing. Environmental Science and Technology, 50(17), 9013–9025. https://doi.org/10.1021/acs.est.6b02160

Chen, J., Song, M., & Xu, L. (2015). Evaluation of environmental efficiency in China using data envelopment analysis. Ecological Indicators, 52, 577–583. https://doi.org/10.1016/j.ecolind.2014.05.008

Chen, L., & Jia, G. (2017). Environmental efficiency analysis of China’s regional industry : a data envelopment analysis (DEA) based approach. Journal of Cleaner Production, 142, 846–853. https://doi.org/10.1016/j.jclepro.2016.01.045

Chen, Y., Wang, L., Li, F., Du, B., Choo, K. K. R., Hassan, H., & Qin, W. (2017). Air quality data clustering using EPLS method. Information Fusion, 36, 225–232. https://doi.org/10.1016/j.inffus.2016.11.015

Chidean, M. I., Caamaño, A. J., Ramiro-Bargueño, J., Casanova-Mateo, C., & Salcedo-Sanz, S. (2018). Spatio-temporal analysis of wind resource in the Iberian Peninsula with data-coupled clustering. Renewable and Sustainable Energy Reviews, 81(June), 2684–2694. https://doi.org/10.1016/j.rser.2017.06.075

Chidean, M. I., Muñoz-Bulnes, J., Ramiro-Bargueño, J., Caamaño, A. J., & Salcedo-Sanz, S. (2015). Spatio-temporal trend analysis of air temperature in Europe and Western Asia using data-coupled clustering. Global and Planetary Change, 129, 45–55. https://doi.org/10.1016/j.gloplacha.2015.03.006

Clay, N., & King, B. (2019). Smallholders’ uneven capacities to adapt to climate change amid Africa’s ‘green revolution’: Case study of Rwanda’s crop intensification program. World Development, 116, 1–14. https://doi.org/S0305750X18304285

Conradt, T., Gornott, C., & Wechsung, F. (2016). Extending and improving regionalized winter wheat and silage maize yield regression models for Germany: Enhancing the predictive skill by panel definition through cluster analysis. Agricultural and Forest Meteorology, 216, 68–81. https://doi.org/10.1016/j.agrformet.2015.10.003

Deogun, J. S., & Raghavan, V. V. (1999). Data Mining : Research Trends , Challenges , and Applications, 1–29. https://doi.org/10.1.1.52.337

Erman, N., & Suklan, J. (2015). Performance of selected agglomerative clustering methods. Innovative Issues and Approaches in Social Sciences, 8(January). https://doi.org/10.12959/issn.1855-0541.IIASS-2015-no1-art11

129

Falquina, R., & Gallardo, C. (2017). Development and application of a technique for projecting novel and disappearing climates using cluster analysis. Atmospheric Research, 197(July), 224–231. https://doi.org/10.1016/j.atmosres.2017.06.031

Farah, S., Whaley, D., Saman, W., & Boland, J. (2019). Integrating Climate Change into Meteorological Weather Data for Building Energy Simulation. Energy and Buildings, 183, 749–760. https://doi.org/S0378778818323296

Franceschi, F., Cobo, M., & Figueredo, M. (2018). Discovering relationships and forecasting PM10 and PM2.5 concentrations in Bogotá Colombia, using Artificial Neural Networks, Principal Component Analysis, and k-means clustering. Atmospheric Pollution Research, 9(5), 912–922. https://doi.org/10.1016/j.apr.2018.02.006

Franco, D. G. de B., & Steiner, M. T. A. (2018). Clustering of solar energy facilities using a hybrid fuzzy c-means algorithm initialized by metaheuristics. Journal of Cleaner Production, 191, 445–457. https://doi.org/10.1016/j.jclepro.2018.04.207

Gallo, C., Faccilongo, N., & La Sala, P. (2017). Clustering analysis of environmental emissions: A study on Kyoto Protocol’s impact on member countries. Journal of Cleaner Production. https://doi.org/10.1016/j.jclepro.2017.07.194

Gan, G., Ma, C., & Wu, J. (2007). Data Clustering: Theory, Algorithms, and Applications. Philadelphia, Pennsylvania: SIAM - Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9780898718348

Ghayekhloo, M., Ghofrani, M., Menhaj, M. B., & Azimi, R. (2015). A novel clustering approach for short-term solar radiation forecasting. Solar Energy, 122, 1371–1383. https://doi.org/10.1016/j.solener.2015.10.053

Guo, Y., Gao, H., & Wu, Q. (2017). A meteorological information mining-based wind speed model for adequacy assessment of power systems with wind power. International Journal of Electrical Power and Energy Systems, 93, 406–413. https://doi.org/10.1016/j.ijepes.2017.05.031

Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. San Francisco, CA, itd: Morgan Kaufmann. https://doi.org/10.1016/B978-0-12-381479-1.00001-0

Han, S., Zhang, L. na, Liu, Y. qian, Zhang, H., Yan, J., Li, L., … Wang, X. (2019). Quantitative evaluation method for the complementarity of wind–solar–hydro power and optimization of wind–solar ratio. Applied Energy, 236(December 2018), 973–984. https://doi.org/10.1016/j.apenergy.2018.12.059

Hao, Y., Dong, L., Liao, X., Liang, J., Wang, L., & Wang, B. (2019). A novel clustering algorithm based on mathematical morphology for wind power generation prediction. Renewable Energy, 136, 572–585. https://doi.org/10.1016/j.renene.2019.01.018

Hidalgo, J., Dumas, G., Masson, V., Petit, G., Bechtel, B., Bocher, E., … Mills, G. (2019). Comparison between local climate zones maps derived from administrative datasets and satellite observations. Urban Climate, 27(November 2017), 64–89. https://doi.org/10.1016/j.uclim.2018.10.004

Jiang, J., Ye, B., Xie, D., & Tang, J. (2017). Provincial-level carbon emission drivers and emission reduction strategies in China: Combining multi-layer LMDI decomposition with hierarchical clustering. Journal of Cleaner Production, 169, 178–190. https://doi.org/10.1016/j.jclepro.2017.03.189

Kalteh, A. M., Hjorth, P., & Berndtsson, R. (2008). Review of the self-organizing map (SOM) approach in water resources: Analysis, modelling and application. Environmental Modelling & Software, 23(7), 835–845.



https://doi.org/http://dx.doi.org/10.1016/j.envsoft.2007.10.001 Kanevski, M., Pozdnukhov, A., & Timonin, V. (2008). Machine Learning Algorithms for

GeoSpatial Data. Applications and Software Tools. Iemss.Org, 320–327. Khedairia, S., & Khadir, M. T. (2012). Impact of clustered meteorological parameters on

air pollutants concentrations in the region of Annaba, Algeria. Atmospheric Research, 113, 89–101. https://doi.org/10.1016/j.atmosres.2012.05.002

Lausch, A., Schmidt, A., & Tischendorf, L. (2015). Data mining and linked open data – New perspectives for data analysis in environmental research. Ecological Modelling, 295, 5–17. https://doi.org/10.1016/j.ecolmodel.2014.09.018

Lee, J., & Kim, K. Y. (2018). Analysis of source regions and meteorological factors for the variability of spring PM10 concentrations in Seoul, Korea. Atmospheric Environment, 175(April 2017), 199–209. https://doi.org/10.1016/j.atmosenv.2017.12.013

Li, C., Sun, L., Jia, J., Cai, Y., & Wang, X. (2016). Risk assessment of water pollution sources based on an integrated k-means clustering and set pair analysis method in the region of Shiyan, China. Science of the Total Environment, 557–558, 307–316. https://doi.org/10.1016/j.scitotenv.2016.03.069

Li, S., Ma, H., & Li, W. (2017). Typical solar radiation year construction using k-means clustering and discrete-time Markov chain. Applied Energy, 205(May), 720–731. https://doi.org/10.1016/j.apenergy.2017.08.067

Lin, P., Peng, Z., Lai, Y., Cheng, S., Chen, Z., & Wu, L. (2018). Short-term power prediction for photovoltaic power plants using a hybrid improved Kmeans-GRA-Elman model based on multivariate meteorological factors and historical power datasets. Energy Conversion and Management, 177(July), 704–717. https://doi.org/10.1016/j.enconman.2018.10.015

Lokers, R., Knapen, R., Janssen, S., van Randen, Y., & Jansen, J. (2016). Analysis of Big Data technologies for use in agro-environmental science. Environmental Modelling and Software, 84, 494–504. https://doi.org/10.1016/j.envsoft.2016.07.017

Marzban, C., & Sandgathe, S. (2006). Cluster Analysis for Verification of Precipitation Fields. Weather and Forecasting, 21(5), 824–838. https://doi.org/10.1175/WAF948.1

Mayer, A., Winkler, R., & Fry, L. (2014). Classification of watersheds into integrated social and biophysical indicators with clustering analysis. Ecological Indicators, 45, 340–349. https://doi.org/10.1016/j.ecolind.2014.04.030

Meghea, I., Mihai, M., Lacatusu, I., & Iosub, I. (2012). Evaluation of Monitoring of Lead Emissions in Bucharest by Statistical Processing. Journal of Environmental Protection and Ecology, 13(2), 746–755.

Mokdad, F., & Haddad, B. (2017). Improved infrared precipitation estimation approaches based on k-means clustering: Application to north Algeria using MSG-SEVIRI satellite data. Advances in Space Research, 59(12), 2880–2900. https://doi.org/10.1016/j.asr.2017.03.027

Naik, A., & Samant, L. (2016). Correlation Review of Classification Algorithm Using Data Mining Tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Procedia Computer Science, 85(Cms), 662–668. https://doi.org/10.1016/j.procs.2016.05.251

Nguyen, T. T., Kawamura, A., Tong, T. N., Nakagawa, N., Amaguchi, H., & Gilbuena, R. (2015). Clustering spatio-seasonal hydrogeochemical data using self-organizing maps for groundwater quality assessment in the Red River Delta, Vietnam. Journal of Hydrology, 522, 661–673. https://doi.org/10.1016/j.jhydrol.2015.01.023

Obradovic, V., Bjelica, D., Petrovic, D., Mihic, M., & Todorovic, M. (2016). Whether We are Still Immature to Assess the Environmental KPIs! Procedia - Social and

131

Behavioral Sciences, 226(October 2015), 132–139. https://doi.org/10.1016/j.sbspro.2016.06.171

Oshana, R. (2015). Principles of Parallel Computing. Multicore Software Development Techniques, 1–30. https://doi.org/10.1016/b978-0-12-800958-1.00001-2

Parente, J., Pereira, M. G., & Tonini, M. (2016). Space-time clustering analysis of wildfires: The influence of dataset characteristics, fire prevention policy decisions, weather and climate. Science of the Total Environment, 559, 151–165. https://doi.org/10.1016/j.scitotenv.2016.03.129

Pechenizkiy, M., Puuronen, S., & Tsymbal, A. (2008). Does relevance matter to data mining research? In Studies in Computational Intelligence (Vol. 118, pp. 251–275). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-78488-3_15

Pitchayadejanant, K., & Nakpathom, P. (2017). Data mining approach for arranging and clustering the agro-tourism activities in orchard. Kasetsart Journal of Social Sciences. https://doi.org/10.1016/j.kjss.2017.07.004

Pokorná, L., Kučerová, M., & Huth, R. (2018). Annual cycle of temperature trends in Europe, 1961–2000. Global and Planetary Change, 170(August), 146–162. https://doi.org/10.1016/j.gloplacha.2018.08.015

Reduction, D., Comparative, M., Arroyo-hernández, J., & Rica, C. (2016). Métodos de reducción de dimensionalidad : Análisis comparativo de los métodos APC , ACPP y ACPK. Uniciencia, 30(1), 115–122. https://doi.org/http://dx.doi.org/10.15359/ru.30-1.7

Ruzmaikin, A., & Guillaume, A. (2014). Clustering of atmospheric data by the deterministic annealing. Journal of Atmospheric and Solar-Terrestrial Physics, 120, 121–131. https://doi.org/10.1016/j.jastp.2014.09.009

Schäfer, E., Heiskanen, J., Heikinheimo, V., & Pellikka, P. (2016). Mapping tree species diversity of a tropical montane forest by unsupervised clustering of airborne imaging spectroscopy data. Ecological Indicators, 64, 49–58. https://doi.org/10.1016/j.ecolind.2015.12.026

Schneider, T., Hampel, H., Mosquera, P. V., Tylmann, W., & Grosjean, M. (2018). Paleo-ENSO revisited: Ecuadorian Lake Pallcacocha does not reveal a conclusive El Niño signal. Global and Planetary Change, 168(February), 54–66. https://doi.org/10.1016/j.gloplacha.2018.06.004

Shaukat, S. S., Rao, T. A., & Khan, M. A. (2016). Impact of sample size on principal component analysis ordination of an environmental data set: Effects on Eigenstructure. Ekologia Bratislava, 35(2), 173–190. https://doi.org/10.1515/eko-2016-0014

Sheridan, S. C., & Lee, C. C. (2011). The self-organizing map in synoptic climatological research. Progress in Physical Geography, 35(1), 109–119. https://doi.org/10.1177/0309133310397582

Sivaramakrishnan, T. R., & Meganathan, S. (2012). Point rainfall prediction using data mining technique. Research Journal of Applied Sciences, Engineering and Technology, 4(13), 1899–1902. https://doi.org/10.5120/14467-2750

Soubdhan, T., Abadi, M., & Emilion, R. (2014). Time dependent classification of solar radiation sequences using best information criterion. Energy Procedia, 57, 1309–1316. https://doi.org/10.1016/j.egypro.2014.10.121

Wang, X., Huang, G., Lin, Q., Nie, X., Cheng, G., Fan, Y., … Suo, M. (2013). A stepwise cluster analysis approach for downscaled climate projection - A Canadian case study. Environmental Modelling and Software, 49, 141–151.



https://doi.org/10.1016/j.envsoft.2013.08.006 Wrzesień, M., Treder, W., Klamkowski, K., & Rudnicki, W. R. (2018). Prediction of the

apple scab using machine learning and simple weather stations. Computers and Electronics in Agriculture, (June 2017). https://doi.org/10.1016/j.compag.2018.09.026

Yadav, A. K., Malik, H., & Chandel, S. S. (2015). Application of rapid miner in ANN based prediction of solar radiation for assessment of solar energy resource potential of 76 sites in Northwestern India. Renewable and Sustainable Energy Reviews, 52, 1093–1106. https://doi.org/10.1016/j.rser.2015.07.156

Yahyaoui, H., & Own, H. S. (2018). Unsupervised clustering of service performance behaviors. Information Sciences, 422, 558–571. https://doi.org/10.1016/j.ins.2017.08.065

Zheng, Y., Han, J., Huang, Y., Fassnacht, S. R., Xie, S., Lv, E., & Chen, M. (2017). Vegetation response to climate conditions based on NDVI simulations using stepwise cluster analysis for the Three-River Headwaters region of China. Ecological Indicators, (September 2016), 0–1. https://doi.org/10.1016/j.ecolind.2017.06.040

Zheng, Y., Han, J., Huang, Y., Fassnacht, S. R., Xie, S., Lv, E., … Sharma, A. (2016). Assessment of global aridity change. Ecological Indicators, 75(September 2016), 151–165. https://doi.org/10.1016/j.scitotenv.2015.11.063

Zuo, X., Hua, H., Dong, Z., & Hao, C. (2017). Environmental Performance Index at the Provincial Level for China 2006–2011. Ecological Indicators, 75, 48–56. https://doi.org/10.1016/j.ecolind.2016.12.016

Evaluación de algoritmos de aprendizaje de máquina no ...

Documents

Transcript of Evaluación de algoritmos de aprendizaje de máquina no ...