Evaluación de algoritmos de aprendizaje de máquina no ...
Transcript of Evaluación de algoritmos de aprendizaje de máquina no ...
Evaluación de algoritmos de aprendizaje de máquina no
supervisados sobre datos climáticos
Juan Sebastián Ramírez Gómez
Universidad Nacional de Colombia
Facultad de Administración, Departamento de Informática y Computación
Manizales, Colombia
2019
Evaluación de algoritmos de aprendizaje de máquina no
supervisados sobre datos climáticos
Evaluation of unsupervised Machine Learning algorithms with climate data
Juan Sebastián Ramírez Gómez
Tesis de investigación presentada como requisito parcial para optar al título de:
Magister en Administración de Sistemas Informáticos
Director (a):
Ph.D. Néstor Darío Duque Méndez
Línea de Investigación:
Minería de datos
Grupo de Investigación:
Grupo de Ambientes Inteligentes Adaptativos - GAIA
Universidad Nacional de Colombia
Facultad de Administración, Departamento de Informática y Computación
Manizales, Colombia
2019
A mi madre, mi luz de vida.
A mi padre, mi apoyo constante.
A mi hermano, mi ejemplo y Ph.D favorito.
A mi esposa, mi incondicional amor.
"And however difficult life may seem, there is always something you can do and succeed at."
Stephen Hawking.
Agradecimientos
Agradezco inmensamente al profesor Néstor Darío Duque Méndez por la tutoría que me
brindó para esta tesis, aportándome absoluto compromiso, rigurosidad y compañerismo en
este largo viaje estudiantil que tuve. Gracias a él pude llevar a cabo este trabajo y a cumplir
mi mayor propósito: Aprender a hacer investigación y a dar los primeros pasos en la
ciencia. Muchas gracias profesor.
Quiero agradecer a la Universidad Nacional de Colombia por acogerme una vez más en
su institución y permitirme formar allí por tercera vez. Todo lo que soy como profesional se
lo debo a esta grandiosa universidad. También agradezco al Grupo de investigación de
Ambientes Inteligentes Adaptativos GAIA por permitirme hacer parte de él y poder
desarrollar mi tesis con todas las herramientas, espacios, recursos y conocimiento que me
brindó a lo largo de este tiempo, al igual que el increíble compañerismo de sus integrantes.
Finalmente, agradezco eternamente a mi familia y esposa, quienes siempre me apoyaron
hasta el último día, me motivaron en los momentos más difíciles y me alimentaron el alma
para no rendirme en el camino. Su persistencia, paciencia y amor me impulsan cada día a
salir adelante. Muchas gracias.
Resumen
Para el uso de datos climáticos los investigadores tienen dificultades al determinar qué
algoritmo de agrupamiento puede ser el de mejor desempeño para el procesamiento y
análisis de un dataset específico. No se cuenta con información clara que permita dar un
acercamiento de qué algoritmo de clustering emplear basados en la cantidad de instancias,
cantidad y tipos de variables y calidad del conjunto de datos (datasets con datos faltantes
y datos atípicos) para obtener un buen desempeño.
En esta investigación se presenta la evaluación de algoritmos de aprendizaje de máquina
no supervisados con K-means, K-medoids y Agrupamiento jerárquico, aplicados a tres
datasets con variables climatológicas (temperatura, precipitación, humedad relativa y
radiación solar), para tres estaciones climáticas ubicadas en el departamento de Caldas,
Colombia, a diferentes alturas sobre el nivel del mar (municipio de Villamaría, la ciudad de
Manizales y el Parque Nacional Natural Los Nevados), los cuales comprenden 430.635
instancias, 530.802 instancias y 248.297 instancias respectivamente. Se definen 5
escenarios de ejecución con 2, 3 y 5 clústeres para cada uno de los dos algoritmos
particionados y 5 escenarios de ejecución para el algoritmo jerárquico, para cada una de
las estaciones climáticas, y adicionando 3 escenarios más (uno para cada algoritmo)
empleando computación paralela, y aplicando para los diversos escenarios una variedad
de tratamientos con diferente cantidad y agrupación de variables y utilizando distancia
euclidiana como medida de distancia; Davis-Bouldin como método de evaluación de
calidad de los clústeres; aplicación de normalización con técnicas como range-
transformation y z-transformation; Definición de número de iteraciones del algoritmo y
reducción de dimensionalidad con Análisis de Componentes Principales. Además, se
evalúa el costo computacional de los algoritmos según las características establecidas
para los escenarios. Esta investigación entrega conclusiones que pueden orientar al
investigador sobre algunas decisiones en análisis de clústeres en datos meteorológicos,
como también para identificar las características más importantes a tener en cuenta al
momento de construir el escenario de mejor desempeño según las necesidades y
requerimientos particulares.
Palabras clave:
Agrupamiento, aprendizaje de máquina, climatología, K-means, K-medoids, aglomerativo.
Abstract
For the use of climate data, researchers have difficulties in determining which clustering
algorithm may be the best performer for the processing and analysis of a specific dataset.
There is no clear information that allows to give an approach about which clustering
algorithm to use based on the quantity of records, quantity and types of variables and
quality of the data set (datasets with missing data and outliers data) to get a good
performance.
In this research we present the evaluation of unsupervised machine learning algorithms
with K-means, K-medoids and Linkage-complete, applied to three datasets with
climatological variables (temperature, rainfall, relative humidity and solar radiation), for
three meteorological stations located in the department of Caldas, Colombia, at different
heights above sea level (municipality of Villamaría, the city of Manizales and Los Nevados
National Park), which include 430,635 records, 530,802 records and 248,297 records
respectively. 5 scenarios are defined for 2, 3 and 5 clusters for each of the two partitioned
algorithms and 5 scenarios for the hierarchical algorithm, for each of the meteorological
stations, and adding 3 more scenarios (one for each algorithm) using parallel computing,
and applying a different quantity and grouping of variables for the different scenarios and
using Euclidean distance as a measure of distance, Davis-Bouldin as a method of quality
evaluation of clusters, application of normalization with techniques such as range-
transformation and z -transformation, definition of number of iterations of the algorithm and
reduction of dimensionality with Principal Components Analysis. In addition, the
computational cost of the algorithms is evaluated according to the characteristics
established for the scenarios. This research provides conclusions that can guide the
researcher about some decisions in clusters analysis in meteorological data, as well as
identify the most important characteristics to take into consideration when constructing the
best performance scenario according to the particular needs and requirements.
Keywords:
Clustering, Machine Learning, Climate, K-means, K-medoids, agglomerative.
CONTENIDO
Introducción .................................................................................................................. 11
Estado del arte ............................................................................................................... 13
1. Marco teórico .......................................................................................................... 15 1.1 Minería de datos y KDD ................................................................................. 15 1.2 Aprendizaje de máquina (Machine Learning) ............................................... 17
1.2.1 Aprendizaje Supervisado ............................................................................ 17 1.2.2 Aprendizaje no Supervisado ....................................................................... 18
1.3 Clustering ....................................................................................................... 18 1.4 Técnicas de agrupamiento ............................................................................ 21
1.4.1 Agrupamiento Jerárquico ........................................................................... 22 1.4.2 Agrupamiento Particionado ........................................................................ 29
1.5 Criterios de distancia para algoritmos de clustering................................... 33 1.6 Medidas de evaluación del clúster ................................................................ 34 1.7 Normalización ................................................................................................. 36 1.8 Reducción de dimensionalidad ..................................................................... 37 1.9 Bodega de datos CDIAC ................................................................................ 37
2. Problema de investigación .................................................................................... 38
3. Objetivos de la investigación ................................................................................ 38 3.1 Objetivo general ............................................................................................. 38 3.2 Objetivos específicos .................................................................................... 39 3.3 Pregunta de investigación ............................................................................. 39
4. Metodología ............................................................................................................ 39 4.1 Características de los escenarios ................................................................. 39
4.1.1 Variables climáticas para utilizar ................................................................ 40 4.1.2 Estaciones climatológicas .......................................................................... 40
4.2 Extracción de datos ....................................................................................... 42 4.3 Criterios de los escenarios ............................................................................ 42
4.3.1 Criterios de conformación de los escenarios ............................................ 42 4.4 Establecimiento de escenarios ..................................................................... 43
4.4.1 K-means ....................................................................................................... 43 4.4.2 K-medoids .................................................................................................... 46 4.4.3 Aglomerativo con el método Linkage-complete ........................................ 48
4.5 Diseño computacional de los escenarios ..................................................... 50 4.5.1 Desarrollo computacional de los escenarios ............................................ 50 4.5.2 Desarrollo de escenarios para computación paralela ............................... 53
4.6 Características del hardware ......................................................................... 55
5. Marco experimental y resultados .......................................................................... 56 5.1 Algoritmo K-means ........................................................................................ 56 5.2 Algoritmo K-medoids ..................................................................................... 83 5.3 Algoritmo Aglomerativo con Linkage-Complete .........................................100 5.4 Computación paralela ...................................................................................109 5.5 Transformada de Fourier de Tiempo Reducido STFT sobre variables ......111
6. Discusión y validación ......................................................................................... 114
10 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
6.1 Discusión....................................................................................................... 114 6.2 Validación con un nuevo dataset................................................................. 121
7. Conclusiones y recomendaciones ..................................................................... 123 7.1 Conclusiones ................................................................................................ 123 7.2 Recomendaciones ........................................................................................ 125
Bibliografía .................................................................................................................. 127
11
Introducción
La meteorología ha sido un área de mucho interés y curiosidad no solamente para la
sociedad en general, sino también para la comunidad científica en particular en aras de
comprender el comportamiento y las condiciones climáticas que se presentan en el planeta
tierra. Las comunidades del mundo han aprovechado los fenómenos climatológicos para
programar cultivos y cosechas en determinados calendarios y obtener alta productividad
de recursos alimenticios según los tiempos de lluvias y sol; saber cuándo habrá fuertes
vientos y precipitaciones para tomar acciones preventivas en temas de desastres
naturales; como también para aprovechar los buenos escenarios climáticos en topografías
complicadas para viajar y transportar con el fin de mover turismo y economía sin mayores
riesgos.
Por lo tanto, basado en este interés de explorar la forma en que los datos se tratan en
meteorología desde las ciencias de la computación, esta investigación abarcará un estudio
de algoritmos de aprendizaje de máquina no supervisados aplicados a datos climáticos,
donde se evaluarán comportamientos de los algoritmos cuando se provee un conjunto de
datos de estaciones climáticas localizadas en diferentes regiones y alturas del
departamento de Caldas, Colombia. El Centro de Datos e Indicadores Ambientales de
Caldas (CDIAC) cuenta con una bodega de datos de más de 35 millones de registros
recopilados por más de 50 años la cual permite mostrar los valores de las variables y el
cálculo de los indicadores orientados a observar y entender fenómenos y comportamientos
a nivel climático y de calidad del aire en Manizales y Caldas. No obstante, esta bodega de
datos no se le ha aprovechado suficientemente para aprendizaje de máquina no
supervisado, buscando patrones entre los datos y situaciones, abriéndose una oportunidad
para el desarrollo de esta investigación, empleando el enfoque propuesto.
La investigación evalúa algoritmos de agrupamiento en el procesamiento de datos
climáticos buscando comportamientos en diferentes escenarios. Para llegar a ello se
deberá determinar y seleccionar los algoritmos de agrupamiento más representativos a
partir del abordaje del estado del arte, establecer diferentes escenarios de trabajo a partir
de un conjunto de datos climáticos, aplicar los algoritmos de agrupamiento seleccionados
12 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
en cada uno de los escenarios de trabajo definidos y comparar los resultados obtenidos
entre los diferentes algoritmos de agrupamiento en los escenarios de trabajo, empleando
métricas de evaluación de desempeño y rendimiento.
Este estudio emplea el uso de los tres algoritmos de agrupamiento más representativos
acorde al abordaje del estado del arte, como también se utilizará computación paralela
para la evaluación de algunos escenarios de trabajo en computación paralela. Las métricas
de evaluación de comportamientos se dan a través de valoración de desempeño
empleando índices de evaluación de clústeres y a nivel de rendimiento empleando análisis
de tiempo de procesamiento, consumo de memoria RAM, CPU y disco duro. Por otro lado,
el conjunto de datos climáticos a utilizar lo brinda el Instituto de Estudios Ambientales
(IDEA) de la ciudad de Manizales, cuya bodega de datos es administrada y gestionada por
el grupo de investigación de Ambientes Inteligentes Adaptativos (GAIA) de la Universidad
Nacional de Colombia, del cual el maestrante hace parte.
Como limitantes dentro de la investigación, no se tuvo en cuenta bases de datos ni
registros externos a la bodega de información del Centro de Datos e Indicadores
Ambientales de Caldas (CDIAC) que pudieran contribuir a ampliar y complementar un
desarrollo investigativo de mayores variables para descubrir información y patrones a nivel
más específico dentro de Manizales y Caldas en términos climatológicos y meteorológicos.
Esta investigación, dentro de sus resultados esperados, tiene como fin evaluar y conocer
los comportamientos de los algoritmos de agrupamiento bajo diferentes escenarios de
trabajo específicos por medio del procesamiento de datos climáticos, y ofrecer
conocimiento de interés a los investigadores que trabajan en los campos de la climatología
y machine learning.
Dentro de la metodología se plantearán cuatro etapas de trabajo dentro de la investigación
basadas en los objetivos de la investigación. La primera etapa contempla en determinar y
seleccionar los algoritmos de agrupamiento más representativos a partir del abordaje del
estado del arte llevándose a cabo una serie de actividades como revisión bibliográfica,
extracción de los algoritmos de agrupamiento y posterior selección de tres algoritmos. En
13
la segunda etapa se contempla establecer diferentes escenarios de trabajo a partir de un
conjunto de datos climáticos por medio de actividades como obtención del conjunto de
datos y preparación de los datos climáticos, y creación de dieciocho escenarios de trabajo
para cada uno de los tres algoritmos de agrupamiento seleccionados. En la tercera etapa
se contempla aplicar los algoritmos de agrupamiento seleccionados en cada uno de los
escenarios de trabajo definidos a través de actividades como la construcción de entornos
para procesar los datos y aplicación de los dos algoritmos en cada uno de los seis
escenarios de trabajo definidos para los tres valores de K. Y finalmente, en la cuarta etapa
se contempla comparar los resultados obtenidos entre los diferentes algoritmos de
agrupamiento en los escenarios de trabajo, empleando métricas de evaluación de
desempeño y rendimiento, por medio de actividades como la obtención de los dieciocho
resultados generados por cada algoritmo, agrupación de tres resultados por cada valor de
K en cada algoritmo de agrupamiento, comparación de resultados para cada algoritmo,
extracción de resultados y posterior definición de conclusiones.
El estudio va a permitir que los algoritmos de clustering se implementen en la bodega de
datos del CDIAC y realizar análisis descriptivos para encontrar patrones y similitudes de
agrupación de datos, y las evaluaciones de desempeño. También permitirá aportarle a
futuros proyectos e investigaciones una evaluación entre algoritmos de agrupamiento para
conocer sus comportamientos, como también un horizonte más claro sobre qué algoritmos
de agrupamiento tienen mejor comportamiento en determinados escenarios de trabajo
para el procesamiento de datos climáticos, contribuyendo así a nuevo conocimiento en las
ciencias de la computación y las ciencias ambientales.
Estado del arte
El clima y los escenarios atmosféricos han sido abordados por diversidad de investigadores
para adquirir conocimiento de interés. Se ha empleado información ambiental, climática y
meteorológica en (Arroyo, Herrero, Tricio, & Corchado, 2017; Asadi Zarch, Sivakumar, &
Sharma, 2015; Carro-Calvo, Ordóñez, García-Herrera, & Schnell, 2017; Carvalho, Melo-
Gonçalves, Teixeira, & Rocha, 2016; J. Chen, Song, & Xu, 2015; L. Chen & Jia, 2017;
Falquina & Gallardo, 2017; Kalteh, Hjorth, & Berndtsson, 2008; Sheridan & Lee, 2011;
14 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Wang et al., 2013; Zheng et al., 2017; Zuo, Hua, Dong, & Hao, 2017) y contaminantes
atmosféricos en (Cashman et al., 2016; Gallo, Faccilongo, & La Sala, 2017; Jiang, Ye, Xie,
& Tang, 2017; Meghea, Mihai, Lacatusu, & Iosub, 2012), buscando determinar
comportamientos y patrones dentro del área estudiada, ya sea para predecir situaciones,
relacionar causas y efectos, comprender la formación e impacto de los desastres naturales
y efecto invernadero dentro de una región, al igual que realizar mediciones de la zona para
finalmente proveer mejoras, conclusiones y consideraciones en pro del medio ambiente.
Actualmente, en el análisis de datos climáticos se usan muchos algoritmos para procesar
registros, como lo muestra la tabla 1 que recopila más de 30 estudios que emplearon
algoritmos de clustering para datos climáticos, empleando diversas fuentes de información
y registros, líneas de tiempo y objetivos diferentes.
Tabla 1. Revisión bibliográfica para algoritmos de agrupamiento con datos climáticos.
Clustering Algoritmo empleado Método empleado Datos utilizados
Línea del
tiempo de los
datos
Autores Año
Agrupamiento Jerárquico Aglomerativo Ward. Temperatura y precipitación. 19 años. Falquina et al. 2017
Agrupamiento Jerárquico Aglomerativo Linkage-Complete. Precipitación y evapotranspiración. 49 años. Asadi Zarch et al. 2015
Agrupamiento Jerárquico Aglomerativo No definido. Precipitación. 2 años. Clay et al. 2019
Agrupamiento Jerárquico Aglomerativo Ward. Temperatura, humedad y velocidad del viento. 13 años. Abdul et al. 2018
Agrupamiento Jerárquico Aglomerativo No definido. Temperatura, radiación solar y precipitación. 20 años. Conradt et al. 2016
Agrupamiento Jerárquico AglomerativoLinkage-Average y
Linkage-Complete.
Temperatura, velocidad del viento, radiación solar
y presión atmosférica.6 años. Arroyo et al. 2017
Particionados K-means. N/A Precipitación y temperatura Max y Min. 20 años. Carvalho et al. 2016
Particionados K-means. N/A Temperatura. 25 años. Farah et al. 2019
Particionados K-means. N/A Radiación solar. 1 año. Soubdhan et al. 2014
Particionados K-means. N/ATemperatura, velocidad del viento y humedad
relativa.4 años. Khedairia et al. 2012
Particionados K-means. N/A Precipitación. 14 años. Schneider et al. 2018
Particionados K-means. N/A Temperatura, velocidad y dirección del viento,
precipitación, humedad relativa y radiación solar.
6 años. Franceschi et al. 2018
Particionados K-means. N/A Temperatura y radiación solar. 3 años. Yadav et al. 2015
Particionados K-means. N/A Velocidad del viento. 1 año. Hao et al. 2019
Particionados K-means. N/A Radiación solar. No definido. Han et al. 2019
Particionados K-means. N/A Radiación solar. 2 años. André et al. 2019
Particionados K-means. N/ATemperatura, radiación solar, humedad relativa y
velocidad del viento.2 años. Lin et al. 2018
Particionados K-means. N/A Temperatura y precipitación. 19 años. Falquina et al. 2017
Particionados K-means. N/AImágenes satelitales de observaciones de
precipitaciones.2 años. Mokdad et al. 2017
Particionados K-means. N/A Radiación solar. No definido. Li et al. 2017
Particionados K-means. N/ARadiación solar, temperatura, velocidad y dirección
del viento.2 años. Ghayekhloo et al. 2015
Particionados K-medoids. N/A Temperatura máxima. 63 años. Bador et al. 2015
Particionados K-medoids. N/A Velocidad del viento. 1 año. Hao et al. 2019
Particionados K-medoids. N/A Temperatura, radiación solar y precipitación. 20 años. Conradt et al. 2016
Particionados K-medoids. N/A Temperatura máxima y mínima. 40 años. Pokorná et al. 2018
Particionados K-medoids. N/ATemperatura, velocidad del viento, radiación solar
y presión atmosférica.6 años. Arroyo et al. 2017
Otros Stepwise Cluster Analysis (SCA). N/A Climáticos (temperatura y precipitación). 13 años. Zheng et al. 2017
Otros Stepwise Cluster Analysis (SCA). N/A Climáticos (temperatura y precipitación). 20 años Wang et al. 2013
Otros
STPSS (Space-time Permutation Scan
Statistics). N/A
Forestales y climáticos (temperatura, velocidad del
viento y humedad relativa).30 años. Parente et al. 2016
Otros
SODCC (Second Order Data Coupled
Clustering). N/ATemperatura del aire. 70 años. Chidean et al. 2015
Otros
SODCC (Second Order Data Coupled
Clustering). N/AVelocidad del viento. 35 años. Chidean et al. 2018
15
K-means, K-medoids y Agrupamiento Jerárquico fueron los más empleados por los
autores. No obstante, no se cuenta con orientaciones claras sobre cuál algoritmo y qué
parámetros específicamente aplicar para obtener los mejores resultados con los datos
disponibles.
Autores como Arroyo et al. (2017) abordaron diversos algoritmos de clustering como K-
means y aglomerativo con varios métodos a los cuales les aplicaron datos climáticos con
una serie de métricas para encontrar desempeños, en especial el desempeño
computacional. Khedairia & Khadir (2012) utilizaron herramientas de clustering para ver el
comportamiento de los datos según la cantidad de agrupamientos establecidos.
Franceschi, Cobo, & Figueredo (2018) recomendaron para datos ambientales específicos
algunos modelos de agrupamiento buscando las mejores proyecciones de material
particulado en la región estudiada. Pokorná, Kučerová, & Huth (2018) demostraron con
clustering las técnicas adecuadas para ver las tendencias anuales de temperatura. Mokdad
& Haddad (2017) obtuvieron con algoritmos particionados propuestos las mejores
estimaciones de precipitación en las regiones estudiadas. Conradt, Gornott, & Wechsung
(2016) emplearon clustering para mejorar la reducción de ruido en análisis de parámetros
de radiación solar y temperatura. Otros autores como Ghayekhloo, Ghofrani, Menhaj, &
Azimi (2015) emplearon comparativas entre algoritmos no supervisados utilizando datos
climáticos para encontrar rendimientos superiores en los mismos.
1. Marco teórico
A continuación, se relacionan y precisan algunos conceptos de interés para esta Tesis.
1.1 Minería de datos y KDD
La minería de datos es una prometedora e interdisciplinaria área de estudio compartida
por varios campos entre ellos los sistemas de bases de datos, aprendizaje de máquina,
sistemas de información inteligentes, estadística, almacenes de datos y adquisición de
conocimiento en sistemas expertos (Deogun & Raghavan, 1999). Los algoritmos de
minería de datos son imprescindibles para el descubrimiento de conocimiento (Bramer,
2007). De hecho, la minería de datos y el descubrimiento de conocimiento son
herramientas inteligentes que ayudan a acumular y procesar datos para luego hacer uso
de ellos (Pechenizkiy, Puuronen, & Tsymbal, 2008). No sorprende que la minería de datos,
como un tema realmente interdisciplinario, se pueda definir de muchas maneras diferentes
(J. Han, Kamber, & Pei, 2012). Sin embargo, la minería de datos es un término vivido que
16 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
caracteriza el proceso que encuentra un pequeño conjunto de piedras preciosas a partir
de una gran cantidad de materia prima. Además, muchos otros términos tienen un
significado similar a la minería de datos, como, por ejemplo, minería de conocimiento a
partir de datos, extracción de conocimiento, análisis de datos o patrones, arqueología de
datos y dragado de datos.
Por su parte, el descubrimiento de conocimiento en bases de datos (Knowledge Discovery
in Databases or KDD), se ha definido como la extracción no trivial de información implícita,
previamente desconocida y potencialmente útil de los datos, constituyendo un proceso del
cual la minería de datos forma parte (Bramer, 2007). Este concepto (Deogun & Raghavan,
1999), también implica un conjunto de procesos de la minería de datos usados para
extraer y verificar patrones, que, incluyen limpieza de los datos, transformación de
presentaciones, algoritmos, selección de parámetros y evaluación para posterior
interpretación (Pechenizkiy et al., 2008).
Muchas personas tratan la minería de datos como un sinónimo del descubrimiento de
conocimiento, mientras que otros ven la minería de datos como simplemente un paso
esencial en el procesamiento de descubrimiento de conocimiento. Este descubrimiento de
conocimiento se define como una secuencia iterativa dada por los siguientes pasos (J. Han
et al., 2012):
1. Limpieza de datos: Remover ruido y datos inconsistentes.
2. Integración de datos: Donde múltiples orígenes de datos puede ser combinados.
3. Selección de datos: Donde los datos relevantes a la tarea de análisis son recuperados
de la base de datos.
4. Transformación de datos: Donde los datos son transformados y consolidados en
formas apropiadas para la minería al llevar a cabo operaciones de resumen o agregación.
5. Minería de datos: Un proceso esencial donde métodos inteligentes son aplicados a
extraer patrones de datos.
6. Evaluación de patrones: Identificar los verdaderos patrones de interés representando
conocimiento basado en medidas de interés.
7. Presentación del conocimiento: Donde las técnicas de representación de
visualización y conocimiento son usadas para presentar conocimiento a los usuarios.
Diversos investigadores se han referido al procesamiento de datos desde diversas
perspectivas de estudio e investigación, como por ejemplo: Lokers, Knapen, Janssen, van
Randen, & Jansen (2016) dicen que el conocimiento se deriva principalmente de los datos,
pues estos son la materia prima para producir información a través de la adición de
significado. Otros autores como (Cashman et al., 2016) denominan el descubrimiento de
17
conocimiento en bases de datos como el estudio de recolectar, armonizar, procesar y
analizar datos para obtener información útil.
1.2 Aprendizaje de máquina (Machine Learning)
Abordando desde el contexto de los investigadores, el aprendizaje de máquina es una
disciplina científica del ámbito de la inteligencia artificial que tiene el potencial de resolver
el problema de la marea de datos que inunda organizaciones, gobiernos e individuos
(Bramer, 2007). El término se refiere a la detección automatizada de patrones significativos
en los datos (Ben-David & Shalev-Shwartz, 2014; Kanevski, Pozdnukhov, & Timonin,
2008). En las últimas décadas se ha vuelto parte de la tecnología como motores de
búsqueda, para traer los mejores resultados, software anti-spam para filtrar mensajes y
asegurar transacciones de tarjetas de crédito ante posibles fraudes, al igual que en
cámaras digitales para detectar rostros y aplicaciones móviles para reconocer comandos
de voz. También se ha vuelto parte de la medicina, bioinformática, astronomía, ciencias de
la vida, biología y agricultura (Wrzesień, Treder, Klamkowski, & Rudnicki, 2018). El
aprendizaje de máquina, también conocido por sus siglas ML, “deja que los datos sugieran
un modelo”, como alternativa a la estadística que “ajusta un modelo a los datos”
(Pechenizkiy et al., 2008). Gran parte del arte del aprendizaje de máquina es reducir una
gama de problemas bastante dispares a un conjunto de prototipos bastante estrechos
(Alpaydın, 2014). El aprendizaje de máquina, como otra definición, es el estudio de los
algoritmos computacionales que mejoran automáticamente a través de la experiencia.
Dentro del aprendizaje de máquina existen dos tipos, según los datos disponibles y el
interés por el resultado, según lo describen autores como Ben-David & Shalev-Shwartz
(2014), Bramer (2007) y Wrzesień et al., (2018), los cuales son: aprendizaje supervisado
y aprendizaje no supervisado.
1.2.1 Aprendizaje Supervisado
Para este primer tipo de aprendizaje de máquina, en los datos disponibles hay un atributo
designado especialmente (la clase) y el objetivo es utilizar los datos dados para predecir
el valor de ese atributo para las instancias que aún no se han visto. Los datos de este tipo
se llaman etiquetados, y la minería de datos usando datos etiquetados se conoce como
aprendizaje supervisado (Aggarwal & Reddy, 2013; Bramer, 2007), que consiste en
variables descriptoras y una variable especial que describe la propiedad global del sistema
que es interesante para el investigador. Esta variable seleccionada es llamada la variable
de decisión y es aquí donde el aprendizaje de máquina se desarrolla para predecir esa
variable de decisión en función de los descriptores (Wrzesień et al., 2018), utilizando un
conjunto de ejemplos para los que se conocen tanto descriptores como respuestas.
Generalmente la variable de decisión puede ser numérica o categórica. Simplemente se
refiere a una característica que es capaz de distinguir diferentes clases. Dentro del
aprendizaje supervisado, la estabilidad de los algoritmos ha ganado una atención cada vez
mayor en los últimos años. Esto se define como la sensibilidad hacia la perturbación de los
18 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
datos. Esto quiere decir que con una pequeña cantidad de perturbación introducida en los
datos no se esperan cambios drásticos.
1.2.2 Aprendizaje no Supervisado
Para este segundo tipo de aprendizaje, el objetivo es extraer la mayor cantidad de
información que se pueda de los datos disponibles (Bramer, 2007). Aquí, no hay distinción
entre los datos de entrenamiento y prueba. Se procesa los datos de entrada con el objetivo
de llegar a algún resumen o versión comprimida de esa información. Agrupar un conjunto
de datos en subconjuntos de objetos similares es un ejemplo típico de dicha tarea (Ben-
David & Shalev-Shwartz, 2014). En ausencia de información específica etiquetada (Franco
& Steiner, 2018), el clustering o agrupamiento puede considerarse un modelo conciso para
este tipo de datos. En este caso, los datos sin etiqueta presentan otro desafío en la
selección de características, tales como la definición de la relevancia en el sistema. Sin
embargo, es posible creer que la selección de subconjuntos de características puede
ayudar a la mejora del aprendizaje no supervisado (Aggarwal & Reddy, 2013), en donde
uno de los métodos de aprendizaje de máquina no supervisado más utilizados es el
agrupamiento de datos o cluster analysis.
Finalmente, este tipo de aprendizaje se refiere al análisis de datos donde no se define
ninguna variable especial de decisión(Acciani, Chiarantoni, Fornarelli, & Vergura, 2003).
Por ende, el objetivo del análisis es encontrar la estructura de los datos mediante el
agrupamiento o la identificación de variables ocultas que puedan explicar los patrones
observados en un conjunto de datos (Wrzesień et al., 2018).
1.3 Clustering
La definición de Clustering ha sido dada de diversas maneras por una gran variedad de
investigadores que trabajan en el campo de la minería de datos y aprendizaje de máquina,
en donde se resaltan sus similitudes y puntos de encuentro entre sí, por lo que se tienen
conceptualizaciones como: Es una técnica de aprendizaje de máquina no supervisado
cuyo objetivo es descomponer una enorme cantidad de elementos dados en
agrupamientos cuyos datos tienen similitudes entre sí (Asadi Zarch et al., 2015). Clustering
puede ser definido como una clasificación de aprendizaje no supervisada de patrones en
grupos (Hao et al., 2019). Las técnicas de clustering o agrupamiento dividen un conjunto
de datos en grupos de objetos similares según las medidas de similitud (Arroyo et al., 2017;
Bramer, 2007). Así mismo, clustering es definido como el procedimiento de organizar una
gran variedad de objetos que tienen miembros similares, en donde el clúster es una
colección de objetos que son similares entre sí y al mismo tiempo son diferentes con los
de otros clústeres (Mayer, Winkler, & Fry, 2014). También, es definida como una técnica
que permite a los datos ser agrupados en clústeres cuyos objetos son similares, y
diferentes de otros grupos (Franceschi et al., 2018).
19
Otra definición la aportan los autores Nguyen et al., 2015, quienes determinan que el
clustering es un método no supervisado de agrupación de datos usando una medida
específica de similitud, donde los algoritmos de agrupamiento intentan organizar los datos
no etiquetados en grupos cuyos elementos sean similares entre sí, definiendo estos grupos
como clústeres los cuales son diferentes unos a los otros. Similares aportes se encuentran
en otras definiciones como, por ejemplo, es la tarea de agrupar un conjunto de objetos de
modo que objetos similares terminen en el mismo grupo y objetos diferentes se separen
en diferentes grupos. (Ben-David & Shalev-Shwartz, 2014).
Los problemas de agrupamiento son quizás uno de los campos más estudiados por los
investigadores dentro de la minería de datos y el aprendizaje de máquina (Aggarwal &
Reddy, 2013), ya que siempre ha existido el desafío de agrupar y analizar información ya
sea de imágenes, textos, redes sociales, datos biológicos y médicos, entre muchos otros,
con el fin de interpretar sucesos y descubrir conocimiento que a simple vista es imposible
encontrar. No obstante, estos problemas se pueden resolver utilizando una amplia
variedad de métodos.
El clustering es muy útil en muchas tareas como la segmentación de imágenes,
recuperación de información, análisis de documentos, reconocimiento de patrones, análisis
de redes, entre otras, y puede ser utilizado ya sea como una tarea exploratoria o un paso
de preprocesamiento. Incluso si el objetivo es describir y revelar los patrones escondidos
en los datos, el clustering se convierte en una tarea exploratoria autónoma por sí misma
(Aggarwal & Reddy, 2013).
Las técnicas de clustering pueden ser divididas, en términos generales, en dos categorías:
particionados y jerárquicos (Arroyo et al., 2017). Los algoritmos de agrupamiento
particional dividen un conjunto de datos en un número de clústeres específico, buscando
minimizar ciertos criterios. Por el contrario, los algoritmos de agrupamiento aglomerantes
empiezan con cada patrón en un clúster distinto, y sucesivamente los clústeres se unen y
se fusionan hasta que se cumple un criterio de detención. Este asunto se abordará de
forma más detallada en la sección 1.4 “Técnicas de agrupamiento”.
La figura 1 muestra como un conjunto de datos se puede agrupar de diferentes maneras
significativas, dada diferentes nociones implícitas de distancia (o similitud) entre objetos,
por ejemplo, agrupamiento de grabaciones de voz por el acento del hablante versus
agrupamiento del contenido, clustering de películas por temas de película versus
agrupamiento por el sentimiento de revisión, agrupar cuadros por tema versus agruparlos
por estilos, y así sucesivamente.
20 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
FIGURA 1. Agrupamiento de datos en dos posibles clústeres. (Ben-David & Shalev-
Shwartz, 2014)
La figura 2 muestra cómo se visualiza el agrupamiento de datos a partir de patrones o
similitudes. En (a) los datos de los cuatro clústeres son diferentes uno al otro ya sea en
tamaño o distancia. En (b) un grupo de datos encuentra similitudes con otro grupo de datos
dentro de una escala cuyos valores, por ejemplo, de tamaño (f2), son diferentes. En (c) un
grupo de datos encuentra similitudes con otro grupo de datos dentro de una escala cuyos
valores, por ejemplo, de distancia (f1), son diferentes.
FIGURA 2. Agrupamiento de patrones de datos (Aggarwal & Reddy, 2013)
La agrupación de datos es la clasificación no supervisada de muestras en grupos. En otras
palabras, tiene como objetivo agrupar muestras similares en un grupo llamado clúster.
Encontrar agrupamientos en un espacio de alta dimensión es computacionalmente costoso
y puede degradar el rendimiento del aprendizaje, por lo que se exige utilizar la selección
de características para la agrupación con el fin de aliviar el efecto de la alta
dimensionalidad. Como una tarea de aprendizaje no supervisada, es necesario encontrar
21
una forma de validar la bondad de las particiones después de la agrupación, de lo contrario,
sería difícil hacer uso de diferentes resultados de agrupamiento.
1.4 Técnicas de agrupamiento
Existen muchas técnicas de agrupamiento para aplicar sobre diversidad de conjuntos de
datos. A continuación, se mencionan algunas de las principales técnicas de clustering
(Aggarwal & Reddy, 2013).
I. Agrupamiento basado en Densidad.
Consiste en tratar con grupos de datos que no tienen formas esféricas que se
producen por los datos espaciales, es decir, datos con referencia a un espacio
concreto de dos o tres dimensiones correspondientes. Aquí se encuentran
algoritmos como:
DBSCAN: Estima la densidad contando el número de puntos en un vecindario de
radio fijo y considera dos puntos como conectados si se encuentran dentro del
vecindario del otro.
DENCLUE: Adopta otro enfoque para generalizar la noción de grupos basados en
la densidad. La densidad en algún punto se estima mediante la suma de las
influencias de todos los puntos de datos.
OPTICS: Genera un nuevo ordenamiento de agrupación de los puntos de la base
de datos en vez de crear una agrupación explícita.
II. Agrupamiento basado en Grillas.
Es eficiente para atraer grandes conjuntos de datos multidimensionales. Estos
algoritmos dividen el espacio de datos en un número finito de celdas para formar
una estructura de cuadrícula y luego forman grupos de celdas en la estructura de
cuadrícula. Los grupos corresponden a regiones que son más densas en puntos de
datos que sus alrededores. Aquí se encuentran algoritmos como:
AMR: Agrupación de refinamiento de malla adaptable. Aplica cuadrículas de mayor
resolución a las regiones más densas localizadas, ya que divide el espacio de
características en múltiples resoluciones.
NSGC: Nuevo algoritmo de agrupación de cuadrícula cambiante. El algoritmo
divide cada dimensión del espacio en un número igual de intervalos.
CLIQUE: Se encarga de encontrar automáticamente la agrupación del subespacio
de datos numéricos de alta dimensión. Ubica grupos integrados en subespacios de
22 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
datos de alta dimensión sin mucha intervención del usuario para discernir
subgrupos importantes.
III. Agrupamiento particionado.
Tiene como objetivo descubrir las agrupaciones presentes en los datos mediante
la optimización de una función específica y la mejora iterativa de la calidad de las
particiones. Aquí se encuentra el algoritmo K-means, que divide las instancias en
grupos acorde a patrones, donde cada uno es diferente al otro. Para este algoritmo
se encuentran diversas variaciones, como, por ejemplo: K-medoids, K-medians, K-
modes, X-means, entre otros.
IV. Agrupamiento jerárquico.
Abordan el problema de la agrupación mediante el desarrollo de una estructura de
datos basada en un árbol binario llamada dendrograma. Aquí se encuentran dos
tipos de agrupamientos: Aglomerativos y divisivos.
No obstante, para mantener el enfoque del desarrollo de esta investigación y con base en
la revisión de trabajos previos, se optará para el análisis algoritmos de agrupamiento
jerárquico y de agrupamiento particionado.
1.4.1 Agrupamiento Jerárquico
Dentro de las técnicas de agrupamiento que provee el aprendizaje de máquina no
supervisado, el agrupamiento jerárquico es uno de los más empleados por los autores en
el análisis de datos climatológicos (Abdul Halim et al., 2018; Arroyo et al., 2017; Asadi
Zarch et al., 2015; Clay & King, 2019; Conradt et al., 2016; Falquina & Gallardo, 2017), no
solamente por ofrecerles buenos resultados sino también por su simplicidad, con el fin de
obtener niveles o jerarquías de los nodos, ya sea que se fusionen o se separen, para
permitirle a los investigadores analizar los datos desde cualquier nivel.
Los algoritmos de agrupamiento jerárquico fueron desarrollados para superar las
desventajas de los algoritmos de agrupamiento basados en partición. Los algoritmos
particionados generalmente requieren de un valor o parámetros K previo (número de
clústeres) para obtener una solución de agrupamiento, mientras que los algoritmos
jerárquicos pueden ser detenidos y revisados en cualquier nivel de agrupamiento deseado.
Los algoritmos de agrupamiento jerárquicos fueron desarrollados para ser mecanismos
sencillos para agrupar los objetos de datos (Aggarwal & Reddy, 2013).
El proceso de agrupamiento jerárquico se visualiza a través de un dendrograma que es un
árbol en inversa en el cual las agrupaciones son las ramas que se unen en diferentes
alturas que indican las distancias entre las subcategorías (Conradt et al., 2016). Cortar el
23
árbol en cualquier nivel de altura produce un agrupamiento intermedio y elegir una altura
de corte determina el número de grupos.
A diferencia de los algoritmos de agrupamiento particionados, los algoritmos jerárquicos
son algoritmos determinísticos, lo que significa que cuando se aplica en el mismo conjunto
de datos, proporciona los mismos resultados de agrupación en cada ejecución (Aggarwal
& Reddy, 2013).Los algoritmos de agrupamiento jerárquico se dividen en dos categorías:
Aglomerativos y divisivos.
Aglomerativos
En esta primera categoría de algoritmos de agrupamiento jerárquicos, los algoritmos de
agrupamiento aglomerativos empiezan con cada elemento en un único clúster, llamado
también como singleton, y posteriormente los clústeres, de forma sucesiva, se van
fusionando hasta que se cumple un criterio de pausa o detención. Esta fusión de cada par
de clústeres continúa hasta que finalmente todos se hayan fusionado en un único clúster
que contendrá todos los datos, y así mismo toda la jerarquía formada (Arroyo et al.,
2017;Asadi Zarch et al., 2015). La formación de esta jerarquía comienza por tomar los
clústeres que se ubican desde el nivel inferior y durante el proceso de fusión de cada par
de clústeres se van creando niveles ascendentes de agrupamientos (Aggarwal & Reddy,
2013) cuya agrupación jerárquica es denominada agrupamiento jerárquico aglomerativo
(HAC), donde los algoritmos en esta categoría generan un árbol de clústeres o
dendrograma mediante el uso de técnicas heurísticas (Arroyo et al., 2017). Un
dendrograma contiene gran cantidad de líneas que forman una letra U inversa que
conectan puntos de datos dentro de un árbol jerárquico. La altura de cada U significa la
distancia entre los dos puntos de datos conectados. Por lo tanto, los algoritmos que
emplean la fusión para generar el árbol de clústeres se denominan aglomerativos.
Los pasos básicos que intervienen en un algoritmo de agrupamiento jerárquico
aglomerativo son los siguientes:
- Primero, al emplearse una medida de distancia, se construye una matriz de
disimilitud y todos los puntos de datos se representan de forma visual en la parte
inferior del dendrograma.
- Segundo, los conjuntos de datos más cercanos se fusionan en cada nivel y luego
la matriz de diferencias se va actualizando.
- Finalmente, este proceso de fusión se lleva a cabo hasta obtener el clúster final el
cual contendrá todos los objetos de datos en un único grupo. Este último
representaría el vértice del dendrograma y determinaría la finalización de todo el
proceso de fusión (Aggarwal & Reddy, 2013).
24 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Para comprender un poco más la jerarquía de clústeres, también llamada dendrograma,
se aporta el siguiente ejemplo:
Dentro del árbol, la raíz representa todos los conjuntos de datos que se agruparán y
conforman la base de la jerarquía (nivel 0). En cada nivel, los nodos son los subconjuntos
de todo el conjunto de datos y corresponden a los conglomerados. Las entradas en cada
uno de estos clústeres se pueden determinar recorriendo el árbol desde el nodo
seleccionado hasta los puntos de datos del nivel inferior (nivel 0). Cada nivel en la jerarquía
corresponde a un conjunto de clústeres. La base de la jerarquía consiste en todos los
puntos únicos que corresponden a las hojas del árbol (Aggarwal & Reddy, 2013). Con base
a lo anterior, una de las grandes ventajas del agrupamiento aglomerativo es que se puede
cortar la jerarquía en cualquier nivel y obtener los conglomerados correspondientes, cuya
característica lo hace bastante diferente a las técnicas de agrupamiento particionados pues
no requieren de forma obligatoria un valor K (número de clústeres) especificado
previamente por un usuario.
Métodos de medidas de similitud para agrupamiento jerárquico aglomerativo
Las técnicas de agrupamiento aglomerativos son diferentes entre sí en medidas de
similitud. Se pueden aplicar diversos métodos para este algoritmo que permiten darle una
variedad de tratamiento a los datos dentro de un dendrograma. Los métodos ampliamente
estudiados son: Single-Linkage, Complete-Linkage, Average-Linkage, Centroid, Ward y
Lance-Williams.
Single-Linkage
Enlace único o vecino más cercano. La similitud de dos clústeres entre sus miembros más
cercanos. Este método les da más importancia a las regiones en las cuales sus
conglomerados están más cercanos. Sin embargo, unos de sus principales problemas son
la sensibilidad al ruido y datos atípicos (Aggarwal & Reddy, 2013).
La figura 3 muestra una matriz de datos y el árbol que corresponde al single-linkage, en
donde se observa para el árbol que el eje X indica los objetos de datos y el eje Y indica la
distancia a la que se fusionaron los puntos. En el enlace simple, los primeros puntos de
datos (3 y 4) se fusionan a una distancia de 0,1. Luego, el clúster formado por 3 y 4 se
fusionan con el punto de datos 1 en el siguiente nivel a una distancia de 0,15. En el nivel
final, el clúster formado por 3,4 y 1 se fusionan con el punto de datos 2 a una distancia de
0,20.
25
FIGURA 3. Matriz de datos y dendrograma correspondiente a enlace simple. (Aggarwal &
Reddy, 2013)
Los cálculos realizados para el agrupamiento del enlace simple son:
𝒹𝑚𝑖𝑛((3,4), 1) = min(𝒹(3,1), 𝒹(4,1)) = 0.15
𝒹𝑚𝑖𝑛((3,4,1), 2) = min(𝒹(3,2), 𝒹(4,2), 𝒹(1,2)) = 0.20
Complete-Linkage
Enlace completo o diámetro. Mide la similitud de dos clústeres como la similitud de sus
miembros más diferentes. Es igual a elegir el par de clústeres cuya fusión tiene el diámetro
más pequeño. Como este método tiene en cuenta la estructura del clúster, generalmente
obtiene grupos de forma compacta. También es sensible a valores atípicos (Aggarwal &
Reddy, 2013).
La figura 4 muestra una matriz de datos y el árbol que corresponde al complete-linkage,
en donde se observa para el árbol que el eje X indica los objetos de datos y el eje Y indica
la distancia a la que se fusionaron los puntos. En el enlace completo, las fusiones para el
clúster 3 y 4 se comprueban con los puntos 1 y 2, y como la distancia es de 0,20, entonces
los puntos 1 y 2 se fusionan en el siguiente nivel. Finalmente, los clústeres (3 y 4) y (1 y 2)
se fusionan en el nivel final a una distancia de 0,50.
26 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
FIGURA 4. Matriz de datos y dendrograma correspondiente a enlace completo.
(Aggarwal & Reddy, 2013)
Los cálculos realizados para el agrupamiento del enlace completo son:
𝒹𝑚𝑎𝑥((3,4), 1) = max(𝒹(3,1), 𝒹(4,1)) = 0.30
𝒹𝑚𝑎𝑥((3,4), 2) = max(𝒹(3,2), 𝒹(4,2)) = 0.50
𝒹𝑚𝑎𝑥((3,4), (1,2)) = max(𝒹(3,1), 𝒹(3,2), 𝒹(4,1), 𝒹(4,2)) = 0.50
Average-Linkage
Enlace promedio. El agrupamiento aglomerativo promedio grupal, cuyas siglas son GAAC,
considera la similitud entre todos los pares de puntos presentes en ambos grupos y
disminuye los inconvenientes asociados con los métodos de enlace único y completo
(Aggarwal & Reddy, 2013). Por ejemplo, los conglomerados 𝐶𝑎 y 𝐶𝑏 se fusionarán para
que el clúster final sea 𝐶𝑎 ∪ 𝐶𝑏 (Aggarwal & Reddy, 2013). El nuevo centroide para este
clúster es:
𝐶𝑎∪𝑏 = 𝑁𝑎𝐶𝑎 + 𝑁𝑏𝐶𝑏
𝑁𝑎 + 𝑁𝑏
27
Donde 𝑁𝑎 y 𝑁𝑏 son las cardinalidades de los clústeres 𝐶𝑎 y 𝐶𝑏 respectivamente. La medida
de similitud para GAAC se calcula de la siguiente manera:
𝑆𝐺𝐴𝐴𝐶(𝐶𝑎, 𝐶𝑏) = 1
(𝑁𝑎 + 𝑁𝑏)(𝑁𝑎 + 𝑁𝑏 − 1)∑ 𝑖 ∈ 𝐶𝑎 ∪ 𝐶𝑏 ∑ 𝑗 ∈ 𝐶𝑎 ∪ 𝐶𝑏 , 𝑖 ≠ 𝑗 𝑑(𝑖, 𝑗)
Se puede ver que la distancia entre dos clústeres es el promedio de todas las distancias
pares entre los puntos de datos en estos dos grupos. Por ende, esta medida es realmente
costosa de calcular sobre todo cuando el número de objetos de datos es inmenso
(Aggarwal & Reddy, 2013).
Centroide
Similitud de Centroide. La agrupación aglomerativa basada en centroide calcula la similitud
entre dos grupos al medir la similitud entre sus centroides. La diferencia principal entre
GAAC y la agrupación aglomerativa centroide es que GAAC considera todos los pares de
objetos de datos para calcular la similitud promedio por pares, mientras que la agrupación
aglomerativa basada en centroide utiliza solamente el centroide del conglomerado para
calcular la similitud entre dos grupos diferentes (Aggarwal & Reddy, 2013).
Ward
Varianza mínima. Calcula la distancia entre dos grupos durante el agrupamiento
aglomerativo. Utiliza el criterio de error cuadrado de K para determinar la distancia
(Aggarwal & Reddy, 2013). Para dos clústeres, 𝐶𝑎 y 𝐶𝑏, el criterio de Ward se calcula
midiendo el aumento en el valor del criterio SSE (suma de errores cuadrados) para la
agrupación obtenida al fusionarlos en 𝐶𝑎 y 𝐶𝑏 (Aggarwal & Reddy, 2013). El criterio de
Ward se mide de la siguiente manera:
𝑊(𝐶𝑎∪𝑏 , 𝑐𝑎∪𝑏) − 𝑊(𝐶, 𝑐) =𝑁𝑎𝑁𝑏
𝑁𝑎 + 𝑁𝑏∑(𝑐𝑎𝑣 − 𝑐𝑏𝑣)2
𝑀
𝑣=1
= 𝑁𝑎𝑁𝑏
𝑁𝑎 + 𝑁𝑏𝑑(𝑐𝑎 , 𝑐𝑏)
El criterio de Ward puede interpretarse como la distancia euclídea al cuadrado entre los
centroides de los conglomerados combinados de 𝐶𝑎 y 𝐶𝑏 ponderados por un factor que es
proporcional al producto de cardinalidades de los conglomerados fusionados (Aggarwal &
Reddy, 2013). El algoritmo de Ward no requiere una predefinición del número de clústeres
(valor K), sin embargo, ese número es necesario para el posterior análisis de los resultados
de la agrupación (Falquina & Gallardo, 2017).
28 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Lance-Williams
Recursividad. Este algoritmo abarca o reúne los métodos jerárquicos anteriores (Aggarwal
& Reddy, 2013). Si los puntos i y j se aglomeran en el grupo i U j, entonces se tendrá que
especificar solamente la nueva diferencia entre el grupo y todos los otros puntos (Aggarwal
& Reddy, 2013). La fórmula es la siguiente:
𝑑(𝑖 ∪ 𝑗, 𝑘) = 𝛼𝑖𝑑(𝑖, 𝑘) + 𝛼𝑗𝑑(𝑗, 𝑘) + 𝛽𝑑(𝑖, 𝑗) + 𝛾|𝑑(𝑖, 𝑘) − 𝑑(𝑗, 𝑘)|
En la fórmula anterior, 𝛼𝑖, 𝛼𝑗, 𝛽 y 𝛾 definen el criterio de aglomeración. Los valores de los
coeficientes para los diferentes tipos de métodos anteriormente descritos se muestran en
la tabla 2.
TABLA 2. Coeficientes para cada método de agrupamiento aglomerativo según
disimilitud Lance-Williams. (Aggarwal & Reddy, 2013)
Nombre del método Disimilitud Lance-Williams
Single-Linkage 𝛼𝑖 = 0.5; 𝛽 = 0; 𝑎𝑛𝑑 𝛾 = −0.5
Complete-Linkage 𝛼𝑖 = 0.5; 𝛽 = 0; 𝑎𝑛𝑑 𝛾 = 0.5
Average-Linkage 𝛼𝑖 =
|𝑖|
|𝑖| + |𝑗|; 𝛽 = 0; 𝑎𝑛𝑑 𝛾 = 0
Centroid 𝛼𝑖 =
|𝑖|
|𝑖| + |𝑗|; 𝛽 = −
|𝑖||𝑗|
(|𝑖| + |𝑗|)2; 𝑎𝑛𝑑 𝛾 = 0
Ward 𝛼𝑖 =
|𝑖| + |𝑘|
|𝑖| + |𝑗| + |𝑘|; 𝛽 = −
|𝑘|
|𝑖| + |𝑗| + |𝑘|; 𝑎𝑛𝑑 𝛾 = 0
Divisivos
En esta segunda categoría de algoritmos de agrupamiento jerárquicos, comienzan todos
los objetos de datos dentro de un gran clúster y aquí se dividen progresivamente de a dos
clústeres generando así una jerarquía descendente de agrupamientos (Aggarwal & Reddy,
2013). Es un enfoque descendente donde el procedimiento empieza en lo más alto del
árbol con todos los puntos de datos dentro de un único agrupamiento el cual se divide para
construir el dendrograma. Este método tiene como ventaja que es más eficiente que el
agrupamiento aglomerativo, ya que no hay necesidad de generar una jerarquía completa
o totalmente desarrollada hasta sus hojas individuales (Aggarwal & Reddy, 2013). Es
considerado como un enfoque global ya que contiene la información completa y unida
antes de dividir los datos. El agrupamiento jerárquico divisivo es el proceso inverso al
agrupamiento jerárquico aglomerativo (Aggarwal & Reddy, 2013), ya que se empieza con
29
un gran y único clúster que agrupa todos los datos y de manera recursiva se va dividiendo
en clústeres más pequeños.
El agrupamiento jerárquico divisivo proporciona los siguientes pasos básicos (Aggarwal &
Reddy, 2013):
- Primero, se comienzan con todos los puntos de datos contenidos en el clúster
máximo.
- Segundo, en enfoque k-means bisector se usa para determinar el mecanismo de
división uniforme para obtener C1 y C2 con el fin de maximizar la distancia de Ward
(C1, C2).
- Luego, se utiliza la heurística anteriormente mencionada y se elige el grupo con
mayor error al cuadrado para dividirlo como el siguiente padre.
- Finalmente, se ejecuta repetidamente los dos pasos anteriores hasta que se
construye el dendrograma completo.
Otros algoritmos de agrupamiento jerárquico
Existen otros algoritmos de agrupamiento jerárquicos, diferentes a los anteriormente
vistos. Entre ellos están (Aggarwal & Reddy, 2013):
- CURE (Clustering Using Representatives). Es un algoritmo que incorpora una
característica novedosa de representar un clúster utilizando un conjunto de puntos
representativos bien dispersos. Incorpora características de los métodos de
agrupamiento jerárquicos simple-linkage y Average-linkage.
- CHAMELEON. Es un algoritmo de agrupamiento el cual utiliza métodos de partición
de gráficos a partir de los vecinos más cercanos.
- COBWEB. Es un algoritmo de agrupamiento conceptual que trabaja
incrementalmente al actualizarse los clústeres, objeto por objeto.
1.4.2 Agrupamiento Particionado
Dentro del aprendizaje de máquina no supervisado se encuentran los algoritmos de
clustering particionados. Acorde con la revisión de la literatura, se obtienen dos de los
algoritmos más utilizados con datos climatológicos: K-means y una variación del K-means
denominado K-medoids.
30 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
K-means
Dentro del aprendizaje de máquina no supervisado, se encuentran también los algoritmos
particionados o k-means, siendo este el algoritmo de clustering más empleado en una
variedad de análisis de variables y datos climáticos (André et al., 2019; Arroyo et al., 2017;
Bador, Naveau, Gilleland, Castellà, & Arivelo, 2015; Carvalho et al., 2016; Falquina &
Gallardo, 2017; Farah, Whaley, Saman, & Boland, 2019; Franceschi et al., 2018;
Ghayekhloo et al., 2015; S. Han et al., 2019; Hao et al., 2019; Hidalgo et al., 2019; Khedairia
& Khadir, 2012; Lee & Kim, 2018; S. Li, Ma, & Li, 2017; Lin et al., 2018; Mokdad & Haddad,
2017; Schneider, Hampel, Mosquera, Tylmann, & Grosjean, 2018; Soubdhan, Abadi, &
Emilion, 2014; Yadav, Malik, & Chandel, 2015). Por otro lado, también es reconocido como
uno de los algoritmos más simples y eficientes dentro del agrupamiento de datos (Aggarwal
& Reddy, 2013; Khedairia & Khadir, 2012).
K-means es un algoritmo de agrupamiento no supervisado el cual calcula los centroides
para cada grupo y luego calcula las distancias entre el vector de datos actual y cada uno
de los centroides, asignando el vector al grupo de datos cuyo centroide sea el más cercano
a este (Carvalho et al., 2016; S. Li et al., 2017). El agrupamiento con K-means es llevado
a cabo en términos de distancia y no de tiempo (Lee & Kim, 2018). K-means es también
definido como un algoritmo para agrupar datos en un número de clústeres dado, en donde
divide un conjunto de datos en un número determinado de clústeres, acorde a una función
de distancia establecida después de haber definido el dataset y el número de clústeres (S.
Han et al., 2019; C. Li, Sun, Jia, Cai, & Wang, 2016). Su aplicación requiere dos parámetros
como entrada que son: el número de clústeres (k) y sus centroides iniciales, los cuales
pueden ser escogidos por el usuario u obtenidos mediante algún tipo de preprocesamiento
(Arroyo et al., 2017; Mokdad & Haddad, 2017).
Acorde a Aggarwal & Reddy (2013), los pasos que realiza el algoritmo K-means se basan
en un proceso iterativo como el siguiente:
A. Seleccionar los (k) puntos como centroides iniciales.
B. Repetir
C. Formar clústeres (k) asignando cada punto a su centroide más cercano.
D. Recalcular el centroide de cada clúster.
E. Hasta que el criterio de convergencia sea conocido.
Con respecto a lo anterior, el algoritmo realiza una iteración que está acompañada de una
amplia variedad de medidas de distancia para calcular los centroides más cercanos. La
elección de estas medidas puede afectar de forma significativa la asignación del centroide
y la calidad de la solución final (Aggarwal & Reddy, 2013). Entre las medidas de distancia
más populares está la distancia Euclidiana, la distancia Manhattan y la similitud del
Coseno. No obstante, para K-means, la distancia Euclidiana es la métrica más popular, y
31
sobre todo para evaluaciones de datos climáticos llevadas a cabo por una gran variedad
de investigadores (Arroyo et al., 2017; Bador et al., 2015; Carvalho et al., 2016; Falquina
& Gallardo, 2017; Ghayekhloo et al., 2015; S. Li et al., 2017).
Por lo tanto, se pueden obtener diferentes agrupamientos de datos para diferentes valores
de clústeres (k) y medidas de distancia. Los criterios de distancia se detallan de forma más
específica en la sección 1.5 de este capítulo.
Cada algoritmo de agrupamiento tiene su objetivo concreto y razón de ser. Su creación y
desarrollo nace de una necesidad matemática y computacional de resolver un obstáculo y
de proveer un nuevo camino hacia la solución. Es por esto, que, K-means tiene entre sus
funciones llevar a cabo una tarea llamado: la suma de los errores cuadrados (SSE),
también conocida como la suma residual de cuadrados (RSS). Esta formulación
matemática (Aggarwal & Reddy, 2013) consiste en un conjunto de datos 𝐴 = {𝑋1, 𝑋2, . . , 𝑋𝑛}
que consta de N puntos, denotemos el agrupamiento obtenido después de aplicar el
agrupamiento de K-means con 𝐵 = {𝐵1, 𝐵2, … , 𝐵𝑛}. El SSE/RSS (en adelante llamado
solamente SSE) para este agrupamiento se define en una ecuación donde 𝐵𝑛 es el
centroide del clúster 𝐵𝑛. El objetivo es encontrar una agrupación que minimice la
puntuación SSE. La asignación iterativa y los pasos de actualización del algoritmo K-
means apuntan a minimizar la puntuación SSE para el conjunto dado de centroides. La
ecuación mencionada es la siguiente:
𝑆𝑆𝐸(𝐶) = ∑ ∑ ||𝑥𝑖 − 𝑐𝑘||2
𝑥𝑖∈𝐶𝑘
𝐾
𝐾=1
K-means, como algoritmo particionado no supervisado, aparte de proveer características
esenciales dentro del aprendizaje de máquina, también tiene factores que afectan su
rendimiento, entre los cuales se destacan los siguientes (Aggarwal & Reddy, 2013):
- Elegir los centroides iniciales.
- Estimar el número de clústeres (k).
Para elegir los centroides iniciales, existen algunos métodos de inicialización de K-means
empleados para mejorar el rendimiento del agrupamiento como son (Aggarwal & Reddy,
2013):
- Hartigan and Wong: Hace referencia a la densidad del vecino más cercano. Este
método busca que los puntos que están separados y a su vez tienen una gran
cantidad de puntos dentro de su diámetro pueden ser buenos candidatos para los
puntos iniciales.
- Milligan: Este método emplea los resultados obtenidos del método de Ward. El
método de Ward elige los centroides iniciales usando la suma de los errores
32 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
cuadrados (SSE) para evaluar la distancia entre dos grupos. Mantiene el
crecimiento aglomerativo lo más pequeño posible.
- Bradley and Fayyad: Este método se encarga de elegir muestras aleatorias de los
datos y posteriormente aplicar K-means a todas estas pequeñas muestras. Luego
se recopilan los centroides de cada una de las muestras y se crea un nuevo
conjunto de datos formado únicamente por estos centroides.
- K-means++: Se encarga de seleccionar los centroides iniciales para agrupar K-
means. Este método se basa en la probabilidad donde el primer centroide se
selecciona al azar. Luego, el siguiente centroide seleccionado es el que está más
alejado del centroide seleccionado actualmente. El proceso de selección continúa
hasta que se tengan todos los centroides para que después el algoritmo K-means
realice el agrupamiento de estos.
Ahora bien, respecto a estimar el número de clústeres (k) para K-means, existen
algunos métodos reconocidos (Aggarwal & Reddy, 2013; Arroyo et al., 2017; Schneider
et al., 2018) empleados para estimar el número correcto de clústeres, puesto que esta
estimación manual es uno de los mayores desafíos para el agrupamiento K-means.
Entre los métodos se encuentran el índice de Calinski-Harabasz, el índice de Gap, el
coeficiente de Silhouette, el índice de Davies-Bouldin, ISODATA, el Criterio de
Información Bayesiana (BIC), entre otros. Estos métodos también son conocidos como
medidas de evaluación de clústeres (Arroyo et al., 2017; Franceschi et al., 2018). Las
medidas de evaluación de clúster se detallan de forma más específica en la sección
1.6.
K-medoids
Es otro de los algoritmos de clustering particionados más empleados por los investigadores
en el campo climatológico según la revisión de literatura (Arroyo et al., 2017; Bador et al.,
2015; Conradt et al., 2016; Hao et al., 2019; Pokorná et al., 2018) y una de las variaciones
del K-means (Aggarwal & Reddy, 2013; Hao et al., 2019) cuya flexibilidad permite modificar
y construir algoritmos más eficientes basados en éste, por lo que K-medoids es el resultado
de una de estas modificaciones (Pokorná et al., 2018).
K-medoids es un algoritmo flexible a los valores atípicos en comparación con K-means
(Aggarwal & Reddy, 2013) y busca minimizar el criterio de error absoluto en lugar de SSE
(suma de errores cuadrados). Es un método de agrupamiento no jerárquico que inclusive
se denota como un algoritmo superior a los jerárquicos (Pokorná et al., 2018).
33
Acorde con la literatura, estos son los pasos que ejecuta el algoritmo:
1. Seleccionar puntos K como los objetos representativos iniciales.
2. Repetir
3. Asignar cada punto al clúster con el objeto representativo más cercano.
4. Aleatoriamente seleccionar un objeto 𝑋𝑖 no representativo.
5. Calcular el costo total S de intercambiar el objeto representativo m con 𝑋𝑖.
6. Si S<0, entonces intercambiar m con 𝑋𝑖 para formar el nuevo conjunto de objetos
representativos K.
7. Hasta que el criterio de convergencia es conocido.
Para tratar el problema de ejecutar múltiples operaciones de intercambios mientras se
obtienen los puntos representativos finales para cada clúster, la literatura propone una
modificación de K-medoids llamada Partitioning Around Medoids (PAM), cuyo algoritmo
minimiza la función objetivo al intercambiar los puntos no medoids y medoids de forma
iterativa hasta alcanzar la convergencia. K-medoids es más robusto comparado con K-
means pero la complejidad computacional de K-medoids es más alta y por lo tanto no es
adecuado para grandes conjuntos de datos (Aggarwal & Reddy, 2013).
1.5 Criterios de distancia para algoritmos de clustering
Dado que no hay conocimiento previo sobre la mejor cantidad de clústeres o el mejor
algoritmo de agrupamiento (Yahyaoui & Own, 2018), algunos autores siguen una
estrategia rigurosa en la que las decisiones se toman con base a parámetros de clústeres
conocidos. A continuación, se proporciona una descripción general de las medidas de
similitud o distancia comúnmente utilizadas en la agrupación.
Euclidiana: Es la métrica más conocida y empleada, donde cada centroide es la mitad o
centro de los puntos de un clúster. Se representa por medio de la siguiente ecuación donde
d es la distancia desde el punto x al centroide c (Arroyo et al., 2017):
𝑑𝑠𝑡2 = (𝑥𝑠 − 𝑦𝑡)(𝑥𝑠 − 𝑦𝑡)′
Seuclidiana: Conocida también como métricas euclidianas estandarizadas, cada diferencia
de coordenada entre filas en x es escalada, dividiéndola por el elemento correspondiente
de la desviación estándar. Se representa por la siguiente ecuación donde v es la matriz
diagonal nXn cuyo elemento diagonal j es 𝑆(𝐽)2, donde s es el vector de desviaciones
estándar (Arroyo et al., 2017):
𝑑𝑠𝑡2 = (𝑥𝑠 − 𝑦𝑡)𝑉−1(𝑥𝑠 − 𝑦𝑡)′
34 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Cityblock: Cada centroide es la mediana en cuanto a componentes de los puntos en ese
grupo. Se representa por la siguiente ecuación donde el exponente p es un valor escalar
y j es una observación en el vector x (Arroyo et al., 2017).
𝑑𝑠𝑡 = ∑ |𝑥𝑠𝑗 − 𝑦𝑡𝑗|
𝑛
𝑗=1
Coseno: Cada centroide es la media de los puntos en ese grupo, después de normalizar
esos puntos a longitudes euclidianas unitarias Se representa por la siguiente ecuación
(Arroyo et al., 2017):
𝑑𝑠𝑡 = 1 −𝑥𝑠𝑦𝑡
′
√(𝑥𝑠𝑥𝑠′)(𝑦𝑡𝑦𝑡
′)
Correlación: Cada centroide es la media en cuanto a componentes de los puntos en ese
grupo, después de centrar y normalizar esos puntos en una media cero y una desviación
estándar de la unidad. Se representa por la siguiente ecuación (Arroyo et al., 2017):
𝑑𝑠𝑡 = 1 −(𝑥𝑠 − �̅�𝑠)(𝑦𝑡 − �̅�𝑡)′
√(𝑥𝑠 − �̅�𝑠)(𝑥𝑠 − �̅�𝑠)′√(𝑦𝑡 − �̅�𝑡)(𝑦𝑡 − �̅�𝑡)′
Minkowski: Es una métrica en un espacio vectorial normalizado que puede considerarse
como una generalización tanto de la distancia euclidiana como de la distancia Manhattan.
Se representa por la siguiente ecuación donde p es un valor positivo escalar del
componente, s y t son los índices de las filas del vector x y j es el índice de la columna del
vector x (Arroyo et al., 2017):
𝑑𝑠𝑡 = √∑ |𝑥𝑠𝑗 − 𝑥𝑡𝑗|𝑝
𝑛
𝑗=1
𝑝
1.6 Medidas de evaluación del clúster
Uno de los mayores desafíos que enfrentan los investigadores que trabajan con algoritmos
de agrupamiento no supervisado es determinar el número de clústeres o valor K para el
algoritmo a emplear. Asignar de forma aleatoria un valor K puede implicar que la cantidad
de clústeres sea muy grande o muy pequeña por lo que se obtengan resultados no
esperados. También es importante evaluar los resultados del agrupamiento (Arroyo et al.,
2017), así que la comunidad científica se ha encargado de desarrollar algunas medidas de
evaluación que permiten que tanto académicos como profesionales del área puedan hacer
uso de métodos para determinar una cantidad de clústeres apropiada para sus
35
investigaciones (conocidas como validaciones internas) y también determinar la calidad de
los resultados del agrupamiento, las cuales se exponen algunas a continuación:
- Calinski-Harabasz Index: Evalúa la validez del clúster basada en la suma de
cuadrados promedio entre y dentro del clúster, o en los medios entre clústeres y la
matriz de covarianza dentro de los clústeres (Aggarwal & Reddy, 2013; Arroyo et
al., 2017). Mide la separación con relación a la máxima distancia entre centros de
clúster, como la suma de las distancias entre los objetos y su centro de agrupación.
- Gap Index: Utiliza la salida de cualquier algoritmo de agrupación en clústeres. Este
índice es especialmente útil en grupos bien separados y cuando se usa con una
distribución de referencia uniforme en la orientación del componente principal
(Arroyo et al., 2017).
- Akaike Information Criterion (AIC): Se ha desarrollado considerando la
probabilidad de registro y agregando restricciones adicionales de la longitud de
descripción mínima (MDL) para estimar el valor de K (Aggarwal & Reddy, 2013).
- Bayesian Information Criterion (BIC): Sirve como una aproximación asintótica a
una transformación de la probabilidad posterior bayesiana de un modelo candidato.
Similar al AIC, el cálculo también se basa en considerar el logaritmo de probabilidad
(Aggarwal & Reddy, 2013).
- Duda and Hart: Método que consiste en detener el proceso de agrupamiento
jerárquico eligiendo el nivel de corte correcto en el dendrograma (Aggarwal &
Reddy, 2013).
- Silhouette Coefficient: Puntúa el rendimiento de agrupación, basado en la
diferencia por pares de distancias entre agrupación y dentro de agrupación. El
número máximo de clústeres óptimo se determina al maximizar el valor de este
índice. Como el objetivo es obtener grupos con una distancia mínima dentro del
grupo y una distancia máxima entre grupos, los valores altos del índice de silueta
son deseables (Aggarwal & Reddy, 2013; Arroyo et al., 2017). Autores como
Conradt et al. (2016) lo definen como la mejor agrupación teórica.
- Newman and Girvan: En este método, el dendrograma se ve como un gráfico y se
propone un puntaje de interpolación (que se usará como una medida de disimilitud
entre los bordes). El procedimiento comienza con el cálculo del puntaje de
intermediación de todos los bordes en el gráfico (Aggarwal & Reddy, 2013). Se
36 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
elimina el borde con la mayor puntuación de intermediación. Luego se vuelve a
calcular las puntuaciones de intermediación de los bordes restantes hasta obtener
el conjunto final de componentes conectados. La cardinalidad del conjunto derivado
a través de este proceso sirve como una buena estimación para K.
- ISODATA: Este método consiste en agrupar los datos según el método del
centroide más cercano. Las primeras K-medias se ejecutan en el conjunto de datos
para obtener los clústeres. Los grupos se fusionan si su distancia es menor que un
umbral o si tienen menos de un cierto número de puntos (Aggarwal & Reddy, 2013).
- Davies-Bouldin Index: Similar al índice de Kalinski, este método obtiene grupos
con la distancia mínima intragrupo y la distancia máxima entre los centroides del
grupo. El valor mínimo del índice indica una partición de conjunto de datos
adecuada (Arroyo et al., 2017). Para cada grupo, se calculan las similitudes entre
cada grupo C y todos los otros grupos, y el valor más alto se asigna a C en término
de su similitud de grupo. Este índice se puede obtener promediando todas las
similitudes del grupo, sin embargo, cuanto menor sea este índice, mejor será el
resultado del agrupamiento.
1.7 Normalización
Dentro del procesamiento y análisis de datos climáticos, se han llevado a cabo situaciones
en las cuales unas variables tienen un rango de valores completamente diferentes en
tamaño con respecto a otras, lo que ha conllevado a que se generen agrupamientos muy
desproporcionados o resultados en donde una variable genera el mayor arrastre del
conjunto de datos y hace que el análisis se vuelva desequilibrado debido a la superposición
que genera una variable climática por encima de otra.
Para evitar este problema se aplica normalización a los datos, que consiste en llevar a
otros rangos los valores de un dataset con el fin de que todas las variables estén dentro
de una misma escala de valores.
Los métodos de normalización pueden ser divididos en dos categorías (Aggarwal & Reddy,
2013): Uno de ellos está basado en un enfoque estadístico la cual formula una distribución
de la línea base para corregir la medida de aleatoriedad. Un clustering puede entonces ser
definido “válido” si tiene un valor inusualmente alto o bajo, medido con respecto a la
distribución de referencia. El otro método utiliza valores mínimo y máximo para normalizar
la medida en el rango [0,1].
37
Dentro de la comunidad científica que estudia la información climatológica, varios estudios
han hecho uso de los métodos de normalización (Calliari, Farnia, Ramieri, & Michetti, 2019;
Franceschi et al., 2018; Guo, Gao, & Wu, 2017; S. Han et al., 2019; Hao et al., 2019;
Hidalgo et al., 2019; Lin et al., 2018; Schneider et al., 2018).
1.8 Reducción de dimensionalidad
Es una técnica popular para remover ruido y redundancia de atributos dentro de un
conjunto de datos (Aggarwal & Reddy, 2013). Las técnicas de reducción de
dimensionalidad pueden ser categorizadas principalmente en extracción de características
y selección de características. Respecto al enfoque de extracción de características, éstas
son proyectadas hacia un nuevo espacio con baja dimensionalidad. Un ejemplo de este
tipo de técnicas son el Análisis de Componentes Principales (PCA), Análisis de
Discriminación Lineal (LDA) y Descomposición de Valores Singulares (SVD). Por otro lado,
el enfoque de selección de características busca seleccionar un pequeño subconjunto de
características que minimizan la redundancia y maximizan la relevancia del objetivo.
Ejemplos de este tipo de técnicas son: Relief, Chi Squares, Fisher Score y Lasso.
Respecto a lo anterior, ambos enfoques de reducción de dimensionalidad son capaces de
mejorar el rendimiento del aprendizaje, reducir la complejidad computacional, crear
mejores modelos generalizables y disminuir el almacenamiento requerido (Aggarwal &
Reddy, 2013). Sin embargo, la selección de características es superior en términos de
mejor legibilidad e interpretabilidad, ya que mantiene los valores de las características
originales en el espacio reducido, mientras que la extracción de características transforma
los datos del espacio original en un nuevo espacio con una dimensión más baja, que no
se puede asociar a las características del espacio original. Por ende, un mayor análisis del
nuevo espacio es muy complicado y complejo ya que no hay un significado físico para las
características transformadas y obtenidas de la técnica de extracción de características.
Dentro de la literatura, la técnica del Análisis de Componentes Principales (PCA) es una
de las más populares (Aggarwal & Reddy, 2013), la cual da la solución al proyectar los
datos originales de alta dimensionalidad en un pequeño espacio lineal de baja
dimensionalidad dirigida por vectores propios y matrices de covarianza. Además, una
característica de PCA es que los clústeres pueden ser identificados fácilmente en una
representación gráfica, sin ningún tipo de etiqueta o asignación para cada ejemplo de un
específico grupo de datos. Por lo tanto, estas técnicas son muy útiles para obtener
conocimiento general respecto a la estructura de un conjunto de datos no etiquetados
(Arroyo et al., 2017). Sin embargo, su mayor limitación se basa en el supuesto de linealidad
(Arroyo-Hernández, & Rica, 2016).
1.9 Bodega de datos CDIAC
La bodega de datos es un sistema de almacenamiento de registros climáticos y
meteorológicos de todo el departamento de Caldas, administrado y gestionado por el
Grupo de Ambientes Inteligentes Adaptativos (GAIA:
38 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
http://gaia.manizales.unal.edu.co/GAIA), grupo de investigación que hace parte de la
Universidad Nacional de Colombia. La bodega de datos es una gran estructura de
almacenamiento implementada en PostgreSQL que alberga más de 35 millones de datos
ambientales, cuya información se recopila de más de 50 estaciones (125 estaciones
diferentes tienen datos en la fact_table de hidro climatología y 9 de aire), entre ellas las
meteorológicas ubicadas en diferentes sectores geográficos de todo el departamento de
Caldas, y cuya información puede visualizarse a través del Centro de Datos e Indicadores
Ambientales de Caldas (CDIAC: http://cdiac.manizales.unal.edu.co), sistema web
desarrollado y propuesto para permitir que todas las entidades interesadas en el sector
ambiental y climático, no solamente del departamento sino de todo el país, puedan acceder
a conocer toda la información.
2. Problema de investigación
De la revisión realizada se puede afirmar que, a pesar de la aplicación de diversos
algoritmos, la literatura no reporta una forma concluyente de cómo establecer cuál o cuáles
son los algoritmos de agrupamiento que más se recomiendan para ser aplicados en el caso
particular de los datos climáticos, ni tampoco se determina la forma en cómo se comportan
estos algoritmos bajo diferentes situaciones y escenarios concretos.
Para el caso de esta Tesis reviste especial interés las técnicas de aprendizaje no
supervisado, en particular de clustering, enfrentando un espacio abierto relacionado con la
selección de algoritmos y configuraciones más acordes a cada situación y con el objetivo
de entender cuáles presentan mejor desempeño en diferentes situaciones al igual que la
necesidad de evaluación de comportamientos de estos algoritmos bajo diferentes
escenarios relacionados con datos climáticos (Arroyo et al., 2017; Asadi Zarch et al., 2015;
Carro-Calvo et al., 2017; Carvalho et al., 2016; Chidean, Muñoz-Bulnes, Ramiro-Bargueño,
Caamaño, & Salcedo-Sanz, 2015; Falquina & Gallardo, 2017; Parente, Pereira, & Tonini,
2016; Wang et al., 2013; Zheng et al., 2017).
3. Objetivos de la investigación
3.1 Objetivo general
Evaluar algoritmos de agrupamiento por medio del procesamiento de datos climáticos para
encontrar comportamientos en diferentes escenarios.
39
3.2 Objetivos específicos
- Determinar y seleccionar los algoritmos de agrupamiento más representativos a
partir del abordaje del estado del arte.
- Establecer diferentes escenarios de trabajo a partir de un conjunto de datos
climáticos.
- Aplicar los algoritmos de agrupamiento seleccionados en cada uno de los
escenarios de trabajo definidos.
- Comparar los resultados obtenidos entre los diferentes algoritmos de agrupamiento
en los escenarios de trabajo, empleando métricas de evaluación de desempeño y
rendimiento.
3.3 Pregunta de investigación
A partir de los anterior se plantea la siguiente pregunta de investigación:
¿Cómo se comportan los algoritmos de agrupamiento en diferentes escenarios para el
procesamiento de datos climáticos?
4. Metodología
Para esta investigación se propusieron escenarios de trabajo. Los escenarios son
ambientes de trabajo en los cuales un investigador se va a encontrar al momento de
procesar datos con un algoritmo de agrupamiento. El escenario está dado por un conjunto
de datos que puede estar crudo, limpio o con datos faltantes o atípicos, y que contiene
ciertos atributos con una cantidad determinada de instancias.
4.1 Características de los escenarios
Esta parte práctica busca tratar el problema para responder a la pregunta de investigación:
¿Cómo se comportan los algoritmos de agrupamiento en diferentes escenarios para el
procesamiento de datos climáticos?
Para resolver la pregunta, se propuso un enfoque de trabajo investigativo explicado a
continuación.
Se pretendió obtener un conjunto de datos con cientos de miles de instancias de unas
determinadas estaciones climáticas para ciertas variables climáticas de interés, y a través
de unos escenarios de trabajo creados que contemplaban características particulares, se
implementaron en ellos los algoritmos de clustering más representativos del ámbito
climatológico con los datasets previos, con el fin de analizar y encontrar los desempeños
40 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
de estos algoritmos bajo una variedad de combinaciones. Se detalla a continuación todo
el proceso que involucró el tratamiento desde la bodega de datos, la creación de
escenarios, la preparación de entornos y posterior procesamiento de los datos.
4.1.1 Variables climáticas para utilizar
Para llevar a cabo la investigación, se emplearon las siguientes cuatro variables
meteorológicas: Temperatura, precipitación, radiación solar y humedad relativa. Estas
variables fueron seleccionadas por ser la más reportadas en la revisión del estado del arte
en investigaciones climáticas con algoritmos de clustering (Arroyo et al., 2017; Asadi Zarch
et al., 2015; Bador et al., 2015; Carvalho et al., 2016; Chidean, Caamaño, Ramiro-
Bargueño, Casanova-Mateo, & Salcedo-Sanz, 2018; Falquina & Gallardo, 2017; Farah et
al., 2019; Ghayekhloo et al., 2015; S. Li et al., 2017; Lin et al., 2018; Wang et al., 2013;
Zheng et al., 2016, 2017).
Variables como velocidad del viento y evapotranspiración no fueron tomadas en cuenta
acorde a las sugerencias dadas por expertos en climatología de la Universidad Nacional
de Colombia, con argumento de la baja influencia de la velocidad del viento para el estudio
y en el caso de la evapotranspiración, porque son datos previamente calculados desde
antes de obtener el dataset.
4.1.2 Estaciones climatológicas
Se utilizarán datos de tres estaciones meteorológicas cuyos nombres son: Hospital de
Villamaría, Hospital de Caldas y Parque Nacional Natural Los Nevados (El Cisne).
La tabla 3 muestra la información de las estaciones a estudiar:
TABLA 3. Información de las estaciones climáticas.
Nombre de la estación Tipología Altitud Ubicación
Hospital de Villamaría
Meteorológica
1790 msnm Hospital San Antonio
Hospital de Caldas 2183 msnm Hospital de Caldas
El Cisne PNNN 4812 msnm Parque Nacional Natural Los Nevados
La escogencia de estas estaciones se justifica en su ubicación y altitud, como también en
la disponibilidad de datos para la línea del tiempo deseada. Se tiene una estación ubicada
en montañas de nevados, otra estación en tierra de temperatura templada y una estación
de temperatura cálida. Estas tres estaciones están ubicadas a diferente altura sobre el
nivel del mar con el fin de tener un conjunto de datos de diferentes elevaciones geográficas.
La Figura 7 muestra la localización de las tres estaciones meteorológicas en un mapa por
relieve, y el mapa de la Figura 8 muestra la misma localización en un mapa por satélite.
41
Figura 7. Ubicación de las tres estaciones meteorológicas en un mapa de relieve para el
departamento de Caldas, Colombia.
Figura 8. Ubicación de las tres estaciones meteorológicas en un mapa satelital para el
departamento de Caldas, Colombia.
42 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
4.2 Extracción de datos
Para realizar la extracción de los datos requeridos desde la bodega de datos para
conformar los datasets, se usó el software de administración de bases de datos
PostgreSQL (pgadmin versión 1.22.2). Empleando consultas SQL se obtienen los datasets
de las tres estaciones meteorológicas previamente definidas, cuyos registros se
encuentran entre el 12 de abril de 2012 y el 16 de agosto de 2017, lo que comprende un
margen de tiempo de 64 meses (5.3 años) y para este periodo se extrae información de
las cuatro variables climáticas a analizar.
TABLA 4. Datasets establecidos para la evaluación de los algoritmos no supervisados.
4.3 Criterios de los escenarios
Los escenarios son aquellas atmósferas de trabajo en donde se aplicaron los algoritmos
de clustering. Estos escenarios permitieron en la parte práctica establecer entornos reales
en los cuales, con diversidad de características y parámetros previamente establecidos y
definidos, ejecutar cada uno de los algoritmos de agrupamiento para obtener resultados
de cada entorno, y así analizar y comprender cómo se comportaron los algoritmos en cada
uno de estos escenarios.
4.3.1 Criterios de conformación de los escenarios
Para la creación de los escenarios, se establecieron unos criterios con los cuales se
diferencian los diferentes entornos. A continuación, se definieron estos criterios.
Algoritmos de agrupamiento: Dentro de la literatura abordada, se seleccionaron los tres
algoritmos de agrupamiento que los investigadores más emplearon para el análisis de
datos climáticos. Agrupamiento jerárquico aglomerativo con método de Enlace completo
(Linkage-complete), K-means y K-medoids para agrupamiento particionado.
Número de clústeres (K): La cantidad de clústeres o valor K es el número de
agrupaciones con las que se pretende que el algoritmo divida las instancias. Se propuso
generar tres diferentes agrupaciones cuyo valor K fuera 2, 3 y 5. A pesar de que existen
métodos que proponen estimar la cantidad de clústeres como el índice de Calinski, el
coeficiente de Silhouette, entre otros (Aggarwal & Reddy, 2013; Arroyo et al., 2017), para
la experimentación se establecieron de forma manual unos valores de K, tomando en
cuenta también que autores han empleado este mismo rango de número de clústeres para
evaluar datos meteorológicos con algoritmos de agrupamiento (Arroyo et al., 2017).
Nombre del dataset Número de variables Nombre de variables Registros totales Rango de fecha
Dataset_HospitalDeVillamaria_64meses.xlsx 430.635
Dataset_HospitalDeCaldas_64meses.xlsx 530.802
Dataset_El CisnePNNN_64meses.xlsx 248.297
4
Temperatura,
precipitación,
humedad relativa y
radiación solar.
12 abril 2012 al
16 agosto 2017
43
Normalización: Para la experimentación se utilizó la normalización con Z-transformation
y Range-transformation como parte del proceso de reducir escalas de valores en las
variables para algunos escenarios en específicos (Arroyo et al., 2017; Y. Chen et al., 2017;
Chidean et al., 2015; C. Li et al., 2016; Marzban & Sandgathe, 2006; Ruzmaikin &
Guillaume, 2014; Sivaramakrishnan & Meganathan, 2012; Zheng et al., 2017).
Reducción de dimensionalidad: Se utilizó el Análisis de Componentes Principales (PCA)
al ser empleada por varios trabajos científicos en el ámbito del análisis de datos
climatológicos y del aprendizaje no supervisado (Abdul Halim et al., 2018; Arbolino,
Carlucci, Cirà, Ioppolo, & Yigitcanlar, 2017; Arroyo et al., 2017; Y. Chen et al., 2017;
Falquina & Gallardo, 2017; Franceschi et al., 2018; Khedairia & Khadir, 2012; Mayer et al.,
2014; Ruzmaikin & Guillaume, 2014; Schäfer, Heiskanen, Heikinheimo, & Pellikka, 2016;
Schneider et al., 2018; Yadav et al., 2015).
Número de iteraciones del algoritmo: Esta métrica se encarga de indicarle al algoritmo
el número de veces que debe repetir la tarea de formar clústeres (k) asignando cada punto
a su centroide más cercano y de recalcular el centroide de cada clúster. Para la
experimentación se utilizaron valores de iteración de 1, 10, 100 y 1000, donde cada valor
es diez veces mayor al anterior.
Medida de distancia: Es aquella métrica que se encarga de calcular la distancia entre las
instancias y centroides para posteriormente el algoritmo llevar a cabo la aglomeración de
las instancias. Se utilizó la distancia euclidiana como función de distancia, considerada
como la de mayor confianza (Arroyo et al., 2017) y por ser utilizada en una gran variedad
de trabajos dentro del campo climático (Abdul Halim et al., 2018; Asadi Zarch et al., 2015;
Bador et al., 2015; Conradt et al., 2016; Falquina & Gallardo, 2017; Farah et al., 2019;
Franco & Steiner, 2018; Ghayekhloo et al., 2015; Hao et al., 2019; Hidalgo et al., 2019; Lee
& Kim, 2018; S. Li et al., 2017; Lin et al., 2018; Mokdad & Haddad, 2017; Nguyen et al.,
2015).
Evaluación de calidad de clústeres: Esta métrica consiste en evaluar el resultado del
agrupamiento para determinar la calidad de los clustering. A través de un valor o índice se
determina qué tan bueno o malo quedaron los clustering y permite a los investigadores
conocer la calidad de estos. Para la experimentación se utilizó el índice de Davis-Bouldin
como métrica propuesta de evaluación de calidad de clústeres (Aggarwal & Reddy, 2013;
Arroyo et al., 2017; Gan, Ma, & Wu, 2007; Khedairia & Khadir, 2012; Nguyen et al., 2015;
Yahyaoui & Own, 2018).
4.4 Establecimiento de escenarios
Para los algoritmos de aprendizaje de máquina no supervisados se han establecido
diversos escenarios específicos para cada uno, según las características que la literatura
aborda para cada algoritmo.
4.4.1 K-means
44 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Para el algoritmo particionado como K-means se han establecido 5 escenarios que
contienen un valor de K igual a 2,3 y 5. Esto significa que este algoritmo estará presente
con 45 tratamientos (tres por cada valor de K y para cada uno de los cinco escenarios)
para cada estación meteorológica. Al ser tres estaciones climáticas implica que en total
son 135 tratamientos de ejecución para K-means durante la experimentación.
La tabla 5 expone la creación y establecimiento de los escenarios para el algoritmo
particionado K-means:
45
TABLA 5. Escenarios de trabajo para el algoritmo K-means.
Trat
amie
nto
No
rmal
izac
ión
Re
du
cció
n d
e
dim
en
sio
nal
idad
Nú
me
ro d
e
ite
raci
on
es
Trat
amie
nto
No
rmal
izac
ión
Re
du
cció
n d
e
dim
en
sio
nal
idad
Nú
me
ro d
e
ite
raci
on
es
Trat
amie
nto
No
rmal
izac
ión
Re
du
cció
n d
e
dim
en
sio
nal
idad
Nú
me
ro d
e
ite
raci
on
es
1.1
NO
NO
10
01
.1N
ON
O1
00
1.1
NO
NO
10
0
1.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
1.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
1.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
1.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
1.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
1.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
2.1
NO
NO
10
02
.1N
ON
O1
00
2.1
NO
NO
10
0
2.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
2.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
2.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
2.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
2.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
2.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
3.1
NO
NO
10
03
.1N
ON
O1
00
3.1
NO
NO
10
0
3.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
3.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
3.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
3.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
3.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
3.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
4.1
NO
NO
10
04
.1N
ON
O1
00
4.1
NO
NO
10
0
4.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
4.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
4.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
4.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
4.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
4.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
5.1
NO
NO
10
05
.1N
ON
O1
00
5.1
NO
NO
10
0
5.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
5.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
5.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
5.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
5.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
5.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
Estr
ate
gia
de
clustering
par
a K
-me
ans
(agr
up
amie
nto
par
tici
on
ado
)
K=2
K=3
K=5
Can
tid
ad d
e va
riab
les:
3 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
y r
adia
ció
n s
ola
r. C
anti
dad
de
regi
stro
s: t
od
os
los
del
dat
aset
. D
ato
s
falt
ante
s (m
issi
ng)
: sí
. V
alo
res
atíp
ico
s
(ou
tlie
rs):
sí.
Esce
nar
ios
Cri
teri
o d
e d
ista
nci
a
Eucl
idia
na
Cri
teri
o d
e e
valu
ació
n
Eucl
idia
na
Dav
is-B
ou
ldin
Cri
teri
o d
e d
ista
nci
a
#1
#2
Can
tid
ad d
e va
riab
les:
3 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
y r
adia
ció
n s
ola
r. C
anti
dad
de
regi
stro
s: t
od
os
los
del
dat
aset
. D
ato
s
falt
ante
s (m
issi
ng)
: n
o.
Val
ore
s
atíp
ico
s (o
utl
iers
): n
o.
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
#5
Can
tid
ad d
e va
riab
les:
4 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
, rad
iaci
ón
so
lar
y
pre
cip
itac
ión
. C
anti
dad
de
regi
stro
s:
tod
os
los
del
dat
aset
. D
ato
s fa
ltan
tes
(mis
sin
g):
no
. V
alo
res
atíp
ico
s
(ou
tlie
rs):
no
.
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
#4
Can
tid
ad d
e va
riab
les:
4 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
, rad
iaci
ón
so
lar
y
pre
cip
itac
ión
. C
anti
dad
de
regi
stro
s:
tod
os
los
del
dat
aset
. D
ato
s fa
ltan
tes
(mis
sin
g):
no
. V
alo
res
atíp
ico
s
(ou
tlie
rs):
sí.
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
#3
Can
tid
ad d
e va
riab
les:
4 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
, rad
iaci
ón
so
lar
y
pre
cip
itac
ión
. C
anti
dad
de
regi
stro
s:
tod
os
los
del
dat
aset
. D
ato
s fa
ltan
tes
(mis
sin
g):
sí.
Val
ore
s at
ípic
os
(ou
tlie
rs):
no
.
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Cri
teri
o d
e e
valu
ació
n
Eucl
idia
na
Dav
is-B
ou
ldin
Cri
teri
o d
e e
valu
ació
n
Dav
is-B
ou
ldin
Cri
teri
o d
e d
ista
nci
a
46 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
En la tabla anterior se observa que hay escenarios formados por tres y cuatro variables.
Esto es debido a que la variable precipitación está constituida en un alto porcentaje por
datos con valor cero ya que las lluvias no se presentan las 24 horas del día al igual que
tampoco son frecuentes en la región, por lo tanto, evaluar un algoritmo con un dataset que
contiene un atributo con cientos de miles de instancias con valor cero podría generar
resultados diferentes a aquellas ejecuciones en donde la cantidad de ceros es baja, por lo
que se determina que llevar a cabo escenarios con datasets cuyos atributos contienen o
no altas proporciones de ceros es importante para la evaluación del comportamiento de
los algoritmos. Por otro lado, se utilizan todas las instancias de los dataset al determinar
en la literatura que K-means permite procesar grandes cantidades de instancias con
facilidad y rapidez gracias a su simplicidad y eficiencia (Aggarwal & Reddy, 2013; Khedairia
& Khadir, 2012).
4.4.2 K-medoids
Para el algoritmo particionado como K-medoids se han establecido 5 escenarios que
contienen un valor de K igual a 2,3 y 5. Esto significa que este algoritmo estará presente
con 45 tratamientos (tres por cada valor de K y para cada uno de los cinco escenarios)
para cada estación meteorológica. Al ser tres estaciones climáticas implica que en total
son 135 tratamientos de ejecución para K-medoids durante la experimentación.
La tabla 6 expone la creación y establecimiento de los escenarios para el algoritmo
particionado K-medoids:
47
TABLA 6. Escenarios de trabajo para el algoritmo K-medoids.
Trat
amie
nto
No
rmal
izac
ión
Re
du
cció
n d
e
dim
en
sio
nal
idad
Nú
me
ro d
e
ite
raci
on
es
Trat
amie
nto
No
rmal
izac
ión
Re
du
cció
n d
e
dim
en
sio
nal
idad
Nú
me
ro d
e
ite
raci
on
es
Trat
amie
nto
No
rmal
izac
ión
Re
du
cció
n d
e
dim
en
sio
nal
idad
Nú
me
ro d
e
ite
raci
on
es
1.1
NO
NO
10
01
.1N
ON
O1
00
1.1
NO
NO
10
0
1.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
1.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
1.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
1.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
1.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
1.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
2.1
NO
NO
10
02
.1N
ON
O1
00
2.1
NO
NO
10
0
2.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
2.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
2.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
2.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
2.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
2.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
3.1
NO
NO
10
03
.1N
ON
O1
00
3.1
NO
NO
10
0
3.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
3.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
3.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
3.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
3.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
3.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
4.1
NO
NO
10
04
.1N
ON
O1
00
4.1
NO
NO
10
0
4.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
4.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
4.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
4.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
4.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
4.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
5.1
NO
NO
10
05
.1N
ON
O1
00
5.1
NO
NO
10
0
5.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
5.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
5.2
Ran
ge-
tran
sfo
rmat
ion
NO
10
00
5.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
5.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
5.3
Z-
tran
sfo
rmat
ion
PC
A c
on
3
com
po
nen
tes
10
Cri
teri
o d
e d
ista
nci
aC
rite
rio
de
eva
luac
ión
Cri
teri
o d
e d
ista
nci
aC
rite
rio
de
eva
luac
ión
#1
Can
tid
ad d
e va
riab
les:
3 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
y r
adia
ció
n s
ola
r. C
anti
dad
de
regi
stro
s: 1
0.0
00
. D
ato
s fa
ltan
tes
(mis
sin
g):
sí.
Val
ore
s at
ípic
os
(ou
tlie
rs):
sí.
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Esce
nar
ios
Estr
ate
gia
de
clustering
par
a K
-me
do
ids
(agr
up
amie
nto
par
tici
on
ado
)
K=2
K=3
K=5
Cri
teri
o d
e d
ista
nci
aC
rite
rio
de
eva
luac
ión
Eucl
idia
na
Dav
is-B
ou
ldin
#3
Can
tid
ad d
e va
riab
les:
4 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
, rad
iaci
ón
so
lar
y
pre
cip
itac
ión
. C
anti
dad
de
regi
stro
s:
10
.00
0.
Dat
os
falt
ante
s (m
issi
ng)
: sí.
Val
ore
s at
ípic
os
(ou
tlie
rs):
no
.
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
#2
Can
tid
ad d
e va
riab
les:
3 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
y r
adia
ció
n s
ola
r. C
anti
dad
de
regi
stro
s: 1
0.0
00
. D
ato
s fa
ltan
tes
(mis
sin
g):
no
. V
alo
res
atíp
ico
s
(ou
tlie
rs):
no
.
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
#5
Can
tid
ad d
e va
riab
les:
4 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
, rad
iaci
ón
so
lar
y
pre
cip
itac
ión
. C
anti
dad
de
regi
stro
s:
10
.00
0.
Dat
os
falt
ante
s (m
issi
ng)
: n
o.
Val
ore
s at
ípic
os
(ou
tlie
rs):
no
.
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
#4
Can
tid
ad d
e va
riab
les:
4 T
ipo
de
vari
able
s: t
emp
erat
ura,
hu
med
ad
rela
tiva
, rad
iaci
ón
so
lar
y
pre
cip
itac
ión
. C
anti
dad
de
regi
stro
s:
10
.00
0.
Dat
os
falt
ante
s (m
issi
ng)
: n
o.
Val
ore
s at
ípic
os
(ou
tlie
rs):
sí.
Eucl
idia
na
Dav
is-B
ou
ldin
Eucl
idia
na
Dav
is-B
ou
ldin
48 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
En la tabla anterior se observa que existen escenarios con una cantidad de instancias
pequeña a comparación del tamaño original del dataset. Esto se ha determinado con base
a la literatura que expone que K-medoids al ser muy robusto no es adecuado para grandes
conjuntos de datos (Aggarwal & Reddy, 2013). También se establecen escenarios que no
contienen la variable precipitación, esto con el objetivo de ver el comportamiento cuando
no se tiene en el dataset un atributo con grandes cantidades de ceros.
4.4.3 Aglomerativo con el método Linkage-complete
Para el algoritmo de agrupamiento jerárquico aglomerativo se aplicó el método de Enlace
Completo (Linkage-complete) y se han establecido 5 escenarios para cada estación
climática. Al ser tres estaciones climáticas implica que en total son 45 tratamientos de
ejecución (tres tratamientos por cada escenario) para este algoritmo jerárquico durante la
experimentación. En vista de que este algoritmo no requiere un valor previo de número de
clústeres (k), no es necesario repetir los escenarios para una misma estación climática.
La tabla 7 expone la creación y establecimiento de los escenarios para el algoritmo
jerárquico:
49
TABLA 7. Escenarios de trabajo para el algoritmo aglomerativo con el método de enlace
completo (Linkage-Complete).
Tratamiento Normalización
1.1 NO
1.2Range-
transformation
1.3Z-
transformation
2.1 NO
2.2Range-
transformation
2.3Z-
transformation
3.1 NO
3.2Range-
transformation
3.3Z-
transformation
4.1 NO
4.2Range-
transformation
4.3Z-
transformation
5.1 NO
5.2Range-
transformation
5.3Z-
transformation
Cantidad de variables: 3 Tipo de
variables: temperatura, humedad
relativa y radiación solar. Cantidad de
registros: 5.000. Datos faltantes
(missing): sí. Valores atípicos
(outliers): sí.
Euclidiana
Escenarios
Criterio de distancia
Estrategia de clustering para agrupamiento jerárquico
aglomerativo (con método Linkage-complete)
#1
#5
Cantidad de variables: 4 Tipo de
variables: temperatura, humedad
relativa, radiación solar y
precipitación. Cantidad de registros:
5.000. Datos faltantes (missing): no.
Valores atípicos (outliers): no.
Euclidiana
#4
Cantidad de variables: 4 Tipo de
variables: temperatura, humedad
relativa, radiación solar y
precipitación. Cantidad de registros:
5.000. Datos faltantes (missing): no.
Valores atípicos (outliers): sí.
Euclidiana
#3
Cantidad de variables: 4 Tipo de
variables: temperatura, humedad
relativa, radiación solar y
precipitación. Cantidad de registros:
5.000. Datos faltantes (missing): sí.
Valores atípicos (outliers): no.
Euclidiana
#2
Cantidad de variables: 3 Tipo de
variables: temperatura, humedad
relativa y radiación solar. Cantidad de
registros: 5.000. Datos faltantes
(missing): no. Valores atípicos
(outliers): no.
Euclidiana
50 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
En la tabla anterior se observa que existen escenarios con una cantidad de instancias
menor a comparación del tamaño original del dataset. Esto se ha determinado con base a
la literatura científica que expone que utilizar una cantidad de instancias tan alta como
10.000 ejemplos para agrupamiento jerárquico puede ser inapropiado (Arroyo et al., 2017).
Además, su principal inconveniente es su complejidad computacional que hace que la
agrupación jerárquica sea prácticamente útil solo para conjuntos de datos pequeños
(Aggarwal & Reddy, 2013). Por otra parte, se empleó el algoritmo aglomerativo con enlace
completo (Linkage-complete) basados en la revisión bibliográfica como uno de los más
utilizados y tomando en consideración las opiniones de autores quienes manifiestan que
enlace completo produce grupos más razonables y dendrogramas mejor formados en el
sentido de que las secuencias de datos de entrada se distribuyen de manera más uniforme
en las agrupaciones de salida (Aggarwal & Reddy, 2013).
Para las tres anteriores tablas que definen los escenarios para cada uno de los algoritmos,
es importante aclarar que los tratamientos son alternativas que se le da a cada escenario
para que éste pueda ofrecerle al algoritmo tres posibles variaciones para ver posteriores
resultados y comportamientos.
Con base en lo anterior, la cantidad de escenarios para la experimentación queda
establecida de la siguiente manera:
TABLA 8. Cantidad de escenarios para los algoritmos de agrupamiento.
4.5 Diseño computacional de los escenarios
Para la evaluación de algoritmos no supervisados con el uso de datos climáticos se llevó
a cabo el diseño y preparación de escenarios que tendrán implícitos una variedad de
métricas y características con las cuales serán evaluados los tres algoritmos de
agrupamiento definidos previamente. Los escenarios son ambientes de trabajo en donde
los algoritmos serán ejecutados con un conjunto de datos para evaluar posteriormente sus
resultados y desempeños.
4.5.1 Desarrollo computacional de los escenarios
Hoy en día, diversos softwares de minería de datos están disponibles para su uso como
Rapid Miner, Weka, KNIME, R, Orange, Tanagra, entre otros. Estas herramientas proveen
un conjunto de utilidades que permiten contribuir al análisis de datos, visualización de
datos, clustering, análisis predictivos, y demás objetivos que se tengan con un conjunto de
Cisne PNNN: Cantidad
de escenarios
Hospital de Caldas:
Cantidad de
escenarios
Hospital de Villamaría:
Cantidad de escenarios
K-means 5 5 5 1 16
K-medoids 5 5 5 1 16
Aglomerativo 5 5 5 1 16
48
Algoritmo
Estación climáticaEscenarios bajo
computación
paralela
TOTAL DE ESCENARIOS
51
datos. Por las posibilidades que ofrece, para la experimentación se hizo uso de Rapid
Miner.
Rapid Miner es un software de minería de datos empleado para el análisis de un conjunto
de datos a través del uso de diversidad de operadores, herramientas y funcionalidades que
ofrece. Ha sido utilizado por la comunidad científica en temáticas ambientales (Lausch,
Schmidt, & Tischendorf, 2015; Naik & Samant, 2016; Obradovic, Bjelica, Petrovic, Mihic, &
Todorovic, 2016; Pitchayadejanant & Nakpathom, 2017; Yadav et al., 2015). Fue
desarrollado por Ralf Klinkenberg, Ingo Mierswa y Simon Fischer en el 2001 y era conocido
anteriormente como YALE (Yet Another Learning Environment) que traduce a : Otro
ambiente de aprendizaje (Yadav et al., 2015). Es un software open Source implementado
en Java cuyo enfoque modular está diseñado para llevar en ejecución problemas incluso
muy complejos (Naik & Samant, 2016) a través de anidar operadores y permitiendo así
resolver gran cantidad de problemas de aprendizaje. Rapid Miner emplea XML para el
representar conocimiento provisto. Además, tiene a disposición diversidad de operadores
flexibles que permiten la entrada y salida de datos y soportado por más de 100 esquemas
de aprendizaje para tareas de clasificación, regresión, modelado estadístico,
preprocesamiento de datos, análisis de negocios, optimización, y en este caso, de
agrupamiento (Yadav et al., 2015).
Se optó por usar Rapid Miner, ante la versatilidad y opciones que permitía, para diferentes
escenarios. Por otro lado, la confianza que genera por su probada efectividad. Estas dos
razones podrían generar dudas en el uso de librerías independientes.
Por lo tanto, se usó Rapid Miner (versión 9.2) para la creación de los escenarios y la
ejecución de los algoritmos en ellos. La figura 9 muestra el diseño del proceso que ejecuta
todos escenarios con Rapid Miner.
52 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 9. Diseño del proceso para los escenarios de trabajo con Rapid Miner.
El proceso está conformado por ocho operadores explicados a continuación:
1. Dataset, el operador que contiene el conjunto de instancias de las estaciones
climáticas.
2. Replace missing values, el operador que reemplazará los valores vacíos por un
valor numérico para mejorar el procesamiento del dataset.
3. Selección de atributos, el operador que determinará la cantidad y tipo de variables
dependiendo del escenario de trabajo a utiliza.
4. Normalización, el operador que activará el proceso de normalizar los datos.
5. PCA, el operador encargado de activar la reducción de dimensionalidad para los
atributos del dataset.
6. Clustering, el operador que se encarga de ejecutar el algoritmo de agrupamiento.
Es el corazón del proceso ejecutado sobre el dataset y el cual es evaluado
posteriormente.
7. Performance, es el operador que evalúa el rendimiento del algoritmo. No aplica
para algoritmos jerárquicos porque éste mide la calidad de formación de los
clústeres.
53
8. Log, es un operador que registra y almacena las estadísticas de la ejecución del
proceso y del algoritmo, tanto a nivel de hardware como de software.
4.5.2 Desarrollo de escenarios para computación paralela
La computación paralela es una forma de computación por medio de la cual muchas tareas
o instrucciones son ejecutadas al mismo tiempo. El principio de la computación paralela es
usar múltiples procesadores en paralelo para resolver problemas de manera más rápida y
efectiva que con un solo procesador, y con un consumo de energía menor (Oshana, 2015).
Por lo tanto, llevar a cabo unos escenarios de computación paralela permitirá conocer el
comportamiento de los algoritmos al ejecutarse de forma simultánea una variedad de
tareas para observar posteriormente lo que ocurre con las evaluaciones de desempeño y
rendimiento.
Para el desarrollo de estos escenarios se hace uso de una licencia de prueba empresarial
de Rapid Miner que ofrece el uso de 4 procesadores en vez de uno solo. Esta licencia solo
está vigente por 30 días debido a que la adquisición de la licencia tiene un costo de $5.000
dólares al año (https://rapidminer.com/pricing). Para obtener un trial de 30 días fue
necesario hablar con una Especialista de Marketing de Rapid Miner y explicarle los motivos
y razones por los cuales se solicitaba esta demo, argumentándole el motivo académico, el
tipo de investigación y lo que se quería realizar, pues estas demos de licencias
empresariales no son dadas con facilidad a los usuarios. Con el acceso a cuatro
procesadores lógicos se pudo desarrollar escenarios con ejecución simultánea donde cada
proceso tendrá un subproceso con varios algoritmos agrupados según su afinidad, y cada
tarea (u operador) equivaldrá a tener un valor de K diferente para cada algoritmo
particionado, y en el caso del algoritmo de agrupamiento jerárquico será una cantidad de
instancias diferentes para cada dataset. En términos generales, se podrán ejecutar varios
escenarios de trabajo simultáneos para un mismo algoritmo dentro de un único subproceso
para un proceso general del software.
La figura 10 muestra el diseño del proceso que ejecuta Rapid Miner empleando
computación paralela:
54 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 10. Diseño del proceso para los escenarios de trabajo con Rapid Miner empleando
computación paralela (Fuente: El autor del trabajo).
El proceso está conformado por tres operadores explicado a continuación:
1. Dataset, el operador que contiene el conjunto de instancias de las estaciones
climáticas.
2. Loop, el operador que ejecuta varias tareas en su interior y es un subproceso del
proceso mayor de ejecución.
3. Log, es un operador que registra y almacena las estadísticas de la ejecución del
proceso, subproceso y del algoritmo, tanto a nivel de hardware como de software.
Dentro del operador loop se encuentra el diseño de paralelización, presentado en la figura
11:
55
Figura 11. Diseño del subproceso loop para los escenarios de trabajo con Rapid Miner
empleando computación paralela.
El subproceso está conformado por cuatro operadores:
1. Multiply, es un multiplexor que lo que recibe como entrada lo reparte en cuantas
salidas tenga definidas.
2. Filtro de rango, para definir qué rango de instancias serán empleadas en el
procesamiento.
3. Clustering, el operador que se encarga de ejecutar el algoritmo de agrupamiento.
Es el corazón del subproceso quien ejecuta el dataset y el cual es evaluado
posteriormente.
4. Performance, es el operador que evalúa el rendimiento del algoritmo. No aplica
para algoritmos jerárquicos.
4.6 Características del hardware
Para la experimentación se utilizó un computador portátil Lenovo con las siguientes
características: Intel Core i7-6700HQ (8 CPU’s) a 2.6GHz, memoria RAM de 12GB DDR4
a 2133MHz, disco duro de 1TB a 5400 rpm, tarjeta de video NVIDIA GeForce GTX 960M
de 4GB y sistema operativo Windows 10 Home a 64 bits.
56 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
5. Marco experimental y resultados
A continuación, se muestran en detalle los resultados obtenidos de la ejecución de cada
uno de los algoritmos de agrupamiento en cada uno de los escenarios establecidos, se
explican las tareas llevadas a cabo y el análisis realizado.
Con relación al desempeño de hardware, las tablas muestran cinco valores que
corresponden a lo siguiente:
Tiempo de ejecución, es el tiempo que tarda el algoritmo en llevar a cabo su ejecución.
Tiempo, es el tiempo que tarda todo el proceso de machine learning en ejecutarse.
Memoria RAM, es el consumo de memoria de acceso aleatorio, o conocida como RAM.
Es el consumo que genera la ejecución del algoritmo de agrupamiento.
Tiempo de CPU, es el tiempo que tarda todo el proceso de machine learning en ejecutarse
para la CPU. (tiempo de todo el proceso, desde que entran los datos al flujo hasta que se
obtiene el log).
Tiempo de ejecución de CPU, es el tiempo que tarda el algoritmo en ejecutarse para la
CPU. (tiempo de solamente el algoritmo de agrupamiento).
5.1 Algoritmo K-means
Para la estación Hospital de Villamaría se diseñaron 5 escenarios de trabajo, cada uno con
3 tratamientos diferentes, para un valor K igual a 2, 3 y 5. K-means fue ejecutado en cada
uno de ellos.
Para la estación Hospital de Villamaría con K=2, se obtuvieron los resultados mostrados
en la tabla 9:
57
TABLA 9. Resultados de K-means con K=2 para estación Hospital de Villamaría.
Clú
ste
r 0
%C
lúst
er
1%
1.1
523.
411
523.
378
100,
033
0,0
-0.2
734.
764
4.92
22.
033.
904.
144
359.
375.
000
203.
125.
000
1.2
523.
411
126.
466
24,2
396.
945
75,8
-0.6
436.
884
7.08
12.
219.
269.
632
468.
750.
000
281.
250.
000
1.3
523.
411
408.
926
78,1
114.
485
21,9
-0.6
584.
481
4.65
51.
660.
873.
048
312.
500.
000
125.
000.
000
2.1
430.
634
86.6
7120
,134
3.96
379
,9-0
.469
6.04
86.
178
3.09
3.27
7.64
029
6.87
5.00
017
1.87
5.00
0
2.2
430.
634
128.
778
29,9
301.
856
70,1
-0.8
127.
783
7.92
72.
208.
655.
688
296.
875.
000
140.
625.
000
2.3
430.
634
132.
287
30,7
298.
347
69,3
-0.8
114.
869
5.02
73.
934.
525.
592
328.
125.
000
171.
875.
000
3.1
520.
819
427.
583
82,1
93.2
3617
,9-0
.456
7.05
97.
237
3.83
3.50
8.71
229
6.87
5.00
012
5.00
0.00
0
3.2
520.
819
395.
606
76,0
125.
213
24,0
-0.7
849.
977
10.1
694.
800.
722.
456
343.
750.
000
140.
625.
000
3.3
520.
819
127.
177
24,4
393.
642
75,6
-0.7
935.
061
5.23
05.
120.
613.
720
312.
500.
000
140.
625.
000
4.1
430.
634
86.6
7120
,134
3.96
379
,9-0
.469
5.72
65.
903
1.68
5.90
0.29
621
8.75
0.00
078
.125
.000
4.2
430.
634
128.
778
29,9
301.
856
70,1
-0.8
128.
940
9.09
52.
844.
027.
936
234.
375.
000
140.
625.
000
4.3
430.
634
298.
402
69,3
132.
232
30,7
-0.7
673.
976
4.11
13.
136.
620.
896
234.
375.
000
93.7
50.0
00
5.1
430.
634
86.6
7120
,134
3.96
379
,9-0
.469
6.22
26.
378
4.17
5.67
5.57
625
0.00
0.00
093
.750
.000
5.2
430.
634
128.
778
29,9
301.
856
70,1
-0.8
128.
886
9.07
65.
328.
579.
768
281.
250.
000
93.7
50.0
00
5.3
430.
634
298.
402
69,3
132.
232
30,7
-0.7
673.
904
4.05
14.
115.
358.
056
281.
250.
000
140.
625.
000
#1 #2 #3 #4 #5
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
De
sem
pe
ño
de
l har
dw
are
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Trat
amie
nto
Esce
nar
ios
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
58 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Para la estación Hospital de Villamaría con K=3, se obtuvieron los resultados mostrados
en la tabla 10:
TABLA 10. Resultados de K-means con K=3 para estación Hospital de Villamaría.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%
1.1
523.
411
523.
374
100,
016
0,0
210,
0-0
.454
4.02
84.
173
3.12
7.64
2.93
626
5.62
5.00
010
9.37
5.00
0
1.2
523.
411
241.
672
46,2
194.
955
37,2
86.7
8416
,6-0
.650
10.6
9810
.873
3.22
5.22
8.72
034
3.75
0.00
017
1.87
5.00
0
1.3
523.
411
408.
931
78,1
330,
011
4.44
721
,9-0
.530
6.87
87.
107
3.92
1.18
5.40
834
3.75
0.00
093
.750
.000
2.1
430.
634
40.9
169,
529
7.30
369
,092
.415
21,5
-0.4
348.
186
8.32
44.
740.
428.
440
312.
500.
000
187.
500.
000
2.2
430.
634
100.
969
23,4
276.
204
64,1
53.4
6112
,4-0
.938
17.6
4717
.794
2.32
3.63
8.47
231
2.50
0.00
017
1.87
5.00
0
2.3
430.
634
87.6
8620
,428
6.31
466
,556
.634
13,2
-1.0
045.
815
5.97
64.
314.
778.
744
218.
750.
000
109.
375.
000
3.1
520.
819
380.
290
73,0
98.7
2819
,041
.801
8,0
-0.4
3319
.436
19.6
323.
924.
269.
616
406.
250.
000
218.
750.
000
3.2
520.
819
360.
192
69,2
50.4
159,
711
0.21
221
,2-0
.904
24.9
0725
.336
3.99
8.96
1.87
262
5.00
0.00
020
3.12
5.00
0
3.3
520.
819
393.
656
75,6
127.
162
24,4
10,
0-0
.529
6.74
06.
921
2.15
1.67
7.74
426
5.62
5.00
010
9.37
5.00
0
4.1
430.
634
40.9
169,
529
7.30
369
,092
.415
21,5
-0.4
348.
956
9.09
14.
436.
271.
224
218.
750.
000
78.1
25.0
00
4.2
430.
634
53.4
6112
,410
0.96
923
,427
6.20
464
,1-0
.938
21.7
9321
.974
2.59
3.87
2.72
028
1.25
0.00
093
.750
.000
4.3
430.
634
132.
239
30,7
298.
394
69,3
10,
0-0
.512
5.90
56.
075
3.88
0.93
8.82
423
4.37
5.00
010
9.37
5.00
0
5.1
430.
634
40.9
169,
529
7.30
369
,092
.415
21,5
-0.4
348.
647
8.79
94.
036.
573.
240
234.
375.
000
109.
375.
000
5.2
430.
634
53.4
6112
,410
0.96
923
,427
6.20
464
,1-0
.938
21.4
6521
.652
4.02
6.73
4.90
421
3.50
0.00
014
0.62
5.00
0
5.3
430.
634
132.
239
30,7
298.
394
69,3
10,
0-0
.512
5.65
15.
789
5.61
1.71
5.32
820
3.12
5.00
078
.125
.000
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Agr
up
amie
nto
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
59
Para la estación Hospital de Villamaría con K=5, se obtuvieron los resultados mostrados
en la tabla 11:
TABLA 11. Resultados de K-means con K=5 para estación Hospital de Villamaría.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%C
lúst
er
3%
Clú
ste
r 4
%
1.1
523.
411
523.
373
100,
010
0,0
100,
012
0,0
60,
0-0
.427
5.56
25.
715
3.45
6.14
8.08
826
5.62
5.00
010
9.37
5.00
0
1.2
523.
411
115.
491
22,1
38.9
437,
410
0.38
219
,280
.348
15,4
188.
247
36,0
-0.8
6219
.577
19.7
902.
508.
987.
032
375.
000.
000
171.
875.
000
1.3
523.
411
223.
656
42,7
37.0
077,
133
0,0
81.4
0515
,618
1.31
034
,6-0
.623
9.11
29.
311
2.52
1.01
9.12
035
9.37
5.00
015
6.25
0.00
0
2.1
430.
634
26.5
656,
227
0.35
762
,861
.231
14,2
49.7
0611
,522
.775
5,3
-0.4
9722
.976
23.1
232.
412.
584.
056
359.
375.
000
203.
125.
000
2.2
430.
634
93.3
1721
,719
8.22
146
,044
.557
10,3
60.0
6713
,934
.472
8,0
-0.8
9023
.996
24.1
514.
166.
817.
320
343.
750.
000
187.
500.
000
2.3
430.
634
98.4
5322
,930
.048
7,0
46.2
2410
,757
.809
13,4
198.
100
46,0
-0.9
167.
683
7.83
93.
956.
284.
576
265.
625.
000
109.
375.
000
3.1
520.
819
348.
721
67,0
67.2
9312
,923
.456
4,5
27.8
705,
453
.479
10,3
-0.4
9024
.136
24.3
522.
632.
539.
208
437.
500.
000
250.
000.
000
3.2
520.
819
188.
235
36,1
65.5
3712
,649
.100
9,4
180.
372
34,6
37.5
757,
2-0
.823
22.0
7522
.349
3.48
5.96
1.28
043
7.50
0.00
017
1.87
5.00
0
3.3
520.
819
214.
432
41,2
190.
419
36,6
63.3
5312
,21
0,0
52.6
1410
,1-0
.718
11.9
8712
.350
4.94
6.39
5.59
253
1.25
0.00
017
1.87
5.00
0
4.1
430.
634
22.7
755,
327
0.35
762
,861
.231
14,2
49.7
0611
,526
.565
6,2
-0.4
9725
.440
25.6
671.
725.
702.
792
406.
250.
000
187.
500.
000
4.2
430.
634
60.0
7013
,944
.554
10,3
198.
221
46,0
93.3
1721
,734
.472
8,0
-0.9
8028
.568
28.7
685.
104.
033.
896
234.
375.
000
109.
375.
000
4.3
430.
634
48.6
3911
,31
0,0
215.
742
50,1
117.
486
27,3
48.7
6611
,3-0
.720
7.48
47.
654
3.39
7.83
8.84
028
1.25
0.00
093
.750
.000
5.1
430.
634
22.7
755,
327
0.35
762
,861
.231
14,2
49.7
0611
,526
.565
6,2
-0.4
9725
.802
25.9
733.
341.
342.
488
281.
250.
000
125.
000.
000
5.2
430.
634
60.0
7013
,944
.554
10,3
198.
221
46,0
93.3
1721
,734
.472
8,0
-0.8
9028
.403
28.5
855.
526.
369.
600
312.
500.
000
125.
000.
000
5.3
430.
634
48.6
3911
,31
0,0
215.
742
50,1
117.
486
27,3
48.7
6611
,3-0
.720
7.56
87.
729
2.75
7.93
7.94
426
5.62
5.00
010
9.37
5.00
0
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
60 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
A partir de lo mostrado en las tablas para el algoritmo K-means, según el criterio de
evaluación de clúster (índice de Davis-Bouldin), para K=2 el mejor índice está dado para
los tratamientos 2.2, 4.2 y 5.2, mientras que para K=3 y K=5 el mejor índice está dado por
los tratamientos 2.2, 2.3, 3.2, 4.2 y 5.2. Se aprecia que la normalización de un conjunto de
datos con Range-transformation obtiene la mejor evaluación de clúster para K=2, K=3 y
K=5, independiente de si se utilizan tres atributos (sin precipitación) o con cuatro atributos
(incluyendo precipitación).
Ahora bien, en lo concerniente al agrupamiento, visualmente se determina que para K=2
el escenario 2 es el que agrupa de manera más homogénea las instancias al observar los
tratamientos 2.2 y 2.3 con 29.9% - 70.1% y 30.7% - 69.3% en comparación con el resto de
los escenarios. Para K=3 el escenario 2 es el que agrupa de manera más homogénea las
instancias con un 23.4% - 64.1% - 12.4% para el tratamiento 2.2, y 20.4% - 66.5% - 13.2%
para el tratamiento 2.3. Para K=5, es también el escenario 2 quien agrupa de manera más
homogénea las instancias. Esto significa que el índice de Davis-Bouldin también indica el
mejor equilibrio de agrupación de instancias y que la normalización influye
considerablemente en estos resultados.
Las figuras 12 y 13 muestran el agrupamiento de instancias para el escenario 2 según el
índice de Davis-Bouldin. El atributo precipitación no está presente.
Figura 12. Agrupamiento para K-means entre temperatura VS radiación solar para K=3.
61
Figura 13. Agrupamiento para K-means entre humedad relativa VS radiación solar para
K=3.
Adentrando en la comprensión y análisis de la normalización, el índice de Davis-Bouldin
indica que los escenarios que aplicaron alguna técnica de normalización tuvieron la mejor
evaluación de clustering, como lo evidencian los tratamientos 2.2 y 2.3 para el escenario
2, 3.2 y 3.3 para el escenario 3, 4.2 y 4.3 para el escenario 4 y 5.2 y 5.3 para el escenario
5.
La Figura 14 muestra que la radiación solar es un atributo que genera el mayor arrastre de
las instancias al tener valores tan altos en la escala a comparación de los demás atributos,
lo cual se convierte en una desventaja. No obstante, la figura 15 evidencia cómo se
equilibran los agrupamientos al llevar las instancias a una escala entre 0 y 1, sin embargo,
con el atributo precipitación se presenta un arrastre de instancias, pero en este caso no es
su escala de valores sino la inmensa cantidad de ceros que contiene, aunque no afecta la
calidad del agrupamiento. Mientras que la figura 16 muestra mayor efectividad al balancear
la carga de los mayores agrupamientos, es decir, los agrupamientos se han dado
homogéneos sin que un atributo influya en la formación y arrastre de instancias. Todos con
un valor de K=5.
62 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 14. Agrupamiento con cuatro atributos para K-means sin normalización.
Figura 15. Agrupamiento con cuatro atributos para K-means normalizando con Range-
transformation.
63
Figura 16. Agrupamiento con cuatro atributos para K-means normalizando con Z-
transformation.
Con respecto a la reducción de dimensionalidad, se determinaron 3 componentes
principales con el objetivo de crear combinaciones lineales de las variables originales, por
lo que los cuatro atributos son transformados a tres nuevas variables, y se obtuvieron una
serie de resultados.
Para la figura 17 se observa que la mayoría de las instancias se aglomeran por encima del
eje x (valores positivos) y que la componente principal 1 tiene una dirección paralela al
mismo eje. No hay valores atípicos y los valores negativos en coordenadas (x,y) están
dados para una pequeña porción del clúster 1. El agrupamiento se da a partir de la
componente principal 1 según la observación de la gráfica.
Para la figura 18 se observa que la mayoría de las instancias están por debajo del eje x
(valores negativos) y que la componente principal 1 tiene una leve inclinación hacia la parte
superior derecha. Tampoco hay valores atípicos y los valores negativos en coordenadas
(x,y) están dados casi en la totalidad para el clúster 1. El agrupamiento no se determina
por ninguna de las tres componentes principales. Visualmente se determina que con
normalización los clústeres se forman mejor (más redondeados los agrupamientos).
64 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 17. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos sin
normalización para K=3 en K-means.
Figura 18. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos y
normalizando con Range-transformation para K=3 en K-means.
65
Por otro lado, lo que respecta al número de iteraciones, se obtuvieron a manera general
los siguientes resultados. Las tablas 12, 13 y 14 muestran los cálculos de los centroides
entre cada atributo VS el clúster. Los centroides permiten que las instancias se acerquen
a él según un patrón de similitud gracias a la distancia euclidiana (en este caso la distancia
empleada para la experimentación) para que los agrupamientos se puedan formar.
Tabla 12. Centroides calculados para K=3 con 1.000 iteraciones en K-means.
Tabla 13. Centroides calculados para K=3 con 100 iteraciones en K-means.
Tabla 14. Centroides calculados para K=3 con 10 iteración en K-means.
A nivel computacional los tiempos de ejecución del algoritmo son altos a medida que el
número de iteraciones es mayor, y es debido al ciclo de repetir los pasos en mayor
cantidad. Para una sola iteración la ejecución del algoritmo es muy rápida. No obstante, al
iterar más (diez veces más alto por cada escenario) el cálculo de los centroides permanece
igual para todos los clúster y atributos.
Con relación al desempeño de hardware, se obtuvieron los resultados mostrados en la
figura 19 cuyos tratamientos 1.2, 2.2, 4.2 y 5.2 son los que más tardan en ejecutarse para
el algoritmo, lo que significa que al iterar el algoritmo 1.000 veces lo hace más demorado
en términos computacionales. Los tratamientos 1.3, 2.3, 3.3, 4.3 y 5.3 al tener muy pocas
iteraciones hacen que el algoritmo se ejecute rápidamente.
66 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 19. Tiempo de ejecución de K-means para la estación Hospital de Villamaría.
La figura 20 muestra que los cinco escenarios tienen un consumo de memoria RAM similar
y se observa una tendencia de incremento por escenario que puede estar asociada al
aumento de atributos y a la cantidad de clústeres generados.
Figura 20. Consumo de memoria RAM de K-means para la estación Hospital de
Villamaría.
67
La figura 21 muestra que el tiempo de ejecución de CPU es irregular (no tiene una
tendencia o patrón) para los diferentes valores de K. Además, para los primeros
tratamientos de los tres primeros escenarios propuestos se observan elevados tiempos de
ejecución de CPU, y para los tratamientos de los escenarios 4 y 5 se observa disminución
de los tiempos de ejecución de CPU.
Figura 21. Tiempo de ejecución de CPU de K-means para la estación Hospital de
Villamaría.
Finalmente, los resultados anteriores arrojan para el algoritmo K-means en la estación
Hospital de Villamaría que para K=2, K=3 y K=5 el escenario con el mejor desempeño fue
el número 2 (dataset con todas las instancias y sin datos faltantes ni atípicos, y tres
atributos como temperatura, humedad relativa y radiación solar) porque en él se obtuvo las
mejores evaluaciones de clustering según el índice de Davis-Bouldin acorde a los
resultados de sus tratamientos.
Para la estación Hospital de Caldas se diseñaron 5 escenarios de trabajo y cada uno con
3 diferentes tratamientos para un valor K igual a 2, 3 y 5. K-means fue ejecutado en cada
uno de ellos, al igual que para la estación Hospital de Villamaría, con el fin de comparar
resultados con una estación climática que se encuentra a mayor altura sobre el nivel del
mar y con los mismos atributos para validar el comportamiento y confrontar si los
resultados tienen relación o igualdad con determinados aspectos.
Para la estación Hospital de Caldas con K=2, se obtuvieron los resultados mostrados en
la tabla 15:
68 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 15. Resultados de K-means con K=2 para estación Hospital de Caldas.
Clú
ste
r 0
%C
lúst
er
1%
1.1
535.
605
535.
604
100,
01
0,0
-0.0
002.
299
2.61
22.
333.
531.
112
593.
750.
000
281.
250.
000
1.2
535.
605
160.
633
30,0
374.
972
70,0
-0.7
157.
863
8.04
51.
115.
104.
408
312.
500.
000
156.
250.
000
1.3
535.
605
157.
143
29,3
378.
462
70,7
-0.7
175.
187
5.32
81.
312.
563.
032
250.
000.
000
109.
375.
000
2.1
530.
801
442.
611
83,4
88.1
9016
,6-0
.514
8.04
38.
184
2.61
0.12
9.46
425
0.00
0.00
010
9.37
5.00
0
2.2
530.
801
385.
988
72,7
144.
813
27,3
-0.9
328.
985
9.13
22.
178.
955.
064
312.
500.
000
171.
875.
000
2.3
530.
801
153.
104
28,8
377.
697
71,2
-0.9
285.
589
5.74
61.
191.
077.
624
250.
000.
000
125.
000.
000
3.1
535.
585
447.
155
83,5
88.4
3016
,5-0
.513
7.96
68.
138
2.59
2.27
9.95
228
1.25
0.00
010
9.37
5.00
0
3.2
535.
585
390.
921
73,0
144.
664
27,0
-0.9
3410
.998
11.1
552.
531.
601.
632
281.
250.
000
125.
000.
000
3.3
535.
585
382.
131
71,3
153.
454
28,7
-0.8
925.
113
5.25
43.
572.
928.
056
234.
375.
000
93.7
50.0
00
4.1
530.
801
442.
611
83,4
88.1
9016
,6-0
.514
8.60
08.
770
2.58
4.52
5.76
828
1.25
0.00
010
9.37
5.00
0
4.2
530.
801
385.
984
72,7
144.
817
27,3
-0.9
3311
.235
11.4
234.
659.
393.
576
312.
500.
000
125.
000.
000
4.3
530.
801
153.
182
28,9
377.
619
71,1
-0.8
915.
234
5.37
43.
812.
005.
904
312.
500.
000
171.
875.
000
5.1
530.
801
442.
611
83,4
88.1
9016
,6-0
.514
8.35
08.
507
4.25
1.40
6.20
834
3.75
0.00
017
1.87
5.00
0
5.2
530.
801
385.
984
72,7
144.
817
27,3
-0.9
3311
.405
11.5
654.
278.
010.
648
343.
750.
000
171.
875.
000
5.3
530.
801
153.
182
28,9
377.
619
71,1
-0.8
915.
405
5.54
64.
562.
623.
736
265.
625.
000
125.
000.
000
Trat
amie
nto
Esce
nar
ios
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
De
sem
pe
ño
de
l har
dw
are
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
#1 #2 #3 #4 #5
69
Para la estación Hospital de Caldas con K=3, se obtuvieron los resultados mostrados en
la tabla 16:
TABLA 16. Resultados de K-means con K=3 para estación Hospital de Caldas.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%
1.1
535.
605
535.
603
100,
01
0,0
10,
0-0
.000
2.53
12.
687
1.61
4.29
1.06
431
2.50
0.00
015
6.25
0.00
0
1.2
535.
605
78.6
1114
,720
7.69
538
,824
9.29
946
,5-0
.776
12.6
5312
.800
1.76
0.76
7.52
028
1.25
0.00
014
0.62
5.00
0
1.3
535.
605
378.
129
70,6
157.
475
29,4
10,
0-0
.478
6.50
46.
669
1.81
6.67
2.88
829
6.87
5.00
012
5.00
0.00
0
2.1
530.
801
369.
704
69,7
37.0
497,
012
4.04
823
,4-0
.437
8.82
78.
967
2.37
8.21
0.81
626
5.62
5.00
012
5.00
0.00
0
2.2
530.
801
335.
244
63,2
52.3
909,
914
3.16
727
,0-0
.954
20.6
2420
.780
3.46
0.59
6.52
840
6.25
0.00
025
0.00
0.00
0
2.3
530.
801
51.9
519,
834
7.14
265
,413
1.70
824
,8-1
.009
6.64
96.
789
3.29
1.46
8.88
831
2.50
0.00
017
1.87
5.00
0
3.1
535.
585
374.
110
69,9
37.1
536,
912
4.32
223
,2-0
.437
9.57
69.
732
4.33
8.76
0.69
631
2.50
0.00
015
6.25
0.00
0
3.2
535.
585
142.
009
26,5
52.4
689,
834
1.10
863
,7-0
.957
20.4
8620
.658
2.83
2.67
4.09
634
3.75
0.00
017
1.87
5.00
0
3.3
535.
585
381.
085
71,2
1.28
10,
215
3.21
928
,6-0
.748
7.18
07.
367
4.44
8.00
9.20
035
9.37
5.00
017
1.87
5.00
0
4.1
530.
801
369.
704
69,7
37.0
497,
012
4.04
823
,4-0
.437
9.76
99.
940
4.04
9.65
2.59
231
2.50
0.00
014
0.62
5.00
0
4.2
530.
801
335.
236
63,2
52.3
919,
914
3.17
427
,0-0
.955
23.9
3124
.103
4.46
0.51
8.96
839
0.62
5.00
021
8.75
0.00
0
4.3
530.
801
376.
423
70,9
153.
321
28,9
1.05
70,
2-0
.739
6.90
07.
032
4.37
7.87
5.89
625
0.00
0.00
010
9.37
5.00
0
5.1
530.
801
369.
704
69,7
37.0
497,
012
4.04
823
,4-0
.437
9.89
110
.047
2.68
1.80
9.53
631
2.50
0.00
015
6.25
0.00
0
5.2
530.
801
335.
236
63,2
52.3
919,
914
3.17
427
,0-0
.955
24.1
3324
.305
4.95
1.56
2.09
632
8.12
5.00
015
6.25
0.00
0
5.3
530.
801
376.
423
70,9
153.
321
28,9
1.05
70,
2-0
.739
6.53
26.
673
4.71
8.48
0.04
826
5.62
5.00
012
5.00
0.00
0
#5
Agr
up
amie
nto
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
70 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Para la estación Hospital de Caldas con K=5, se obtuvieron los resultados mostrados en
la tabla 17:
TABLA 17. Resultados de K-means con K=5 para estación Hospital de Caldas.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%C
lúst
er
3%
Clú
ste
r 4
%
1.1
535.
605
535.
598
100,
01
0,0
10,
01
0,0
40,
0-0
.129
4.01
94.
173
2.44
4.39
5.89
632
8.12
5.00
017
1.87
5.00
0
1.2
535.
605
80.0
7915
,012
6.69
723
,716
3.03
030
,433
.737
6,3
132.
062
24,7
-0.9
3528
.071
28.2
421.
670.
932.
016
421.
875.
000
250.
000.
000
1.3
535.
605
181.
294
33,8
111.
806
20,9
10,
019
6.94
836
,845
.556
8,5
-0.6
828.
773
8.93
41.
847.
093.
456
281.
250.
000
125.
000.
000
2.1
530.
801
329.
841
62,1
63.0
2811
,921
.093
4,0
89.7
4016
,927
.099
5,1
-0.4
8919
.969
20.1
413.
249.
132.
536
281.
250.
000
109.
375.
000
2.2
530.
801
143.
487
27,0
33.0
336,
221
5.77
040
,657
.216
10,8
81.2
9515
,3-0
.907
29.5
4629
.717
2.84
1.54
9.81
640
6.25
0.00
023
4.37
5.00
0
2.3
530.
801
145.
658
27,4
30.7
745,
821
6.74
640
,857
.604
10,9
80.0
1915
,1-0
.958
8.81
28.
968
1.61
6.40
0.37
632
8.12
5.00
017
1.87
5.00
0
3.1
535.
585
27.1
905,
133
4.11
062
,421
.143
3,9
63.1
7811
,889
.964
16,8
-0.4
8922
.345
22.5
482.
579.
633.
128
359.
375.
000
156.
250.
000
3.2
535.
585
81.7
6315
,321
2.56
139
,714
9.97
728
,033
.245
6,2
58.0
3910
,8-0
.906
24.8
8425
.056
3.21
7.50
8.90
437
5.00
0.00
020
3.12
5.00
0
3.3
535.
585
182.
880
34,1
249.
404
46,6
1.28
10,
258
.176
10,9
43.8
448,
2-0
.818
9.56
49.
736
3.83
7.78
7.88
832
8.12
5.00
015
6.25
0.00
0
4.1
530.
801
329.
841
62,1
63.0
2811
,921
.093
4,0
89.7
4016
,927
.099
5,1
-0.4
8922
.929
23.1
325.
412.
221.
040
375.
000.
000
171.
875.
000
4.2
530.
801
57.2
1510
,821
5.76
440
,681
.295
15,3
143.
494
27,0
33.0
336,
2-0
.909
34.5
4534
.733
3.52
6.05
3.73
637
5.00
0.00
018
7.50
0.00
0
4.3
530.
801
182.
661
34,4
44.6
238,
460
.274
11,4
1.54
00,
324
1.70
345
,5-0
.827
9.04
79.
204
3.09
1.45
4.09
631
2.50
0.00
015
6.25
0.00
0
5.1
530.
801
329.
841
62,1
63.0
2811
,921
.093
4,0
89.7
4016
,927
.099
5,1
-0.4
8922
.847
23.0
974.
849.
954.
584
453.
125.
000
203.
125.
000
5.2
530.
801
57.2
1510
,821
5.76
440
,681
.295
15,3
143.
494
27,0
33.0
336,
2-0
.909
34.0
3034
.218
2.81
7.04
4.00
039
0.62
5.00
020
3.12
5.00
0
5.3
530.
801
182.
661
34,4
44.6
238,
460
.274
11,4
1.54
00,
324
1.70
345
,5-0
.827
9.18
79.
359
5.17
2.18
6.93
632
8.12
5.00
015
6.25
0.00
0
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
71
Según el índice de evaluación de clustering (Davis-Bouldin) el mejor escenario para K=2
está dado por el escenario 2. Para K=3 y K=5 el mejor escenario es también el escenario
2. En esta estación con K=2 y normalizando con Range-transformation y con tres atributos
(excluyendo precipitación), se genera el mejor resultado, mientras que para K=3 y K=5 se
obtiene el mejor resultado normalizando con Z-transformation, también excluyendo del
dataset al atributo precipitación. El escenario con los mejores resultados, una vez más, es
determinado por la evaluación de agrupamiento que provee el índice de Davis-Bouldin.
Con respecto al agrupamiento, para K=2 se observa de manera visual en la tabla 15 que
el mejor equilibrio de instancias agrupadas está dado por el escenario 2 con el 72.7% y el
27.3% para el tratamiento 2.2, y a su vez, con el 28.8% y el 71.2% para el tratamiento 2.3.
En los demás escenarios se observa mayor desbalance. Lo mismo ocurre para K=3 y K=5.
Este resultado valida el ejercicio que la normalización influye notablemente en el
agrupamiento, en especial la técnica de Z-transformation y que el criterio de evaluación de
Davis-Bouldin reafirma lo que visualmente se interpreta en los agrupamientos obtenidos.
Acerca de la normalización, el índice de Davis-Bouldin indica que los escenarios que
aplicaron alguna técnica de normalización tuvieron la mejor evaluación de clustering, como
lo evidencian los tratamientos 2.2 y 2.3 para el escenario 2. Este resultado confirma el
mismo antecedente evidenciado para la estación Hospital de Villamaría.
La figura 22 evidencia el agrupamiento sin normalización en donde el atributo radiación
solar es quien genera la construcción de los clústeres, mientras que en la figura 23 la
normalización permite llevar a menor escala todas las instancias de forma que ya no existe
un atributo que imponga el arrastre al momento de agrupar y solamente el clúster 1
sobresale con respecto a los demás, lo cual se interpreta que agrupa los valores por
encima de 0 (ocurrencia de lluvias), mientras que el resto de valores se mantiene en 0 (no
hubo lluvias) y ya se conoce que este atributo posee una inmensa cantidad de ceros debido
a que la estación climática está ubicada en un lugar donde las lluvias no son constantes y
de mucha frecuencia. Este resultado es muy similar al de la anterior estación climática
(Hospital de Villamaría) validando entonces su comportamiento.
72 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 22. Agrupamiento con cuatro atributos y K=5 para K-means sin normalización.
Figura 23. Agrupamiento con cuatro atributos y K=5 para K-means y normalizando con Z-
transformation.
73
Con relación a la reducción de dimensionalidad, se determinaron también 3 componentes
principales con el objetivo de crear combinaciones lineales de las variables originales, por
lo que los cuatro atributos son transformados a tres nuevas variables (al igual que para la
estación Hospital de Villamaría), y se obtuvo los siguientes resultados mostrados en las
figuras 24 y 25.
Para la figura 24 se observa que la mayoría de las instancias se aglomeran por encima del
eje x (valores positivos) y que la componente principal 1 tiene una dirección paralela al
mismo eje. No hay valores atípicos en cantidad y los valores negativos en coordenadas
(x,y) están dados para una pequeña porción del clúster 0. El agrupamiento se da a partir
de la componente principal 1 según la observación de la gráfica, al ver cómo se corta cada
clúster de forma vertical.
Para la figura 25 se observa que la mayoría de las instancias están por debajo del eje x
(valores negativos) y que la componente principal 1 tiene una leve inclinación hacia la parte
superior derecha. Tampoco hay valores atípicos en cantidad y los valores negativos en
coordenadas (x,y) están dados casi en la totalidad para el clúster 0. El agrupamiento no se
determina por ninguna de las tres componentes principales. Visualmente se determina que
con normalización los clústeres se forman mejor (más redondeados los agrupamientos).
Al observar esto, se encuentra que el resultado es casi igual a la estación climática Hospital
de Villamaría, reafirmando un igual comportamiento.
Figura 24. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos sin
normalización para K=3 en K-means.
74 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 25. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos y
normalizando con Range-transformation para K=3 en K-means.
Por otro lado, lo que respecta al número de iteraciones, se obtuvieron a manera general
los siguientes resultados mostrados en las tablas 18, 19 y 20.
Muestran que el cálculo de los centroides es casi igual para todos los escenarios sin
importar la cantidad de iteraciones. Esto valida el resultado de la estación Hospital de
Villamaría, en donde, a pesar de que mientras aumentan las iteraciones, mayor es el
tiempo de ejecución del algoritmo, sin embargo, el cálculo no se ve afectado, u optimizado
en este caso.
Tabla 18. Centroides calculados para K=5 con 1.000 iteraciones en K-means.
75
Tabla 19. Centroides calculados para K=5 con 100 iteraciones en K-means.
Tabla 20. Centroides calculados para K=5 con 10 iteración en K-means.
En el desempeño del hardware se obtuvieron los siguientes resultados:
La figura 26 muestra que el segundo tratamiento para los cinco escenarios son los que
más tardan en ejecutarse para el algoritmo, lo que significa que la normalización con
Range-transformation es demorada al igual que en la estación Hospital de Villamaría. El
tercer tratamiento para los cincos escenarios, al tener muy pocas iteraciones, hacen que
el algoritmo se ejecute rápidamente, a pesar de emplear otra técnica de normalización.
Figura 26. Tiempo de ejecución de K-means para la estación Hospital de Caldas.
La figura 27 muestra un incremento en el consumo de memoria RAM a medida que se
aumenta el valor de K y la cantidad de atributos. El comportamiento es similar al encontrado
en la estación Hospital de Villamaría.
76 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 27. Consumo de memoria RAM de K-means para la estación Hospital de Caldas.
La figura 28 muestra que el tiempo de ejecución de CPU es irregular (no tiene una
tendencia o patrón) para los diferentes valores de K. Para los tratamientos del escenario 1
se observa disminución y un incremento para los tratamientos del escenario 2. Para los
escenarios 3, 4 y 5 se observa elevaciones y disminuciones de tiempos que oscilan entre
un rango de 100 millones y 200 millones de nanosegundos.
Figura 28. Tiempo de ejecución de CPU de K-means para la estación Hospital de Caldas.
Finalmente, los resultados anteriores arrojan para el algoritmo K-means en la estación
Hospital de Caldas que para K=2, K=3 y K=5 el escenario con el mejor desempeño fue el
77
número 2 (dataset con todas las instancias y sin datos faltantes ni atípicos, y tres atributos
como temperatura, humedad relativa y radiación solar) porque en él se obtuvo las mejores
evaluaciones de clustering según el índice de Davis-Bouldin acorde a los resultados de
sus tratamientos.
Posteriormente, para la estación El Cisne PNNN se diseñaron 5 escenarios de trabajo con
3 tratamientos para cada uno, para un valor K igual a 2, 3 y 5. K-means fue ejecutado en
cada uno de ellos, al igual que para las dos anteriores estaciones climáticas, con el fin de
comparar resultados con una estación climática que se encuentra a la mayor altura sobre
el nivel del mar (cerca de las cumbres nevadas) y con los mismos atributos para validar el
comportamiento y confrontar si los resultados tienen relación o igualdad con determinados
aspectos.
Se obtuvieron los resultados mostrados en las tablas 21, 22 y 23 para la estación El Cisne
PNNN:
78 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 21. Resultados de K-means con K=2 para estación El Cisne PNNN.
Clú
ste
r 0
%C
lúst
er
1%
1.1
269.
755
269.
750
100,
05
0,0
-0.1
281.
390
1.57
83.
390.
779.
184
421.
875.
000
234.
375.
000
1.2
269.
755
221.
549
82,1
48.2
0617
,9-0
.194
1.64
11.
719
2.66
7.05
5.90
415
6.25
0.00
078
.125
.000
1.3
269.
755
269.
750
100,
05
0,0
-0.1
332.
453
2.53
11.
124.
003.
040
171.
875.
000
93.7
50.0
00
2.1
248.
296
213.
494
86,0
34.8
0214
,0-0
.561
3.46
93.
548
3.45
5.56
8.23
210
9.37
5.00
031
.250
.000
2.2
248.
296
219.
896
88,6
28.4
0011
,4-0
.330
1.90
71.
985
2.94
2.05
0.33
615
6.25
0.00
078
.125
.000
2.3
248.
296
198.
722
80,0
49.5
7420
,0-1
.051
2.65
62.
734
3.25
9.41
7.35
215
6.25
0.00
078
.125
.000
3.1
269.
551
232.
749
86,3
36.8
0213
,7-0
.563
5.03
25.
126
3.38
1.52
0.48
817
1.87
5.00
078
.125
.000
3.2
269.
551
47.9
4817
,822
1.60
382
,2-0
.279
2.54
92.
627
3.20
1.28
4.99
215
6.25
0.00
078
.125
.000
3.3
269.
551
216.
348
80,3
53.2
0319
,7-0
.911
2.81
32.
891
2.51
8.18
8.75
214
0.62
5.00
062
.500
.000
4.1
248.
296
213.
494
86,0
34.8
0214
,0-0
.561
4.54
84.
642
4.16
5.90
5.12
020
3.12
5.00
010
9.37
5.00
0
4.2
248.
296
219.
896
88,6
28.4
0011
,4-0
.330
1.93
82.
016
2.37
6.13
0.87
214
0.62
5.00
062
.500
.000
4.3
248.
296
197.
787
79,7
50.5
0920
,3-0
.902
2.65
72.
751
3.34
7.22
5.91
214
0.62
5.00
046
.875
.000
5.1
248.
296
213.
494
86,0
34.8
0214
,0-0
.561
4.17
34.
266
4.99
7.48
1.64
015
6.25
0.00
062
.500
.000
5.2
248.
296
219.
896
88,6
28.4
0011
,4-0
.330
1.92
32.
016
3.59
3.73
7.40
015
6.25
0.00
062
.500
.000
5.3
248.
296
197.
787
79,7
50.5
0920
,3-0
.902
2.48
52.
548
4.32
4.09
7.54
410
9.37
5.00
046
.875
.000
#1 #2 #3 #4 #5
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
De
sem
pe
ño
de
l har
dw
are
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Trat
amie
nto
Esce
nar
ios
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
79
TABLA 22. Resultados de K-means con K=3 para estación El Cisne PNNN.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%
1.1
269.
755
269.
750
100,
04
0,0
10,
0-0
.000
1.42
51.
541
1.23
9.91
2.12
020
3.12
5.00
093
.750
.000
1.2
269.
755
45.4
6016
,920
9.47
177
,714
.824
5,5
-0.5
989.
798
9.87
63.
133.
139.
616
187.
500.
000
109.
375.
000
1.3
269.
755
221.
633
82,2
48.1
1717
,85
0,0
-0.4
283.
126
3.20
41.
078.
938.
952
140.
625.
000
62.5
00.0
00
2.1
248.
296
55.0
7922
,210
.753
4,3
182.
464
73,5
-0.4
964.
407
4.48
52.
812.
463.
560
156.
250.
000
78.1
25.0
00
2.2
248.
296
35.8
2514
,427
.932
11,2
184.
539
74,3
-0.7
047.
235
7.31
33.
520.
337.
480
187.
500.
000
109.
375.
000
2.3
248.
296
25.9
3910
,418
0.14
072
,642
.217
17,0
-0.7
803.
016
3.09
42.
440.
216.
008
140.
625.
000
62.5
00.0
00
3.1
269.
551
201.
681
74,8
11.1
084,
156
.762
21,1
-0.5
095.
751
5.86
01.
759.
418.
656
218.
750.
000
109.
375.
000
3.2
269.
551
47.4
5517
,618
6.91
669
,335
.180
13,1
-0.6
878.
735
8.86
01.
729.
306.
736
187.
500.
000
62.5
00.0
00
3.3
269.
551
180.
454
66,9
44.6
1916
,644
.478
16,5
-0.5
983.
422
3.50
13.
286.
964.
312
171.
875.
000
93.7
50.0
00
4.1
248.
296
55.0
7922
,210
.753
4,3
182.
464
73,5
-0.4
965.
097
5.18
92.
189.
603.
096
203.
125.
000
109.
375.
000
4.2
248.
296
184.
541
74,3
27.9
3211
,235
.823
14,4
-0.7
058.
563
8.64
84.
538.
102.
784
140.
625.
000
62.5
00.0
00
4.3
248.
296
180.
114
72,5
25.8
1910
,442
.363
17,1
-0.6
253.
032
3.09
52.
782.
994.
696
125.
000.
000
62.5
00.0
00
5.1
248.
296
55.0
7922
,210
.753
4,3
182.
464
73,5
-0.4
964.
689
4.78
24.
067.
016.
224
203.
125.
000
109.
375.
000
5.2
248.
296
184.
541
74,3
27.9
3211
,235
.823
14,4
-0.7
057.
891
7.96
94.
329.
025.
168
156.
250.
000
78.1
25.0
00
5.3
248.
296
180.
114
72,5
25.8
1910
,442
.363
17,1
-0.6
252.
969
3.04
74.
691.
628.
080
125.
000.
000
46.8
75.0
00
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Agr
up
amie
nto
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
80 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 23. Resultados de K-means con K=5 para estación El Cisne PNNN.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%C
lúst
er
3%
Clú
ste
r 4
%
1.1
269.
755
269.
733
100,
04
0,0
30,
01
0,0
140,
0-0
.170
2.09
42.
188
3.59
4.03
3.69
620
3.12
5.00
010
9.37
5.00
0
1.2
269.
755
88.7
4432
,945
.131
16,7
10.8
834,
023
.294
8,6
101.
703
37,7
-0.7
358.
360
8.45
42.
908.
706.
544
140.
625.
000
46.8
75.0
00
1.3
269.
755
94.3
5335
,05
0,0
45.2
3316
,810
7.51
839
,922
.646
8,4
-0.5
334.
407
4.48
52.
881.
614.
048
187.
500.
000
109.
375.
000
2.1
248.
296
27.4
2911
,015
9.67
064
,345
.762
18,4
10.1
884,
15.
247
2,1
-0.5
6510
.048
10.1
262.
827.
335.
296
203.
125.
000
125.
000.
000
2.2
248.
296
25.8
3710
,414
8.99
460
,08.
492
3,4
55.4
9122
,39.
482
3,8
-0.7
3613
.753
13.8
313.
406.
107.
672
187.
500.
000
109.
375.
000
2.3
248.
296
45.9
5218
,525
.551
10,3
73.8
2529
,791
.247
36,7
11.7
214,
7-0
.874
4.07
94.
157
2.99
5.07
0.28
812
5.00
0.00
046
.875
.000
3.1
269.
551
148.
291
55,0
21.5
138,
07.
149
2,7
53.4
3019
,839
.168
14,5
-0.4
9211
.861
11.9
713.
338.
408.
776
187.
500.
000
78.1
25.0
00
3.2
269.
551
8.73
43,
215
1.20
356
,155
.159
20,5
9.50
73,
544
.948
16,7
-0.7
2912
.143
12.2
523.
040.
802.
024
234.
375.
000
125.
000.
000
3.3
269.
551
146.
177
54,2
62.9
1423
,315
.876
5,9
44.5
1816
,566
0,0
-0.5
334.
657
4.73
54.
612.
584.
552
156.
250.
000
78.1
25.0
00
4.1
248.
296
27.8
6511
,25.
278
2,1
45.8
1418
,510
.280
4,1
159.
059
64,1
-0.5
669.
986
10.0
795.
038.
083.
944
203.
125.
000
109.
375.
000
4.2
248.
296
55.4
9122
,325
.837
10,4
9.42
83,
814
8.99
460
,08.
492
3,4
-0.7
3716
.588
16.6
824.
948.
851.
528
140.
625.
000
62.5
00.0
00
4.3
248.
296
145.
979
58,8
25.4
7210
,314
.534
5,9
62.2
7825
,133
0,0
-0.5
674.
062
4.15
63.
868.
257.
872
171.
875.
000
78.1
25.0
00
5.1
248.
296
27.8
6511
,25.
278
2,1
45.8
1418
,510
.280
4,1
159.
059
64,1
-0.5
669.
924
10.0
172.
230.
952.
336
156.
250.
000
62.5
00.0
00
5.2
248.
296
55.4
9122
,325
.837
10,4
9.48
23,
814
8.99
460
,08.
492
3,4
-0.7
3716
.207
16.3
165.
144.
014.
328
218.
750.
000
109.
375.
000
5.3
248.
296
145.
979
58,8
25.4
7210
,314
.534
5,9
62.2
7825
,133
0,0
-0.5
674.
047
4.12
64.
092.
733.
304
140.
625.
000
62.5
00.0
00
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
81
Según el índice de evaluación de clustering (Davis-Bouldin) el mejor escenario para K=2,
K=3 y K=5 está dado por el escenario 2 (tercer tratamiento). Estos tratamientos del
escenario 2 están bajo técnicas de normalización lo que reafirma la importancia de esta
implementación para datasets climáticos en donde el atributo precipitación está excluido.
Con relación a la reducción de dimensionalidad, se presentan unas diferencias con
respecto a las anteriores estaciones, y puede ser dado por las instancias del atributo
temperatura cuyos valores están iguales o por debajo de cero (temperaturas muy bajas
debido a la altitud de la estación).
Para la figura 29 se observa que la mayoría de las instancias se aglomeran por encima del
eje x (valores positivos) y que la componente principal 1 tiene una dirección casi paralela
al mismo eje (similar a las anteriores estaciones). Los valores atípicos (outliers) no los hay
y los valores negativos en coordenadas (x,y) están dados para una pequeña porción del
clúster 2. El agrupamiento se da a partir de la componente principal 1 según la observación
de la gráfica, al ver cómo se corta cada clúster de forma vertical.
Para la figura 30 se observa que la mayoría de las instancias están por debajo del eje x
(valores negativos) y que la componente principal 1 tiene una leve inclinación hacia la parte
superior derecha. Tampoco hay valores atípicos y los valores negativos en coordenadas
(x,y) están dados casi en pequeña fracción para los clústeres 0 y 2. El agrupamiento no se
determina por ninguna de las tres componentes principales. Visualmente no se determina
que con normalización los clústeres se formen mejor.
Al revisar el gráfico con la componente 3 según la figura 29, se confirma que la componente
1 es quien determina el agrupamiento de las instancias y que existe una simetría con los
datos con respecto al eje X (plano positivo y plano negativo). También se observan unos
valores atípicos alejados y desproporcionados del clúster 1.
82 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 29. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos sin
normalización para K=3 en K-means (escenario 5).
Figura 30. Análisis de Componentes Principales (PC1 vs PC2) para cuatro atributos y
normalizando con Range-transformation para K=3 en K-means (escenario 5).
83
Figura 31. Análisis de Componentes Principales (PC1 vs PC3) para cuatro atributos y
normalizando con Range-transformation para K=3 en K-means (escenario 5).
En el número de iteraciones, hay los mismos comportamientos validados en las anteriores
estaciones climáticas, donde los centroides tienen los mismos valores para cualquier valor
de K y que independiente de si el algoritmo itera una vez o mil veces, el recálculo de los
centroides permanece con el mismo valor.
Finalmente, en el consumo de hardware hay las mismas tendencias en tiempos de
ejecución (algoritmo y CPU) y consumo de memoria RAM con relación a las estaciones
climáticas Hospital de Villamaría y Hospital de Caldas.
5.2 Algoritmo K-medoids
Para la estación Hospital de Villamaría se crearon 5 escenarios con tres tratamientos cada
uno, y para cada valor de K=2, 3 y 5, en donde el algoritmo K-medoids fue ejecutado.
Para la estación Hospital de Villamaría, se obtuvieron los siguientes resultados:
84 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 24. Resultados de K-medoids con K=2 para estación Hospital de Villamaría.
Clú
ste
r 0
%C
lúst
er
1%
1.1
10.0
0026
62,
79.
733
97,3
-0.3
2019
3.86
719
3.88
92.
200.
492.
256
193.
281.
250.
000
193.
250.
000.
000
1.2
10.0
001.
933
19,3
8.06
680
,7-0
.545
174.
315
174.
315
1.26
3.58
7.80
817
3.75
0.00
0.00
017
3.75
0.00
0.00
0
1.3
10.0
001.
764
17,6
8.23
582
,4-0
.549
202.
442
202.
458
1.17
8.10
3.29
620
1.79
6.87
5.00
020
1.79
6.87
5.00
0
2.1
7.40
76.
449
87,1
958
12,9
-0.3
5810
8.98
410
9.00
01.
344.
279.
040
108.
375.
000.
000
108.
359.
375.
000
2.2
7.40
71.
890
25,5
5.51
774
,5-0
.738
108.
913
108.
929
912.
989.
216
108.
468.
750.
000
108.
468.
750.
000
2.3
7.40
71.
717
23,2
5.69
076
,8-0
.747
105.
596
105.
611
1.71
0.42
0.48
810
5.21
8.75
0.00
010
5.20
3.12
5.00
0
3.1
7.40
76.
449
87,1
958
12,9
-0.3
5815
5.48
615
5.49
11.
633.
243.
208
149.
703.
125.
000
149.
703.
125.
000
3.2
7.40
71.
890
25,5
5.51
774
,5-0
.740
138.
827
138.
845
1.19
1.41
2.04
813
4.98
4.37
5.00
013
4.96
8.75
0.00
0
3.3
7.40
71.
683
22,7
5.72
477
,3-0
.713
111.
392
111.
397
2.61
5.97
8.84
810
8.31
2.50
0.00
010
8.31
2.50
0.00
0
4.1
7.40
76.
449
87,1
958
12,9
-0.3
5814
7.89
614
7.91
22.
265.
506.
080
145.
250.
000.
000
145.
234.
375.
000
4.2
7.40
71.
890
25,5
5.51
774
,5-0
.740
233.
622
233.
637
1.66
1.83
4.97
622
9.87
5.00
0.00
022
9.85
9.37
5.00
0
4.3
7.40
71.
683
22,7
5.72
477
,3-0
.713
111.
786
111.
786
2.08
1.40
9.14
411
1.21
8.75
0.00
011
1.21
8.75
0.00
0
5.1
7.40
76.
449
87,1
958
12,9
-0.3
5814
8.65
314
8.65
31.
870.
534.
696
147.
750.
000.
000
147.
750.
000.
000
5.2
7.40
71.
890
25,5
5.51
774
,5-0
.740
134.
652
134.
652
2.16
3.71
4.38
413
3.96
8.75
0.00
013
3.96
8.75
0.00
0
5.3
7.40
71.
683
22,7
5.72
477
,3-0
.713
112.
582
112.
582
1.95
2.80
0.30
411
1.92
1.87
5.00
011
1.92
1.87
5.00
0
Trat
amie
nto
Esce
nar
ios
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
De
sem
pe
ño
de
l har
dw
are
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
#1 #2 #3 #4 #5
85
TABLA 25. Resultados de K-medoids con K=3 para estación Hospital de Villamaría.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%
1.1
10.0
004.
136
41,4
266
2,7
5.59
756
,0-0
.408
241.
634
241.
650
1.97
2.85
2.67
224
1.01
5.62
5.00
024
1.00
0.00
0.00
0
1.2
10.0
003.
628
36,3
946
9,5
5.41
554
,2-0
.610
290.
810
290.
825
735.
634.
936
289.
937.
500.
000
289.
937.
500.
000
1.3
10.0
005.
382
53,8
3.69
737
,092
09,
2-0
.665
242.
091
242.
107
1.03
7.00
2.35
324
1.28
1.25
0.00
024
1.26
5.62
5.00
0
2.1
7.40
776
110
,31.
791
24,2
4.85
565
,5-0
.690
148.
747
148.
747
1.40
2.46
3.66
414
8.26
5.62
5.00
014
8.26
5.62
5.00
0
2.2
7.40
71.
282
17,3
1.21
216
,44.
913
66,3
-0.6
9711
7.53
311
7.53
31.
594.
281.
192
117.
078.
125.
000
117.
078.
125.
000
2.3
7.40
71.
210
16,3
1.18
816
,05.
009
67,6
-0.6
9112
9.34
812
9.34
81.
099.
413.
416
128.
921.
875.
000
128.
921.
875.
000
3.1
7.40
776
110
,31.
791
24,2
4.85
565
,5-0
.690
205.
754
205.
763
1.66
3.25
6.12
520
1.78
1.25
0.00
020
1.76
5.62
5.00
0
3.2
7.40
71.
282
17,3
1.21
216
,44.
913
66,3
-0.6
9815
1.72
215
1.73
52.
010.
673.
544
149.
218.
750.
000
149.
203.
125.
000
3.3
7.40
71.
191
16,1
1.15
615
,65.
060
68,3
-0.6
6114
9.35
814
9.36
31.
619.
011.
792
145.
984.
375.
000
145.
984.
375.
000
4.1
7.40
776
110
,31.
791
24,2
4.85
565
,5-0
.690
202.
013
202.
032
1.62
3.00
1.93
619
7.10
9.37
5.00
019
7.10
9.37
5.00
0
4.2
7.40
71.
282
17,3
1.21
216
,44.
913
66,3
-0.6
9857
9.67
457
9.68
92.
160.
207.
008
574.
078.
125.
000
574.
062.
500.
000
4.3
7.40
71.
191
16,1
1.15
615
,65.
060
68,3
-0.6
6114
2.66
514
2.66
51.
423.
935.
424
142.
015.
625.
000
142.
015.
625.
000
5.1
7.40
776
110
,31.
791
24,2
4.85
565
,5-0
.690
204.
839
204.
839
2.21
9.24
6.50
420
4.23
4.37
5.00
020
4.23
4.37
5.00
0
5.2
7.40
71.
282
17,3
1.21
216
,44.
913
66,3
-0.6
9814
8.14
114
8.15
61.
404.
410.
704
147.
484.
375.
000
147.
468.
750.
000
5.3
7.40
71.
191
16,1
1.15
615
,65.
060
68,3
-0.6
6114
5.30
814
5.30
82.
468.
807.
040
144.
406.
250.
000
144.
406.
250.
000
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Agr
up
amie
nto
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
86 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 26. Resultados de K-medoids con K=5 para estación Hospital de Villamaría.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%C
lúst
er
3%
Clú
ste
r 4
%
1.1
10.0
0086
88,
716
01,
67.
493
74,9
1.37
213
,710
61,
1-1
.050
284.
949
284.
949
1.34
7.94
2.85
628
4.00
0.00
0.00
028
4.00
0.00
0.00
0
1.2
10.0
003.
047
30,5
373
3,7
946
9,5
1.39
013
,94.
243
42,4
-1.2
2841
3.97
741
3.97
71.
483.
581.
032
410.
984.
375.
000
410.
984.
375.
000
1.3
10.0
004.
146
41,5
920
9,2
444
4,4
3.14
131
,41.
348
13,5
-1.4
0552
6.31
452
6.32
92.
104.
265.
192
524.
500.
000.
000
524.
484.
375.
000
2.1
7.40
780
310
,849
56,
770
89,
64.
855
65,5
546
7,4
-0.7
9321
5.55
821
5.57
499
2.55
6.47
221
4.42
1.87
5.00
021
4.40
6.25
0.00
0
2.2
7.40
71.
927
26,0
607
8,2
870
11,7
3.45
546
,654
87,
4-1
.317
190.
604
190.
604
1.96
0.38
3.98
418
9.45
3.12
5.00
018
9.45
3.12
5.00
0
2.3
7.40
71.
433
19,3
977
13,2
738
10,0
3.71
250
,154
77,
4-1
.222
188.
200
188.
200
1.47
8.95
0.81
618
7.25
0.00
0.00
018
7.25
0.00
0.00
0
3.1
7.40
780
310
,849
56,
770
89,
64.
855
65,5
546
7,4
-0.7
9327
0.10
127
0.11
11.
254.
229.
584
264.
343.
750.
000
26.4
38.1
25.0
00
3.2
7.40
71.
927
26,0
607
8,2
870
11,7
3.45
546
,654
87,
4-1
.323
237.
861
237.
866
2.55
8.80
2.67
223
2.64
0.62
5.00
023
2.62
5.00
0.00
0
3.3
7.40
71.
334
18,0
924
12,5
732
9,9
3.87
552
,354
27,
3-1
.186
232.
208
232.
215
1.89
9.57
9.36
822
6.51
5.62
5.00
022
6.50
0.00
0.00
0
4.1
7.40
780
310
,849
56,
770
89,
64.
855
65,5
546
7,4
-0.7
9327
3.94
327
3.94
81.
754.
420.
136
268.
703.
125.
000
268.
687.
500.
000
4.2
7.40
71.
927
26,0
607
8,2
870
11,7
3.45
546
,654
87,
4-1
.323
227.
374
227.
374
2.60
8.66
8.53
622
6.39
0.62
5.00
022
6.39
0.62
5.00
0
4.3
7.40
71.
334
18,0
924
12,5
732
9,9
3.87
552
,354
27,
3-1
.186
222.
429
222.
429
1.43
3.79
0.41
622
1.04
6.87
5.00
022
1.04
6.87
5.00
0
5.1
7.40
780
310
,849
56,
770
89,
64.
855
65,5
546
7,4
-0.7
9326
9.61
626
9.61
61.
193.
032.
328
268.
328.
125.
000
268.
328.
125.
000
5.2
7.40
71.
927
26,0
607
8,2
870
11,7
3.45
546
,654
87,
4-1
.323
235.
302
235.
318
2.70
9.83
9.75
223
4.09
3.75
0.00
023
4.07
8.12
5.00
0
5.3
7.40
71.
334
18,0
924
12,5
732
9,9
3.87
552
,354
27,
3-1
.186
222.
219
222.
230
2.24
5.20
7.58
422
0.70
3.12
5.00
022
0.68
7.50
0.00
0
#5
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
87
Como primera parte se observa a partir de los resultados obtenidos y mostrados en las
tablas 24, 25 y 26 que el criterio de evaluación de clúster (Davis Bouldin) indica que para
K=2, K=3 y K=5 las mejores evaluaciones de agrupamiento fueron dadas por los
tratamientos 2.2 y 2.3 del escenario 2, lo que indica que el empleo de la normalización
influyó considerablemente en los resultados para determinar los mejores agrupamientos.
La figura 32 muestra cómo se agrupan las instancias a partir del atributo radiación solar
quien es el que genera el arrastre de todos los atributos al tener una escala de valores más
grande que el resto de los atributos del dataset. La figura 33 evidencia cómo la
normalización lleva todas las instancias a una escala de valores entre 0 y 1 permitiendo
que todas las variables queden en igualdad de condiciones y que ahora el agrupamiento
se dé con base al atributo de humedad relativa.
Figura 32. Agrupamiento para cuatro atributos sin normalización para K=5 en K-medoids
con un dataset limpio (escenario 5).
88 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 33. Agrupamiento para cuatro atributos y normalización con rango-transformation
para K=5 en K-medoids con un dataset limpio (escenario 5).
Con relación con la reducción de dimensionalidad, el empleo de Análisis de Componentes
Principales (PCA) no influye en la mejora del índice de evaluación del clúster ya que se
mantiene igual para todos los valores de K para el escenario 5 (sin PCA y con PCA para
cuatro atributos).
Respecto al número de iteraciones, los cálculos de los centroides permanecen
prácticamente iguales para todos los escenarios independientemente si se ha iterado una
vez o mil veces, tal como lo muestran las tablas 27, 28 y 29.
Tabla 27. Tabla de centroides para K=5 con 10 iteración para K-medoids.
89
Tabla 28. Tabla de centroides para K=5 con 100 iteración para K-medoids.
Tabla 29. Tabla de centroides para K=5 con 1.000 iteración para K-medoids.
Los tiempos de ejecución son más lentos a medida que la iteración incrementa para el
algoritmo, no obstante, con este recálculo no se obtiene más óptimo el centroide para una
variable con relación a un clúster.
Finalmente, con respecto al desempeño de hardware, se obtuvieron los siguientes
resultados:
La figura 34 muestra el tiempo de ejecución del algoritmo para cada escenario, y se
encuentra unos tiempos similares y para un mismo rango para los tres valores de K. El
tratamiento 4.2 experimenta un incremento anormal en los tiempos (se consideraría un
proceso de cómputo externo que influyó aquí). La figura 35 evidencia el consumo de
memoria RAM y la tendencia de incremento a medida que se añaden más atributos y más
clústeres. Finalmente, la figura 36 muestra los tiempos de ejecución de la CPU
evidenciando el mismo comportamiento que los tiempos de ejecución del algoritmo.
90 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 34. Tiempo de ejecución para el algoritmo K-medoids para la estación Hospital de
Villamaría.
Figura 35. Consumo de memoria RAM para el algoritmo K-medoids para la estación
Hospital de Villamaría.
91
Figura 36. Tiempo de ejecución de CPU para el algoritmo K-medoids para la estación
Hospital de Villamaría.
Ahora bien, para la estación Hospital de Caldas se ejecutó el algoritmo K-medoids en 5
escenarios de trabajo (3 tratamientos por cada escenario y por cada valor de K). Los
resultados obtenidos fueron los mostrados en las tablas 30, 31 y 32:
92 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 30. Resultados de K-medoids con K=2 para estación Hospital de Caldas.
Clú
ste
r 0
%C
lúst
er
1%
1.1
10.0
0031
03,
19.
689
96,9
-0.3
5622
1.39
022
1.39
02.
251.
278.
824
220.
062.
500.
000
220.
062.
500.
000
1.2
10.0
009.
846
98,5
153
1,5
-1.1
9824
3.17
624
3.19
21.
452.
391.
784
241.
687.
500.
000
241.
671.
875.
000
1.3
10.0
009.
846
98,5
153
1,5
-1.1
9924
7.80
924
7.80
91.
855.
518.
232
246.
296.
875.
000
246.
296.
875.
000
2.1
1.85
962
633
,71.
233
66,3
-1.0
239.
664
9.66
41.
743.
473.
272
8.78
1.25
0.00
08.
781.
250.
000
2.2
1.85
91.
715
92,3
144
7,7
-2.0
7311
.001
11.0
012.
605.
499.
600
10.9
53.1
25.0
0010
.953
.125
.000
2.3
1.85
91.
718
92,4
141
7,6
-2.2
7911
.814
11.8
1493
7.70
6.45
611
.687
.500
.000
11.6
87.5
00.0
00
3.1
9.97
98.
907
89,3
1.07
210
,7-1
.171
293.
887
293.
903
1.01
5.89
0.14
429
3.07
8.12
5.00
029
3.06
2.50
0.00
0
3.2
9.97
915
31,
59.
826
98,5
-1.6
9237
9.15
237
9.15
21.
114.
897.
968
377.
937.
500.
000
377.
937.
500.
000
3.3
9.97
914
41,
49.
835
98,6
-1.5
8828
7.27
228
7.27
21.
783.
789.
144
285.
890.
625.
000
285.
890.
625.
000
4.1
1.85
962
633
,71.
233
66,3
-1.0
2310
.846
10.8
461.
987.
641.
752
10.6
71.8
75.0
0010
.671
.875
.000
4.2
1.85
91.
715
92,3
144
7,7
-2.0
7813
.439
13.4
392.
446.
702.
624
13.2
65.6
25.0
0013
.265
.625
.000
4.3
1.85
913
97,
51.
720
92,5
-2.2
9011
.877
11.8
772.
295.
816.
056
11.6
71.8
75.0
0011
.671
.875
.000
5.1
1.85
962
633
,71.
233
66,3
-1.0
2311
.001
11.0
012.
526.
768.
848
10.7
50.0
00.0
0010
.750
.000
.000
5.2
1.85
962
633
,71.
233
66,3
-1.0
2310
.330
10.3
301.
941.
857.
872
10.1
25.0
00.0
0010
.125
.000
.000
5.3
1.85
962
633
,71.
233
66,3
-1.0
238.
830
8.83
02.
320.
046.
864
8.65
6.25
0.00
08.
656.
250.
000
Trat
amie
nto
Esce
nar
ios
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
De
sem
pe
ño
de
l har
dw
are
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
#1 #2 #3 #4 #5
93
TABLA 31. Resultados de K-medoids con K=3 para estación Hospital de Caldas.
TABLA 32. Resultados de K-medoids con K=5 para estación Hospital de Caldas.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%
1.1
10.0
008.
907
89,1
864
8,6
228
2,3
-1.2
0425
2.85
525
2.87
11.
710.
514.
624
251.
328.
125.
000
251.
312.
500.
000
1.2
10.0
0025
32,
515
31,
59.
593
95,9
-2.6
1440
4.49
240
4.49
21.
969.
229.
920
401.
734.
375.
000
401.
734.
375.
000
1.3
10.0
0025
32,
515
31,
59.
593
95,9
-2.6
1538
5.68
338
5.68
32.
424.
768.
752
383.
296.
875.
000
383.
296.
875.
000
2.1
1.85
992
4,9
1.23
366
,353
428
,7-0
.549
14.0
4914
.064
1.96
7.44
3.31
213
.453
.125
.000
13.4
37.5
00.0
00
2.2
1.85
921
811
,71.
508
81,1
133
7,2
-1.5
3813
.581
13.5
811.
970.
351.
064
13.4
84.3
75.0
0013
.484
.375
.000
2.3
1.85
924
413
,11.
492
80,3
123
6,6
-1.1
510
14.7
2114
.721
1.99
2.87
8.37
614
.609
.375
.000
14.6
09.3
75.0
00
3.1
9.97
99.
483
95,0
206
2,1
290
2,9
-14.
231
436.
077
436.
077
1.12
9.48
9.49
643
4.06
2.50
0.00
043
4.06
2.50
0.00
0
3.2
9.97
99.
573
95,9
153
1,5
253
2,5
-3.5
3454
3.46
554
3.46
52.
656.
269.
576
541.
062.
500.
000
541.
062.
500.
000
3.3
9.97
99.
490
95,1
140
1,4
349
3,5
-1.2
9942
9.63
142
9.64
61.
996.
304.
440
427.
203.
125.
000
427.
187.
500.
000
4.1
1.85
992
4,9
1.23
366
,353
428
,7-0
.549
15.1
5915
.159
1.79
6.35
6.99
214
.937
.500
.000
14.9
37.5
00.0
00
4.2
1.85
921
811
,71.
508
81,1
133
7,2
-1.5
4416
.377
16.3
772.
637.
514.
312
16.2
18.7
50.0
0016
.218
.750
.000
4.3
1.85
924
313
,11.
495
80,4
121
6,5
-1.5
0714
.361
14.3
612.
007.
995.
656
14.1
25.0
00.0
0014
.125
.000
.000
5.1
1.85
992
4,9
1.23
366
,353
428
,7-0
.549
15.3
1515
.315
1.65
7.53
2.16
015
.125
.000
.000
15.1
25.0
00.0
00
5.2
1.85
992
4,9
1.23
366
,353
428
,7-0
.549
14.9
8614
.986
2.23
6.05
2.37
614
.656
.250
.000
14.6
56.2
50.0
00
5.3
1.85
992
4,9
1.23
366
,353
428
,7-0
.549
12.8
4612
.846
2.17
5.09
3.05
612
.656
.250
.000
12.6
56.2
50.0
00
#5
Agr
up
amie
nto
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
94 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Primero se observa a partir de los resultados obtenidos en las tablas 30, 31 y 32 que el
criterio de evaluación de clúster (Davis Bouldin) para K=2 y K=5 las mejores evaluaciones
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%C
lúst
er
3%
Clú
ste
r 4
%
1.1
10.0
008.
097
81,0
00,
00
0,0
864
8,6
228
2,3
-1.0
5635
2.98
535
2.98
52.
544.
728.
376
350.
156.
250.
000
350.
156.
250.
000
1.2
10.0
0052
25,
29.
114
91,1
210
2,1
153
1,5
00,
0-1
.280
585.
297
585.
297
2.53
4.83
7.68
058
1.10
9.37
5.00
058
1.10
9.37
5.00
0
1.3
10.0
0052
25,
29.
114
91,1
210
2,1
153
1,5
0,0
-1.2
9656
6.11
356
6.11
31.
770.
062.
624
561.
718.
750.
000
561.
718.
750.
000
2.1
1.85
91.
204
64,8
834,
527
414
,717
89,
612
06,
51.
323
21.7
0821
.708
2.66
1.84
7.17
621
.546
.875
.000
21.5
46.8
75.0
00
2.2
1.85
919
510
,581
4,4
1.22
365
,823
412
,612
66,
8-1
.469
22.9
4322
.943
1.54
0.43
3.82
422
.750
.000
.000
22.7
50.0
00.0
00
2.3
1.85
919
910
,772
639
,146
925
,234
218
,412
36,
6-1
.663
18.4
2518
.425
2.08
5.36
8.08
818
.234
.375
.000
18.2
34.3
75.0
00
3.1
9.97
98.
641
86,6
00,
01.
071
10,7
267
2,7
00,
0-1
.318
538.
464
538.
480
1.64
7.82
0.12
053
5.46
8.75
0.00
053
5.45
3.12
5.00
0
3.2
9.97
98.
873
88,9
377
3,8
130
1,3
405
4,1
194
1,9
-1.4
7959
0.32
659
0.32
61.
982.
162.
272
587.
203.
125.
000
587.
203.
125.
000
3.3
9.97
98.
082
81,0
585
5,9
140
1,4
344
3,4
828
8,3
-1.5
5342
6.01
342
6.01
32.
158.
830.
400
423.
312.
500.
000
423.
312.
500.
000
4.1
1.85
91.
204
64,8
834,
527
414
,717
89,
612
06,
5-1
.323
24.8
8024
.880
2.27
6.36
7.17
624
.656
.250
.000
24.6
56.2
50.0
00
4.2
1.85
919
510
,581
4,4
1.22
365
,823
412
,612
66,
8-1
.482
27.5
7627
.576
1.98
0.50
8.81
627
.312
.500
.000
27.3
12.5
00.0
00
4.3
1.85
920
310
,91.
190
64,0
60,
333
918
,212
16,
5-1
.668
19.3
1619
.331
1.54
8.01
2.07
219
.109
.375
.000
19.1
09.3
75.0
00
5.1
1.85
91.
204
64,8
834,
527
414
,717
89,
612
06,
5-1
.323
25.2
5425
.269
1.51
7.81
2.94
425
.078
.125
.000
25.0
62.5
00.0
00
5.2
1.85
91.
204
64,8
834,
527
414
,717
89,
612
06,
5-1
.323
25.2
4925
.249
2.03
1.42
2.20
024
.953
.125
.000
24.9
53.1
25.0
00
5.3
1.85
91.
204
64,8
834,
527
414
,717
39,
312
56,
7-1
.330
22.1
9122
.207
2.47
1.41
1.26
421
.921
.875
.000
21.9
06.2
50.0
00
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
95
de agrupamiento fueron dadas por el escenario 4 y para K=3 por el escenario 3, lo que
indica que aquí no hay similitud alguna con lo encontrado en la estación Hospital de
Villamaría para K-medoids.
Con respecto a la normalización, ocurre una situación contraria a lo evidenciado con las
anteriores experimentaciones y es que los escenarios en los cuales se aplicó una técnica
de normalización, el índice de evaluación de Davis-Bouldin fue igual o bajo para K=2, 3 y
5, lo que indica que el criterio de agrupamiento no califica estos escenarios como los
mejores agrupados.
Si se analiza la influencia de la reducción de dimensionalidad con PCA, algunos
tratamientos tienen mejor evaluación de clustering que aquellos en donde no se aplicó
PCA, no obstante, a pesar de que el tratamiento 4.3 del escenario 4 tuvo un índice de
evaluación muy bueno, otros escenarios que no hacen uso de normalización y de PCA
obtuvieron un valor similar.
En el número de iteraciones no se observan anormalidades a pesar de que los centroides
permanecen iguales para diferentes números de ciclos del algoritmo.
Con relación al desempeño de hardware, los tiempos de ejecución y los tiempos de
ejecución de CPU son altos para los escenarios 1 y 3, los cuales tienen en común que
procesan instancias faltantes las cuales son reemplazados por el valor promedio de cada
atributo. El resto de los escenarios manejan tiempos bajos. En lo que respecta a consumo
de memoria RAM, todos los escenarios manejan un mismo promedio para cualquier valor
de K. No se observan diferencias considerables dadas por características particulares. Las
figuras 37, 38 y 39 muestran visualmente los resultados:
Figura 37. Tiempo de ejecución de K-medoids para la estación Hospital de Caldas.
96 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 38. Consumo de memoria RAM de K-medoids para la estación Hospital de
Caldas.
Figura 39. Tiempo de ejecución de CPU de K-medoids para la estación Hospital de
Caldas.
Finalmente, para la estación El Cisne PNNN se ejecutó el algoritmo en 5 escenarios de
trabajo, cada uno con tres diferentes tratamientos para K=2, 3 y 5, y se obtuvieron los
resultados mostrados en las tablas 33, 34 y 35:
97
TABLA 33. Resultados de K-medoids con K=2 para estación El Cisne PNNN.
Clú
ste
r 0
%C
lúst
er
1%
1.1
10.0
0041
04,
19.
589
95,9
-0.7
3424
3.92
024
3.92
01.
804.
158.
433
242.
406.
250.
000
242.
406.
250.
000
1.2
10.0
001.
752
17,5
8.24
782
,5-0
.947
220.
318
220.
318
2.04
1.90
2.14
421
9.37
5.00
0.00
021
9.37
5.00
0.00
0
1.3
10.0
001.
752
17,5
8.24
782
,5-0
.979
220.
707
220.
722
1.67
5.42
9.11
221
9.71
8.75
0.00
021
9.70
3.12
5.00
0
2.1
8.94
18.
736
97,7
205
2,3
-0.4
7718
6.90
018
6.91
61.
549.
659.
112
185.
859.
375.
000
185.
843.
750.
000
2.2
8.94
18.
583
96,0
358
4,0
-0.9
4919
7.15
819
7.17
32.
498.
252.
656
195.
937.
500.
000
195.
921.
875.
000
2.3
8.94
18.
684
97,1
257
2,9
-0.9
4818
6.04
118
6.04
11.
368.
465.
320
184.
875.
000.
000
184.
875.
000.
000
3.1
9.79
49.
589
97,9
205
2,1
-0.4
8129
0.58
229
0.58
21.
761.
889.
408
289.
000.
000.
000
289.
000.
000.
000
3.2
9.79
49.
436
96,3
358
3,7
-0.8
2528
6.00
028
6.00
01.
763.
412.
464
284.
609.
375.
000
284.
609.
375.
000
3.3
9.79
49.
297
94,9
497
5,1
-0.8
8227
6.22
727
6.23
12.
189.
905.
888
269.
609.
375.
000
269.
609.
375.
000
4.1
8.94
921
32,
48.
736
97,6
-0.4
9323
5.19
423
5.20
92.
410.
475.
048
233.
765.
625.
000
233.
750.
000.
000
4.2
8.94
937
74,
28.
572
95,8
-0.9
5724
6.33
524
6.33
51.
514.
266.
320
245.
265.
625.
000
245.
265.
625.
000
4.3
8.94
949
85,
68.
451
94,4
-0.9
8518
3.66
018
3.66
02.
481.
649.
192
182.
609.
375.
000
182.
609.
375.
000
5.1
8.94
18.
736
97,7
205
2,3
-0.4
7724
1.15
724
1.17
31.
430.
077.
856
240.
171.
875.
000
240.
156.
250.
000
5.2
8.94
18.
583
96,0
358
4,0
-0.9
5022
5.70
722
5.70
71.
545.
609.
656
224.
531.
250.
000
224.
531.
250.
000
5.3
8.94
18.
472
94,8
469
5,2
-0.9
6319
0.51
019
0.51
02.
447.
676.
192
189.
171.
875.
000
189.
171.
875.
000
Trat
amie
nto
Esce
nar
ios
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Me
mo
ria
RA
M
(byt
es)
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
De
sem
pe
ño
de
l har
dw
are
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
#1 #2 #3 #4 #5
98 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 34. Resultados de K-medoids con K=3 para estación El Cisne PNNN.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%
1.1
10.0
0036
43,
646
0,5
9.58
995
,9-1
.850
301.
659
301.
659
1.86
6.35
9.98
729
9.40
6.25
0.00
029
9.40
6.25
0.00
0
1.2
10.0
001.
635
16,4
6.61
266
,11.
752
17,5
-5.9
5054
2.49
154
2.49
12.
270.
397.
200
539.
953.
125.
000
539.
953.
125.
000
1.3
10.0
001.
635
16,4
6.61
266
,11.
752
17,5
-6.2
2555
7.76
755
7.76
71.
099.
916.
248
555.
250.
000.
000
555.
250.
000.
000
2.1
8.94
15.
552
62,1
205
2,3
3.18
435
,6-0
.740
231.
495
231.
495
2.13
1.14
9.91
223
0.04
6.87
5.00
023
0.04
6.87
5.00
0
2.2
8.94
15.
492
61,4
3.09
134
,635
84,
0-2
.140
343.
098
343.
098
1.55
2.12
5.87
234
0.93
7.50
0.00
034
0.93
7.50
0.00
0
2.3
8.94
15.
517
61,7
257
2,9
3.16
735
,4-1
.883
297.
049
297.
049
2.47
0.98
5.98
429
4.90
6.25
0.00
029
4.90
6.25
0.00
0
3.1
9.79
420
52,
13.
185
32,5
6.40
465
,4-0
.740
385.
413
385.
413
1.54
0.57
5.36
838
3.21
8.75
0.00
038
3.21
8.75
0.00
0
3.2
9.79
435
83,
76.
344
64,8
3.09
231
,6-1
.997
536.
350
536.
366
2.23
2.43
6.98
453
3.21
8.75
0.00
053
3.21
8.75
0.00
0
3.3
9.79
449
75,
12.
944
30,1
6.35
364
,9-1
.784
581.
644
581.
650
2.10
2.98
9.99
257
4.26
5.62
5.00
057
4.25
0.00
0.00
0
4.1
8.94
921
32,
43.
184
35,6
5.55
262
,0-0
.746
260.
682
260.
697
1.39
8.74
2.89
625
9.48
4.37
5.00
025
9.48
4.37
5.00
0
4.2
8.94
95.
485
61,3
3.08
734
,537
74,
2-2
.198
519.
749
519.
749
2.33
3.93
7.75
251
6.67
1.87
5.00
051
6.67
1.87
5.00
0
4.3
8.94
98.
433
94,2
395
4,4
121
1,4
-0.9
3630
7.42
030
7.42
01.
773.
292.
008
305.
484.
375.
000
305.
484.
375.
000
5.1
8.94
15.
552
62,1
205
2,3
3.18
435
,6-0
.740
271.
345
271.
361
1.65
9.67
9.34
426
9.65
6.25
0.00
026
9.65
6.25
0.00
0
5.2
8.94
15.
492
61,4
3.09
134
,635
84,
0-2
.146
400.
576
400.
576
2.06
0.66
1.57
639
8.31
2.50
0.00
039
8.31
2.50
0.00
0
5.3
8.94
15.
502
61,5
469
5,2
2.97
033
,2-1
.942
291.
886
291.
901
1.45
6.91
4.04
828
9.89
0.62
5.00
028
9.87
5.00
0.00
0
Tie
mp
o
(mili
segu
nd
os)
Me
mo
ria
RA
M
(byt
es)
#5
Agr
up
amie
nto
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
99
TABLA 35. Resultados de K-medoids con K=5 para estación El Cisne PNNN.
Clú
ste
r 0
%C
lúst
er
1%
Clú
ste
r 2
%C
lúst
er
3%
Clú
ste
r 4
%
1.1
10.0
0036
43,
61.
009
10,1
460,
52.
556
25,6
6.02
460
,2-1
.307
300.
303
300.
303
1.05
4.87
9.16
029
7.96
8.75
0.00
029
7.96
8.75
0.00
0
1.2
10.0
001.
752
17,5
1.63
516
,419
72,
04.
554
45,5
1.86
118
,6-1
.738
619.
253
619.
253
2.34
9.65
2.84
061
4.95
3.12
5.00
061
4.95
3.12
5.00
0
1.3
10.0
001.
752
17,5
1.63
516
,419
72,
04.
554
45,5
1.86
118
,6-1
.751
617.
469
617.
469
1.34
5.88
6.56
861
2.84
3.75
0.00
061
2.84
3.75
0.00
0
2.1
8.94
114
91,
71.
536
17,2
1.00
911
,35.
172
57,8
1.07
512
,0-0
.655
292.
231
292.
231
2.32
6.99
9.85
628
9.87
5.00
0.00
028
9.87
5.00
0.00
0
2.2
8.94
126
43,
01.
276
14,3
1.76
919
,815
31,
75.
479
61,3
-1.9
4091
9.21
291
9.21
22.
471.
419.
288
911.
937.
500.
000
911.
937.
500.
000
2.3
8.94
129
93,
31.
428
16,0
1.59
117
,811
01,
25.
513
61,7
-2.0
3475
9.52
475
9.53
92.
064.
959.
744
754.
359.
375.
000
754.
359.
375.
000
3.1
9.79
41.
009
10,3
149
1,5
1.53
715
,76.
024
61,5
1.07
511
,0-0
.656
447.
823
447.
823
2.02
4.52
2.28
044
4.71
8.75
0.00
044
4.71
8.75
0.00
0
3.2
9.79
41.
770
18,1
153
1,6
6.33
164
,626
42,
71.
276
13,0
-1.7
511.
397.
919
1.39
7.92
91.
479.
066.
696
1.37
0.35
9.37
5.00
01.
370.
359.
375.
000
3.3
9.79
44.
258
43,5
40,
02.
944
30,1
2.09
121
,349
75,
1-1
.528
457.
258
457.
263
2.10
1.20
5.92
844
4.53
1.25
0.00
044
4.53
1.25
0.00
0
4.1
8.94
91.
536
17,2
157
1,8
4.68
252
,31.
704
19,0
870
9,7
-7.9
3732
8.06
532
8.06
52.
085.
002.
352
325.
968.
750.
000
325.
968.
750.
000
4.2
8.94
925
92,
91.
261
14,1
5.47
661
,21.
784
19,9
169
1,9
-1.9
7292
4.25
392
4.25
31.
591.
865.
848
917.
703.
125.
000
917.
703.
125.
000
4.3
8.94
91.
240
13,9
2.93
532
,839
54,
412
11,
44.
258
47,6
-1.4
2033
9.43
133
9.43
11.
649.
443.
544
336.
640.
625.
000
336.
640.
625.
000
5.1
8.94
114
91,
71.
536
17,2
1.00
911
,35.
172
57,8
1.07
512
,0-0
.656
340.
625
340.
625
1.96
0.13
2.86
433
8.26
5.62
5.00
033
8.26
5.62
5.00
0
5.2
8.94
126
43,
01.
276
14,3
1.76
919
,815
31,
75.
479
61,3
-1.9
4899
3.77
299
3.78
81.
689.
836.
640
986.
218.
750.
000
986.
203.
125.
000
5.3
8.94
11.
764
19,7
1.34
915
,132
63,
63
0,0
5.49
961
,5-1
.349
331.
556
331.
556
1.90
3.53
3.32
033
0.17
1.87
5.00
033
0.17
1.87
5.00
0
Me
mo
ria
RA
M
(byt
es)
#5
Tie
mp
o d
e C
PU
(nan
ose
gun
do
s)
Tie
mp
o d
e
eje
cuci
ón
de
CP
U
(nan
ose
gun
do
s)
#1 #2 #3 #4
Esce
nar
ios
Trat
amie
nto
Nú
me
ro d
e ít
em
s
De
sem
pe
ño
de
l alg
ori
tmo
De
sem
pe
ño
de
l har
dw
are
Agr
up
amie
nto
Cri
teri
o d
e e
valu
ació
n
de
clú
ste
r: Í
nd
ice
de
Dav
is-B
ou
ldin
Tie
mp
o d
e
eje
cuci
ón
(mili
segu
nd
os)
Tie
mp
o
(mili
segu
nd
os)
100 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Acorde al índice de evaluación de clúster (Davis-Bouldin), para K=2 y K=5 los mejores
criterios fueron para el escenario 4 y para K=3 el escenario 1. Los escenarios para K=5
muestran mayores tiempos de ejecución, lo que significa su complejidad computacional
durante la ejecución del proceso para obtener más clústeres. PCA al crear tres nuevas
variables (componentes) significa una reducción del dataset original lo que finalmente los
tiempos de ejecución son menores. En lo que respecta a las iteraciones, el comportamiento
es igual que las estaciones anteriores: Centroides calculados por igual para cualquier
cantidad de iteraciones y los tiempos de ejecución son mayores a medida que la cantidad
de iteración se incrementa para el algoritmo. Finalmente, en el desempeño de hardware
se valida el mismo comportamiento que las estaciones anteriores en donde el consumo de
memoria RAM y los tiempos de ejecución se elevan paulatinamente a medida que
aumentan los atributos y la cantidad de clústeres.
5.3 Algoritmo Aglomerativo con Linkage-Complete
En la tabla 36, para la estación Hospital de Villamaría se diseñaron 5 escenarios en los
cuales se aplicó el algoritmo de agrupamiento aglomerativo con el método Enlace
Completo (linkage-complete). Este algoritmo no requiere de forma previa un valor de K
(número de clústeres) como si lo requieren obligatoriamente los anteriores algoritmos
particionados. Lo mismo ocurre para el número de iteraciones. Por lo tanto, únicamente
son 5 escenarios con tres tratamientos para cada uno, en esta estación.
Se obtuvo los siguientes resultados:
TABLA 36. Resultados del agrupamiento aglomerativo para estación Hospital de
Villamaría.
1.1 5.000 81.787 81.787 4.832.249.328 78.296.875.000 78.296.875.000
1.2 5.000 80.204 80.210 3.018.301.440 75.671.875.000 75.671.875.000
1.3 5.000 77.671 77.671 3.998.491.928 74.437.500.000 74.437.500.000
2.1 2.407 12.669 12.670 4.888.031.432 11.343.750.000 11.343.750.000
2.2 2.407 9.610 9.610 4.660.395.256 8.828.125.000 8.828.125.000
2.3 2.407 8.981 8.981 4.352.239.560 8.609.375.000 8.609.375.000
3.1 2.407 9.299 9.405 6.156.410.744 8.718.750.000 8.718.750.000
3.2 2.407 8.836 8.836 6.820.019.440 8.250.000.000 8.250.000.000
3.3 2.407 9.192 9.192 7.073.454.304 8.531.250.000 8.531.250.000
4.1 2.407 9.307 9.308 3.975.729.592 8.906.250.000 8.906.250.000
4.2 2.407 9.028 9.028 5.122.837.744 8.562.500.000 8.562.500.000
4.3 2.407 8.634 8.634 6.198.538.304 8.421.875.000 8.421.875.000
5.1 2.407 9.076 9.076 4.237.062.432 8.843.750.000 8.843.750.000
5.2 2.407 9.107 9.107 6.249.893.848 8.562.500.000 8.562.500.000
5.3 2.407 8.991 8.992 3.511.275.344 8.453.125.000 8.453.125.000
Desempeño del hardware
Tiempo de
ejecución
(milisegundos)
Tiempo
(milisegundos)
#1
TratamientoEscenarios Número de ítems Memoria RAM
(bytes)
Tiempo de CPU
(nanosegundos)
#2
#3
#4
#5
Tiempo de
ejecución de
CPU
(nanosegundos)
101
Acorde a los resultados obtenidos, se observa que para un dataset de 2.407 instancias los
tiempos de ejecución del algoritmo son relativamente cortos. Esto es debido a que se
genera una matriz 2.407 x 2.407 lo que en términos computacionales es fácilmente
manejable por el computador y por el algoritmo. Al utilizar datasets con 5.000 instancias,
los tiempos de ejecución se incrementan tanto para el algoritmo como para la CPU en casi
nueve veces.
En términos computacionales estos fueron los resultados:
Figura 40. Tiempo de ejecución del algoritmo aglomerativo.
Figura 41. Consumo de memoria RAM del algoritmo aglomerativo.
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
90.000
1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3 4.1 4.2 4.3 5.1 5.2 5.3
Mili
segu
nd
os
Tratamientos de los escenarios
0
1.000.000.000
2.000.000.000
3.000.000.000
4.000.000.000
5.000.000.000
6.000.000.000
7.000.000.000
8.000.000.000
1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3 4.1 4.2 4.3 5.1 5.2 5.3
Byt
es
Tratamientos de los escenarios
102 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 42. Tiempo de ejecución de CPU del algoritmo aglomerativo.
Las anteriores gráficas evidencian los altos tiempos de ejecución que toma el escenario 1
con respecto a los demás escenarios a pesar de que la diferencia de datos es del doble
con respecto al resto de escenarios. El consumo de memoria RAM permanece entre 3GB
y 7GB para todos los escenarios con picos altos para el escenario 3.
La evaluación de los dendrogramas es un complemento al análisis del agrupamiento de
los datos ya que su comprensión depende 100% de un entendimiento visual y puede
inclusive convertirse en un proceso subjetivo, por lo que a continuación se observan los
resultados más relevantes en la figura 43.
103
Figura 43. Dendrograma para cuatro atributos con un dataset de 3.942 instancias y
distancia euclidiana para agrupamiento aglomerativo con linkage-complete (escenario 5).
La figura anterior muestra como un dataset de solo 3.942 instancias no puede ser
fácilmente visible desde el nivel 0 (nivel inferior) donde cada registro es un nodo para irse
fusionando en cada siguiente nivel. Una vez el dendrograma se ha construido, se puede
decidir en qué punto cortar el gráfico para determinar los valores K y evaluar. La gráfica
evidencia cuatros conglomerados en la parte inferior que hacen alusión a los cuatro
atributos climáticos. Si se cortara el dendrograma más arriba, habría menos agrupaciones,
no obstante, el nivel de similitud (distancia en el eje Y) sería menor, pero si se cortara más
abajo entonces el nivel de similitud sería mayor, aunque habría más agrupaciones finales.
Si se corta el dendrograma en la parte superior se obtendrían dos conglomerados, pero un
nivel de similitud menor. La gráfica muestra que en un rango de similitud pequeño se dan
todas las aglomeraciones, pero para un K=2 el rango de similitud es más amplio. Por lo
tanto, dependiendo de en qué punto se determine el corte, la similitud puede ser mayor o
menor con respecto a las aglomeraciones de los niveles bajos.
Las figuras 44 y 45 muestran un comparativo entre no normalizar y normalizar para un
dataset de alrededor de 5.000 instancias. Con normalización, según la figura 45 se
visualiza de manera más sencilla los nodos y los niveles inferiores del dendrograma. De
hecho, se puede observar las aglomeraciones y sus fusiones en los siguientes niveles.
Además, las distancias de similitud (eje Y) se vuelven más cercanas al haber llevado las
104 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
instancias a una escala entre cero y uno, lo que permite acortar las distancias y visualizar
de manera más simple el dendrograma. El gráfico con normalización permite ver cuatro
aglomeraciones en los niveles inferiores, al igual que sucede con la figura 43 en donde con
un dataset pequeño se observa las aglomeraciones de los cuatro atributos climáticos.
Figura 44. Dendrograma para cuatro atributos con un dataset de 5.000 instancias y
distancia euclidiana para agrupamiento aglomerativo con linkage-complete (escenario 1).
105
Figura 45. Dendrograma para cuatro atributos con un dataset de 4.979 instancias y
distancia euclidiana para agrupamiento aglomerativo con linkage-complete y aplicando
normalización con range-transformation (escenario 3).
Con respecto a la reducción de dimensionalidad, empleando PCA se obtuvieron los
mismos gráficos que la figura 45 (normalizando con range-transformation) por lo que se
observa que generar nuevas componentes no altera ni cambia la construcción del árbol.
Para un dataset de solamente tres atributos (sin precipitación) y normalizando para 5.000
instancias, se observa lo siguiente:
La figura 46 evidencia un árbol diferente al obtenido con cuatro atributos, lo que significa
que la precipitación dentro de un esquema normalizado si genera alteración en la
construcción de un dendrograma. Lo que sí se destaca es que al cortar el árbol para un
valor K=3 y K=5 la similitud de distancia es más amplia versus al dendrograma donde se
emplean cuatro atributos, lo que significa que la precipitación influye notablemente en los
rangos de distancia de similitud.
106 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 46. Dendrograma para tres atributos (sin precipitación) con un dataset de 3.942
instancias y distancia euclidiana para agrupamiento aglomerativo con linkage-complete y
aplicando normalización con range-transformation (escenario 2).
Finalmente, la figura 47 muestra el dendrograma para un dataset de 20.000 instancias:
107
Figura 47. Dendrograma para un dataset de 20.000 para agrupamiento aglomerativo con
linkage-complete y distancia euclidiana.
Debido a la inmensa cantidad de instancias dentro del árbol generado es imposible
visualmente analizar los niveles inferiores y el origen de las aglomeraciones. Sin embargo,
hasta un corte de K=4 es posible ver el dendrograma según la figura 48. Un valor K superior
a 4 no es viable el corte ya que no es posible determinar las aglomeraciones que se
observan en la parte derecha debido al tamaño del árbol y a la cantidad de las instancias.
Figura 48. Dendrograma cortado a un valor de K=4.
108 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
TABLA 37. Resultados de agrupamiento aglomerativo con Linkage-complete para
estación Hospital de Caldas.
TABLA 38. Resultados de Linkage-complete para estación El Cisne PNNN.
Para las tablas 37 y 38, se validan los resultados obtenidos para la estación Hospital de
Villamaría. Los escenarios 1 se ejecutan lentamente con tiempos hasta ocho veces
mayores que el resto de los escenarios, a pesar de que la diferencia de número de ítems
1.1 5.000 78.454 78.454 7.021.733.128 76.203.125.000 76.203.125.000
1.2 5.000 83.444 83.444 7.359.136.688 78.125.000.000 78.125.000.000
1.3 5.000 101.343 101.492 7.495.140.664 85.109.375.000 85.109.375.000
2.1 1.002 796 802 7.095.685.424 671.875.000 671.875.000
2.2 1.002 1.062 1.062 7.493.057.504 953.125.000 953.125.000
2.3 1.002 961 964 7.727.727.224 859.375.000 859.375.000
3.1 4.979 81.650 81.666 5.619.392.168 73.671.875.000 73.656.250.000
3.2 4.979 90.006 90.006 5.448.990.136 80.234.375.000 80.234.375.000
3.3 4.979 91.647 91.647 3.879.695.680 77.250.000.000 77.250.000.000
4.1 1.002 962 964 6.222.305.840 812.500.000 812.500.000
4.2 1.002 1.044 1.045 5.707.073.944 890.625.000 890.625.000
4.3 1.002 906 917 4.980.822.496 781.250.000 781.250.000
5.1 1.002 1.148 1.158 4.803.851.432 953.125.000 953.125.000
5.2 1.002 967 967 4.266.509.624 765.625.000 765.625.000
5.3 1.002 811 812 7.467.424.808 812.500.000 812.500.000
Desempeño del hardware
Tiempo de
ejecución
(milisegundos)
Tiempo
(milisegundos)
#1
TratamientoEscenarios Número de ítems Memoria RAM
(bytes)
Tiempo de CPU
(nanosegundos)
#2
#3
#4
#5
Tiempo de
ejecución de
CPU
(nanosegundos)
1.1 5.000 262.151 262.153 4.881.553.392 244.703.125.000 244.703.125.000
1.2 5.000 147.247 147.247 4.865.530.976 143.234.375.000 143.234.375.000
1.3 5.000 74.749 74.749 6.853.886.360 73.578.125.000 73.578.125.000
2.1 3.942 46.601 46.601 4.056.895.880 41.812.500.000 41.812.500.000
2.2 3.942 39.821 39.821 6.966.283.928 37.500.000.000 37.500.000.000
2.3 3.942 37.694 37.694 3.563.307.024 36.593.750.000 36.593.750.000
3.1 4.795 67.307 67.307 4.302.086.952 65.484.375.000 65.484.375.000
3.2 4.795 67.606 67.606 5.474.073.176 65.687.500.000 65.687.500.000
3.3 4.795 67.010 67.010 4.388.374.624 65.796.875.000 65.796.875.000
4.1 3.950 37.709 37.709 5.342.942.728 36.906.250.000 36.906.250.000
4.2 3.950 37.740 37.740 4.204.845.088 37.156.250.000 37.156.250.000
4.3 3.950 37.835 37.835 5.411.607.272 37.296.875.000 37.296.875.000
5.1 3.942 36.693 36.693 5.784.841.944 35.984.375.000 35.984.375.000
5.2 3.942 38.366 38.366 5.807.874.168 37.453.125.000 37.453.125.000
5.3 3.942 37.070 37.070 5.228.633.656 36.390.625.000 36.390.625.000
Desempeño del hardware
Tiempo de
ejecución
(milisegundos)
Tiempo
(milisegundos)
#1
TratamientoEscenarios Número de ítems Memoria RAM
(bytes)
Tiempo de CPU
(nanosegundos)
#2
#3
#4
#5
Tiempo de
ejecución de CPU
(nanosegundos)
109
no es gigante. Respecto a la normalización, ésta influye en los resultados al permitir que
los dendrogramas sean más entendibles visualmente. Por otro lado, el análisis de
componentes principales no tiene relevancia alguna dentro de los resultados al momento
de reducir la dimensionalidad, en especial porque la nueva generación de variables
(componentes) con base a los atributos originales, generan nuevos valores que resultan
imposibles ser comprendidos en términos climáticos para un investigador.
5.4 Computación paralela
Para los escenarios de computación paralela se obtuvieron los siguientes resultados:
TABLA 39. Resultados para K-means bajo computación paralela.
TABLA 40. Resultados para K-medoids bajo computación paralela.
TABLA 41. Resultados para agrupamiento aglomerativo con Linkage-complete bajo
computación paralela.
La tabla 39 muestra los resultados de K-means bajo computación paralela, donde se
ejecuta el algoritmo tres veces con una cantidad de instancias diferente. El tiempo de
ejecución para el subproceso que contiene tres tareas es relativamente bajo a comparación
Clúster 0 % Clúster 1 %
442.611 83,4 88.190 16,6
Clúster 0 % Clúster 1 % Clúster 2 %
369.704 69,7 124.048 23,4 37.049 7,0
Clúster 0 % Clúster 1 % Clúster 2 % Clúster 3 % Clúster 4 %
331.691 62,5 61.687 11,6 90.859 17,1 20.535 3,9 26.029 4,9
Agrupamiento del modelo
530.801
EscenariosNúmero
de ítems
Criterio de
evaluación de
clúster: Índice
de Davis-Bouldin
#1
Desempeño del hardware en paralelo
Número
de
clústeres
2
3
5
-0.514
-0.437
-0.489
18.589 18.589
Memoria RAM
(bytes)
Tiempo de CPU
(nanosegundos)
Tiempo de
ejecución de
CPU
(nanosegundos)
Tiempo de
ejecución
(milisegundos)
Tiempo
(milisegundos)
2.801.064.320 1.750.000.000 1.750.000.000
Clúster 0 % Clúster 1 %
8.780 87,8 1.221 12,2
Clúster 0 % Clúster 1 % Clúster 2 %
3.087 30,9 910 9,1 6.004 60,0
Clúster 0 % Clúster 1 % Clúster 2 % Clúster 3 % Clúster 4 %
1.500 15,0 5.793 57,9 1.284 12,8 614 6,1 810 8,1
1.895.341.336 1.010.406.250.000 1.010.406.250.000
Memoria RAM
(bytes)
Tiempo de CPU
(nanosegundos)
Tiempo de
ejecución de CPU
(nanosegundos)
Tiempo de
ejecución
(milisegundos)
Tiempo
(milisegundos)
Agrupamiento del modelo
10.000
EscenariosNúmero
de ítems
Criterio de
evaluación de
clúster: Índice
de Davis-Bouldin
#1
Desempeño del hardware en paralelo
Número
de
clústeres
2
3
5
-0.421
-0.730
-1.201
1.014.490 1.014.490
Tiempo de
ejecución
(milisegundos)
Tiempo
(milisegundos)Memoria RAM (bytes)
Tiempo de CPU
(nanosegundos)
Tiempo de ejecución de
CPU (nanosegundos)
30
5.000
20.000
EscenariosNúmero
de ítems
#1 8.564.699 8.565.121 1.850.540.792 8.325.828.125.000 8.325.765.625.000
110 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
de otros escenarios de K-means en otras estaciones climáticas, a pesar de haberse
procesado más de 1.5 millones de datos, y teniendo como previo conocimiento la eficiencia
de K-means con altos volúmenes de instancias. También se demuestra la optimización de
recursos empleando computación paralela al emplear un consumo de memoria RAM en
comparación de otros escenarios (o la suma de los otros escenarios con K-means), como
también los tiempos del proceso que son bajos si se comparan o se suman con escenarios
de alguna estación climática sin empleo de paralelización. Con relación a los tiempos de
la CPU si se muestra un elevado incremento y esto es debido a los cuatro procesadores
activados que acumulan y suman tiempo al realizar cada uno las tareas del proceso y del
subproceso para finalmente dar un acumulado de esos tiempos de ejecución. Con respecto
a la tabla 40, los resultados de K-medoids bajo computación paralela muestran igualmente
una eficiencia en los recursos computacionales al obtenerse unos tiempos bajos de
ejecución del proceso para una cantidad de 30.000 instancias procesadas dentro de un
subproceso con paralelización. El consumo de memoria RAM se mantiene estándar al
consumo de cualquier escenario de K-medoids de cualquier estación climática, es decir,
un consumo bajo a pesar de ser 30.000 instancias procesadas en tareas ejecutadas dentro
de un subproceso. Y al igual que K-means, los tiempos de CPU son muy altos debido a la
totalidad de tiempo que cada procesador activo suma en su respectiva tarea de ejecución.
Con relación a la evaluación de clústeres, K-means tuvo mejor evaluación para K=2 y el
algoritmo K-medoids lo tuvo para K=5. Finalmente, en la tabla 41 se obtienen los resultados
para el algoritmo jerárquico aglomerativo empleando paralelización, donde, a diferencia de
los algoritmos particionados, se obtienen elevados tiempos en procesamiento, como
también un incremento en la memoria RAM, si se lleva a cabo una comparativa con los
escenarios sin paralelización de las estaciones climáticas. Esto puede deberse a que la
construcción de gigantes matrices de disimilitud son un procesamiento robusto que, dentro
de la paralelización, generó en este escenario un desbordamiento de recursos que
ralentizó el procesamiento, a comparación de otros escenarios no paralelizados, lo que
pudo desencadenar que los tiempos fueran más lentos.
Finalmente, al abordar literatura de la comunidad científica, se corroboran en diversos
trabajos que otros algoritmos no supervisados como SOM K-means, aplicados a conjuntos
de datos climáticos, son más lentos que K-means pero proveen resultados similares
(Arroyo et al., 2017) independiente del tamaño de la muestra de los clústeres. Esto significa
que K-means sigue siendo un algoritmo altamente veloz en su procesamiento. Por otro
lado, el algoritmo GMM (Cluster basado en modelos de mezcla Gaussiana) genera
resultados similares a K-means y K-medoids, aunque en algunos casos se han obtenido
resultados inconsistentes, entregando muestras en diferentes grupos que deberían estar
juntos (Arroyo et al., 2017). Esto corrobora la cercanía de los resultados obtenidos entre
los algoritmos particionados de esta investigación. Aunque en esta investigación no se
experimentó con Linkage-Single para agrupamiento aglomerativo, la literatura aborda que
este método es sensible al ruido y datos atípicos (Aggarwal & Reddy, 2013), pero un
algoritmo como EPLS (método de extracción de características basado en modelos) sería
111
la alternativa para emplear conjuntos de datos con ruido y registros atípicos ya que es
eficiente en el manejo de ellos, al igual que se adapta muy bien con otros algoritmos de
agrupamiento y medidas de distancia (Y. Chen et al., 2017).
5.5 Transformada de Fourier de Tiempo Reducido STFT sobre variables
Con el fin de fortalecer el análisis de los resultados se aplica STFT (Transformada de Fourier de Tiempo Reducido) para identificar si los comportamientos de las variables por las oscilaciones atmosféricas afectan el análisis de clúster realizado. Los datos son registrados con una frecuencia de muestreo de 0, 2s-1 (1 dato cada 5 minutos). Inicialmente se realiza un gráfico tiempo-frecuencia usando la STFT para verificar que la frecuencia de la señal no cambia a lo largo del tiempo. Para mejorar la visualización de las componentes de interés, el cómputo de los algoritmos para el análisis en frecuencia se realiza restando el valor medio de la señal. Así, se elimina una componente en 0 Hz. Se realiza para diferentes variables. Radiación solar. Análisis de frecuencia. La STFT realiza un ventaneo de la señal, este se realizó con una ventana de Kaiser con β= 6 y un solape del 50%. La Figura 49 muestra los resultados para la variable radiación solar y con una visualización alternativa se verifica que la señal presenta componentes de baja frecuencia y no cambian en el tiempo. Esto permite el cálculo de la transformada de Fourier y presentar la señal en el dominio de la frecuencia. En la Figura 50 se presenta el espectro de la señal y se destacan dos componentes, por lo cual en el gráfico se esquematiza el periodo de cada una.
Figura 49. Análisis de frecuencia para la variable radiación solar.
Fuente: Los autores.
112 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Figura 50. Transformada de Fourier para la variable radiación solar.
Fuente: Los autores.
Temperatura. La STFT realiza un ventaneo de la señal, este se realizó con una ventana de Kaiser con β= 20 y un solape del 70%. En la Figura 51 se verifica que la señal presenta componentes de baja frecuencia y no cambian en el tiempo. Esto permite el cálculo de la transformada de Fourier y presentar la señal en el dominio de la frecuencia.
Figura 51. Análisis de frecuencia y Transformada de Fourier para la variable
temperatura.
Fuente: Los autores.
113
Humedad relativa. La STFT realiza un ventaneo de la señal, este se realizó con una ventana de Kaiser con β= 20 y un solape del 70%. En la Figura 52 se verifica que la señal presenta componentes de baja frecuencia y no cambian en el tiempo. Esto permite el cálculo de la transformada de Fourier y presentar la señal en el dominio de la frecuencia. Los análisis adicionales realizados permiten, como se sospechaba, determinar que el uso de la normalización en los escenarios propuestos mejora el desempeño de los algoritmos de clustering sin depender del tipo de algoritmo ni del comportamiento de las variables bajo análisis.
Figura 52. Análisis de frecuencia y Transformada de Fourier para la variable humedad
relativa.
Fuente: Los autores.
114 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
6. Discusión y validación
6.1 Discusión
K-means
La tabla 42 muestra una recopilación de los resultados de los criterios de evaluación de
clúster con el índice de Davis-Bouldin para K-means.
Tabla 42. Resumen de los resultados de Davis-Bouldin en K-means para las tres
estaciones climáticas.
En una visión global, para la estación Hospital de Villamaría (altitud baja), se observan los
índices de evaluación para todos sus escenarios y tratamientos. Con respecto a la estación
Hospital de Caldas (altitud intermedia), los índices de evaluación son menores que la
estación anterior (ganándose calidad), y también se mantienen similares para el resto de
sus valores K. No obstante, para la estación El Cisne PNNN (altura máxima), sucede todo
lo contrario: los índices de evaluación vuelven a ser mayores (perdiéndose calidad) y
manteniéndose iguales para sus valores K.
La tabla 43 resalta las mejores evaluaciones de clustering según el índice de Davis-Bouldin
para cada escenario de cada una de las estaciones climáticas.
K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5
1.1 -0.273 -0.454 -0.427 -0.000 -0.000 -0.129 -0.128 -0.000 -0.170
1.2 -0.643 -0.650 -0.862 -0.715 -0.776 -0.935 -0.194 -0.598 -0.735
1.3 -0.658 -0.530 -0.623 -0.717 -0.478 -0.682 -0.133 -0.428 -0.533
2.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.565
2.2 -0.812 -0.938 -0.890 -0.932 -0.954 -0.907 -0.330 -0.704 -0.736
2.3 -0.811 -1.004 -0.916 -0.928 -1.009 -0.958 -1.051 -0.780 -0.874
3.1 -0.456 -0.433 -0.490 -0.513 -0.437 -0.489 -0.563 -0.509 -0.492
3.2 -0.784 -0.904 -0.823 -0.934 -0.957 -0.906 -0.279 -0.687 -0.729
3.3 -0.793 -0.529 -0.718 -0.892 -0.748 -0.818 -0.911 -0.598 -0.533
4.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566
4.2 -0.812 -0.938 -0.980 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737
4.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567
5.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566
5.2 -0.812 -0.938 -0.890 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737
5.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567
Escenarios Tratamiento
#5
#1
#2
#3
#4
Estación El Cisne PNNN
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Estación Hospital de Villamaría Estación Hospital de Caldas
115
Tabla 43. Visualización de los mejores índices de evaluación de clustering para K-means.
En color amarillo se destaca la mejor evaluación de clustering en K-means para cada
escenario de cada una de las tres estaciones climáticas.
Con respecto a K-means, la iteración del algoritmo para formar clústeres asignando cada
punto a su centroide más cercano y recalculando el centroide de cada clúster es un
proceso muy eficiente y sencillo, no solamente por ejecutar dos pasos para cada iteración,
sino también al evidenciarse como es capaz de procesar inmensas cantidades de
instancias con mucha rapidez en cuya experimentación con la estación Hospital de Caldas
empleó más de 530.000 instancias. Esto coincide con el aporte de Khedairia & Khadir
(2012) al definir a K-means como un algoritmo simple y eficiente.
Los tiempos de ejecución del algoritmo mostrados en las tablas 9, 10 y 11 se incrementan
a medida que el valor de k es mayor. Esto se debe a que debe iterar más veces por la
necesidad de crear más clústeres. Para estaciones como Hospital de Caldas y Villamaría
los tiempos de ejecución son más altos al ser datasets de más de 430.000 instancias. Para
la estación El Cisne PNN los tiempos de ejecución son menores al comprender un dataset
de menos de 250.000 instancias.
El consumo de memoria RAM es muy similar para todos los valores de k y para las tres
estaciones climáticas. Si bien difiere en ciertos escenarios de trabajo, el promedio de
consumo es de 2.6Gb de RAM. Esto significa que independiente de las características de
los escenarios y de los datasets, la memoria RAM usa en promedio la misma cantidad de
recursos porque su consumo está dado por lo mínimo que necesita para ejecutar la
funcionalidad del algoritmo.
El tiempo de ejecución de CPU se incrementa a medida que el valor de k es mayor. Esto
se debe al procesamiento que utiliza para la cantidad de clústeres a generar. Para las tres
estaciones climáticas se observa el mismo comportamiento.
K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5
1.1 -0.273 -0.454 -0.427 -0.000 -0.000 -0.129 -0.128 -0.000 -0.170
1.2 -0.643 -0.650 -0.862 -0.715 -0.776 -0.935 -0.194 -0.598 -0.735
1.3 -0.658 -0.530 -0.623 -0.717 -0.478 -0.682 -0.133 -0.428 -0.533
2.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.565
2.2 -0.812 -0.938 -0.890 -0.932 -0.954 -0.907 -0.330 -0.704 -0.736
2.3 -0.811 -1.004 -0.916 -0.928 -1.009 -0.958 -1.051 -0.780 -0.874
3.1 -0.456 -0.433 -0.490 -0.513 -0.437 -0.489 -0.563 -0.509 -0.492
3.2 -0.784 -0.904 -0.823 -0.934 -0.957 -0.906 -0.279 -0.687 -0.729
3.3 -0.793 -0.529 -0.718 -0.892 -0.748 -0.818 -0.911 -0.598 -0.533
4.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566
4.2 -0.812 -0.938 -0.980 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737
4.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567
5.1 -0.469 -0.434 -0.497 -0.514 -0.437 -0.489 -0.561 -0.496 -0.566
5.2 -0.812 -0.938 -0.890 -0.933 -0.955 -0.909 -0.330 -0.705 -0.737
5.3 -0.767 -0.512 -0.720 -0.891 -0.739 -0.827 -0.902 -0.625 -0.567
Estación El Cisne PNNN
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Estación Hospital de Villamaría Estación Hospital de Caldas
Escenarios Tratamiento
#5
#1
#2
#3
#4
116 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
K-medoids
La tabla 44 muestra una recopilación de los resultados de los criterios de evaluación de
clúster con el índice de Davis-Bouldin para K-medoids.
Tabla 44. Resumen de los resultados de Davis-Bouldin en K-medoids para las tres
estaciones climáticas.
Para la estación Hospital de Villamaría (altitud baja), el índice de evaluación se vuelve más
bajo a medida que el valor de K (cantidad de clústeres) aumenta. Con respecto a la
estación Hospital de Caldas (altitud intermedia), los índices de evaluación son más bajos
que la estación anterior y a mayor cantidad de agrupamientos, más bajo aún es el valor de
estos índices (ganándose calidad). No obstante, para la estación El Cisne PNNN (altura
máxima), sucede todo lo contrario: los índices de evaluación vuelven a ser mayores
(perdiéndose calidad).
La tabla 45 resalta las mejores evaluaciones de clustering según el índice de Davis-Bouldin
para cada escenario de cada una de las estaciones climáticas.
K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5
1.1 -0.320 -0.408 -1.050 -0.356 -1.204 -1.056 -0.734 -1.850 -1.307
1.2 -0.545 -0.610 -1.228 -1.198 -2.614 -1.280 -0.947 -5.950 -1.738
1.3 -0.549 -0.665 -1.405 -1.199 -2.615 -1.296 -0.979 -6.225 -1.751
2.1 -0.358 -0.690 -0.793 -1.023 -0.549 1.323 -0.477 -0.740 -0.655
2.2 -0.738 -0.697 -1.317 -2.073 -1.538 -1.469 -0.949 -2.140 -1.940
2.3 -0.747 -0.691 -1.222 -2.279 -1.1510 -1.663 -0.948 -1.883 -2.034
3.1 -0.358 -0.690 -0.793 -1.171 -14.231 -1.318 -0.481 -0.740 -0.656
3.2 -0.740 -0.698 -1.323 -1.692 -3.534 -1.479 -0.825 -1.997 -1.751
3.3 -0.713 -0.661 -1.186 -1.588 -1.299 -1.553 -0.882 -1.784 -1.528
4.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.493 -0.746 -7.937
4.2 -0.740 -0.698 -1.323 -2.078 -1.544 -1.482 -0.957 -2.198 -1.972
4.3 -0.713 -0.661 -1.186 -2.290 -1.507 -1.668 -0.985 -0.936 -1.420
5.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.477 -0.740 -0.656
5.2 -0.740 -0.698 -1.323 -1.023 -0.549 -1.323 -0.950 -2.146 -1.948
5.3 -0.713 -0.661 -1.186 -1.023 -0.549 -1.330 -0.963 -1.942 -1.349
#5
Escenarios
Estación Hospital de Villamaría Estación Hospital de Caldas Estación El Cisne PNNN
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-BouldinTratamiento
#1
#2
#3
#4
117
Tabla 45. Visualización de los mejores índices de evaluación de clustering para K-medoids.
En color amarillo se destaca la mejor evaluación de clustering en K-medoids para cada
escenario de cada una de las tres estaciones climáticas.
Para K-medoids, la iteración del algoritmo para asignar cada punto al clúster con el objeto
representativo más cercano, luego aleatoriamente seleccionar un objeto 𝑋𝑖 no
representativo, calcular el costo total S de intercambiar el objeto representativo m con 𝑋𝑖,
para luego determinar si S<0 entonces intercambiar m con 𝑋𝑖 para formar el nuevo
conjunto de objetos representativos k, es un proceso robusto, no solamente por ejecutar
cuatro pasos para cada iteración, sino también al evidenciarse la complejidad
computacional que tiene el algoritmo para procesar tan solo 60.000 instancias en donde
una única ejecución tardó hasta 3 horas y 30 minutos. Esta ejecución se hizo para tantear
el potencial de K-medoids antes del diseño de los escenarios, por lo que esta prueba
coincide con la conclusión de Aggarwal & Reddy (2013) respecto a exponer a K-medoids
a altos volúmenes de instancias no es adecuado.
Discusión adicional de los algoritmos particionados
Para los anteriores algoritmos particionados como K-means y K-medoids, la normalización
y el tipo de técnica influye considerablemente en la evaluación de la calidad del clúster. El
índice de Davis-Bouldin al evaluar la calidad del clúster, genera un acercamiento (y
verificando de manera visual) a los mejores resultados de agrupamiento. Además, mientras
el valor de K sea más alto, conllevará a más demanda de requerimientos de hardware y
de tiempo para ejecutar y procesar un dataset, y posteriormente a ejecutar el algoritmo.
También se debe tener en cuenta que K-means y K-medoids no pueden procesar campos
vacíos. Algunos autores omiten los datos faltantes y corruptos para estos algoritmos
(Arroyo et al., 2017), así que los datos faltantes fueron transformados a un valor promedio
del atributo. Esta decisión se llevó a cabo para permitir que el algoritmo se pudiera ejecutar.
Tampoco se quiso reemplazar por el menor o mayor valor porque esto generaría arrastres
de agrupamientos y alteraría el análisis de los resultados.
K=2 K=3 K=5 K=2 K=3 K=5 K=2 K=3 K=5
1.1 -0.320 -0.408 -1.050 -0.356 -1.204 -1.056 -0.734 -1.850 -1.307
1.2 -0.545 -0.610 -1.228 -1.198 -2.614 -1.280 -0.947 -5.950 -1.738
1.3 -0.549 -0.665 -1.405 -1.199 -2.615 -1.296 -0.979 -6.225 -1.751
2.1 -0.358 -0.690 -0.793 -1.023 -0.549 1.323 -0.477 -0.740 -0.655
2.2 -0.738 -0.697 -1.317 -2.073 -1.538 -1.469 -0.949 -2.140 -1.940
2.3 -0.747 -0.691 -1.222 -2.279 -1.1510 -1.663 -0.948 -1.883 -2.034
3.1 -0.358 -0.690 -0.793 -1.171 -14.231 -1.318 -0.481 -0.740 -0.656
3.2 -0.740 -0.698 -1.323 -1.692 -3.534 -1.479 -0.825 -1.997 -1.751
3.3 -0.713 -0.661 -1.186 -1.588 -1.299 -1.553 -0.882 -1.784 -1.528
4.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.493 -0.746 -7.937
4.2 -0.740 -0.698 -1.323 -2.078 -1.544 -1.482 -0.957 -2.198 -1.972
4.3 -0.713 -0.661 -1.186 -2.290 -1.507 -1.668 -0.985 -0.936 -1.420
5.1 -0.358 -0.690 -0.793 -1.023 -0.549 -1.323 -0.477 -0.740 -0.656
5.2 -0.740 -0.698 -1.323 -1.023 -0.549 -1.323 -0.950 -2.146 -1.948
5.3 -0.713 -0.661 -1.186 -1.023 -0.549 -1.330 -0.963 -1.942 -1.349
#5
Escenarios
Estación Hospital de Villamaría Estación Hospital de Caldas Estación El Cisne PNNN
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
Criterio de evaluación de clúster: Índice de
Davis-BouldinTratamiento
#1
#2
#3
#4
118 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
La investigación arroja una notable diferencia entre los datasets limpios VS los datasets
con valores faltantes que son reemplazados por un valor promedio del atributo, ya que en
los resultados obtenidos hay variación en el índice de evaluación de agrupamiento el cual
es mejor cuando el dataset está limpio. Por otro lado, los datasets con datos faltantes y
datos atípicos (escenario 1) obtuvieron los resultados de menor desempeño ya que se
encuentra un desbalance en la formación de los clústeres y el índice de evaluación de sus
tratamientos no es el mejor de todos, lo que determina que el utilizar un conjunto de datos
crudo no es recomendable. Además, los datos atípicos (outliers) no generaron afectación
en los resultados obtenidos ya que los índices de evaluación de clustering dados por el
escenario 4 son muy similares, por ejemplo, al escenario 5 el cual utiliza un dataset limpio.
Esto pudo deberse a que la cantidad de outliers era pequeña a comparación del tamaño
del dataset (outliers sujetos a la existencia dentro del dataset), o por el contrario la
normalización permitió reducir esas grandes márgenes de distancia para posteriormente
entregar mejores agrupamientos.
Además, la reducción de dimensionalidad con PCA para datos no etiquetados cuyos
datasets son empleados para los algoritmos descriptivos particionados (K-means y K-
medoids) empleando tres componentes principales no es una buena idea ya que se
desarrolla un panorama de más de dos dimensiones en el plano y es complejo su análisis
pues no se cuenta con una etiqueta para determinar el posicionamiento de los datos en el
plano al ser nuevas variables creadas a partir de una combinación lineal de los atributos
originales, por lo que analizar estos gráficos es difícil para un investigador en términos
climáticos, y por lo tanto es incompresible entender la razón de los agrupamientos, tal como
lo mencionan Aggarwal & Reddy (2013) en que transformar los datos del espacio original
en un nuevo espacio con una dimensión más baja donde no se pueden asociar a las
características del espacio original conlleva a que realizar un análisis del nuevo espacio es
muy complicado y complejo ya que no hay un significado físico para las características
transformadas y obtenidas.
Además, aparte del primer componente, generar varios componentes principales (que son
independientes u ortogonales) dificulta al investigador en el análisis y comprensión de los
datos y las visualizaciones. Por esto, propiciar un PCA con dos componentes podría ser
interesante para determinar en un plano de dos dimensiones el comportamiento de los
datos y hacer más fácil su análisis, y llevar la reducción de atributos iniciales (que son
cuatro) a solamente dos. En términos de evaluación de clustering, PCA no influyó en la
mejora del índice de Davis-Bouldin.
Por otro lado, el número de iteraciones fuerzan al algoritmo a que intente por más veces
formar los clústeres y recalcular los centroides, pero no significa que mientras más veces
lo haga, mejor va a quedar. Llega a un punto donde encuentra el cálculo que necesita,
inclusive con una sola iteración. Visto en la experimentación, un número de iteraciones en
100 fue un valor equilibrado para trabajar con clustering, en donde no se afecta el
119
desempeño computacional en términos de tiempos de ejecución para el algoritmo,
evitando que un investigador reitere por miles de veces de forma innecesaria y se
comprueba que reiterar con un número mayor no afecta en la mejora del índice de
evaluación (recalcular sus centroides para encontrar un valor adecuado).
Agrupamiento aglomerativo con Linkage-Complete
Para el algoritmo de agrupamiento aglomerativo, se optó por realizar un procesamiento
con 20.000 instancias para tantear el previo funcionamiento del algoritmo y determinar la
posterior creación de los escenarios, y se encontró en que el procesamiento fue demasiado
lento y esto se debió a que el algoritmo presentó una gran complejidad computacional
porque una vez se determina y emplea una medida de distancia, se construye una matriz
de disimilitud, y este proceso conlleva a que se genere una matriz de tamaño 20.000 X
20.000 (para un dataset de 20.000 instancias) lo que en términos de hardware se hace
complejo de almacenar y procesar. Después de esto, los conjuntos de datos se fusionan
en cada nivel y posteriormente la matriz de diferencias se va actualizando. Esto finalmente
genera un gran impacto en el procesamiento de la computadora y la ejecución tarda más
de 1 hora y 30 minutos (para un dataset de 20.000 instancias), es decir, tardó 72 veces
más con respecto a los escenarios anteriores de 5.000 instancias. Esta conclusión soporta
las investigaciones de Arroyo et al. (2017) en donde agrupamiento jerárquico no es
recomendable para un dataset de más de 10.000 instancias, por lo que se decidió en crear
escenarios con conjuntos de datos no superiores a los 5.000 instancias.
Agrupamiento jerárquico no puede procesar campos vacíos así que los datos faltantes
fueron transformados a un valor promedio del atributo. Esta decisión se llevó a cabo para
permitir que el algoritmo se pudiera ejecutar. Tampoco se quiso reemplazar por el menor
o mayor valor porque esto generaría arrastres de agrupamientos y alteraría el análisis de
los resultados.
En lo que respecta a atributos, la precipitación al estar dentro de un dataset hace que el
dendrograma se vuelva más complejo de analizar, no solamente por crear una
aglomeración adicional en los niveles inferiores, sino también porque implica incrementar
el dataset con miles de datos más, conllevando a que el gráfico aglomere muchas
instancias y se vuelva estrecho para posteriores visualizaciones y análisis, más allá de que
el conjunto de datos que inicialmente se carga ya viene grande, así que se recomienda
emplear precipitación para un dataset que garantice una cantidad de instancias inferior a
las utilizadas en esta experimentación, es decir, por debajo de 1.000 instancias, para el
algoritmo aglomerativo.
Basándonos en lo anterior, un dendrograma de alrededor de 3.000 instancias (hojas)
puede permitir a un investigador ver con facilidad como se fusionan las instancias desde
el nivel intermedio y enfocar la observación hacia niveles superiores, a pesar de que los
niveles inferiores es imposible visualizarlos, por lo que si un investigador desea evaluar
desde el nivel 0 del árbol se le sugiere emplear conjuntos de datos inferiores a 100
120 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
instancias para que los dendrogramas sean más visibles y más fáciles de observar y
analizar desde los niveles más inferiores. Agrupamiento jerárquico es excelente para un
dataset pequeño (Arroyo et al., 2017; Shaukat, Rao, & Khan, 2016).
Por otra parte, la normalización facilitó la construcción de los dendrogramas, contribuyendo
a que las distancias de disimilitud y las distancias de similitud (eje Y) se volvieran más
cercanas al haber llevado los datos a una escala entre cero y uno, lo que permitió acortar
las distancias para poder visualizar de manera más simple el dendrograma. La reducción
de dimensionalidad no fue trascendental en los resultados obtenidos por lo que se concluye
que no fue de utilidad para el algoritmo aglomerativo.
En términos computacionales, el algoritmo emplea recursos de máquina similares en todos
los escenarios, independientemente de las características preestablecidas, pero si se
encuentra tiempos de ejecución y tiempos de CPU altos para el escenario 1 (hasta ocho
veces mayores que el resto de escenarios así la diferencia sean 2.000 instancias), lo que
confirma que el uso de datasets con volúmenes de instancias grandes para agrupamiento
jerárquico aglomerativo puede conllevar a un procesamiento más demorado así el conjunto
de datos sea pequeño si se lleva a otros algoritmos.
Computación paralela
Se llevó a cabo la ejecución del dataset de la estación Hospital de Caldas empleando los
algoritmos K-means, K-medoids y aglomerativo en el escenario 1 que comprende el
dataset crudo, sin normalización, sin reducción de dimensionalidad e iterando los
algoritmos con un valor de 100. Estos fueron los resultados consolidados en las tablas 46
y 47 que demuestran el impacto positivo que tiene el uso de computación paralela para el
mejoramiento de los índices de evaluación de agrupamiento para K-means. Para K-
medoids ocurre lo mismo a excepción de K=3.
Tabla 46. Comparativo de índices de evaluación de agrupamiento para K-means.
Con computación paralela Sin computación paralelaCriterio de evaluación de
clúster: Índice de Davis-
Bouldin
Criterio de evaluación de
clúster: Índice de Davis-
Bouldin
-0.000
-0.000
-0.129
3 -0.437
5 -0.489
#1 530.801
2 -0.514
EscenariosNúmero
de ítems
Número
de
clústeres
121
Tabla 47. Comparativo de índices de evaluación de agrupamiento para K-medoids.
6.2 Validación con un nuevo dataset
Para confrontar los resultados de la experimentación anterior, se obtuvo un nuevo dataset
de otra estación climática y se aplicó cada algoritmo a un escenario específico con el fin
de validar los resultados.
La estación climática que se usó para validar los resultados fue la estación Alcaldía de
Marquetalia (clima cálido, similar a las condiciones climáticas de la Estación de Villamaría),
cuyo dataset comprendió 372.242 instancias.
Tabla 48. Estación climática con nuevo dataset para validación de resultados.
Para K-means, el escenario utilizado para la validación fue el escenario 2, que comprende
estas características:
Tabla 49. Escenario 2 para aplicar el algoritmo K-means con el nuevo dataset.
Y estos fueron los resultados:
Con computación paralela Sin computación paralela
#1 10.000
2 -0.421 -0.356
EscenariosNúmero
de ítems
Número
de
clústeres
Criterio de evaluación de
clúster: Índice de Davis-
Bouldin
Criterio de evaluación de
clúster: Índice de Davis-
Bouldin
3 -0.730 -1.204
5 -1.201 -1.056
Nombre de la estación Tipología Altitud Ubicación
Alcaldía de Marquetalia Meteorológica 1591 msnm Marquetalia
Tratamiento NormalizaciónReducción de
dimensionalidad
Número de
iteraciones
2.1 NO NO 100
2.2Range-
transformationNO 1000
2.3 Z-transformationPCA con 3
componentes10
#2
Cantidad de variables: 3 Tipo de
variables: temperatura, humedad
relativa y radiación solar.
Cantidad de registros: todos los
del dataset. Datos faltantes
(missing): no. Valores atípicos
(outliers): no.
Escenario
122 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
Tabla 50. Resultados de K-means con el nuevo dataset para la estación climática
Alcaldía de Marquetalia.
Para K-medoids, el escenario utilizado para la validación fue el escenario 5, que
comprende estas características:
Tabla 51. Escenario 5 para aplicar el algoritmo K-medoids con el nuevo dataset.
Y estos fueron los resultados:
Tabla 52. Resultados de K-medoids con el nuevo dataset para la estación climática
Alcaldía de Marquetalia.
Para el algoritmo aglomerativo con 5.000 instancias, dataset limpio y normalizando con
Range-transformation, en la figura 53 se observa un dendrograma claro y expandido en el
plano, igual que el obtenido en el dendrograma de la figura 45. Al aplicar normalización los
dendrogramas se observan con distancias de disimilitud cortas lo que implica que el árbol
pueda ser cortado visualmente hasta para un K=16.
K=2 K=3 K=5
2.1 -0.427 -0.433 -0.501
2.2 -0.675 -0.880 -0.980
2.3 -0.812 -1.026 -1.011
Escenarios Tratamiento
Estación Alcaldía de Marquetalia
Criterio de evaluación de clúster: Índice de
Davis-Bouldin
#2
Tratamiento NormalizaciónReducción de
dimensionalidad
Número de
iteraciones
5.1 NO NO 100
5.2Range-
transformationNO 1000
5.3 Z-transformationPCA con 3
componentes10
#5
Cantidad de variables: 4 Tipo de
variables: temperatura, humedad
relativa, radiación solar y
precipitación. Cantidad de
registros: 10.000 registros. Datos
faltantes (missing): no. Valores
atípicos (outliers): no.
Escenario
K=2 K=3 K=5
5.1 -0.706 -0.510 -2.657
5.2 -1.698 -1.767 -1.786
5.3 -1.704 -1.350 -1.145
Escenarios Tratamiento
Estación Alcaldía de Marquetalia
Criterio de evaluación de clúster: Índice
de Davis-Bouldin
#5
123
Figura 53. Resultados del agrupamiento aglomerativo con Linkage-Complete con el
nuevo dataset para la estación climática Alcaldía de Marquetalia.
Acorde a las anteriores validaciones, se pudo corroborar lo obtenido en el marco
experimental llevado a cabo, donde las mejores evaluaciones de clustering coinciden con
la discusión expuesta en el sub-numeral anterior en las tablas 43 y 45.
7. Conclusiones y recomendaciones
7.1 Conclusiones
Para K-means, en la estación Hospital de Caldas, hay mayor cantidad de evaluaciones de
clustering con mejor calidad a comparación de las otras dos estaciones. Esto se determina
al tomar un valor como referencia para hacer el conteo, en este caso, los índices iguales o
por debajo a -0.700, por lo tanto, un dataset cuyos valores de sus atributos no contienen
condiciones extremas (como altas o bajas temperaturas), como lo evidencia la estación
Hospital de Caldas, generan una aproximación a una gran cantidad de índices de
evaluación de agrupamiento mejores para los clústeres en K-means, a comparación de lo
obtenido con las otras dos estaciones.
Para K-means, el mejor índice de evaluación de clustering para la estación Hospital de
Villamaría tuvo el valor de -1.004 y para la estación Hospital de Caldas el valor fue de -
1.009 según la tabla 43, lo que significa que para un dataset climático extraído de una
124 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
región que oscile los 1.790msnm y los 2.183msnm (entre clima cálido y templado), al
utilizar K-means un valor de K con 3 clústeres, normalización con Z-transformation y
número de iteraciones del algoritmo en 10, generan una aproximación a la mejor
evaluación de clustering. Con respecto a la estación El Cisne PNNN, el mejor índice de
evaluación fue dado por el valor de -1.051 según la tabla 43, lo que significa que para un
dataset que proviene de fuentes de elevadas altitudes como los 4.812msnm, emplear un
valor de K con 2 clústeres, normalización con Z-transformation y un número de iteraciones
del algoritmo en 10, genera aproximación a la mejor evaluación de clustering.
Por otro lado, para K-medoids, en la estación El Cisne PNNN, hay mayor cantidad de
evaluaciones de clustering con mejor calidad en comparación de las otras dos estaciones.
Esto se determina al tomar un valor como referencia para hacer el conteo, en este caso,
los índices iguales o por debajo a -0.700, por lo tanto, un dataset cuyos valores de sus
atributos contienen condiciones extremas (como elevadas temperaturas o humedad
relativa del 100%), como lo evidencia la estación El Cisne PNNN, generan una
aproximación a una gran cantidad de índices de evaluación de agrupamiento mejores para
los clústeres en K-medoids, a comparación de lo obtenido con las otras dos estaciones.
Para K-medoids, el mejor índice de evaluación de clustering para la estación Hospital de
Villamaría tuvo un valor de -1.405 según la tabla 45, lo que significa que para un dataset
climático extraído de una región que oscile los 1.790msnm (clima cálido), al utilizar K-
medoids un valor de K de 5 clústeres, normalización con Z-transformation y número de
iteraciones del algoritmo en 10, genera una aproximación a la mejor evaluación de
clustering. Para la estación Hospital de Caldas, el mejor índice tuvo un valor de -14.231
según la tabla 45, lo que significa que para un dataset que proviene de fuentes de altitudes
de 2.183msnm (clima templado), emplear un valor de K con 3 clústeres sin ninguna otra
característica, genera una aproximación a la mejor evaluación de clustering. Con respecto
a la estación El Cisne PNNN, la mejor evaluación de clustering tuvo el valor de -7.937
según la tabla 45, lo que significa que para un dataset que proviene de fuentes de altitudes
de 4.812msnm (clima extremadamente frío), emplear un valor de K con 5 clústeres sin
ninguna otra característica, genera una aproximación a la mejor evaluación de clustering.
Con base a lo anterior y la información vista en la sección de discusiones, los índices de
evaluación de clúster se observan con valores muy bajos para K-medoids a comparación
de los obtenidos en K-means, lo que significa que el agrupamiento y la calidad de los nodos
obtenidos da mejores resultados para K-medoids que para K-means.
Por lo tanto, de los dos algoritmos particionados utilizados para el marco experimental, el
algoritmo que presentó los mejores desempeños y resultados fue K-medoids.
Para agrupamiento aglomerativo con enlace completo (Linkage-Complete), los
procesamientos de datasets que contienen la menor cantidad de instancias y que han
pasado por un proceso de normalización con Range-Transformation tienen los mejores
125
resultados en los dendrogramas en términos gráficos, no solamente porque con menos
instancias el dendrograma es más sencillo de visualizar y analizar, sino también porque la
normalización permite acortar distancias de similitud (eje Y) y hacer más fácil aún la
visualización del dendrograma. A este algoritmo no se le puede aplicar un índice de
evaluación de rendimiento o performance por ser de clustering jerárquico, pues no existen
métricas de desempeño oficiales, excepto que un investigador desarrolle en un software
funcionalidades externas para proveer evaluaciones de desempeño a nivel matemático
(Erman & Suklan, 2015). Basándonos en lo anterior, el investigador es quien determina en
qué punto desea cortar el árbol para obtener un valor de clústeres (K) y a partir de allí
hacer el análisis de los resultados.
Con respecto a computación paralela, K-means tuvo mejores resultados de agrupamiento
en un 100% según el índice de Davis-Bouldin a diferencia de lo obtenido cuando se
ejecutaron individualmente para cada valor de K, lo que evidencia las ventajas de emplear
computación paralela para K-means en búsqueda de obtener mejores evaluaciones de
desempeño en los clústeres. Por otro lado, K-medoids tuvo mejoras en un 66% al aplicar
computación paralela y el otro 34% fue opuesto con 3 clústeres. Esto puede deberse a la
forma en que K-medoids calcula los centros de agrupación, ya que en K-medoids, el nuevo
centro de agrupación es el punto más cercano a la media de los puntos de agrupación. Es
decir, el algoritmo genera centros de agrupación aleatorios, en lugar de una matriz de
partición para la inicialización (Arroyo et al., 2017).
Lo anterior permitió ver que la computación paralela y el uso de más procesadores tuvo
relación directa con el nivel de desempeño del algoritmo. Esto pudo ser dado por la
dependencia de que varias tareas simultáneas o ciclos hayan estado asociadas a
secuencias similares de operaciones.
7.2 Recomendaciones
Luego de la investigación llevada a cabo para la evaluación de algoritmos de aprendizaje
de máquina no supervisados sobre datos climáticos, se han obtenido una serie de aspectos
que se podrían realizar a futuro para emprender investigaciones similares o fortalecer la
investigación realizada con relación al machine learning, el clustering y el análisis de datos
climáticos.
Para trabajos futuros se recomienda emplear otro tipo de escenarios, tratamientos,
algoritmos y otras cantidades de clústeres para ver las evaluaciones de desempeño.
También sería importante saber de qué manera evaluar algoritmos jerárquicos
aglomerativos para determinar la calidad de los dendrogramas con el fin de romper la
subjetividad de cada investigador y aplicar mediciones matemáticas.
Para buscar evaluaciones de clustering con mejores resultados, se recomienda emplear
K-medoids si se cuenta con un dataset pequeño que no supere las 10.000 instancias,
126 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
según el marco experimental llevado a cabo. Si el investigador desea emplear una gran
cantidad de instancias, K-means es la alternativa.
Igualmente, se recomienda emplear técnicas como Ordinary Kriging para el manejo de las
grandes cantidades de ceros que contiene una variable dentro de un dataset, para ver qué
ocurre con los resultados y análisis. Además, llevar a cabo escenarios con un valor K
superior a 5 permitiría a los investigadores indagar qué ocurre con el agrupamiento y el
rendimiento para los algoritmos particionados como K-means y K-medoids, tanto a nivel
de máquina como en el desempeño de estos. También se sugiere emplear otros métodos
de normalización como transformación de proporción y rango inter-cuartil para ver cómo
se comportan los clustering con estos análisis. Por otro lado, evaluar datos dentro de una
escala temporal (por día, por jornada, etc.) empleando series de tiempo permitiría conocer
interesantes comportamientos de los clustering y la calidad de sus agrupamientos en una
línea del tiempo para diferentes temporadas o estaciones del año (cómo se daría el
desempeño para temporadas frías o estaciones de verano). También, sería interesante
realizar procesamientos bajo diferentes escenarios que comprendan un conjunto de datos
más grande (de millones de instancias) para K-means, para observar el comportamiento
computacional a mayor escala con el fin de determinar qué tan eficiente es para grandes
datasets, con el fin de detectar nuevos patrones o relaciones.
Con respecto a los algoritmos que demandaron un alto consumo computacional como K-
medoids (particionados) y agrupamiento aglomerativo (con método de Enlace Completo)
se recomienda ejecutarlos en escenarios soportados por servidores de grandes
características de hardware o computadoras de alto rendimiento para observar el
desempeño computacional para conjuntos de datos de más de 100.000 instancias, y que
soporten un avanzado sistema de visualización de datos para poder observar a más detalle
el dendrograma que se construye para un algoritmo jerárquico en donde los datasets son
más grandes a los trabajados en esta experimentación.
Este trabajo se enfocó principalmente en algoritmos de clusterización ya que la esencia de
esta investigación era desarrollar un proyecto que se enfocara en un área específica del
aprendizaje de máquina que profundizara en agrupamiento de datos. No se empleó
aprendizaje de máquina supervisado porque no era parte del alcance de esta investigación.
No obstante, se recomienda para futuras investigaciones hibridar soluciones de algoritmos
supervisados y no supervisados para permitir aplicar metodologías y resolver problemas a
nivel descriptivos apoyados de un alto componente de predicción que podrían proveer
algoritmos, como, por ejemplo, de clasificación, regresión, árboles de decisiones, redes
neuronales, bayesianos, entre otros. Igualmente, resolver problemas a nivel de predicción
apoyados de un alto componente descriptivo usando datos climáticos sería de bastante
interés para la comunidad.
Esta investigación deja las puertas abiertas a nuevas interrogantes, cuyos planteamientos
podrían dar cabida a complementar este estudio. Por ejemplo, al utilizar otras distancias
127
diferentes a la euclidiana, ¿cómo se comportarían los agrupamientos?; Si se quieren
analizar series de tiempo (como días, jornadas, estaciones del año) para líneas de tiempo
de años cuyos datasets son más de 100.000 instancias o un millón de instancias, ¿tiene
que ser definitivamente con K-means o se puede emplear K-medoids usando un mega
servidor?, ¿Cómo determinar las características mínimas de hardware para utilizar K-
medoids para un dataset de un millón de instancias?, ¿Cómo se comportarían otros
algoritmos aglomerativos y particionados?, ¿Qué otros escenarios se podrían crear?,
¿Cómo llevar a cabo la visualización de cientos de miles de datos en un dendrograma para
agrupamiento jerárquico si se cuenta con un potente hardware?, ¿Qué sucede si se
emplean ocho procesadores lógicos en paralelización en vez de cuatro?
Bibliografía
Abdul Halim, N. D., Latif, M. T., Ahamad, F., Dominick, D., Chung, J. X., Juneng, L., & Khan, M. F. (2018). The long-term assessment of air quality on an island in Malaysia. Heliyon, 4(12). https://doi.org/10.1016/j.heliyon.2018.e01054
Acciani, G., Chiarantoni, E., Fornarelli, G., & Vergura, S. (2003). A feature extraction unsupervised neural network for an environmental data set. Neural Networks, 16(3–4), 427–436. https://doi.org/10.1016/S0893-6080(03)00014-5
Aggarwal, C. C., & Reddy, C. K. (2013). DATA Custering Algorithms and Applications. (C. K. R. Charu C. Aggarwal, Ed.). CRC Press.
Alpaydın, E. (2014). Introduction to machine learning. Methods in Molecular Biology, 1107, 105–128. https://doi.org/10.1007/978-1-62703-748-8-7
André, M., Perez, R., Soubdhan, T., Schlemmer, J., Calif, R., & Monjoly, S. (2019). Preliminary assessment of two spatio-temporal forecasting technics for hourly satellite-derived irradiance in a complex meteorological context. Solar Energy, 177(December 2018), 703–712. https://doi.org/10.1016/j.solener.2018.11.010
Arbolino, R., Carlucci, F., Cirà, A., Ioppolo, G., & Yigitcanlar, T. (2017). Efficiency of the EU regulation on greenhouse gas emissions in Italy: The hierarchical cluster analysis approach. Ecological Indicators, 81(May), 115–123. https://doi.org/10.1016/j.ecolind.2017.05.053
Arroyo, Á., Herrero, Á., Tricio, V., & Corchado, E. (2017). Analysis of meteorological conditions in Spain by means of clustering techniques. Journal of Applied Logic, 24, 76–89. https://doi.org/10.1016/j.jal.2016.11.026
Asadi Zarch, M. A., Sivakumar, B., & Sharma, A. (2015). Assessment of global aridity change. Journal of Hydrology, 520, 300–313. https://doi.org/10.1016/j.jhydrol.2014.11.033
Bador, M., Naveau, P., Gilleland, E., Castellà, M., & Arivelo, T. (2015). Spatial clustering of summer temperature maxima from the CNRM-CM5 climate model ensembles & E-OBS over Europe. Weather and Climate Extremes, 9, 17–24. https://doi.org/10.1016/j.wace.2015.05.003
Ben-David, S., & Shalev-Shwartz, S. (2014). Understanding Machine Learning: From Theory to Algorithms. Understanding Machine Learning: From Theory to Algorithms.
128 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
https://doi.org/10.1017/CBO9781107298019 Bramer, M. (2007). Principles of Data Mining. Springer. https://doi.org/10.1007/978-1-
4471-4884-5_1 Calliari, E., Farnia, L., Ramieri, E., & Michetti, M. (2019). A network approach for moving
from planning to implementation in climate change adaptation: evidence from southern Mexico. Environmental Science and Policy, 93(November 2017), 146–157. https://doi.org/10.1016/j.envsci.2018.11.025
Carro-Calvo, L., Ordóñez, C., García-Herrera, R., & Schnell, J. L. (2017). Spatial clustering and meteorological drivers of summer ozone in Europe. Atmospheric Environment, 167, 496–510. https://doi.org/10.1016/j.atmosenv.2017.08.050
Carvalho, M. J., Melo-Gonçalves, P., Teixeira, J. C., & Rocha, A. (2016). Regionalization of Europe based on a K-Means Cluster Analysis of the climate change of temperatures and precipitation. Physics and Chemistry of the Earth, 94, 22–28. https://doi.org/10.1016/j.pce.2016.05.001
Cashman, S. A., Meyer, D. E., Edelen, A. N., Ingwersen, W. W., Abraham, J. P., Barrett, W. M., … Smith, R. L. (2016). Mining Available Data from the United States Environmental Protection Agency to Support Rapid Life Cycle Inventory Modeling of Chemical Manufacturing. Environmental Science and Technology, 50(17), 9013–9025. https://doi.org/10.1021/acs.est.6b02160
Chen, J., Song, M., & Xu, L. (2015). Evaluation of environmental efficiency in China using data envelopment analysis. Ecological Indicators, 52, 577–583. https://doi.org/10.1016/j.ecolind.2014.05.008
Chen, L., & Jia, G. (2017). Environmental efficiency analysis of China’s regional industry : a data envelopment analysis (DEA) based approach. Journal of Cleaner Production, 142, 846–853. https://doi.org/10.1016/j.jclepro.2016.01.045
Chen, Y., Wang, L., Li, F., Du, B., Choo, K. K. R., Hassan, H., & Qin, W. (2017). Air quality data clustering using EPLS method. Information Fusion, 36, 225–232. https://doi.org/10.1016/j.inffus.2016.11.015
Chidean, M. I., Caamaño, A. J., Ramiro-Bargueño, J., Casanova-Mateo, C., & Salcedo-Sanz, S. (2018). Spatio-temporal analysis of wind resource in the Iberian Peninsula with data-coupled clustering. Renewable and Sustainable Energy Reviews, 81(June), 2684–2694. https://doi.org/10.1016/j.rser.2017.06.075
Chidean, M. I., Muñoz-Bulnes, J., Ramiro-Bargueño, J., Caamaño, A. J., & Salcedo-Sanz, S. (2015). Spatio-temporal trend analysis of air temperature in Europe and Western Asia using data-coupled clustering. Global and Planetary Change, 129, 45–55. https://doi.org/10.1016/j.gloplacha.2015.03.006
Clay, N., & King, B. (2019). Smallholders’ uneven capacities to adapt to climate change amid Africa’s ‘green revolution’: Case study of Rwanda’s crop intensification program. World Development, 116, 1–14. https://doi.org/S0305750X18304285
Conradt, T., Gornott, C., & Wechsung, F. (2016). Extending and improving regionalized winter wheat and silage maize yield regression models for Germany: Enhancing the predictive skill by panel definition through cluster analysis. Agricultural and Forest Meteorology, 216, 68–81. https://doi.org/10.1016/j.agrformet.2015.10.003
Deogun, J. S., & Raghavan, V. V. (1999). Data Mining : Research Trends , Challenges , and Applications, 1–29. https://doi.org/10.1.1.52.337
Erman, N., & Suklan, J. (2015). Performance of selected agglomerative clustering methods. Innovative Issues and Approaches in Social Sciences, 8(January). https://doi.org/10.12959/issn.1855-0541.IIASS-2015-no1-art11
129
Falquina, R., & Gallardo, C. (2017). Development and application of a technique for projecting novel and disappearing climates using cluster analysis. Atmospheric Research, 197(July), 224–231. https://doi.org/10.1016/j.atmosres.2017.06.031
Farah, S., Whaley, D., Saman, W., & Boland, J. (2019). Integrating Climate Change into Meteorological Weather Data for Building Energy Simulation. Energy and Buildings, 183, 749–760. https://doi.org/S0378778818323296
Franceschi, F., Cobo, M., & Figueredo, M. (2018). Discovering relationships and forecasting PM10 and PM2.5 concentrations in Bogotá Colombia, using Artificial Neural Networks, Principal Component Analysis, and k-means clustering. Atmospheric Pollution Research, 9(5), 912–922. https://doi.org/10.1016/j.apr.2018.02.006
Franco, D. G. de B., & Steiner, M. T. A. (2018). Clustering of solar energy facilities using a hybrid fuzzy c-means algorithm initialized by metaheuristics. Journal of Cleaner Production, 191, 445–457. https://doi.org/10.1016/j.jclepro.2018.04.207
Gallo, C., Faccilongo, N., & La Sala, P. (2017). Clustering analysis of environmental emissions: A study on Kyoto Protocol’s impact on member countries. Journal of Cleaner Production. https://doi.org/10.1016/j.jclepro.2017.07.194
Gan, G., Ma, C., & Wu, J. (2007). Data Clustering: Theory, Algorithms, and Applications. Philadelphia, Pennsylvania: SIAM - Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9780898718348
Ghayekhloo, M., Ghofrani, M., Menhaj, M. B., & Azimi, R. (2015). A novel clustering approach for short-term solar radiation forecasting. Solar Energy, 122, 1371–1383. https://doi.org/10.1016/j.solener.2015.10.053
Guo, Y., Gao, H., & Wu, Q. (2017). A meteorological information mining-based wind speed model for adequacy assessment of power systems with wind power. International Journal of Electrical Power and Energy Systems, 93, 406–413. https://doi.org/10.1016/j.ijepes.2017.05.031
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. San Francisco, CA, itd: Morgan Kaufmann. https://doi.org/10.1016/B978-0-12-381479-1.00001-0
Han, S., Zhang, L. na, Liu, Y. qian, Zhang, H., Yan, J., Li, L., … Wang, X. (2019). Quantitative evaluation method for the complementarity of wind–solar–hydro power and optimization of wind–solar ratio. Applied Energy, 236(December 2018), 973–984. https://doi.org/10.1016/j.apenergy.2018.12.059
Hao, Y., Dong, L., Liao, X., Liang, J., Wang, L., & Wang, B. (2019). A novel clustering algorithm based on mathematical morphology for wind power generation prediction. Renewable Energy, 136, 572–585. https://doi.org/10.1016/j.renene.2019.01.018
Hidalgo, J., Dumas, G., Masson, V., Petit, G., Bechtel, B., Bocher, E., … Mills, G. (2019). Comparison between local climate zones maps derived from administrative datasets and satellite observations. Urban Climate, 27(November 2017), 64–89. https://doi.org/10.1016/j.uclim.2018.10.004
Jiang, J., Ye, B., Xie, D., & Tang, J. (2017). Provincial-level carbon emission drivers and emission reduction strategies in China: Combining multi-layer LMDI decomposition with hierarchical clustering. Journal of Cleaner Production, 169, 178–190. https://doi.org/10.1016/j.jclepro.2017.03.189
Kalteh, A. M., Hjorth, P., & Berndtsson, R. (2008). Review of the self-organizing map (SOM) approach in water resources: Analysis, modelling and application. Environmental Modelling & Software, 23(7), 835–845.
130 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
https://doi.org/http://dx.doi.org/10.1016/j.envsoft.2007.10.001 Kanevski, M., Pozdnukhov, A., & Timonin, V. (2008). Machine Learning Algorithms for
GeoSpatial Data. Applications and Software Tools. Iemss.Org, 320–327. Khedairia, S., & Khadir, M. T. (2012). Impact of clustered meteorological parameters on
air pollutants concentrations in the region of Annaba, Algeria. Atmospheric Research, 113, 89–101. https://doi.org/10.1016/j.atmosres.2012.05.002
Lausch, A., Schmidt, A., & Tischendorf, L. (2015). Data mining and linked open data – New perspectives for data analysis in environmental research. Ecological Modelling, 295, 5–17. https://doi.org/10.1016/j.ecolmodel.2014.09.018
Lee, J., & Kim, K. Y. (2018). Analysis of source regions and meteorological factors for the variability of spring PM10 concentrations in Seoul, Korea. Atmospheric Environment, 175(April 2017), 199–209. https://doi.org/10.1016/j.atmosenv.2017.12.013
Li, C., Sun, L., Jia, J., Cai, Y., & Wang, X. (2016). Risk assessment of water pollution sources based on an integrated k-means clustering and set pair analysis method in the region of Shiyan, China. Science of the Total Environment, 557–558, 307–316. https://doi.org/10.1016/j.scitotenv.2016.03.069
Li, S., Ma, H., & Li, W. (2017). Typical solar radiation year construction using k-means clustering and discrete-time Markov chain. Applied Energy, 205(May), 720–731. https://doi.org/10.1016/j.apenergy.2017.08.067
Lin, P., Peng, Z., Lai, Y., Cheng, S., Chen, Z., & Wu, L. (2018). Short-term power prediction for photovoltaic power plants using a hybrid improved Kmeans-GRA-Elman model based on multivariate meteorological factors and historical power datasets. Energy Conversion and Management, 177(July), 704–717. https://doi.org/10.1016/j.enconman.2018.10.015
Lokers, R., Knapen, R., Janssen, S., van Randen, Y., & Jansen, J. (2016). Analysis of Big Data technologies for use in agro-environmental science. Environmental Modelling and Software, 84, 494–504. https://doi.org/10.1016/j.envsoft.2016.07.017
Marzban, C., & Sandgathe, S. (2006). Cluster Analysis for Verification of Precipitation Fields. Weather and Forecasting, 21(5), 824–838. https://doi.org/10.1175/WAF948.1
Mayer, A., Winkler, R., & Fry, L. (2014). Classification of watersheds into integrated social and biophysical indicators with clustering analysis. Ecological Indicators, 45, 340–349. https://doi.org/10.1016/j.ecolind.2014.04.030
Meghea, I., Mihai, M., Lacatusu, I., & Iosub, I. (2012). Evaluation of Monitoring of Lead Emissions in Bucharest by Statistical Processing. Journal of Environmental Protection and Ecology, 13(2), 746–755.
Mokdad, F., & Haddad, B. (2017). Improved infrared precipitation estimation approaches based on k-means clustering: Application to north Algeria using MSG-SEVIRI satellite data. Advances in Space Research, 59(12), 2880–2900. https://doi.org/10.1016/j.asr.2017.03.027
Naik, A., & Samant, L. (2016). Correlation Review of Classification Algorithm Using Data Mining Tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Procedia Computer Science, 85(Cms), 662–668. https://doi.org/10.1016/j.procs.2016.05.251
Nguyen, T. T., Kawamura, A., Tong, T. N., Nakagawa, N., Amaguchi, H., & Gilbuena, R. (2015). Clustering spatio-seasonal hydrogeochemical data using self-organizing maps for groundwater quality assessment in the Red River Delta, Vietnam. Journal of Hydrology, 522, 661–673. https://doi.org/10.1016/j.jhydrol.2015.01.023
Obradovic, V., Bjelica, D., Petrovic, D., Mihic, M., & Todorovic, M. (2016). Whether We are Still Immature to Assess the Environmental KPIs! Procedia - Social and
131
Behavioral Sciences, 226(October 2015), 132–139. https://doi.org/10.1016/j.sbspro.2016.06.171
Oshana, R. (2015). Principles of Parallel Computing. Multicore Software Development Techniques, 1–30. https://doi.org/10.1016/b978-0-12-800958-1.00001-2
Parente, J., Pereira, M. G., & Tonini, M. (2016). Space-time clustering analysis of wildfires: The influence of dataset characteristics, fire prevention policy decisions, weather and climate. Science of the Total Environment, 559, 151–165. https://doi.org/10.1016/j.scitotenv.2016.03.129
Pechenizkiy, M., Puuronen, S., & Tsymbal, A. (2008). Does relevance matter to data mining research? In Studies in Computational Intelligence (Vol. 118, pp. 251–275). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-540-78488-3_15
Pitchayadejanant, K., & Nakpathom, P. (2017). Data mining approach for arranging and clustering the agro-tourism activities in orchard. Kasetsart Journal of Social Sciences. https://doi.org/10.1016/j.kjss.2017.07.004
Pokorná, L., Kučerová, M., & Huth, R. (2018). Annual cycle of temperature trends in Europe, 1961–2000. Global and Planetary Change, 170(August), 146–162. https://doi.org/10.1016/j.gloplacha.2018.08.015
Reduction, D., Comparative, M., Arroyo-hernández, J., & Rica, C. (2016). Métodos de reducción de dimensionalidad : Análisis comparativo de los métodos APC , ACPP y ACPK. Uniciencia, 30(1), 115–122. https://doi.org/http://dx.doi.org/10.15359/ru.30-1.7
Ruzmaikin, A., & Guillaume, A. (2014). Clustering of atmospheric data by the deterministic annealing. Journal of Atmospheric and Solar-Terrestrial Physics, 120, 121–131. https://doi.org/10.1016/j.jastp.2014.09.009
Schäfer, E., Heiskanen, J., Heikinheimo, V., & Pellikka, P. (2016). Mapping tree species diversity of a tropical montane forest by unsupervised clustering of airborne imaging spectroscopy data. Ecological Indicators, 64, 49–58. https://doi.org/10.1016/j.ecolind.2015.12.026
Schneider, T., Hampel, H., Mosquera, P. V., Tylmann, W., & Grosjean, M. (2018). Paleo-ENSO revisited: Ecuadorian Lake Pallcacocha does not reveal a conclusive El Niño signal. Global and Planetary Change, 168(February), 54–66. https://doi.org/10.1016/j.gloplacha.2018.06.004
Shaukat, S. S., Rao, T. A., & Khan, M. A. (2016). Impact of sample size on principal component analysis ordination of an environmental data set: Effects on Eigenstructure. Ekologia Bratislava, 35(2), 173–190. https://doi.org/10.1515/eko-2016-0014
Sheridan, S. C., & Lee, C. C. (2011). The self-organizing map in synoptic climatological research. Progress in Physical Geography, 35(1), 109–119. https://doi.org/10.1177/0309133310397582
Sivaramakrishnan, T. R., & Meganathan, S. (2012). Point rainfall prediction using data mining technique. Research Journal of Applied Sciences, Engineering and Technology, 4(13), 1899–1902. https://doi.org/10.5120/14467-2750
Soubdhan, T., Abadi, M., & Emilion, R. (2014). Time dependent classification of solar radiation sequences using best information criterion. Energy Procedia, 57, 1309–1316. https://doi.org/10.1016/j.egypro.2014.10.121
Wang, X., Huang, G., Lin, Q., Nie, X., Cheng, G., Fan, Y., … Suo, M. (2013). A stepwise cluster analysis approach for downscaled climate projection - A Canadian case study. Environmental Modelling and Software, 49, 141–151.
132 Evaluación de algoritmos de aprendizaje de máquina no supervisados
sobre datos climáticos
https://doi.org/10.1016/j.envsoft.2013.08.006 Wrzesień, M., Treder, W., Klamkowski, K., & Rudnicki, W. R. (2018). Prediction of the
apple scab using machine learning and simple weather stations. Computers and Electronics in Agriculture, (June 2017). https://doi.org/10.1016/j.compag.2018.09.026
Yadav, A. K., Malik, H., & Chandel, S. S. (2015). Application of rapid miner in ANN based prediction of solar radiation for assessment of solar energy resource potential of 76 sites in Northwestern India. Renewable and Sustainable Energy Reviews, 52, 1093–1106. https://doi.org/10.1016/j.rser.2015.07.156
Yahyaoui, H., & Own, H. S. (2018). Unsupervised clustering of service performance behaviors. Information Sciences, 422, 558–571. https://doi.org/10.1016/j.ins.2017.08.065
Zheng, Y., Han, J., Huang, Y., Fassnacht, S. R., Xie, S., Lv, E., & Chen, M. (2017). Vegetation response to climate conditions based on NDVI simulations using stepwise cluster analysis for the Three-River Headwaters region of China. Ecological Indicators, (September 2016), 0–1. https://doi.org/10.1016/j.ecolind.2017.06.040
Zheng, Y., Han, J., Huang, Y., Fassnacht, S. R., Xie, S., Lv, E., … Sharma, A. (2016). Assessment of global aridity change. Ecological Indicators, 75(September 2016), 151–165. https://doi.org/10.1016/j.scitotenv.2015.11.063
Zuo, X., Hua, H., Dong, Z., & Hao, C. (2017). Environmental Performance Index at the Provincial Level for China 2006–2011. Ecological Indicators, 75, 48–56. https://doi.org/10.1016/j.ecolind.2016.12.016