Proceso de construcción de los modelospegasus.javeriana.edu.co/~CIS1410IS02/descargas/Anex… ·...
Transcript of Proceso de construcción de los modelospegasus.javeriana.edu.co/~CIS1410IS02/descargas/Anex… ·...
Anexo 4 -Modalidad Practica
Proceso de construcción de los modelosPara los contaminantes Ozono y Material ParticuladoAlex Ariel Arias Ríos
2014-1Pontificia Universidad Javeriana Bogotá
Contenido1. Introducción...............................................................................................................32. Construcción del Modelo RAO3...................................................................................3
2.1 Contenido del modelo RAO3..................................................................................32.1.1 Atributos que hacen parte del Antecedente de cada regla................................42.1.2 Atributo que hace parte del consecuente..........................................................4
2.2 Algoritmo PredictiveApriori...................................................................................42.2.1 Ejecución del Algoritmo...................................................................................52.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones....................62.2.3 Resultados Obtenidos.......................................................................................8
2.3 Algoritmo Apriori....................................................................................................92.3.1 Ejecución del Algoritmo.................................................................................102.3.2 Parámetros requeridos por el Algoritmo........................................................112.3.3 Resultados Obtenidos.....................................................................................13
2.4 Presentación de los resultados de los modelos RAO3 y RAPM10.......................153. Construcción del Modelo RAPM10............................................................................17
3.1 Contenido del Modelo RAPM10...........................................................................173.1.1 Atributos que hacen parte del Antecedente de cada regla..............................173.1.2 Atributo que hace parte del consecuente........................................................18
3.2 Algoritmo Apriori..................................................................................................183.2.1 Ejecución del Algoritmo.................................................................................183.2.2 Parámetros requeridos por el Algoritmo........................................................193.2.3 Resultados Obtenidos.....................................................................................203.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10.............22
Archivos que contienen los modelos RAPM10 y RAO3................................................234. Construcción del Modelo CO3....................................................................................24
4.1 Selección de los atributos de entrada.....................................................................244.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de Microsoft.................................................................................................................247.1.2 Método de Selección de Características de Microsoft para detectar los atributos de entrada..................................................................................................25
4.2 Algoritmo K- means..............................................................................................264.2.1 Ejecución del Algoritmo.................................................................................274.2.2 Resultados Obtenidos.....................................................................................284.2.3 Presentación de los resultados del modelo CO3.............................................29
5. Construcción del Modelo CPM10...............................................................................29
5.1 Selección de los atributos de entrada.....................................................................295.2 Algoritmo K- means..............................................................................................30
5.2.1 Ejecución del Algoritmo.................................................................................305.2.2 Resultados Obtenidos.....................................................................................32
Archivos que contienen los modelos CPM10 y CO3......................................................336. Construcción del Modelo CAO3.................................................................................33
6.1 Selección de los Atributos de entrada...................................................................336.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas....................................................................................................................34
6.2 Selección del Atributo Objetivo............................................................................356.3 Ejecución del Algoritmo de Microsoft..................................................................35
6.3.1 Creación de la Estructura de Minería de Datos..............................................356.3.2 Vista en general del Modelo de Árboles de decisión.....................................366.3.3 Configuración de los parámetros del algoritmo.............................................36
6.4 Resultados Obtenidos............................................................................................376.4.2 Visor Red de Dependencias............................................................................376.4.3 Selección de las ramas del Árbol....................................................................38
6.5 Archivo que contiene el nombre del modelo CAO3.............................................397. Construcción del Modelo CAPM10............................................................................39
7.1 Selección de los Atributos de entrada...................................................................397.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas....................................................................................................................40
7.2 Selección del Atributo Objetivo............................................................................417.3 Ejecución del Algoritmo de Microsoft..................................................................41
7.3.2 Vista en general del Modelo de Árboles de decisión.....................................417.3.3 Configuración de los parámetros del algoritmo.............................................42
7.4 Resultados Obtenidos............................................................................................427.4.1 Visor Árbol de Decisión.................................................................................427.4.2 Visor Red de Dependencias............................................................................437.4.3 Selección de las ramas del Árbol....................................................................43
7.5 Archivo que contiene el nombre del modelo CAPM10........................................44
1. Introducción
El presente documento describe el proceso de construcción y presentación de los
resultados extraídos de los modelos de minería de datos, para esto se utilizaron los
registros históricos entregados por la RMCAB, con el fin de establecer patrones que se
enfoquen en las relaciones que hay entre las variables climáticas como : Velocidad del
viento, temperatura, Radiación solar global, precipitación; Las variables derivadas:
Trimestres del año, hora pico, clasificación horaria, fin de semana; Los contaminantes:
Material Particulado (PM10),Ozono troposférico(o3) y sus componentes: Nox y No2
(especificadas en el documento de “vista minable).
La motivación para realizar este documento es el definir nuevos modelos con nuevas
tecnologías y herramientas que se salgan de los trabajos tradicionales que se realizan
con relación a la calidad del aire, dando así un nuevo motivo para investigaciones
futuras con base a los nuevos modelos generados en el presente proyecto.
2. Construcción del Modelo RAO3
Este modelo implementa la técnica de reglas de asociación para O3. En este capítulo se
presenta el proceso que se realizó para crear el modelo de reglas de asociación por
medio de la selección de los algoritmos que implementan la técnica.
2.1 Contenido del modelo RAO3
Este modelo está compuesto por reglas (patrones) que contienen información acerca de
la relación que hay entre los atributos de entrada con el atributo objetivo que en este
caso es el O3.
Para este modelo los estados del atributo objetivo son: bueno, moderado y desfavorable.
Un ejemplo de una regla de asociación generada por el modelo es la siguiente:
Vel Viento=LEVE Temperatura=MENOS TIBIO ClasificacionHora=TARDE ==> OZONO=BUENO
Como se puede observar, tanto el antecedente como el consecuente están compuestos
por atributos de la vista minable procesada, donde cada atributo tiene un conjunto de
estados que en el caso del antecedente si estos del ejemplo llegan a cumplirse el Ozono
sería bueno.
2.1.1 Atributos que hacen parte del Antecedente de cada regla
Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las
relaciones posibles entre las variables climatológicas, las variables derivadas y los
contaminantes, es importante incluir la mayoría de los atributos de los registros
históricos como antecedentes que cumplen con los requisitos que debe tener para
pertenecer a este grupo. A continuación se presentan los atributos que pertenecieron al
antecedente de las reglas:
Vel Viento
Lluvia
NOX
NO2
RadiacionSG
Temperatura
Hora
ClasificacionHora
Trimestres del Año
Mes
Hora Pico
Fin de Semana
2.1.2 Atributo que hace parte del consecuente
Para efectos de este trabajo de grado y en especial esta sección, el consecuente fue
únicamente el atributo Ozono, así que las reglas obtenidas en los resultados del modelo
son combinaciones de los posibles estados de los atributos del antecedente dando como
único resultado un estado del atributo O3.
2.2 Algoritmo PredictiveApriori
Este algoritmo fue motivo de selección ya que tiene la habilidad de presentar las reglas
de una forma más detallada (utilizando el atributo hora sin necesidad de categorizarlo) y
con la presentación de una sola métrica llamada Predictive Accuracy (contiene el
cálculo del Soporte y la confianza en la misma ecuación).
2.2.1 Ejecución del Algoritmo
El motivo de dividir las ejecuciones del algoritmo es para evitar tener reglas de
asociación con atributos redundantes como por ejemplo los atributos Hora,
ClasificacionHoraria y HoraPico que si quedan juntos como antecedentes en algunas
reglas de asociación, dichas reglas contendrían información repetida y por ende esta
regla podría ser inútil para los involucrados.
2.2.1.1 Tipo de ejecución número 1
En la primera ejecución del algoritmo se generaron reglas de asociación donde la
variable temporal Hora tiene estados específicos (es decir que contiene información de
hora por hora), así que estas reglas se clasifican como “Reglas detalladas”.
2.2.1.2 Tipo de ejecución número 2
En la segunda ejecución se obtuvieron reglas de asociación que se generen con información valiosa con el fin de entender la dinámica de la ciudad relacionada con la congestión vehicular se utiliza la variable temporal utilizada fue: HoraPico.
A continuación se presenta un gráfico que explica con detalle el proceso de ejecución que se le aplicó a este algoritmo.
Ilustración 1 Plan de Ejecución Algoritmo PredictiveAprioriFuente: Autor
2.2.1.3 Selección de los atributos para la ejecución número 1
Los atributos que se listan a continuación hacen parte de la primera ejecución que se
realiza con el algoritmo.
Hora Vel Viento Temperatura Radiación Solar_G NO2 NOX Fin de Semana Trimestres del Año Lluvia Mes
Aunque los atributos “Mes” y “Trimestres del Año” resulten siendo redundantes en la
generación de reglas, fue importante incluirlas para encontrar comportamientos
similares entre ellas, sin embargo se hizo un proceso de selección de reglas de
asociación en las que se combaten las reglas redundantes, esta sección se encuentra más
adelante en el documento.
2.2.1.4 Selección de los atributos para la ejecución número 2
Estos atributos difieren del anterior en especial por el atributo “Hora Pico” ya que en la
ejecución 1 se obtienen resultados de reglas con horas especificas (como 2 p.m., 10
a.m., etc...), sin embargo se quería facilitar la interpretación de los resultados y en
búsqueda de entender la problemática de calidad del aire relacionado con normas de
congestión vehicular representado por el atributo “Hora Pico”. A continuación se
encuentra la lista de atributos pertenecientes a la ejecución 2:
Hora Pico Fin de Semana NOX NO2 Radiación Solar_G Vel Vientos Temperatura Mes Trimestres del Año Mes
2.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones
A continuación se muestran los parámetros que se deben definir antes de comenzar la
ejecución del algoritmo, seguido de la asignación de los resultados.
Ilustración 2 Interfaz de la configuración de los Parámetros para el AlgoritmoFuente: Herramienta Weka
Parámetros DescripciónCar Si se habilita esta opción es porque quiere
que las reglas de asociación sean extraídas a otro lugar de trabajo.
classIndex Índice del atributo de clase que se desea colocar como consecuente. Si queda por defecto se toma el último atributo de la base de datos.
numRules Numero de reglas que desea encontrar.Tabla 1 Descripción de los Parámetros del Algoritmo
Fuente: Autoro Para el campo Car se asignó el valor “false” ya que no necesitamos exportar los
resultados a formato texto y es importante revisar las reglas generadas con el fin de
observar si hay soluciones triviales o inexplicables y esta revisión se realiza en la
interfaz de resultados de weka.
o Para el parámetro classIndex que recibe datos positivos enteros se definió el número
2, el cual era la posición del atributo Ozono que es nuestro atributo objetivo.
o En cuanto al parámetro numRules se probó con varias cantidades, donde para cada
una de estas cantidades se ejecutaban y se miraba el valor de la medición de la
última regla (ya que el orden de las reglas generadas son de carácter descendentes de
acuerdo a su medición) y si el valor era inferior a 0.25 (con el fin de buscar reglas
con estados del atributo objetivo Ozono poco comunes), esta cantidad se desechaba
cambiándola por una cantidad menor de reglas y cuando la última regla tuviera el
valor de la medida de precisión mayor e igual a 0.25 se dejaba con dicha cantidad en
este parámetro con el fin de encontrar reglas verdaderamente interesantes. El valor
asignado al parámetro fue 2.500.
2.2.3 Resultados Obtenidos
Este proceso que se menciona a continuación ha sido aplicado en todas las ejecuciones
por lo cual se trata a nivel general, en lo único que difiere es la cantidad de reglas
encontradas que se especifican a continuación.
Ejecución No. Reglas Encontradas
1 1.0002 987
Tabla 2 Reglas encontradas por Ejecución
Fuente: Autor
El algoritmo Tertius se descartó de la selección ya que su rendimiento en el proceso de
generación del modelo fue muy bajo llegando a desbordar la memoria del computador
después de 1 hora de espera, se probó con un conjunto de datos pequeño de 5.000
registros donde la demora fue de 20 minutos (lo cual es ineficiente por parte del
algoritmo ya que el equipo como se observó en la sección de especificación del equipo
tiene los requerimientos físicos suficientes para realizar este proceso en un tiempo
considerable) y sus resultados no arrojan lo esperado ya que no maneja soporte ni
confianza para cada regla, lo cual es difícil saber si las reglas generadas son confiables o
no.
Los resultados obtenidos fueron reglas de asociación acompañadas de la medida probabilística Accurancy Predictive de la siguiente forma:
Ilustración 3 Vista general de las reglas generadas por el algoritmoFuente: Herramienta Weka
Donde al lado de cada regla de asociación se encuentra un valor con la etiqueta acc que
significa la medida del algoritmo, los números que están al lado del antecedente y
consecuente son la cantidad de registros que contienen las especificaciones de la regla y
se presentan de forma descendente de acuerdo a la medida acc.
2.2.3.1 Reglas de Asociación seleccionadas
Después de seleccionar las reglas de asociación de acuerdo a los criterios definidos en el
documento Técnica de Modelado y Diseño de Pruebas la proporción de reglas de
asociación encontradas son las siguientes:
Ejecución
Cantidad de Reglas encontradas
1 1032 60
Tabla 3 Reglas seleccionadasFuente: Autor
2.3 Algoritmo Apriori
Apriori, es uno de los algoritmos más populares que genera reglas de asociación, una de
sus ventajas es que busca reducir el número de conjuntos de estados considerados , con
el fin de generar reglas de mayor interés y rendimiento en tiempos de respuestas,
además el usuario especifica el soporte mínimo que quiere que tengan las reglas de
asociación generadas.
2.3.1 Ejecución del Algoritmo
Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el
algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además
fue necesario realizar un proceso de análisis y selección de las reglas generadas. La
dinámica en cuanto a ejecuciones del algoritmo fueron similares al de PredictiveApriori.
Fue necesario realizar dos ejecuciones con dos conjuntos de datos diferentes por cada
ejecución, en las siguientes secciones se especifican las ejecuciones y a qué conjunto de
datos pertenece cada una de ellas.
2.3.1.1 Tipo de Ejecución 1
El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar
reglas de asociación a nivel general relacionado con las variables temporales, este
conjunto de datos es uno de los más completos y claves para la generación de reglas, ya
que como este algoritmo no trabaja muy bien con datos continuos ni con atributos
discretos con muchas categorías, fue necesario crear la variable derivada
ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”.
2.3.1.2 Tipo de Ejecución 2
El objetivo de realizar esta ejecución fue con el fin de complementar los resultados
generados del algoritmo anterior y corroborar la veracidad de los resultados de los dos
algoritmos, así mismo se considera importante tener el soporte y la confianza de las
reglas que sean similares en los dos resultados de dichos algoritmos. Este conjunto de
datos remplaza el atributo ClasificacionHora por Hora Pico con el fin de evitar
redundancia en los resultados.
2.3.1.3 Selección de los atributos para el tipo de ejecución 1
A continuación se muestran los atributos seleccionados para esta ejecución:
ClasificacionHora Vel Viento Temperatura RadiaciónSolarG NO2 NOX
Fin de Semana Trimestres del Año Lluvia Mes
2.3.1.4 Selección de los atributos para la Ejecución 2
A continuación se muestran los atributos seleccionados para esta ejecución:
Fin de Semana
NOX
NO2
Mes
RadiaciónSolarG
Vel vientos
Temperatura
Lluvia
Trimestres del Año
Hora pico
2.3.2 Parámetros requeridos por el Algoritmo
Para obtener unos resultados coherentes y apropiados del algoritmo Apriori fue
necesario definir cada uno de los parámetros que recibe el algoritmo aparte del proceso
realizado a la vista minable. En la siguiente imagen se muestran los parámetros
establecidos junto con el significado de cada uno de ellos.
Ilustración 4 Interfaz de los parámetros para el algoritmo A priori
Fuente: Herramienta Weka
Parámetros SignificadoCar Si quiere que las reglas de asociación sean
extraídas a otro lugar de trabajo.classIndex Índice del atributo de la clase. Se
establece -1 para que tome el último atributo de la clase.
Delta Iterativamente disminuye el soporte hasta llegar al alcance mínimo que se pide de soporte.
lowerBoundMinSupport Soporte mínimo en el que se pueden generar las reglas de asociación.
metricType Establece el tipo de métrica con el cual se generan las reglas de asociación.
minMetric Considera solo las reglas con las puntaciones más altas que el valor establecido.
numRules Numero de reglas que se quieren encontrar.
outputItemSets Si se habilitan los conjuntos de elementos.removeAllMissingCols Elimina columnas con todos los valores
faltantes.significanceLevel Establece el nivel de significancia.upperBoundMinSupport Límite superior de soporte.verbose Si se activa este parámetro se ejecutan las
reglas de asociación en modo detallado.Tabla 4 Definición de los parámetros del algoritmo
Fuente: AutorEn la ilustración 4 los valores que se ven en la interfaz son los que están por defecto,
así que fue necesario configurar los parámetros con el fin de realizar la ejecución del
algoritmo de forma correcta.
El parámetro car se define con el valor “false” ya que no necesitamos exportar los
resultados a ningún archivo externo.
El parámetro classIndex se define con el número 2 que es la ubicación de la
columna del atributo Ozono.
El parámetro Delta se define con el valor 0.05.
El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que
es importante encontrar una buena proporción de reglas de asociación útiles para los
involucrados.
El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las
reglas de asociación con la medida de mejora y confianza y cubren el análisis de
utilidad de cada regla.
El parámetro minMetric se estableció en 1.0 con el fin de tener reglas de asociación
con un puntaje de mejora útil.
Los parámetros outputItemSets y removeAllMissingCols se definen con la variable
booleana “false”.
Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el
máximo límite que puede tomar el soporte de cada regla.
Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las
reglas de asociación con los detalles respectivos que son el valor de la confianza y la
frecuencia de los antecedentes y consecuente.
El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya
que el algoritmo para cuando encuentre reglas por debajo del umbral especificado,
así que el número de reglas que se especifico fue con un valor muy alto de 10.000
reglas con el fin de saber el tope de las reglas con el umbral bajo especificado.
2.3.3 Resultados Obtenidos
Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los
resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el
fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de
igual manera para las dos ejecuciones.
A continuación se presentan las reglas generadas para cada conjunto de datos que
representan una ejecución.
Ejecución No. Reglas Encontradas
1 16542 1728
Tabla 5 Reglas encontradas para cada ejecuciónFuente: Autor
Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación
encontradas con dichos parámetros no alcanzan a cumplir el objetivo que se estableció
en la configuración del algoritmo, por lo cual es posible que la probabilidad de soporte
de estas reglas de asociación mediante el Algoritmo Apriori sean más interesantes que
las del PredictiveApriori ya que este algoritmo esta optimizado para seleccionar reglas
apropiadas [30].
A continuación se presenta una vista general del entorno de resultados que genera la
herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas:
Ilustración 5 Vista general de las reglas de asociación generadasFuente: Herramienta Weka
Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la
medida de mejora, así que no hay un orden en las combinaciones de los atributos que
hacen parte del antecedente de las reglas, en la parte superior de la interfaz de resultados
sale el número de iteraciones que realizo el algoritmo para seleccionar las mejores
reglas, en este caso fueron 14 iteraciones para la ejecución 1 y 2.
2.3.3.1 Selección de Reglas de Asociación (poda)
Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección
de reglas, la proporción de reglas de asociación encontradas fueron las siguientes:
Ejecución
Cantidad de Reglas encontradas
1 652 25
Tabla 6 Reglas encontradas después de la selección
Fuente: Autor
2.4 Presentación de los resultados de los modelos RAO3 y RAPM10
La visualización utilizada para el modelo de reglas de asociación contiene la
información detallada de cada regla junto con el algoritmo utilizado para ella con el fin
de observar de forma legible y fácil la información generada por esta técnica.
A continuación se presenta el formato de la reglas de asociación para el algoritmo
Apriori:
Ilustración 1 Formato reglas de asociación para el algoritmo A prioriFuente: Autor
Este formato tiene un color de prioridad de acuerdo al nivel de peligrosidad para la
salud que puede presentar cada contaminante junto con las métricas de confianza,
soporte y mejora con el fin de que los involucrados puedan conocer que tan útil puede
ser esta regla. Es importante recalcar que este formato también es utilizado para el
modelo RAPM10.
En la siguiente ilustración se puede observar el formato que contiene el algoritmo
predictiveApriori:
Ilustración 2 Formato reglas de asociación para el algoritmo PredictiveAprioriFuente: Autor
En este formato se puede observar que se mantiene la misma prioridad de colores para
alertas tempranas que se manejó en la imagen anterior, seguido de la métrica de
confianza llamada AccuracyPredictivie.
En la siguiente ilustración se puede observar un ejemplo de la portada de presentación
que contiene el archivo de los modelos de reglas de asociación, donde se puede observar
que las reglas están divididas por grupos según los nombres de los atributos
antecedentes con el fin de tener un orden y mejor navegabilidad en el archivo. En cada
grupo se encuentran las reglas que contienen uno o más de los dichos atributos
antecedentes correspondientes al globo azul.
Ilustración 3 Ejemplo de presentación del archivo que contiene las reglas de asociación
3. Construcción del Modelo RAPM10
Este modelo implementa la técnica de reglas de asociación para PM10. En este capítulo
se presenta el proceso que se realizó para crear el modelo de reglas de asociación por
medio de la selección de los algoritmos que implementan la técnica.
3.1 Contenido del Modelo RAPM10
Teniendo en cuenta la fase de preparación de los datos, en especial la discretización del atributo objetivo PM10 , dicho atributo puede tomar los siguientes estados: bueno, moderado y desfavorable.
Un ejemplo más específico de las reglas de asociación generadas de PM10 es el siguiente:
Vel Viento = LEVE Trimestres = TRIMESTRE 3 ClasificaciónHora = MADRUGADA Temperatura = MENOS TIBIO Lluvia = ESCASA -> PM10 = BUENO
Como se puede observar, tanto el antecedente como el consecuente están compuestos
por atributos de la vista minable, donde cada atributo tiene un conjunto de estados que
en el caso del antecedente si estos del ejemplo llegan a cumplirse el PM10 sería bueno.
3.1.1 Atributos que hacen parte del Antecedente de cada regla
Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las
relaciones posibles entre las variables climatológicas, las variables derivadas y los
contaminantes, se incluyeron la mayoría de los atributos de los registros históricos como
antecedentes que cumplen con los requisitos que debe tener para pertenecer a este
grupo.
Sin embargo para el caso del PM10 se excluyeron los atributos NOX y NO2 ya que
hacen parte del contaminante O3 y además la correlación entre estos atributos con el
PM10 es muy baja. Se utilizó el atributo derivado PromRadiacionSG ya que genero
reglas más interesantes (es decir con un porcentaje de confianza alto).
A continuación se presentan los atributos que pertenecieron al antecedente de las reglas:
Vel Viento Lluvia PromRadiacionSG Temperatura ClasificacionHora Trimestres del Año Hora Pico Fin de Semana
3.1.2 Atributo que hace parte del consecuente
Para efectos de este trabajo de grado, el consecuente fue únicamente el atributo PM10 ,
así que las reglas obtenidas en los resultados del modelo son combinaciones de los
posibles estados de los atributos del antecedente dando como único resultado un estado
del atributo PM10 .
3.2 Algoritmo Apriori
En esta sección se presenta el procedimiento realizado para la creación de las reglas de
asociación mediante el algoritmo Apriori.
3.2.1 Ejecución del Algoritmo
Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el
algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además
fue necesario realizar un proceso de análisis y selección de las reglas generadas.
3.2.1.1 Tipo de Ejecución 1
El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar
reglas de asociación a nivel general relacionado con las variables temporales, este
conjunto de datos es uno de los más completos y claves para la generación de reglas, ya
que como este algoritmo no trabaja muy bien con datos continuos ni con atributos
discretos con muchas categorías, fue necesario crear la variable derivada
ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”.
3.2.1.2 Tipo de Ejecución 2
El objetivo de realizar esta ejecución fue con el fin de complementar los resultados
generados del algoritmo anterior, así mismo se considera importante tener el soporte y
la confianza de las reglas que sean similares en los dos resultados de dichos algoritmos
para extraer información interesante. Este conjunto de datos remplaza el atributo
ClasificacionHora por HoraPico con el fin de evitar redundancia en los resultados.
3.2.1.3 Selección de los atributos para el tipo de ejecución 1
A continuación se muestran los atributos seleccionados para esta ejecución:
ClasificacionHora Vel Viento Temperatura PromRadiacionSG Fin de Semana Trimestres del Año
Lluvia
3.2.1.4 Selección de los atributos para la Ejecución número 2
A continuación se muestran los atributos seleccionados para esta ejecución:
Fin de Semana
PromRadiaciónSG
Vel vientos
Temperatura
Lluvia
Trimestres del Año
Hora pico
3.2.2 Parámetros requeridos por el Algoritmo
Para obtener unos resultados apropiados del algoritmo Apriori fue necesario definir
cada uno de los parámetros que recibe el algoritmo aparte del proceso realizado a la
vista minable.
En la ilustración 4 de la sección 2.3.2 Parámetros requeridos por el Algoritmo Apriori
se muestran los parámetros por defecto establecidos junto con el significado de cada
uno de ellos. A continuación se muestra la configuración de parámetros realizada:
El parámetro car se define con el valor “false” ya que no necesitamos exportar los
resultados a ningún archivo externo.
El parámetro classIndex se define con el número 4 que es la ubicación de la
columna del atributo PM10 .
El parámetro Delta se define con el valor 0.05.
El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que
es importante encontrar una buena proporción de reglas de asociación útiles para los
involucrados.
El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las
reglas de asociación con la medida de mejora y confianza y cubren el análisis de
utilidad de cada regla.
El parámetro minMetric se estableció en 0.60 con el fin de tener reglas de
asociación con un puntaje confiable.
Los parámetros outputItemSets y removeAllMissingCols se definen con la variable
booleana “false”.
Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el
máximo límite que puede tomar el soporte de cada regla.
Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las
reglas de asociación con los detalles respectivos que son el valor de la confianza y la
frecuencia de los antecedentes y consecuente.
El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya
que el algoritmo para cuando encuentre reglas por debajo del umbral especificado,
así que el número de reglas que se especifico fue con un valor muy alto de 10.000
reglas con el fin de saber el tope de las reglas con el umbral bajo especificado.
3.2.3 Resultados Obtenidos
Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los
resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el
fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de
igual manera para las dos ejecuciones.
Los resultados del algoritmo PredictiveApriori no fueron los esperados para el caso del
PM10 , ya que todas las reglas generadas en dicho algoritmo fueron catalogadas como
“innecesarias” para cumplir los objetivos del trabajo de grado ya que no contenían como
atributo consecuente los estados del PM10.
A continuación se presentan las reglas generadas para cada conjunto de datos que
representan una ejecución.
Ejecución No. Reglas Encontradas
1 20002 1760
Tabla 7 Reglas encontradas para cada ejecuciónFuente: Autor
Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación
encontradas con dichos parámetros no alcanzan a cumplir el objetivo de la cantidad de
reglas que se estableció en la configuración del algoritmo, por lo cual esta cantidad de
reglas generadas llegan al límite inferior de soporte establecido.
A continuación se presenta una vista general del entorno de resultados que genera la
herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas.
Ilustración 4 Vista general de las reglas de asociación generadasFuente: Herramienta Weka
Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la
medida de mejora, en la parte superior de la interfaz de resultados sale el número de
iteraciones que realizo el algoritmo para seleccionar las mejores reglas, en este caso
fueron 18 iteraciones para la ejecución 1 y 12 iteraciones para la ejecución 2.
3.2.3.1 Selección de Reglas de Asociación (poda)
Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección
de reglas, la proporción de reglas de asociación encontradas fueron las siguientes:
Ejecución
Cantidad de Reglas encontradas
1 822 12
Tabla 8 Reglas encontradas después de la selección
Fuente: Autor
3.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10
La visualización utilizada para el modelo de reglas de asociación se encuentra en un
archivo en Excel que contiene 8 grupos compuestos por reglas de asociación, donde se
encuentran reglas de asociación que contienen uno o más de los antecedentes que
componen cada grupo formado. Los grupos están representados en un globo azul. A
continuación se presenta una vista general de los grupos de Reglas de Asociación:
Ilustración 5 Vista general de los grupos del Modelo de Reglas de AsociaciónFuente: Autor
Si se selecciona un grupo lo lleva directamente a la plantilla donde se encuentran las
reglas de asociación que contienen esos antecedentes. Para una mejor gestión y
comprensión de los resultados fue necesario crear un formato para cada regla de
asociación de la siguiente forma:
Ilustración 8 Formato Reglas de AsociaciónFuente: Autor
Como se puede observar en la ilustración 8, cada regla de asociación tiene la
información necesaria para conocer su confiabilidad por sus métricas de soporte,
confianza y mejora, los colores representan el nivel de preocupación en la salud de la
población, definido por la EPA. El id de la regla está construido con las iniciales de los
grupos a que pertenece dicha regla.
Archivos que contienen los modelos RAPM10 y RAO3
Los resultados generados se encuentran almacenados en el mismo archivo que contiene
los resultados del algoritmo PredictiveApriori y Apriori, para diferenciarlos hay varios
criterios:
1. El id de las reglas de asociación generadas por el algoritmo Apriori comienzan con
la letra ‘A’.
2. Las métricas que tienen las reglas de asociación generadas por el algoritmo Apriori
están definidas como: Soporte y Confianza; A diferencia de las del algoritmo
PredictiveApriori que están regidas con la medida Accurancy Predictive.
3. Las reglas generadas por los dos algoritmos se encuentran agrupadas en dos
columnas paralelas, donde cada columna tiene el nombre del Algoritmo aplicado.
El archivo que tiene los resultados de cada algoritmo y las reglas de asociación se
encuentra ordenado descendentemente, para el caso del algoritmo Apriori se ordena de
acuerdo con la medida probabilística de confianza y para el algoritmo PredictiveApriori
se ordena de acuerdo a la medida probabilística Predictive Accurancy.
El archivo que contiene los resultados de la técnica de los modelos RAO3 se encuentra
con el siguiente nombre:
RAO3.xls
El archivo que contiene los resultados de la técnica de los modelos RAPM10 se
encuentra con el siguiente nombre:
RAPM10.xls
4. Construcción del Modelo CO3
Este modelo implementa la técnica de Agrupamiento (Clustering) para O3. En este
capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por
medio de la selección de los algoritmos que implementan la técnica.
4.1 Selección de los atributos de entrada
El procedimiento realizado para la selección de atributos se apoyó en la herramienta de
SQL server Analysis Services con dos funcionalidades provistas por el mismo. A
continuación se presentan las funcionalidades:
4.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de Microsoft
Esta herramienta contiene una opción de red de dependencias para las técnicas de
clasificación, dicha red de dependencias analiza el conjunto de datos y muestra los
atributos que deben pertenecer al conjunto de datos de entrada con el atributo predictor
(que en este caso sería el O3) para obtener buenos resultados provistos por el algoritmo,
teniendo una certeza optima ya que se basa meramente en los registros históricos.
Es importante recalcar que se incluyeron todos los atributos de la base de datos
incluidas las variables derivadas. A continuación se muestra la red provista por la
herramienta:
Ilustración 6 Red de dependencias con el O3Fuente: Herramienta Visual Studio Data Tools 2012
La ilustración muestra una barra en el lado izquierdo que quiere decir que entre más
abajo este el deslizador en la barra, la dependencia de dichos atributos con el predictor
es más fuerte. Para este caso dicha barra se dejó en la mitad con el fin de tener una
buena porción de atributos de entrada y se pudo observar que se eliminó la relación de
dependencia entre el atributo Mes y Ozono2 dejando como conclusión que la relación
entre estos dos atributos no era tan fuerte como para utilizarlo como atributo de entrada.
Las variables derivadas como Hora Pico y los atributos como Lluvia no aparecieron en
la red de dependencias, lo cual según este método estas dos variables no son buena
opción para pertenecer en el conjunto de entrada de la técnica. Sin embargo el atributo
lluvia se incluyó en el conjunto de entrada con el fin de identificar posibles tendencias
entre el Ozono y dicha variable.
Los demás atributos que aparecen apuntando al Ozono entran como conjunto de entrada
para el algoritmo que elegido.
7.1.2 Método de Selección de Características de Microsoft para detectar los atributos de entrada
En esta sección se muestra la interfaz de selección de la herramienta, donde se
encuentran todos los atributos del módulo de origen de datos, se escogen todos los
atributos terminados con la letra ‘n’, que quiere decir que el atributo esta normalizado.
La herramienta de Microsoft tiene una opción que sugiere los atributos que
necesariamente deben estar definidos en la entrada (selección de características) de
acuerdo a la dependencia del atributo predictivo que en este caso es el Ozono. Este
método se encuentra en la interfaz de la selección de los datos de aprendizaje que
aparece a continuación:
Ilustración 10 Interfaz para la selección de atributos de entradaFuente: Herramienta Visual Studio Data Tools 2012
En la ilustración 21 se muestra la sugerencia hecha por Analisys Services junto con el
puntaje de importancia de dicho atributo en la generación del modelo.
Ilustración 7 Interfaz de los atributos de entrada seleccionados por la herramientaFuente: Herramienta Visual Studio Data Tools 2012
Lo que quiere decir que los atributos: RadiacionSolarN, TemperaturaN y VelVientoN
son los atributos más influyentes para la generación del algoritmo.
4.2 Algoritmo K- means
Este algoritmo se encarga de segmentar la base de datos en grupos para tener una
descripción detallada y fácil de interpretar. En este capítulo se muestra el procedimiento
realizado para la implementación de la técnica de Clustering que hace parte del modelo
CO3.
4.2.1 Ejecución del Algoritmo
Para la ejecución del algoritmo se utilizaron todos los datos de entrenamiento los cuales
se asignaron al componente de vista de origen de datos y fue necesario realizar cambios
en los parámetros que se encuentran con valores por defecto.
4.2.1.1 Configuración de los parámetros del algoritmo
Este proceso es uno de los más importantes para la ejecución de algoritmos
pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es
adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de
minería de datos resultante. Después de las iteraciones realizadas, los parámetros que
más se ajustaron fueron los siguientes:
Nombre del Parámetro Valor Establecido
Descripción
CLUSTER_COUNT 5El número de clusters asignados es 5 y el proceso de selección se ve en la sección de a continuación.
CLUSTER_SEED Valor por defecto
Este valor queda con un valor por defecto de 0 ya que la idea es que el algoritmo comience la generación de clusters de acuerdo a la distancia y desde el principio.
CLUSTERING_METHOD 3
El numero 3 fue seleccionado ya que corresponde al algoritmo mediana-K- escalable (K-means).
MAXIMUM_INPUT_ATTRINUTES 12
En este caso se colocaron la cantidad del atributos de entrada, contando el id y el atributo predictor.
MAXIMUM_STATES Valor por defecto.
Se deja el valor por defecto que es 100.
MINIMUM_SUPPORT 3MODELLING_CARDINALITY Valor por
defectoEl número por defecto es 10.
SAMPLE_SIZE 30.000 Si se establece el número 0, todo el conjunto de datos de entrenamiento se agruparán en un único paso lo que genera problemas de memoria y rendimiento.
STOPPING_TOLERANCE Valor por defecto
El valor por defecto que queda es 10.
Tabla 9 Definición y asignación de valores de los parámetros de la técnicaFuente: Autor
4.2.1.2 Selección de los K grupos de Clusters
Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos
de clustering jerárquico. Estos métodos son:
Aglomerativo, este método muestra los resultados en forma de un dendograma (ver
figura 19), en la que visualmente se realizó un corte que da la cantidad de 5
clústeres.
EM (Expectation-Maximization), se basa en probabilidades con base en la muestra
de datos e indico que el número de clústeres era 6.
Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se
utilizó el K del método aglomerativo.
Ilustración 18 Dendograma para la definición de los k ClustersFuente: Herramienta RapidMiner
4.2.2 Resultados Obtenidos
Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la
selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las
herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la
vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo
al tamaño de la base de datos y no altera en el proceso de generación del modelo.
A continuación se muestra una imagen de la estructura del modelo de agrupamiento:
Ilustración 13 Estructura del Modelo de Clustering para OzonoFuente: Herramienta Visual Studio Data Tools 2012
En la ilustración anterior se puede apreciar los atributos que componen la estructura del
modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la
función que desempeña cada atributo (es decir cuáles son los atributos de entrada,
predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada
nombre del atributo es simplemente una diferenciación con el atributo con los datos en
estado inicial en el momento de realizar el proceso de normalización.
4.2.3 Presentación de los resultados del modelo CO3
La herramienta de Visual Studio Data Tools proporciona gráficos e información
detallada de cada clúster creado, dando así una facilidad al lector de interpretar los
resultados del proceso de generación de conocimiento. Con el fin de que los
stakeholders vieran los resultados sin tener que instalar la herramienta de entorno para
crear los modelos, se exporto la información en un documento que contiene todas las
gráficas con su posterior explicación. Esta visualización está dividida en 4 secciones las
cuales muestran los resultados del algoritmo en diferentes representaciones.
5. Construcción del Modelo CPM10
Este modelo implementa la técnica de Agrupamiento (Clustering) para el PM10. En este
capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por
medio de la selección de los algoritmos que implementan la técnica.
5.1 Selección de los atributos de entrada
Para la creación automática de la Red de Dependencias se incluyeron todos los atributos
de la base de datos (incluidas las variables derivadas). A continuación se muestra la red
provista por la herramienta:
Ilustración 9 Red de Dependencias PM10
Fuente: Herramienta Visual Studio Data Tools 2012
La barra deslizante se dejó en la mitad con el fin de tener una buena porción de atributos
de entrada y se pudo observar que la mayoría de los atributos de la vista minable tienen
vínculos fuertes con el PM10, lo que quiere decir que los atributos que aparecen en la
ilustración 31 sirven como variables de entrada para el algoritmo arrojando resultados
óptimos. Hay un caso especial que también sucedió en la selección de los atributos de
entrada para el modelo de Clustering del Ozono y es que el atributo lluvia no tiene
ningún vínculo con el atributo PM10 según la red de dependencias, así que para este
modelo dicho atributo no se incluye como entrada.
5.2 Algoritmo K- means
Uno de los motivos de selección de este algoritmo fue por el éxito de los resultados
generados en el modelo Clustering de O3 .
5.2.1 Ejecución del Algoritmo
En esta sección se pretende explicar el procedimiento que se realizó para ejecutar el
algoritmo de K-means.
5.2.1.1 Configuración de los parámetros del algoritmo
Este proceso es uno de los más importantes para la ejecución de algoritmos
pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es
adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de
minería de datos resultante.
Nombre del Parámetro Valor Establecido
Descripción
CLUSTER_COUNT 5Se asignó el K para 5 clusters y la selección de esta cantidad de grupos se encuentra en la sección siguiente.
CLUSTER_SEED Valor por defecto
Este valor queda con un valor por defecto de 0 ya que la idea es que el algoritmo comience la generación de clusters de acuerdo a la distancia y desde el principio.
CLUSTERING_METHOD 3
MAXIMUM_INPUT_ATTRINUTES
9En este caso se colocaron la cantidad del atributos de entrada, contando el id y el atributo predictor.
MAXIMUM_STATESValor por defecto.
Se deja el valor por defecto que es 100.
MINIMUM_SUPPORT 3 El número mínimo de casos que pueden entrar en cada clúster son 2.
MODELLING_CARDINALITY Valor por defecto
El número por defecto es 10.
SAMPLE_SIZE 30.000STOPPING_TOLERANCE Valor por
defectoEl valor por defecto que queda es 10.
Tabla 1 Definición y asignación de valores de los parámetros de la técnicaFuente: Autor
5.2.1.2 Selección de los K grupos de Clusters
Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos
de clustering jerárquico:
Aglomerativo, este método muestra los resultados en forma de un dendograma (ver figura
19), en la que visualmente se realizó un corte que da la cantidad de 5 clústeres.
EM (Expectation-Maximization), se basa en probabilidades con base en la muestra de
datos e indico que el número de clústeres era 6.
Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se
utilizó el K del método aglomerativo.
Ilustración 35 Dendograma para la definición de los k ClustersFuente: Herramienta RapidMiner
5.2.2 Resultados Obtenidos
Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la
selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las
herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la
vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo
al tamaño de la base de datos y no altera en el proceso de generación del modelo.
A continuación se muestra una imagen de la estructura del modelo de agrupamiento:
Ilustración 10 Estructura del Modelo de Clustering para PM10
Fuente: Herramienta Visual Studio Data Tools 2012
En la ilustración anterior se puede apreciar los atributos que componen la estructura del
modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la
función que desempeña cada atributo (es decir cuáles son los atributos de entrada,
predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada
nombre del atributo es simplemente una diferenciación con el atributo con los datos en
estado inicial en el momento de realizar el proceso de normalización.
Archivos que contienen los modelos CPM10 y CO3
Para que fuera de facilidad para los involucrados en abrir los archivos que contienen los
resultados de los modelos, fue necesario importarlos a un documento en Word con una
breve explicación de cada pestaña provista por la herramienta Visual Studio Data Tools
2010. El archivo que contiene los modelos se encuentra con el siguiente nombre:
Modelos CO3 y CPM10.docx
6. Construcción del Modelo CAO3
Este modelo implementa la técnica de Clasificación para el O3. En este capítulo se
presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la
selección de los algoritmos que implementan la técnica.
6.1 Selección de los Atributos de entrada
La selección de los atributos de entrada para las técnicas de clasificación, es de los
procesos más importantes para la creación de la estructura de minería ya que una buena
selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales
(externos a los del entrenamiento) y así dicho modelo pueda ser usado por los
involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres
criterios: el primero gracias a las dependencias encontradas de algunos de los atributos
de la base de datos con el atributo predictor (los resultados de las correlaciones que se
encuentran con detalle en el documento de vista minable), el segundo es gracias a la
asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta
Analysis Services 2010 cuyo nombre es Selección de características.
6.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas
Ilustración 11 Interfaz para seleccionar las variables de entrada por la herramientaFuente: Herramienta Visual Studio Data Tools 2012
Podemos observar que los atributos más influyentes para la creación del modelo son:
Temperatura, ClasificacionHora y PromRadiacionSG lo que hace que se definan como
atributos de entrada junto con todos los demás que están seleccionados con una ‘x’, a
excepción del atributo Radiacionsolar (RSG) ya que se encuentra en un mejor puntaje
su atributo sinónimo, entonces no sería coherente tener dos atributos sinónimo.
A continuación se presentan los atributos de entrada utilizados para los algoritmos de
clasificación:
Vel Viento
NOX
NO2
Temperatura
ClasificacionHora
Trimestres del Año
PromRadiacionSG
Es importante recalcar que para cada algoritmo hubo un segundo proceso de selección
de atributos de entrada basado en los atributos anteriormente nombrados, con el fin de
eliminar redundancias en algunos atributos y seleccionar de manera eficiente los
atributos de entrada para cada uno de los modelos y así mejorar la precisión de los
modelos generados.
6.2 Selección del Atributo Objetivo
El atributo predictivo seleccionado es el Ozono, ya que el objetivo del trabajo de grado
es encontrar relaciones entre las variables climatológicas con el contaminante de Ozono
para así crear un prototipo que al final estime el valor de concentración del Ozono dado
unos atributos de entrada influyente, así que la mejor representación a nivel del modelo
es tener el ozono como atributo predictivo.
Este atributo contiene cuatro estados que tienen el índice de concentración de Ozono y
se representan en cuatro clases donde se van asignar los estados de los atributos de
entrada. Los estados son los siguientes:
BUENO
MODERADO
DESFAVORABLE
Cabe recalcar que para que el modelo quede útil, el último estado detectado en el
conjunto de registros históricos que en este caso es DESFAVORABLE, se encuentra para
valores AQI mayores e iguales 151.
6.3 Ejecución del Algoritmo de Microsoft
Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de
Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys
Services.
6.3.1 Creación de la Estructura de Minería de Datos
Esta estructura [65] es importante ya que allí se definen los datos de entrada y la técnica
que va a generar el modelo de minería de datos. Es importante recalcar que una misma
estructura de minería de datos puede tener varios modelos con diferentes técnicas pero
que comparten el mismo dominio.
A continuación se muestra el procedimiento para la creación de la estructura que va a
contener el modelo de árboles de decisión.
Ilustración 12 Interfaz de la técnica seleccionadaFuente: Herramienta Visual Studio Data Tools 2012
6.3.2 Vista en general del Modelo de Árboles de decisión
Como se puede apreciar en la ilustración 35 se encuentran los datos que hacen parte de
la entrada del algoritmo y el atributo que predictivo, los atributos que tienen la categoría
“omitir”, es porque al utilizar el método de selección de características, el mismo
método selecciona automáticamente los atributos con mejor puntaje, pero previamente a
utilizarlos fue necesario seleccionar cual era el atributo predictivo y el id. Sin embargo
el usuario puede modificar esta categoría de acuerdo a su conveniencia. Para este caso
especial fue necesario omitir el atributo RadiacionSolar que quedo seleccionado como
atributo de entrada ya que la variable derivada PromRadiacion SG lo reemplaza en su
utilidad, mejorando así la interpretación y la precisión del modelo.
Ilustración 13 Interfaz Modelo de Árboles de decisiónFuente: Herramienta Visual Studio Data Tools 2012
6.3.3 Configuración de los parámetros del algoritmo
Antes de realizar la ejecución del algoritmo de minería es importante realizar la
configuración de los parámetros con el fin de generar resultados que se ajusten a la
medida del proyecto. A continuación se presenta la configuración de los parámetros que
llevo a la generación del modelo CAO3:
Parámetro ValorCOMPLEXITY_PENALTY 0.5FORCE_REGRESSOR No Aplica.MAXIMUM_INPUT_ATRIBUTES DefaultMAXIMUM_OUTPUT_ATRIBUTE Default
SMINIMUM_SUPPORT 10SCORE_METHOD 1SPLIT_METHOD 3
Tabla 2 Definición y asignación de valores a los parámetrosFuente: Autor
6.4 Resultados Obtenidos
Los colores que representan los estados del atributo de predicción Ozono están
asignados de la siguiente forma:
Estado del atributo Ozono ColorBUENOMODERADODESFAVORABLE
Tabla 3 Convenciones de los estados del atributo de OzonoFuente: Autor
6.4.2 Visor Red de Dependencias
Como su nombre lo indica [66], muestra dependencias entre los atributos de entrada con
el atributo predictivo. A continuación se presenta la red de dependencias con un vínculo
de importancia media entre los atributos:
Ilustración 14 Visor de red de dependencias para técnica de clasificaciónFuente: Herramienta Visual Studio Data Tools 2012
Se puede observar en la imagen que la mayoría de los atributos de entrada del algoritmo
tienen vínculos fuertes con el atributo predictivo, lo cual hace que la precisión del
algoritmo pueda ser buena, sin embargo en el documento de Plan de Puerbas, se
encuentra con detalles los resultados de la precisión de los modelos de Minería de datos
utilizados.
6.4.3 Selección de las ramas del Árbol
Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que
controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se
sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide
en 2 partes [39]:
6.4.3.1 Eliminando variables independientes
Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron
atributos como: Lluvia, Hora Pico y Fin de Semana, estos atributos por no tener una
relación con el contaminante PM10 gracias a los resultados arrojados en la red de
dependencias, la función de selección de características y las correlaciones de Pearson,
el árbol de decisión no incluyo estas variables a pesar de que en algunas pruebas se
incluyeron como atributos de entrada, así que para no afectar su rendimiento en tiempos
de respuesta fue necesario eliminarlas ya que se identificaron como variables
independientes.
Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en
su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa,
en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos
(matriz de contingencia) y el histograma de distribución que presenta cada nodo interno
contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo
este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la
variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de
Minería de Datos quien detecto estas anomalías.
6.4.3.2 Poda del Árbol
Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas
(hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas
textuales de los datos que no ocurren con frecuencia. La importancia de realizar el
proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el
desempeño del árbol y clasificara de forma correcta tanto los registros del set de
entrenamiento como los registros del set de prueba.
6.4.3.2.1 Pre-poda
Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo
ideal que debe aceptar cada nodo interno que en este caso es de 10 y se definió en los
parámetros de dicho algoritmo.
Después de observar detalladamente el árbol y los gráficos de precisión se encontró que
las amenazas de sobreajuste no son significativas, sin embargo en la sección análisis de
resultados se encuentran las ramas interesantes y cuyo nivel de precisión es aceptable
por las normas exigidas por los expertos.
6.5 Archivo que contiene el nombre del modelo CAO3
El archivo del árbol de decisión que representa el modelo CAO3 se encuentra en tipo imagen
con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente nombre:
ModeloCAO3.jpg
7. Construcción del Modelo CAPM10
Este modelo implementa la técnica de Clasificación para el PM10. En este capítulo se
presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la
selección de los algoritmos que implementan la técnica.
7.1 Selección de los Atributos de entrada
La selección de los atributos de entrada para las técnicas de clasificación, es de los
procesos más importantes para la creación de la estructura de minería ya que una buena
selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales
(externos a los del entrenamiento) y así dicho modelo pueda ser usado por los
involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres
criterios: el primero gracias a las dependencias encontradas de algunos de los atributos
de la base de datos con el atributo predictor (los resultados de las correlaciones que se
encuentran con detalle en el documento de vista minable), el segundo es gracias a la
asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta
Analysis Services 2010 cuyo nombre es Selección de características.
7.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas
A continuación se presentan los atributos de entrada utilizados para los algoritmos de
clasificación:
Vel Viento Radiación Solar Temperatura ClasificacionHora Trimestres del Año Lluvia Fin se Semana Hora Pico NO2 NOX PromRadiacionS
A continuación se presentan los resultados obtenidos por la función:
Ilustración 15 Función Selección de Características Fuente: Herramienta Visual Studio Data Tools 2012
7.2 Selección del Atributo Objetivo
El atributo predictivo seleccionado es el PM10, ya que uno de los objetivos del trabajo
de grado es encontrar relaciones entre las variables climatológicas con el contaminante
de PM10 para así crear un prototipo que al final estime el valor de concentración del
PM10 dado unos atributos de entrada influyente, así que la mejor representación a nivel
del modelo es tener el ozono como atributo predictivo.
Este atributo contiene tres estados que representan el índice de concentración de PM10.
Los estados son los siguientes:
BUENO
MODERADO
DESFAVORABLE
Con el fin de darle una utilidad al modelo con otros conjuntos de datos, el último estado
detectado en el conjunto de registros históricos que en este caso es DESFAVORABLE,
se encuentra para valores AQI mayores e iguales 151.
7.3 Ejecución del Algoritmo de Microsoft
Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de
Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys
Services.
7.3.2 Vista en general del Modelo de Árboles de decisión
Como se puede apreciar en la siguiente ilustración se encuentran los datos que hacen
parte de la entrada del algoritmo junto con el atributo que predictivo, los atributos que
tienen la categoría “omitir”, es porque al utilizar el método de selección de
características, el mismo método selecciona automáticamente los atributos con mejor
puntaje, pero previamente a utilizarlos fue necesario seleccionar cual era el atributo
predictivo y el id. Sin embargo el usuario puede modificar esta categoría de acuerdo a
su conveniencia. Para este caso especial fue necesario omitir el atributo Radiacion Solar
que quedo seleccionado como atributo de entrada ya que la variable derivada Prom
RadiaciónS lo reemplaza generando así un mejor análisis con mejor precisión.
Ilustración 16 Estructura modelo CAPM10Fuente: Herramienta Visual Studio Data Tools 2012
7.3.3 Configuración de los parámetros del algoritmo
Antes de realizar la ejecución del algoritmo de minería es importante realizar la
configuración de los parámetros con el fin de generar resultados que se ajusten a la
medida del proyecto. A continuación se presentan los parámetros definidos para la
generación del modelo:
Parámetro ValorCOMPLEXITY_PENALTY 0.5
FORCE_REGRESSOR No Aplica.MAXIMUM_INPUT_ATRIBUTES Default
MAXIMUM_OUTPUT_ATRIBUTES DefaultMINIMUM_SUPPORT 20
SCORE_METHOD 3SPLIT_METHOD 3
Tabla 4 Definición y asignación de valores a los parámetrosFuente: Autor
7.4 Resultados Obtenidos
Esta sección pretende presentar los resultados obtenidos por el modelo CAPM10.
7.4.1 Visor Árbol de Decisión
Los colores que representan los estados del atributo de predicción PM10 están
asignados de la siguiente forma:
Estado del PM10 ColorBUENOMODERADODESFAVORABLE
Tabla 5 Convenciones de los estados del atributo de PM10Fuente: Autor
7.4.2 Visor Red de Dependencias
A continuación se presenta la red de dependencias con un vínculo de importancia media
entre los atributos:
Ilustración 17 Visor de red de dependencias para técnica de clasificaciónFuente: Herramienta Visual Studio Data Tools 2012
7.4.3 Selección de las ramas del Árbol
Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que
controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se
sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide
en 2 partes:
7.4.3.1 Eliminando variables independientes
Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron
atributos como: Lluvia, Hora Pico, Fin de Semana, NOX y NO2, estos atributos por no
tener una relación con el contaminante PM10 gracias a los resultados arrojados en la red
de dependencias, la función de selección de características y las correlaciones de
Pearson, el árbol de decisión no incluyo estas variables a pesar de que en algunas
pruebas se incluyeron como atributos de entrada, así que para no afectar su rendimiento
en tiempos de respuesta fue necesario eliminarlas ya que se identificaron como variables
independientes.
Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en
su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa,
en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos
(matriz de contingencia) y el histograma de distribución que presenta cada nodo interno
contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo
este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la
variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de
Minería de Datos quien detecto estas anomalías.
7.4.3.2 Poda del Árbol
Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas
(hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas
textuales de los datos que no ocurren con frecuencia. La importancia de realizar el
proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el
desempeño del árbol y clasificara de forma correcta tanto los registros del set de
entrenamiento como los registros del set de prueba. Para este proceso también se
tuvieron en cuenta los patrones generados por los modelos generados por las técnicas de
reglas de asociación y agrupamiento.
7.4.3.2.1 Pre-poda
Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo
ideal que debe aceptar cada nodo interno que en este caso es de 20 y se definió en los
parámetros de dicho algoritmo.
7.5 Archivo que contiene el nombre del modelo CAPM10
El archivo del árbol de decisión que representa el modelo CAPM10 se encuentra en tipo
imagen con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente
nombre:
ModeloCAPM10.jpg