RUA, Repositorio Institucional de la Universidad de...

Modelo de Integración de Conocimiento Huérfano descubierto mediante Minería de Datos

Ingrid Wilford Rivera

www.ua.es

www.eltallerdigital.com

TESIS DOCTORAL

MODELO DE INTEGRACIÓN DE

CONOCIMIENTO HUÉRFANO

DESCUBIERTO MEDIANTE

MINERÍA DE DATOS

UNIVERSIDAD DE ALICANTE

TESIS DOCTORAL

MODELO DE INTEGRACIÓN DE

CONOCIMIENTO HUÉRFANO DESCUBIERTO

MEDIANTE MINERÍA DE DATOS

Presentada por

INGRID WILFORD RIVERA

Dirigida por

DR. DANIEL RUIZ FERNÁNDEZ

DR. ALEJANDRO ROSETE SUÁREZ

DEPARTAMENTO DE TECNOLOGÍA INFORMÁTICA Y COMPUTACIÓN NOVIEMBRE DE 2010

«El todo es más que la suma de sus partes»

Aristóteles (384 AC-322 AC)

i

RESUMEN

El trabajo de investigación presentado en esta memoria de tesis se centra en el

descubrimiento de conocimiento en bases de datos, en concreto, en la extracción de

conocimiento global, oculto en bases de datos distribuidas, mediante la aplicación de

técnicas de minería de datos. De forma más específica el objetivo de esta

investigación consiste en el desarrollo de un modelo que permita la integración de

conocimiento expresado como conjuntos de patrones procedentes de múltiples bases

de datos a las que, por cualquier motivo, no es posible acceder.

Esta propuesta resulta especialmente útil en aquellas situaciones en las que se

requiere obtener conocimiento global representativo de un conjunto de

organizaciones o entidades, cuyas bases de datos han sido exploradas localmente y

que comparten sus modelos locales de minería de datos pero no sus datos originales.

Un ámbito de aplicación de este modelo son las bases de datos que incorporan

información sensible protegida por la ley y que, por tanto, presentan un acceso

directo limitado a los datos.

El trabajo aborda los siguientes aspectos fundamentales:

Una revisión del estado del arte sobre los aspectos relacionados con el

descubrimiento de conocimiento global procedente de múltiples bases de

datos, mediante técnicas de minería de datos.

Formalización de un modelo general de integración de conocimiento

distribuido y huérfano, es decir, procedente de bases de datos desconocidas o

a las que no es posible acceder. Junto a la formalización del modelo

conceptual se presenta también una propuesta de implementación funcional

basada en el paradigma de agentes.

ii Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

Para validar el modelo de integración propuesto, se han diseñado e

implementado un conjunto de experimentos con dos bases de datos. Para

cada base de datos se han generado conjuntos de patrones de conocimiento y

se ha validado su integración siguiendo el modelo conceptual propuesto.

Este trabajo ha permitido identificar un conjunto de problemas abiertos y líneas de

investigación que perfilan el camino hacia el desarrollo de posibles trabajos

científicos, de interés en el ámbito del descubrimiento de conocimiento en bases de

datos y la minería de datos. Entre estos problemas podemos destacar la adaptación

dinámica del modelo, el desarrollo de nuevas estrategias paralelas y distribuidas de

minería de datos o el estudio de nuevos métodos de estimación de medidas de

calidad de los patrones integrados.

iii

RESUM

El treball d'investigació presentat en aquesta memòria de tesi se centra en el

descobriment de coneixement en bases de dades, en concret, en l'extracció de

coneixement global, ocult en bases de dades distribuïdes, mitjançant l'aplicació de

tècniques de mineria de dades. De forma més específica l'objectiu d'aquesta

investigació consisteix en el desenvolupament d'un model que permeta la integració

de coneixement expressat com conjunts de patrons procedents de múltiples bases de

dades a les quals, per qualsevol motiu, no és possible accedir.

Aquesta proposta resulta especialment útil en aquelles situacions en les quals es

requereix obtenir coneixement global representatiu d'un conjunt d'organitzacions o

entitats, les bases de dades de les quals han estat explorades localment i que

comparteixen els seus models locals de mineria de dades però no les seues dades

originals. Un àmbit d'aplicació d'aquest model són les bases de dades que incorporen

informació sensible protegida per la llei i que, per tant, presenten un accés directe

limitat a les dades.

El treball aborda els següents aspectes fonamentals:

Una revisió de l'estat de l'art sobre els aspectes relacionats amb el

descobriment de coneixement global procedent de múltiples bases de dades,

mitjançant tècniques de mineria de dades.

Formalització d'un model general d'integració de coneixement distribuït i orfe,

és a dir, procedent de bases de dades desconegudes o a les quals no és

possible accedir. Junt a la formalització del model conceptual es presenta

també una proposta d'implementació funcional basada en el paradigma

d'agents.

iv Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

Per a validar el model d'integració proposat, s'han dissenyat i implementat un

conjunt d'experiments amb dues bases de dades. Per a cada base de dades

s'han generat conjunts de patrons de coneixement i s'ha validat la seua

integració seguint el model conceptual proposat.

Aquest treball ha permès identificar un conjunt de problemes oberts i línies

d'investigació que perfilen el camí cap al desenvolupament de possibles treballs

científics, d'interès en l'àmbit del descobriment de coneixement en bases de dades i la

mineria de dades. Entre aquests problemes podem destacar l'adaptació dinàmica del

model, el desenvolupament de noves estratègies paral·leles i distribuïdes de mineria

de dades o l'estudi de nous mètodes d'estimació de mesures de qualitat dels patrons

integrats.

v

ABSTRACT

The research presented in this PhD report is focused on knowledge discovery in

databases, concretely on the extraction of global knowledge hidden in distributed

databases, by applying data mining techniques. More specifically the aim of this work

is the development of a model that allows the integration of knowledge formulated

as sets of patterns created by the application of data mining techniques on several

data sets, which are inaccessible due to whatever reason.

This proposal is especially useful when it is required to discover representative global

knowledge from a set of organizations or entities, which databases had been explored

locally and share their local data mining models but not their original data. This

model can be applied in the field of databases with sensitive information protected

by law and, consequently, the direct access to the data is limited. A scope of this

model is databases that include sensitive information protected by law and therefore

have limited direct access to data.

The fundamental aspects developed on this research work are the following:

A state of the art review of the aspects related with the global knowledge

discovery from multiple databases using data mining techniques.

Formalization of a general model for the integration of distributed and orphan

knowledge, that is, knowledge extracted from unknown or inaccessible

databases. Along with the conceptual model formalization, a functional

implementation proposal based on the agent’s paradigm will be presented.

To validate the proposed integration model, we have designed and

implemented a set of experiments with two databases. For each database, sets

of patterns of knowledge were generated and its integration has been validated

following the conceptual model proposed.

vi Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

This work has identified a set of open problems that outline the path towards the

development of scientific research potential, interest in the field of knowledge

discovery in databases and data mining. Among these problems, we highlight the

dynamic adaptation of the model, the development of new strategies for parallel and

distributed data mining or exploring new methods to estimate quality measures of

integrated patterns.

vii

RESUMEN DEL CONTENIDO

INTRODUCCIÓN, 1

ESTADO DEL ARTE, 11

MODELO CONCEPTUAL, 29

MODELO FUNCIONAL, 65

PRUEBAS Y VALIDACIÓN, 95

CONCLUSIONES, 137

REFERENCIAS BIBLIOGRÁFICAS, 143

ix

TABLA DE CONTENIDO

CAPÍTULO 1 INTRODUCCIÓN 1

1.1. Motivación 2

1.2. Identificación del Problema 5

1.3. Hipótesis y Objetivos 6

1.4. Propuesta de Solución 7

1.5. Metodología y Plan de Investigación 9

CAPÍTULO 2

ESTADO DEL ARTE 11

2.1. Tareas de Minería de Datos 12

2.2. Análisis de múltiples conjuntos de datos mediante minería de datos 15 2.2.1. Minería de Datos Paralela 17 2.2.2. Minería de Datos Distribuida 19

2.3. Síntesis de Modelos de Minería de Datos (Postmining) 23 2.3.1. Síntesis de Modelos de Reglas de Asociación 23 2.3.2. Síntesis de Modelos de Clusters 26

2.4. Conclusiones 27

CAPÍTULO 3 MODELO CONCEPTUAL 29

3.1. Codificación 34 3.1.1. Subproceso Selección de Modelos 35 3.1.2. Subproceso Traducción de Modelos 37 3.1.3. Resumen del Proceso Codificación 39

x Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

3.2. Síntesis 39 3.2.1. Subproceso Construcción de Solución Inicial 41 3.2.2. Subproceso Mejora de Solución 48 3.2.3. Subproceso Asignación de Medidas 56 3.2.4. Resumen del Proceso Síntesis 60

3.3. Representación 61 3.1.1. Subproceso Selección de Patrones 62 3.1.2. Subproceso Representación de Modelo 63 3.1.3. Resumen del Proceso Representación 64

3.4. Resumen del Proceso Integración 64

CAPÍTULO 4

MODELO FUNCIONAL 65

4.1. Entorno del SIC 69 4.1.1. Estados del Mundo 69 4.1.2. Tareas 70

4.2. Agentes del SIC 72 4.2.1. Comunicación entre Agentes 74 4.2.2. Paquete Codificación 78 4.2.3. Paquete Síntesis 80 4.2.4. Paquete Representación 89 4.2.5. Resumen de agentes del SIC 92

CAPÍTULO 5

PRUEBAS Y VALIDACIÓN 95

5.1. Diseño de Experimentos 96

5.2. Experimentación y Resultados 101 5.2.1. Selección y Preparación 102 5.2.2. Integración de Modelos de Reglas de Asociación 105 5.2.3. Integración de Modelos de Clusters 119

5.3. Conclusiones 134

CAPÍTULO 6 CONCLUSIONES 137

6.1. Aportaciones 138

6.2. Problemas Abiertos 139

6.3. Divulgación de Resultados 140

REFERENCIAS BIBLIOGRÁFICAS 143

xi

FIGURAS

Figura 1.1 Incremento del Nº de conferencias de IEEE que abordan la MD. 3

Figura 1.2 Fases del Modelo de Integración de Conocimiento propuesto.

8

Figura 2.1 Clasificación de tareas de minería de datos. 14

Figura 2.2 Alternativas de análisis de múltiples conjuntos de datos distribuidos. 16

Figura 2.3 Arquitecturas clásicas para MDD. Variante 1. 19



Figura 3.1 Representación de un proceso en el MC_MIC, basándose en Eriksson-Penker. 30

Figura 3.2 Representación del flujo de tareas del proceso p1. 31

Figura 3.3 Integración de modelos locales de minería de datos. 33

Figura 3.4 Detalle a nivel de procesos del MIC. 33

Figura 3.5 Proceso de Codificación (pC). 35

Figura 3.6 Proceso Selección de Modelos (pSM). 36

Figura 3.7 Proceso Traducción de Modelos (pTM). 38

Figura 3.8 Proceso de Síntesis (pS). 40

Figura 3.9 Proceso Construcción de Solución Inicial (pCSI). 41

Figura 3.10 Proceso Mejora de Solución (pMS). 49

Figura 3.11 Proceso Asignación de Medidas (pAM). 57

Figura 3.12 Proceso Representación (pR). 61

Figura 3.13 Proceso Selección de Patrones (pSP). 62

Figura 3.14 Proceso Representación de Modelo (pRM). 63

Figura 4.1 Estructura de un agente PDE dentro de un MAS. 67

Figura 4.2 Estructura jerárquica de los agentes del SIC. 72

xii Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

Figura 4.3 Diagrama de paquetes del SIC. 73

Figura 4.4 Interfaces de comunicación del agente Coordinador del SIC ( ). 73

Figura 4.5 Diagrama de secuencia del protocolo Contract Net de FIPA. 76

Figura 4.6 Diagrama de secuencia del protocolo Request de FIPA. 77

Figura 4.7 Interfaces de comunicación de los agentes del Paquete Codificación. 78

Figura 4.8 Interfaces de comunicación de los agentes del Paquete Síntesis. 81

Figura 4.9 Interfaces de comunicación de los agentes del Paquete Representación. 89

Figura 5.1 Etapas de la Experimentación. 96

Figura 5.2 Etapa 1: Selección y preparación de los datos de prueba. 97

Figura 5.3 Etapa 2: Aplicación de la propuesta y análisis de resultados. 100

Figura 5.4 Escenario de pruebas. 102

Figura 5.5 Media de la FO en 30 ejecuciones de cada metaheurística, para la BD

Diabetes. Integración de modelos de reglas de asociación.

108


Nursery. Integración de modelos de reglas de asociación.

109

Figura 5.7 Calidad de los modelos globales integrados de reglas de asociación. Análisis

de escalabilidad BD Diabetes.

116

Figura 5.8 Calidad de los modelos globales integrados de reglas de asociación. Análisis

de escalabilidad BD Nursery.

117

Figura 5.9 Tiempo de ejecución en la integración de modelos de reglas de asociación.

Análisis de escalabilidad. BD Diabetes.

118

Figura 5.10 Tiempo de ejecución en la integración de modelos de reglas de asociación.

Análisis de escalabilidad. BD Nursery.

118

Figura 5.11 Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de

asociación). Análisis de escalabilidad. BD Diabetes.

119

Figura 5.12 Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de

asociación). Análisis de escalabilidad. BD Nursery.

119


Diabetes. Integración de modelos de agrupamiento.

123


Nursery. Integración de modelos de agrupamiento.

124

Figura 5.15 Calidad de los modelos globales integrados de agrupamiento. Análisis de

escalabilidad BD Diabetes.

131

Figura 5.16 Calidad de los modelos globales integrados de agrupamiento. Análisis de

escalabilidad BD Nursery.

132

Figura 5.17 Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis

de escalabilidad. BD Diabetes.

133

Figura 5.18 Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis

de escalabilidad. BD Nursery.

133

Figura 5.19 Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).


134

Figura 5.20 Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).


134

xiii

TABLAS

Tabla 3.1 Parámetros requeridos en el subproceso pSM. 36

Tabla 3.2 Valores posible del rol del atributo en el patrón del modelo ( ). 37

Tabla 3.3 Significado de las medidas cobertura y precisión para cada tipo de patrón. 38

Tabla 3.4 Parámetros requeridos en el subproceso pCSI. 42

Tabla 3.5 Parámetros requeridos en la tarea Evaluar Solución. 47

Tabla 3.6 Operadores definidos para la tarea Obtener Soluciones Vecinas. 51

Tabla 3.7 Parámetros requeridos en la tarea Obtener Solucione Vecinas. 53

Tabla 3.8 Variables de Estado que se actualizan en la tarea Seleccionar Solución

Candidata.

55

Tabla 3.9 Parámetros requeridos en la tarea Seleccionar Solución Candidata. 56

Tabla 3.10 Parámetros requeridos en el subproceso pAM. 59

Tabla 3.11 Parámetros requeridos en el subproceso pSP.

62

Tabla 4.1 Actos comunicativos de FIPA-ACL. 75

Tabla 4.2 Resumen de tareas ejecutadas por los agentes del Paquete Codificación. 80

Tabla 4.3 Resumen de tareas ejecutadas por los agentes del Paquete Síntesis. 88

Tabla 4.4 Resumen de tareas ejecutadas por los agentes del Paquete Representación. 92

Tabla 4.5 Resumen de agentes del SIC.

92

Tabla 5.1 Atributos de la base de datos Nursery. 97

Tabla 5.2 Atributos de la base de datos Diabetes. 98

Tabla 5.3 Porcentajes de registros totales en las particiones de datos. 103

Tabla 5.4 Porcentajes de registros totales en las particiones de datos. 104

Tabla 5.5 Cantidad de reglas de asociación de los modelos locales. 104

Tabla 5.6 Valores de algunos parámetros especificados para cada metaheurística.

Integración de modelos de reglas de asociación.

106

Tabla 5.7 Jerarquía de AM según media de valores mínimos de la FO para la BD 106

xiv Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

Diabetes. Integración de modelos de reglas de asociación.

Tabla 5.8 Jerarquía de AM según media de valores mínimos de la FO para la BD

Nursery. Integración de modelos de reglas de asociación.

107

Tabla 5.9 Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.


110

Tabla 5.10 Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.


111

Tabla 5.11 Cantidad de modelos globales integrados diferentes, obtenidos para cada

base de datos. Integración de modelos de reglas de asociación.

112

Tabla 5.12 Modelos centralizados de Reglas de Asociación. 113

Tabla 5.13 Métricas de los modelos globales integrados para la base de datos Diabetes.


113

Tabla 5.14 Métricas de los modelos globales integrados para la base de datos Nursery.


114

Tabla 5.15 Error relativo en estimación de medidas de patrones comunes.


115

Tabla 5.16 Valores de algunos parámetros especificados para cada metaheurística.

Integración de modelos de agrupamiento.

120


Diabetes. Integración de modelos de agrupamiento.

121


Nursery. Integración de modelos de agrupamiento.

121

Tabla 5.19 Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.


125

Tabla 5.20 Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.


126

Tabla 5.21 Cantidad de modelos globales integrados diferentes, obtenidos para cada

base de datos. Integración de modelos de agrupamiento.

127

Tabla 5.22 Métricas de los modelos globales integrados para la base de datos Diabetes.


128

Tabla 5.23 Métricas de los modelos globales integrados para la base de datos Nursery.


128

Tabla 5.24 Error relativo en estimación de medidas de patrones comunes.


130

1

CAPÍTULO 1

1 INTRODUCCIÓN

El desarrollo a lo largo de los años de la informática ha traído consigo la aparición de

problemas a los que se han ido dando solución gracias a las investigaciones que en

ésta o en disciplinas afines se llevaban a cabo. Valga como ejemplo las necesidades de

comunicación y alta disponibilidad presentadas por el Departamento de Defensa de

los Estados Unidos ante un eventual ataque que dieron lugar a ARPANET

(Advanced Research Projects Agency Network), precursora de la actual Internet.

Además del área de redes de comunicaciones, dentro de la cual podríamos situar

Internet, se ha trabajado desde los diferentes grupos de investigación informática en

otras muchas áreas relacionadas como la inteligencia artificial, la arquitectura de

computadores, el análisis de señales, la minería de datos, etc.

Los sistemas de información han facilitado a entidades y organizaciones de carácter

tanto público como privado una gestión eficiente de sus recursos y un control más

efectivo de los flujos de información. Al mismo tiempo, de forma complementaria a

muchos sistemas de información, se han almacenado grandes cantidades de datos

necesarios para la actividad básica de la organización. En muchas ocasiones, estos

datos contienen información de gran utilidad para el proceso de negocio con vistas a

su optimización o a la detección de anomalías. El desarrollo de las bases de datos ha

permitido que una misma organización pueda tener sus datos distribuidos

geográficamente en los diferentes emplazamientos de sus sedes.

Las técnicas de minería de datos intentan descubrir información subyacente en los

datos que pueda convertirse en conocimiento. La distribución de los datos en

diferentes bases de datos complica la tarea de extracción de conocimiento ya que este

conocimiento también se encuentra distribuido y, posiblemente, particionado debido

a la división de los datos; estas situaciones aumentan la complejidad del uso de

2 Memoria de Tesis Doctoral. Modelo de Integración de Conocimiento Huérfano

técnicas de minería de datos. Además, hay ocasiones en las que el acceso a los datos

está restringido por cuestiones legales o éticas y, por tanto, no es posible trabajar con

los datos originales; se debe integrar el conocimiento resultante de la exploración

individual de las diferentes bases de datos.

Un ejemplo de la situación previamente descrita lo podríamos encontrar en las bases

de datos con información clínica. Tanto por razones éticas como por cuestiones

legales (dependiendo del país origen de la información), el acceso a determinada

información clínica está restringido; especialmente a aquella información que permite

de alguna forma la identificación del paciente. Además, la información médica está

distribuida entre los distintos centros clínicos y regiones asistenciales. La integración

del conocimiento (no de los datos) comprendido en estas bases de datos permitiría

grandes avances en muchas áreas de la medicina.

Este trabajo de investigación plantea aportar avances en las líneas relacionadas con la

integración de conocimiento descubierto mediante técnicas de minería de datos. Para

ello se propone un modelo de integración que permita trabajar con conocimiento

huérfano, es decir, que no necesite acceder a los datos originales para aplicar los

mecanismos de integración. Por otra parte también se pretende dotar de la mayor

generalidad posible a la propuesta, no centrándola en un único modelo de

representación del conocimiento.

1.1. Motivación

El incremento exponencial del uso de las tecnologías de la información y las

comunicaciones alcanza todos los ámbitos de la sociedad. Esto ha provocado que

nos encontremos rodeados de enormes cantidades de datos y con una necesidad

urgente de transformarlos en información útil y conocimiento. De aquí que la

minería de datos haya alcanzado gran auge en la actualidad. Desde los años 90 se

vienen aplicado intensamente técnicas de minería de datos con diversos fines: apoyo

a la toma de decisiones (banca, finanzas, seguros, comercio, marketing, deporte,

educación, transporte, etc.), gestión de procesos industriales (compuestos químicos,

mezclas, componentes, etc.), investigación científica (medicina, genética, astronomía,

meteorología, psicología, etc.), entre otros [Berry & Linoff, 2004; Fayyad et al.,

1996b; Fielitz & Scott, 2003; Giudici & Figini, 2009; Grossman et al., 2001; Hudgins-

Bonafield, 1997; Kirkosa et al., 2007].

Instituciones científicas y empresas de todo el mundo dedican gran esfuerzo al

desarrollo de investigaciones que abarcan diversas aristas vinculadas a la minería de

datos. La gráfica de la figura 1.1 demuestra el incremento vertiginoso en los últimos

Capítulo 1. Introducción 3

años en el número de conferencias, centradas exclusivamente en temas de minería de

datos o que incluyen aspectos relacionados con esta, que organiza o con las que

colabora IEEE (Institute of Electrical and Electronics Engineers) [IEEE, 2010].

Figura 1.1. Incremento del Nº de conferencias de IEEE que abordan la MD.

A finales del año 2007, en la Facultad de Ingeniería Informática de la CUJAE, en

Cuba, tuve la oportunidad de participar en el desarrollo de una nueva versión (2.0)

del sistema Angycor (Software para control de procedimientos en un servicio de

hemodinámica). La versión 1.0 del sistema Angycor [Tardío et al., 1999] se

encontraba en explotación en el cardio-centro del hospital CIMEQ (Centro de

Investigaciones Médico Quirúrgicas) de Cuba, desde el año 1997. Este sistema

permite poblar una base de datos donde se almacena información asociada a cuatro

de los diferentes tipos de procedimientos que se pueden realizar en un servicio de

hemodinámica, estos son: angioplastia coronaria, coronariografía, estudio

hemodinámico y valvuloplastia mitral y pulmonar. Los médicos especialistas

reconocen el gran valor que tiene, para el desarrollo de investigaciones en la

especialidad de cardiología, la información registrada en el sistema Angycor durante

más de 10 años de trabajo. Con el propósito de valorar la conveniencia de incorporar

en la nueva versión del sistema Angycor, o en versiones sucesivas, la funcionalidad de

analizar mediante técnicas de minería de datos la información almacenada, se decidió

efectuar un estudio experimental [Wilford et al., 2008]. Como resultado, se confirmó

la hipótesis inicial de que la minería de datos favorece las investigaciones científicas

sobre el tema en la especialidad de cardiología. Se descubrieron nuevos patrones de


conocimiento que resultaron de interés. Se obtuvo un modelo de clasificación (reglas

de decisión) de las coronariografías, identificando las características que influyen en la

ocurrencia de determinadas complicaciones en este tipo de proceder quirúrgico.

Además, se identificaron asociaciones importantes entre los factores de riego

presentes en los pacientes con cardiopatía isquémica atendidos en este cardio-centro.

Una vez terminada y puesta en explotación la nueva versión del sistema Angycor

desarrollada, se comenzó a valorar la posibilidad de extender el uso de esta

herramienta a otros cardio-centros, ubicados en distintas regiones de Cuba. A partir

de este momento, nos enfrentamos a una interrogante que motivó el desarrollo

posterior de la presente tesis doctoral: ¿cómo obtener conocimiento global,

descubierto mediante técnicas de minería de datos, a partir de la información

almacenada localmente en cada cardio-centro?

Debido al desarrollo de las tecnologías de la información y las comunicaciones,

existen en la actualidad numerosos sistemas en los que los datos se encuentran

distribuidos en varios nodos, ubicados, incluso, en lugares geográficamente distantes.

En estos casos, para extraer conocimiento se requiere aplicar técnicas de minería de

datos en múltiples bases de datos. La minería de datos a partir de múltiples bases de

datos (multi-database mining) ha sido reconocida como una arista importante del

descubrimiento de conocimiento en bases de datos [Adhikari et al., 2010; Aronis et

al., 1997; Wu & Zhang, 2003; Zhang et al., 2003; Zhang et al., 2009; Zhong et al.,

2003].

Una de las estrategias para descubrir conocimiento en múltiples bases de datos

consiste en centralizar los datos distribuidos en un único repositorio y aplicar técnicas

tradicionales o paralelas de minería de datos. Sin embargo, esta solución puede no ser

factible, debido a restricciones legales y/o de seguridad de los datos.

Ante la imposibilidad de acceder a las fuentes de datos distribuidas, para descubrir

conocimiento en estos entornos, una opción factible puede ser integrar o sintetizar el

conocimiento o los patrones de minería de datos descubiertos de manera

independiente en cada base de datos local. Esta forma de minería de datos es

denominada también Postmining [Wu & Zhang, 2003]. Las investigaciones en síntesis

de modelos de minería de datos locales son relativamente recientes [Adhikari et al.,

2010; Gionis et al., 2005; Hore et al., 2009; Wu & Zhang, 2003; Zhang et al., 2004b;

Zhang et al., 2009; Zhong et al., 2003]. Estas han abordado aspectos importantes

buscando mejorar la calidad del conocimiento sintetizado, sin embargo, presentan

algunas limitaciones. Entre estas se destacan:

Carencia de generalidad de todas las propuestas, ya que son específicas para

un tipo de modelo de minería de datos en particular, concentrándose en la


síntesis de modelos de reglas de asociación o en la síntesis de modelos de

agrupamiento (clustering).

Restricciones, en algunas propuestas, en cuanto al tamaño de los conjuntos de

datos que originaron los modelos locales.

Necesidad de acceder, en algunas propuestas, de manera parcial o total a las

fuentes de datos origen.

1.2. Identificación del Problema

En el contexto descrito en el apartado anterior se identifica como un problema a

resolver la carencia de un modelo general (no específico para un tipo de modelo de

minería de datos en particular) que permita obtener conocimiento global mediante la

integración de conjuntos de patrones locales descubiertos de manera independiente

en múltiples bases de datos desconocidas o a las que no es posible acceder. A

continuación se formaliza el problema enunciado.

Sea el conjunto formado por modelos de minería de datos locales que representan

conocimiento local o parcial:

1.1

Donde cada elemento que representa un modelo local se define como un

conjunto de patrones (ecuación 1.2).

En un modelo de minería de datos, un patrón puede ser una regla, un clúster, etc. De

esta manera, cada modelo contiene patrones según sea su tipo. Por ejemplo, si

se corresponde con un modelo de agrupamiento, este estará compuesto por un

conjunto de grupos o clusters.

1.2

Donde cada patrón ( ) se formaliza mediante la tupla:

1.3

En la ecuación 1.3, representa las características del patrón que lo identifican

(por ejemplo, el antecedente y el consecuente de una regla). En la misma ecuación,

son las medidas del patrón, que expresan su calidad o representatividad en el

conjunto de datos que le dio origen (por ejemplo, la confianza (precisión) y el

soporte (cobertura) de una reglas de asociación).


Por otra parte, asociado a cada modelo local (conjunto de patrones locales) se

tiene una ficha ( ) que registra información resumida referente a los datos fuente

(por ejemplo: cantidad de registros analizados), así como, información concerniente

al proceso de minería de datos desarrollado localmente (por ejemplo, umbrales de

medidas de patrones: valor mínimo de cobertura y de precisión), de utilidad para la

obtención del conocimiento global. Se define entonces el conjunto de fichas como

sigue:

1.4

A partir de las definiciones anteriores es posible entonces formalizar el problema de

investigación, enunciado al inicio, como la obtención de un modelo global integrado

o conjunto de patrones globales de minería de datos ( ), resultado de la integración

de modelos locales de minería de datos ( ), considerando la información

registrada en sus fichas correspondientes ( ):

1.5

Donde representa un operador de integración de modelos de minería de datos

locales.

1.3. Hipótesis y Objetivos

Ante la necesidad de resolver el problema identificado, la presente investigación

propone la siguiente hipótesis de partida:

Es posible generalizar la obtención de patrones globales a partir de conjuntos de

patrones locales o modelos de minería de datos, generados de manera

independiente en múltiples bases de datos a las que no es posible acceder.

Se plantea entonces como objetivo general de la investigación:

Formalizar un modelo general que permita integrar modelos (conjuntos de

patrones) de minería de datos locales o parciales descubiertos de manera

independiente en múltiples bases de datos a las que no es posible acceder.

El objetivo general enunciado dará cumplimiento a la hipótesis de partida, aspecto

central del presente trabajo. Además, para el desarrollo de la investigación, a partir del

objetivo general, se establecen los siguientes objetivos secundarios:


Realizar un estudio del estado actual de investigaciones y desarrollos

relacionados con la minería de datos distribuida y la integración de modelos.

Crear un modelo conceptual que proporcione una visión del modelo general

desde el punto de vista de los procesos que lo definen.

Crear un modelo funcional como propuesta de implementación del modelo

conceptual, basada en el paradigma de agentes.

Diseñar e implementar un conjunto de experimentos y un prototipo del

modelo general que permita evaluar la validez de la propuesta.

1.4. Propuesta de Solución

A partir del problema identificado, y considerando la hipótesis planteada, nuestra

propuesta de solución es la formalización de un Modelo de Integración de

Conocimiento que pueda sintetizar modelos locales/parciales descubiertos de

manera independiente en múltiples bases de datos.

El modelo propuesto consta de tres fases: Codificación, Síntesis y Representación (figura

1.2). Como entrada al modelo propuesto se tienen los modelos locales/parciales ( ),

con sus fichas correspondientes ( ), y como salida se obtiene un modelo global ( )

que integra dichos modelos locales.

La primera fase consiste en la Codificación de los modelos locales (conjuntos de

patrones) en un formato homogéneo. Su objetivo fundamental es obtener una

representación de modelos locales adecuada para su posterior integración. La fase de

Síntesis es la más compleja, es en esta donde se lleva a cabo la integración de los

modelos propiamente. Consiste básicamente, como su nombre sugiere, en la Síntesis

de los conjuntos de patrones locales codificados, con el propósito de obtener, como

solución, un único conjunto de patrones globales que sea el que “más se parezca a

todos” los conjuntos de patrones locales codificados. Por su parte, la tercera fase es

similar a la primera, pero en sentido inverso. Esta consiste en la Representación del

modelo global integrado (conjunto de patrones globales) en un formato estándar de

intercambio de modelos de minería de datos. En general, la primera y la tercera fase

de la propuesta pueden interpretarse como un proceso de traducción entre un

formato de intercambio de modelos de minería de datos y una estructura de datos

interna que facilite el procesamiento.


Figura 1.2. Fases del Modelo de Integración de Conocimiento propuesto.

Para abordar el modelo general que soporta nuestra propuesta (Modelo de

Integración de Conocimiento - MIC), se han concebido dos vistas diferentes o sub-

modelos: el Modelo Conceptual (MC_MIC) y el Modelo Funcional (MF_MIC).

Formalmente lo expresamos como:

1.6

El MC_MIC constituye básicamente la vista de los procesos (P) que se llevan a cabo

dentro del MIC. El Modelo Conceptual se centra en la descripción de los procesos y sus

subprocesos, así como en la descripción de las tareas principales identificadas como

parte de estos. Por su parte, el MF_MIC, tomando como referencia los procesos

identificados en el MC_MIC, representa la vista de los agentes (A) que participan en

la ejecución de estos procesos y de las relaciones de interacción que se dan entre los

diferentes agentes. Para la especificación formal del MIC se utiliza como lenguaje

básico de definición UML debido a las cualidades descriptivas propias del estándar.

A modo de resumen, la solución propuesta está formada por tres fases

fundamentales: codificación, síntesis y representación. Como resultado de la primera

fase se propone una codificación homogénea de modelos y patrones de minería de

datos que contribuye a la generalidad de la propuesta. Por su parte, la fase de síntesis

se formaliza como un problema de optimización mediante la definición de una

función objetivo que evalúa la calidad de las soluciones exploradas. Esta

formalización es flexible en su concepción ya que permite aplicar diferentes


metaheurísticas en la búsqueda de la mejor solución. La última fase del MIC propone

devolver el modelo global integrado que se obtiene como resultado, formulado en un

formato estándar de representación e intercambio de modelos de minería de datos.

1.5. Metodología y Plan de Investigación

Para la metodología de investigación se ha seguido el método general hipotético-

deductivo, apoyándose en métodos específicos tanto teóricos como empíricos:

Métodos teóricos: se utiliza el método de análisis-síntesis para estudiar y analizar el

estado del arte en el tema y sintetizar una propuesta dentro del marco de la

investigación.

Métodos empíricos: se utiliza el médoto de experimentación para validar el modelo

de integración propuesto.

Siguiendo la metodología propuesta se diseñó un plan de trabajo, que se resume

como sigue:

Estudio bibliográfico detallado sobre los aspectos de interés dentro del campo

de acción.

Análisis de los métodos existentes para la integración de modelos locales de

minería de datos.

Formalización de un modelo general de integración de conocimiento

descubierto mediante técnicas de minería de datos en múltiples fuentes de

datos distribuidos, sin acceder a los datos originales.

Obtención de un conjunto de datos para la validación de la hipótesis de

partida.

Diseño y realización de un conjunto de experimentos para demostrar la

validez de la propuesta y, por ende, de la hipótesis de partida.

En correspondencia con el plan de trabajo propuesto, esta memoria de tesis se ha

estructurado en distintos capítulos. El capítulo 2 aborda el estudio del estado del arte

actual en el ámbito de la minería de datos, profundizando en las técnicas de minería

de datos para el análisis de múltiples bases de datos, y de forma particular, en las

propuestas de integración o síntesis de patrones locales. El capítulo 3 describe el

modelo general propuesto, mediante la vista de los procesos que define. En el

capítulo 4 se describe una propuesta de implementación funcional del modelo

conceptual, basada en el paradigma de agentes. El capítulo 5, siguiendo la

metodología planteada, aborda la etapa final de la investigación, en la que se valida el


modelo conceptual propuesto, mediante el diseño e implementación de un conjunto

de experimentos. Finalmente, se dedica el capítulo 6 a la exposición de las principales

conclusiones, aportaciones de la investigación, y los problemas abiertos y líneas

futuras de investigación que se desprenden del mismo.

11

CAPÍTULO 2

2 ESTADO DEL ARTE

En la actualidad es un hecho el crecimiento acelerado de la cantidad de bases de datos

que almacenan grandes volúmenes de información valiosa. Sin embargo, la capacidad

de almacenar datos puede sobrepasar la habilidad de analizarlos y extraer

conocimiento útil a partir de estos.

En ocasiones, el análisis de los datos almacenados se realiza mediante consultas

expresadas con lenguajes como el SQL (Structured Query Language), por lo que se

produce sobre una base de datos operacional, es decir, junto al procesamiento

transaccional en línea (On-Line Transaction Processing, OLTP) de las aplicaciones.

Esta forma de análisis de datos sólo permite generar información resumida de manera

previamente establecida, poco flexible y poco escalable a grandes volúmenes de datos.

La tecnología de bases de datos introduce el almacén de datos (data warehouse), que

consiste en un repositorio de fuentes de datos heterogéneos, integrados y organizados

bajo un esquema unificado para facilitar su análisis y dar soporte a la toma de

decisiones [Inmon, 2002, 2005; Kimball & Ross, 2002]. Dicha arquitectura soporta

operaciones de procesamiento analítico en línea (On-Line Analytical Processing,

OLAP), es decir, técnicas de análisis descriptivo, como pueden ser el resumen, la

consolidación o la agregación, además de la posibilidad de ver la información desde

distintas perspectivas. Sin embargo, esta tecnología no permite obtener patrones,

asociaciones, pautas, es decir, conocimiento que pueda ser aplicado a nuevos datos.

A partir de la década de los 90 del siglo pasado tomó auge un conjunto de

herramientas y técnicas que soportan la extracción de conocimiento útil a partir de los

datos disponibles, y que se agrupan bajo el calificativo de “minería de datos” o “data

mining”. La minería de datos emerge como el siguiente paso evolutivo en el proceso


de análisis de datos. Se conocen varias definiciones de minería de datos. En [Fayyad

& Uthurusamy, 1996] se define como un proceso no trivial de identificación válida,

novedosa y potencialmente útil de patrones comprensibles que se encuentran ocultos

en los datos. La minería de datos contribuye a la toma de decisiones tácticas y

estratégicas, proporcionando un sentido automatizado para identificar información

clave procedente de grandes volúmenes de datos generados por procesos

tradicionales.

La minería de datos ha sido popularmente tratada como un sinónimo de

Descubrimiento de Conocimiento en las Bases de Datos o Knowledge Discovery in

Databases (KDD); sin embargo, algunos autores [Berry & Linoff, 2004; Fayyad et al.,

1996a; Fayyad & Uthurusamy, 1996; Little, 2009; Nong, 2003; Wang, 2006; Wang &

Fu, 2005; Witten & Frank, 2005] consideran la minería de datos como una etapa,

como la aplicación de técnicas y algoritmos para extraer patrones de los datos, y

nombran KDD al proceso completo: identificación del problema, pre-procesamiento,

minería de datos y post-procesamiento.

En el proceso de KDD, una vez identificado el problema y realizado el pre-

procesamiento de los datos, se van definiendo las posibles tareas de minería de datos

a realizar. La selección de estas tareas depende esencialmente de los objetivos que se

persiguen. De esta forma, una tarea de minería de datos se corresponde con un tipo

de problema de minería de datos.

2.1. Tareas de Minería de Datos

Las tareas de minería de datos (MD) combinan la tecnología de bases de datos y

almacenes de datos, con técnicas de aprendizaje automático y estadística. Esta fusión

de disciplinas diversas ha estado motivada, fundamentalmente, por el significativo

incremento del volumen de los datos en todas las esferas de la actividad humana.

Son muy diversas las clasificaciones que se pueden encontrar en la bibliografía

referentes a las posibles tareas de MD. Una de las más populares define seis categorías

diferentes [Berry & Linoff, 2000a, 2004; Hernández et al., 2004; Palma & Marín,

2008; Sierra, 2006]:

Clasificación. Identificación de características de un objeto o registro con el

propósito de asignarle una clase o categoría predefinida. Para ello, se requiere

construir un modelo de clasificación. La salida obtenida son valores discretos,

que se distribuyen en grupos o clases. Para la clasificación existen varios tipos

de técnicas: métodos de inducción de reglas, árboles de decisión, redes

Capítulo 2. Estado del Arte 13

neuronales, algoritmos tipo k-nn (k-nearest neighbours), métodos bayesianos,

etc. [Witten & Frank, 2005].

Estimación. Semejante a la clasificación, pero la salida son valores continuos. En

algunos casos es posible hacer estimación y posteriormente clasificación.

Predicción. Similar a la clasificación y la estimación, con la particularidad de que

la variable estimada o la clase asignada, sea continua o discreta, se refiere a un

evento que ocurrirá en el futuro.

Determinación de grupos afines o reglas de asociación. Se encarga de descubrir

fenómenos que ocurren de conjunto, aunque se desconoce el tipo de relación

causal que existe entre estos. A partir de los grupos afines identificados es

posible, generar reglas de asociación entre los datos. Una regla de asociación

constituye una implicación X Y, en la que X (antecedente) y Y

(consecuente) representan conjuntos de pares atributo-valor. Si un atributo

determinado aparece en el antecedente de una regla, entonces no aparecerá en

el consecuente de la misma, y viceversa. Uno de los algoritmos más populares

para generar reglas de asociación, y en el que se basan otros muchos

algoritmos [Agrawal & Srikant, 1994; Agrawal & Shafer, 1996; Han et al., 2000;

Li et al., 2006; Zaki et al., 1996; Zaki, 1999], es el Apriori [Agrawal & Srikant,

1994; Hernández et al., 2004].

Agrupamiento o Clustering. Tiene el propósito de formar subgrupos homogéneos

(clusters), a partir de un grupo diverso, según el grado de semejanza entre las

instancias; los elementos de un cluster tienen una “similitud” alta entre ellos y

baja con respecto a los elementos de otros clusters. La formalización del

concepto de “similitud” es a través de métricas o medidas de distancia. Para

implementar esta tarea se han desarrollado diferentes técnicas: métodos

aglomerativos jerárquicos, divisivos jerárquicos, particionales, probabilísticos,

etc. [Palma & Marín, 2008; Sierra, 2006].

Descripción y visualización. Su aplicación resulta de gran utilidad para realizar un

análisis descriptivo previo a la aplicación de las restantes tareas de MD, con el

propósito de estudiar las características del conjunto de datos de entrada. Esta

actividad puede efectuarse mediante variados métodos; entre los métodos más

simples para lograr un análisis descriptivo se tienen los siguientes: resumen,

OLAP y técnicas de visualización [Berry & Linoff, 2000b; Berry, 2004].

La clasificación, la estimación y la predicción se agrupan bajo el calificativo de

minería de datos directa (MDD) o métodos supervisados; mientras que las tres

restantes tareas (determinación de grupos afines o reglas de asociación, clustering, y

descripción y visualización) conforman el grupo de minería de datos indirecta

(MDI) o métodos no supervisados (figura 2.1). En el caso de la minería de datos


directa o aprendizaje supervisado el objetivo está bien determinado, se conoce la

clase a la que pertenece cada muestra del conjunto de datos. Es decir, el algoritmo

de MD conoce los valores que puede tomar la variable estudiada de acuerdo a los

valores que toman los datos de entrada. En este caso, sólo habría que definir el

grado real de pertenencia a un estado dado. Por su parte, en la minería de datos

indirecta o aprendizaje no supervisado, no están claros los resultados que se desean

obtener, ni se conoce la clase a la que pertenece cada muestra del conjunto de

datos; en estos casos, el algoritmo de MD tiene la misión de encontrar conjuntos de

datos similares sin decir la clase a la que pertenecen [Berry & Linoff, 2000b; Berry,

2004].

Figura 2.1. Clasificación de tareas de minería de datos.

Existen diferentes técnicas o métodos para llevar a cabo las tareas de MD definidas

anteriormente. Al mismo tiempo, una técnica puede aplicarse para resolver varias

tareas de MD. Algunas de las técnicas de MD más utilizadas son: los árboles de

decisión, inducción de reglas, clasificación basada en vecindad, redes neuronales,

técnicas de clustering, etc. [Berry & Linoff, 2000b; Berry, 2004; Hernández et al.,

2004; Sierra, 2006; Wang, 2006; Witten & Frank, 2005].

Las técnicas de MD se pueden clasificar en: técnicas retardadas o perezosas, y en

técnicas anticipativas o impacientes [Hernández et al., 2004]. Las primeras (técnicas

retardadas) actúan ante cada pregunta o predicción requerida, no construyen un

modelo. En este caso, los ejemplos del conjunto de datos de entrada deben

preservarse, ya que son necesarios para realizar cada predicción. Las técnicas de

clasificación basada en vecindad son un ejemplo de técnica retardada. Por su parte, las

técnicas anticipativas sí obtienen, a partir de todos los ejemplos, un modelo que

puede utilizarse posteriormente para predecir. Por lo tanto, una vez que se construya

el modelo, los ejemplos pueden ignorarse.

Ahora bien, no todas las técnicas anticipativas generan modelos “comprensibles”

[Hernández et al., 2004]. En este contexto, entiéndase por modelo “comprensible”


aquel a partir del cual es posible identificar un conjunto de patrones. Un ejemplo

clásico de técnica anticipativa que no genera modelos “comprensibles” es una red

neuronal. Mientras que, los árboles de decisión, las técnicas de inducción de reglas, el

clustering, son ejemplos de técnicas anticipativas que generan modelos

“comprensibles”, es decir, modelos que se pueden expresar como conjuntos de

patrones descubiertos. Este trabajo de investigación se enmarca en los modelos de

minería de datos “comprensibles”, que generan algunas de las técnicas anticipativas.

Para la representación de modelos de minería de datos, y su intercambio entre

diferentes aplicaciones y plataformas, resulta imprescindible el uso de estándares.

Existen numerosos sistemas de minería de datos, algunos de ellos con formatos

diferentes e incompatibles. La cooperación o integración entre estos sistemas es

imposible sin la existencia de estándares independientes que definan la forma de

expresar la información a compartir. Aunque existen varias iniciativas para establecer

estándares de representación e intercambio de modelos en minería de datos, la

iniciativa más destacada y ampliamente aceptada es PMML (Predictive Model Markup

Language), estándar basado en XML [DMG, 2010; Grossman et al., 2002; Grossman,

2006; Guazzelli et al., 2009; Guazzelli et al., 2010; Pechter, 2009]. La definición de

este estándar está siendo llevada a cabo por el denominado Data Mining Group

(DMG). Esta organización industrial se creó en 1998 y constituye un consorcio de

grandes empresas vendedoras de productos de minería de datos, tales como: IBM,

Microsoft, Oracle, SAS y SPSS. La versión 4.0 de PMML es la más reciente, publicada

en junio del 2009.

2.2. Análisis de múltiples conjuntos de

datos mediante minería de datos

La mayoría de las investigaciones sobre minería de datos en la actualidad se centran

en el análisis de una única base de datos, aplicando técnicas de minería de datos

tradicionales [Han & Kamber, 2006; Little, 2009; Witten & Frank, 2005]. Sin

embargo, existen muchos sistemas de información donde los datos se encuentran

distribuidos entre varios nodos (en ocasiones ubicados en sitios distantes). Los

avances en la informática y las comunicaciones han favorecido el desarrollo de este

tipo de sistemas. En estos entornos, las técnicas de minería de datos tradicionales

podrían resultar insuficientes.

Para descubrir conocimiento en múltiples conjuntos de datos distribuidos existen tres

variantes posibles (figura 2.2). Una alternativa consiste en agrupar todos los datos

distribuidos en un único conjunto (data set) para su procesamiento centralizado


mediante técnicas de minería de datos tradicionales o técnicas paralelas [Cios et al.,

2007; Han & Kamber, 2006; Little, 2009; Witten & Frank, 2005]. Una segunda

variante es aplicar técnicas de minería de datos distribuidas [Cannataro et al., 2004;

Kargupta et al., 2009; Miller & Han, 2009]. Sin embargo, estas dos alternativas de

minería de datos presentan algunas limitaciones:

Es posible que no sea conveniente o factible centralizar los datos si se

considera que su volumen es significativo.

Algunos algoritmos de minería de datos son secuenciales por naturaleza, no

pueden usar hardware paralelo.

Debido a políticas de seguridad y privacidad de los datos, hay organizaciones

que comparten sus modelos de minería de datos pero no sus bases de datos

originales.

Las técnicas de minería de datos paralelas y distribuidas no devuelven como

parte del resultado, modelos parciales creados a partir de cada data set local o

vista de datos; sin embargo, en la mayoría de las aplicaciones reales se requiere

construir y conservar estos modelos parciales o locales para apoyar la toma de

decisiones estratégicas.

Figura 2.2. Alternativas de análisis de múltiples conjuntos de datos distribuidos.

Existe una tercera alternativa que consiste en reutilizar los modelos de minería de

datos locales, que se generen de manera independiente a partir de diferentes

conjuntos de datos, recopilándolos con el propósito de sintetizarlos posteriormente y

obtener patrones globales a partir de estos. Esta variante, en [Wu & Zhang, 2003] se

denomina Postmining. Nuestra investigación está directamente relacionada con dicha


forma de minería de datos, ya que, a diferencia de las dos variantes anteriores, no

requiere acceder a los datos originales.

No obstante, el estudio de las técnicas paralelas y distribuidas de minería de datos

resulta relevante en la presente investigación, con el propósito de caracterizar los

mecanismos de integración o síntesis de modelos parciales, de existir, subyacentes en

estas técnicas.

2.2.1. Minería de Datos Paralela

Una de las dificultades a las que se ha enfrentado la minería de datos desde sus inicios

y que al mismo tiempo ha justificado su desarrollo, ha sido la necesidad de tratar con

ingentes bases de datos. La minería de datos paralela (MDP) representa una

alternativa para resolver los problemas de escalabilidad y ejecución que poseen las

técnicas clásicas de minería de datos, las cuales, generalmente, no operan de manera

eficiente al procesar conjuntos de datos muy grandes. Las investigaciones en esta área

se centran en el estudio del grado de paralelismo, la sincronización, la distribución de

los datos, y las técnicas de optimización del uso de los recursos del sistema requeridas

para la obtención de los resultados globales. Por otra parte, a partir del estudio

realizado, se aprecia que la paralelización de algoritmos que implementan

específicamente técnicas anticipativas de minería de datos que generan modelos

“comprensibles” [Hernández et al., 2004], ha sido más trabajada en la generación de

grupos afines o reglas de asociación y en la clasificación mediante árboles de decisión

[Aggarwal et al., 2005; Guo & Grossman, 1999; Mohammadian, 2004 ; Nong, 2003;

Park & Kargupta, 2003; Wang, 2003, 2006; Witten & Frank, 2005].

La mayoría de los esfuerzos realizados en la paralelización de algoritmos de

generación de grupos afines o reglas de asociación se basan en el clásico algoritmo

Apriori [Agrawal & Srikant, 1994; Hernández et al., 2004]. Ejemplos de estos son:

Count Distribution, Data Distribution, Candidate Distribution, PEAR (versión

paralela del algoritmo secuencial basado en Apriori: SEAR), PPAR (versión paralela

del algoritmo secuencial basado en Apriori: Spear) y PDM (versión paralela del

algoritmo secuencial basado en Apriori: DHP) [Agrawal & Shafer, 1996; Garg &

Mishra, 2010; Guo & Grossman, 1999; Mueller, 1995; Park et al., 1995; Prakash &

Parvathi, 2010; Wang, 2003; Yang & Yang, 2010; Zaki et al., 1996; Zaki, 1999; Zaki &

Ho, 2000]. En estos algoritmos, los diferentes procesos paralelos intercambian

información para generar los itemsets frecuentes (grupos afines). Según el algoritmo

específico y la fase en la que se encuentre su ejecución, la información que se

intercambia puede ser: la lista de los itemsets candidatos (aquellos que pueden llegar a

ser frecuentes), el soporte de los itemsets candidatos, o la lista de los itemsets frecuentes.


Por otra parte, en el caso de la paralelización de algoritmos de clasificación mediante

árboles de decisión, algunas de las propuestas más conocidas son: SLIQ, SPRINT,

ScalParC, SPIES, así como diferentes implementaciones paralelas del C4.5 [Amado et

al., 2001; Ben & Tom, 2010; Darlington et al., 1997; Guo & Grossman, 1999; Joshi et

al., 1998; Mehta et al., 1996; Mehta, 2006; Shafer et al., 1996; Taner & Dikmen, 2007;

Wang, 2003]. Todos los algoritmos paralelos de inducción de árboles de decisión

parten de considerar la fase de aprendizaje como la más intensiva y la que requiere ser

paralelizada ya que la fase de poda no tiene un alto costo computacional. Dentro de la

fase de aprendizaje el elemento crítico es la selección del atributo que mejor divide y

la partición de los datos a partir de dicho atributo. Son diversas las estrategias que

implementan los algoritmos paralelos de clasificación mediante árboles de decisión.

Una de ellas consiste en la construcción del árbol global de manera cooperativa por

todos los procesos que se ejecutan en paralelo. Estos deberán intercambiar

información sobre la distribución de clases de sus datos locales cada vez que se

requiere seleccionar el atributo que mejor divide y expandir el nodo correspondiente.

Otra estrategia consiste en que cada proceso trabaje sobre diferentes partes del árbol.

En este caso, es necesario que estos acuerden al inicio el nodo raíz. Al final el árbol

global se construye combinando los subárboles construidos por cada proceso, como

en un rompecabezas.

Por su parte, en la paralelización de algoritmos de agrupamiento, algunas de las

propuestas más conocidas son: P-AutoClass, GLC, P-CLUSTER, HOP, MAFIA, la

paralelización del K-Means y del DBSCAN [Chen et al., 2010; Friedman, 2003; Goil

et al., 1999; Guo & Grossman, 1999; Pizzuti & Talia, 2003; Sánchez et al., 1999;

Tirumala et al., 2009; Wang, 2003; Yang et al., 2009]. Debido a la diversidad de

métodos de agrupamiento (particionales, jerárquicos divisivos y aglomerativos,

basados en densidad) las estrategias que implementan los algoritmos paralelos de

clustering son diferentes y, por lo general, se corresponden con un tipo de

agrupamiento en particular. En cualquier caso, se requiere sincronización e

intercambio de información, en mayor o menor medida, entre los distintos procesos.

La sincronización puede ser, por ejemplo, para determinar los centroides globales en

cada iteración de un algoritmo particional, o para determinar el par de grupos

(clusters) más cercanos en un algoritmo jerárquico.

En resumen, una de las estrategias que implementan los algoritmos paralelos que se

basan en técnicas anticipativas de minería de datos que generan modelos

“comprensibles”, radican en fragmentar el conjunto de datos de entrada en diferentes

partes para su procesamiento. Estas particiones pueden ser de dos tipos: horizontales

o verticales. De manera general, una vez creadas las particiones de datos, se definen

varias fases o subprocesos que para cumplimentarse deben realizarse, en mayor o


menor medida, de forma sincronizada y mediante el intercambio de información

entre los diferentes nodos que procesan cada partición.

2.2.2. Minería de Datos Distribuida

La minería de datos sobre Bases de Datos Distribuidas (BDD), sean homogéneas o

heterogéneas, se conoce como Minería de Datos Distribuida (MDD). Las BDD

homogéneas son aquellas en las que el mismo esquema de la base de datos está

repetido en cada nodo. En este caso, se dice que la fragmentación de la base de datos

es horizontal. Por su parte, en las BDD heterogéneas cada parte o nodo posee un

esquema diferente, por ejemplo almacena un subconjunto de las tablas de una base de

datos relacional o atributos diferentes de una misma tabla. En este caso, la

fragmentación de la base de datos es vertical.

Un sistema de MDD comprende diferentes componentes, algoritmos de minería de

datos, subsistema de comunicación, administrador de recursos, planificador de tareas,

interfaces de usuario, etc. [Park & Kargupta, 2003]. En un sistema de MDD existen

tres variantes clásicas de arquitectura (figuras 2.3-2.5) [Hernández et al., 2004].

Figura 2.3. Arquitecturas clásicas para MDD. Variante 1.

Una de las variantes (figura 2.3) consiste en que cada procesador o nodo distribuido

disponga de un componente de minería de datos encargado de analizar los datos que

en este se almacenan, obteniéndose un modelo de minería de datos local (o resultados


parciales1) en cada uno de los nodos distribuidos. En un nivel superior esos modelos

se combinan o integran para obtener el modelo de minería de datos global.

Las dos variantes clásicas de arquitectura restantes son similares entre sí, ya que

ambas consisten en implementar un único componente de minería de datos, en la

parte superior del sistema distribuido, que actúa sobre una vista integrada de las

distintas bases de datos locales (figura 2.4 y 2.5). La diferencia entre estas dos

variantes radica en la forma en que se genera la vista integrada sobre la que actúa la

capa de minería de datos. En una de estas (figura 2.4) se realizan consultas en cada

base de datos distribuida de manera independiente, según el subconjunto de datos a

analizar. Posteriormente, las consultas se integran y conforman la vista de datos sobre

la que operan los algoritmos de minería de datos. En la otra variante (figura 2.5), se

construye una vista integrada de los datos distribuidos, y las consultas se realizan a

partir de esta vista y no en cada base de datos distribuida de manera independiente.

No obstante, en ambas variantes (figura 2.4 y 2.5), no se crean modelos de minería de

datos parciales para luego ser integrados, sino únicamente el modelo de minería de

datos global.


1 En el caso de las técnicas de minería de datos retardadas no se obtienen modelos locales sino resultados

locales.



En cualquier caso, con independencia de la arquitectura, la salida percibida por el

usuario en un sistema de MDD consiste en un único modelo o resultado global.

Si tenemos en cuenta el modelo de computación distribuida que siguen los sistemas

de MDD, se pueden agrupar en:

Sistemas cliente/servidor. Implementan tres capas: la capa cliente con un módulo

que permite la creación interactiva de tareas de minería de datos, así como, la

visualización de los datos y de los modelos obtenidos; la capa del servidor de

aplicaciones que es el responsable de la autenticación de usuarios, el control de

acceso, y las tareas de coordinación y gestión de datos, y una tercera capa de

tipo servidor que proporciona servicios de minería de datos y es la más cercana

a los datos. Ejemplos de estos sistemas son Kensigton [Chattratichat et al.,

1999] e Intelliminer [Parthasarathy & Subramonian, 2000].

Sistemas basados en tecnología Grid. Se basan en la infraestructura que ofrece la

tecnología Grid. Esta infraestructura, al integrar técnicas de procesamiento

descentralizado y paralelo, permite distribuir el análisis de los datos entre un

gran número de nodos remotos. Son pocos los productos de alto nivel,

basados en la tecnología Grid, que soportan el descubrimiento de

conocimiento en entornos distribuidos. La mayoría de las investigaciones y

proyectos vinculados a esta temática, se desarrollan fundamentalmente en

Europa y Estados Unidos. Ejemplo de sistemas de este tipo son:

DataMiningGrid [DataMiningGrid, 2007; Stankovski et al., 2008a; Stankovski


et al., 2008b], Knowledge Grid [Cannataro et al., 2004; Dubitzky, 2008],

Discovery Net [Guo, 2002], TeraGrid [Berman, 2001] y Weka4WS [Talia et al.,

2005; Talia et al., 2008].

Sistemas basados en agentes. Utilizan uno o más agentes [Wooldridge & Jennings,

1995; Wooldridge, 2009] por cada nodo distribuido. Estos agentes son

responsables de analizar los datos locales y de comunicarse con otros agentes

durante la fase de minería de datos. El conocimiento globalmente coherente es

sintetizado mediante el intercambio del conocimiento descubierto localmente

en cada nodo. Entre estos sistemas se encuentran BODHI [Kargupta & Park,

2003; Ye, 2004], JAM [Stolfo, 1997], PADMA [Kargupta et al., 1999] y DAME

[Krishnaswamy et al., 2001].

Las técnicas de minería de datos que implementan los sistemas de MDD se

benefician, en general, del potencial paralelismo que pueden aplicar sobre las fuentes

de datos distribuidos. Dichas técnicas, además de la sincronización que pueden

requerir en determinados momentos, tal y como ocurre en las técnicas paralelas,

tienen la característica de que la transmisión de datos entre los nodos se realiza a

través de la red; por tanto, su funcionamiento se centra fundamentalmente en reducir

el costo de la comunicación. La mayoría de las técnicas y algoritmos de minería de

datos existentes para fuentes de datos distribuidas, constituyen extensiones de

técnicas clásicas de minería de datos para bases de datos relacionales.

En MDD son numerosas y muy variadas las propuestas que se han publicado de

algoritmos que implementan técnicas anticipativas [Aggarwal et al., 2005; Guo &

Grossman, 1999; Nong, 2003; Park & Kargupta, 2003; Wang, 2006; Zaki & Ho,

2000]. En general, se observan tres tendencias en el diseño de técnicas y algoritmos de

MDD. La primera, heredada de la MDP, se basa en múltiples rondas de intercambio

de mensajes entre los nodos distribuidos, y necesita una sincronización muy precisa.

La segunda tendencia presenta técnicas que se basan en la selección de una muestra o

resumen de los datos locales almacenados en cada sitio y su centralización para llevar

a cabo la posterior fase de aprendizaje. La tercera tendencia está formada por técnicas

que buscan minimizar la comunicación y sincronización en la fase de aprendizaje,

promoviendo el análisis de los datos de manera local en cada nodo, para luego

combinar los resultados parciales centralmente y obtener un modelo global. Estas dos

últimas tendencias comparten el objetivo de minimizar la comunicación y

sincronización durante la fase de aprendizaje. Las estrategias de integración o

combinación de modelos parciales que implementan estas técnicas son específicas

para cada tipo de conocimiento o patrones de minería de datos (reglas, clusters,

clases, etc) que se requiere integrar. Finalmente, es importante precisar que la mayoría

de las técnicas de MDD combinan características de las tres tendencias mencionadas

anteriormente, intentando alcanzar un equilibrio entre eficacia y eficiencia.


2.3. Síntesis de Modelos de Minería de

Datos (Postmining)

El proceso de recopilación, análisis y síntesis de modelos de minería de datos

descubiertos a partir de múltiples conjuntos de datos se denomina Postmining [Wu &

Zhang, 2003]. Esta forma de minería de datos puede constituir una alternativa factible

ante la necesidad de obtener conocimiento global, a partir de un conjunto de modelos

de minería de datos locales o parciales generados de manera independiente; además,

resulta útil especialmente en aquellos dominios de aplicación en los que el acceso a los

datos que originaron estos modelos parciales no es posible.

Las investigaciones en síntesis de modelos de minería de datos son relativamente

recientes [Adhikari & Rao, 2007, 2008; Adhikari et al., 2010; Gionis et al., 2005; Hore

et al., 2009; Lange & Buhmann, 2005; Long et al., 2005; Qian & Suen, 2000; Strehl &

Ghosh, 2002; Wu & Zhang, 2003; Zhang et al., 2004a; Zhang et al., 2003; Zhang et

al., 2004b; Zhang et al., 2004c; Zhang et al., 2009; Zhang & Brodley, 2004; Zhong et

al., 2003]. Todas las propuestas que se han publicado hasta la fecha son específicas

para un tipo de modelo de minería de datos en particular, por lo que carecen de

generalidad, concentrándose en la síntesis de modelos de reglas de asociación y en la

síntesis de modelos de agrupamiento. En los siguientes apartados se describen las

investigaciones publicadas para cada tipo de modelo de minería de datos.

2.3.1. Síntesis de Modelos de Reglas de Asociación

Desde hace unos 10 años aproximadamente se desarrollan investigaciones en relación

a la minería de múltiples bases de datos que se centran en la síntesis de modelos de

reglas de asociación descubiertos de manera independiente.

Una de las primeras investigaciones es la presentada en [Jensen & Soparkar, 2000], la

que aborda la integración de reglas de asociación descubiertas desde un almacén de

datos con esquema estrella [Inmon, 2005; Kimball & Ross, 2002; Wang, 2006]. Esta

propuesta se compone de dos fases fundamentales:

Encontrar los itemsets frecuentes sobre las tablas dimensiones del cubo

correspondiente del almacén de datos, aplicando una modificación del

algoritmo Apriori.


Unificar los resultados de los modelos obtenidos desde cada dimensión,

usando las llaves extranjeras presentes en la tabla de hechos.

Esta propuesta tiene limitaciones importantes, ya que su algoritmo de síntesis está

muy ajustado a un diseño específico de la base de datos: el esquema estrella de un

almacén de datos. La “síntesis” de los modelos obtenidos se beneficia de las

facilidades que ofrece haber escogido el esquema estrella. Además, este método

asume que se tiene acceso al conjunto de datos origen, ya que basa la construcción de

los modelos parciales (conjuntos de itemsets frecuentes) en cada tabla de dimensión.

Es importante precisar que esta propuesta se basa en la síntesis de itemsets

frecuentes, no de reglas de asociación.

Por otra parte, en [Wu & Zhang, 2003; Zhang et al., 2004a; Zhang et al., 2003; Zhang

et al., 2004b; Zhang et al., 2004c; Zhang et al., 2009] los autores defienden un enfoque

para descubrir reglas de asociación en múltiples bases de datos que se basa en la

“síntesis” de reglas, ajustando sus medidas (soporte y confianza) según diferentes

coeficientes de peso. La síntesis no es más que la aplicación del operador de unión de

los conjuntos de patrones locales. En resumen, definen un nuevo proceso para la

minería de múltiples conjuntos de datos que consiste en tres pasos: clasificar los

conjuntos de datos de entrada (en el caso de fuentes de datos heterogéneas);

identificar dos tipos de patrones: patrones usuales o que están presentes en la mayoría

de los modelos (high-vote patterns), y patrones excepcionales que son aquellos que se

obtienen en pocos modelos pero con medidas altas; y sintetizar estos patrones locales

(reglas de asociación) ajustando sus medidas. Este enfoque presenta algunas

limitaciones. Los autores asumen que cada conjunto de datos analizado contiene una

cantidad de registros similar. Si el tamaño de los conjuntos de datos es diferente, los

autores sugieren, previo a la aplicación de las técnicas de minería de datos locales,

dividir los conjuntos de datos más grandes y/o unir los conjuntos de datos más

pequeños con el propósito de que todos los conjuntos de datos tengan un tamaño

similar. Sin embargo, cuando el acceso a las bases de datos locales no es posible, este

enfoque no es viable. Por otra parte, asumen que las reglas de asociación se obtienen

considerando el mismo valor de soporte mínimo y el mismo valor de confianza

mínimo para cada conjunto de datos. En cambio, en las aplicaciones reales, los

modelos de reglas de asociación locales pueden ser generados considerando

diferentes umbrales de soporte y/o de confianza para cada conjunto de datos origen.

En [Zhong et al., 2003] se propone un método específico para descubrir reglas

peculiares en múltiples bases de datos. Estas son reglas soportadas en una cantidad

relativamente pequeña de instancias que son muy diferentes a otras instancias del

conjunto analizado.

Adhikari y Rao, describen en [Adhikari & Rao, 2008] una propuesta de extensión del

modelo de [Zhang et al., 2003] para sintetizar patrones globales en múltiples bases de


datos. Definen una arquitectura que se basa en una serie de capas e interfaces entre las

capas. Cada interfaz representa un conjunto de operaciones que pueden producir

vista(s) de datos o patrones de conocimiento (conjunto de reglas), a partir de vista(s)

de datos de la capa inferior. En este modelo extendido el acceso a los datos origen

está implícito en el proceso de síntesis. Además, al igual que en [Zhang et al., 2003],

asumen que cada conjunto de datos contiene similar cantidad de registros.

Posteriormente, la investigación presentada en [Adhikari & Rao, 2007] está orientada

a mejorar la calidad de los patrones de conocimiento (reglas de asociación)

sintetizados. Proponen una codificación de las reglas de asociación que nombran

ACP, que permite reducir el espacio de almacenamiento requerido para representar

las bases de reglas correspondientes a diferentes bases de datos. Al reducir el espacio

requerido, sugieren obtener un mayor número de reglas de asociación locales

especificando valores mínimos de soporte y confianza menores. Esto hace que la

calidad de las reglas globales sea mayor. En dicha propuesta, el proceso de obtención

de patrones locales no es independiente, ya que se definen valores mínimos de

soporte y confianza específicos.

Otra de las investigaciones publicadas propone un método para integrar modelos de

reglas de asociación descubiertos en diferentes conjuntos de datos en formato XML

[Paul & Saravanan, 2008]. Para ello, los autores se basan en las formulaciones

matemáticas definidas en [Zhang et al., 2004a] para identificar patrones globales

excepcionales[Zhang et al., 2004a]. Los patrones excepcionales son aquellos que

tienen altos valores de soporte y confianza, pero son descubiertos en pocos modelos.

Una limitación de este método es precisamente que permite descubrir patrones

globales excepcionales, pero no patrones globales soportados en el conjunto de todos

los datos distribuidos.

En [Adhikari et al., 2010] se propone una nueva forma de descubrir reglas de

asociación globales a partir de múltiples bases de datos. Dicha propuesta se basa en

una técnica que los autores nombran PFT (Pipelined Feedback Technique). Con esta

técnica se logra mejorar significativamente la calidad de los patrones globales

sintetizados. Sin embargo, los conjuntos de datos origen no se analizan de manera

independiente, lo que constituye la limitación fundamental de esta propuesta. La

obtención de los modelos locales forma parte de la propia técnica PFT. Los

conjuntos de datos origen se procesan de manera secuencial, y en orden decreciente

según su tamaño. Excepto el primer conjunto de datos, los restantes utilizan las reglas

resultantes del análisis del conjunto de datos que le antecede, según el orden

previamente establecido.


2.3.2. Síntesis de Modelos de Clusters

En la tarea de agrupamiento o clustering se han publicado algunos métodos que

logran sintetizar un conjunto de modelos de clusters, obteniendo un modelo global

sin acceder a los datos que originaron los modelos parciales. A continuación se

describen las propuestas que resultaron más relevantes para esta investigación.

En [Qian & Suen, 2000] se aborda la integración de modelos de agrupamiento desde

un punto de vista matemático. El método que proponen los autores, enuncia que el

problema de agrupamiento puede ser tratado como un problema de optimización

acorde con un criterio de semejanza o agrupamiento. Para ello, plantean la integración

en términos de funciones objetivos y proponen la combinación de dichas funciones a

partir de la optimización multi-objetivo. En este método se plantea el problema de la

integración desde un punto de vista peculiar, realmente no se combinan los resultados

de los modelos de agrupamiento, sino las funciones a partir de las cuales se

construyen los modelos.

Por otra parte, está el trabajo propuesto por Alexander Strehl y Joydeep Ghosh en

[Strehl & Ghosh, 2002]. Este trabajo tiene como valor fundamental el hecho de que

las particiones o modelos locales pueden ser generados a partir de cualquier algoritmo

de agrupamiento, es decir se puede aplicar un algoritmo basado en centro en una

partición y uno basado en densidad en otra partición y se obtienen modelos locales

que igualmente pueden ser integrados. Esto se debe a que la manera de representar

estos modelos es a través de un vector etiquetado. En este vector están representadas

todas las instancias de la fuente de datos a partir de una etiqueta que se corresponde

con el grupo obtenido localmente al cual pertenece. Sin embargo, debido a esta forma

de representación, se puede identificar también su principal desventaja, que constituye

el hecho de que el vector etiquetado crece proporcionalmente con la cantidad de

objetos que existan en cada partición local, lo cual aumenta el uso de memoria y

disminuye la escalabilidad. Después de este trabajo surgieron otros que se basan en la

misma representación [Gionis et al., 2005; Lange & Buhmann, 2005; Long et al.,

2005; Zhang & Brodley, 2004]

Finalmente, en [Hore et al., 2009] se propone un método de integración de modelos

de agrupamiento que representen conjuntos de centroides. En este se corrigen las

desventajas del trabajo comentado anteriormente en cuanto al uso de espacio y la

escalabilidad, debido a que los modelos locales que plantea están compuestos

solamente por el conjunto de los centroides identificados en cada partición local, y no

por un valor para cada elemento en la misma. Sin embargo, se limitan a integrar

modelos obtenidos al aplicar específicamente un tipo de algoritmo de agrupamiento:

los basados en centro. Además, los valores que caracterizan cada centriode deben ser

numéricos.


2.4. Conclusiones

Los trabajos analizados en el estado del arte muestran que existen tres variantes

posibles para procesar, mediante técnicas de minería de datos, múltiples bases de

datos. Estas son: agrupar todos los datos distribuidos y procesarlos de manera

centralizada mediante técnicas tradicionales o paralelas de minería de datos, analizar

los datos mediante técnicas de minería de datos distribuida, o aplicar técnicas de

postmining. Esta última alternativa consiste en reutilizar los modelos de minería de

datos locales o parciales con el propósito de sintetizarlos y obtener patrones globales

a partir de estos. Dicha forma de minería de datos resulta de especial interés en esta

investigación, ya que, a diferencia de las dos variantes restantes, no requiere acceder a

los datos originales. Por lo tanto, se ha profundizado en el estudio de las técnicas de

postmining.

Del estudio de los trabajos en postmining publicados hasta la fecha, se concluye que

todas las propuestas carecen de generalidad, en el sentido que son específicas para la

síntesis de modelos de reglas de asociación, o para la síntesis de modelos de

agrupamiento. Por otra parte, tanto en las propuestas de síntesis de modelos de reglas

de asociación como en las propuestas de síntesis de modelos de agrupamiento, se

identifican algunas limitaciones. Las más significativas se resumen a continuación:

Algunas de las propuestas son dependientes de un esquema específico de base

de datos.

Asumen que cada conjunto de datos local contiene una cantidad similar de

registros.

Acceden de manera parcial o total a los datos origen.

Los modelos locales no se generan de manera independiente.

Presentan problemas de escalabilidad.

29

CAPÍTULO 3

3 MODELO CONCEPTUAL

El modelo general que soporta nuestra propuesta (Modelo de Integración de Conocimiento -

MIC) se describe mediante dos vistas diferentes: el Modelo Conceptual (MC_MIC) y el

Modelo Funcional (MF_MIC). En este capítulo corresponde abordar el MC_MIC,

detallándose cada uno de sus elementos.

Teniendo en cuenta las características del problema a tratar y las necesidades de

expresividad del modelo que se propone, resulta adecuado tomar como base la

metodología y herramientas formales utilizadas en el modelado de procesos

[Eriksson & Penker, 1999; Jeston & Neils, 2006; Smith & Fingar, 2002]. Es por ello

que se concibe el MC_MIC como la vista de los procesos (P) fundamentales que

conforman el modelo general propuesto (MIC).

Dentro de la Gestión de Procesos de Negocios (Bussiness Process Management -

BPM), metodología empresarial cuyo objetivo fundamental es mejorar la eficiencia

mediante la gestión sistemática de los procesos del negocio, cada proceso está

compuesto por un conjunto completo y dinámico de actividades colaborativas que se

ejecutan en un orden dado buscando alcanzar una meta u objetivo común, utiliza

recursos a los que les puede cambiar su estado, y tiene asociado una entrada y una

salida específicas [Eriksson & Penker, 1999; Lindsay et al., 2003]. En las Normas ISO

(International Standardization Organization) 9000, específicamente en la Norma

ISO-9001, se define un proceso de negocio como un conjunto de actividades

mutuamente relacionadas o que interactúan, que utilizan recursos y que se gestionan

con el fin de transformar elementos de entrada en resultados [ISO, 2000]. Esta

conceptualización, de carácter estándar, se ajusta bien al significado que nuestro

modelo le adjudica al término.


De la misma forma, las necesidades de expresividad del MC_MIC hacen que resulte

adecuado utilizar la notación gráfica de [Eriksson & Penker, 1999], como extensión

del estándar UML para procesos del negocio, considerando sus cualidades

descriptivas. Dicha notación gráfica, se sustenta en la definición de proceso dada por

sus creadores, en la que se hace énfasis en cómo se realizan las actividades o

subprocesos que conforman un proceso de negocio, en lugar de describir los

productos o servicios que resultan de su ejecución. Por lo que, cada uno de los

procesos fundamentales implicados en el MC_MIC, y sus subprocesos, se formalizan

gráficamente. Además, estos se formalizan algebraicamente, como complemento a la

formalización gráfica, y se describen de forma verbal no formal.

Entonces, en el MC_MIC tomando como referencia la notación de Eriksson-Penker,

los procesos se representan mediante diagramas de actividad UML (Diagramas de

Proceso). En la figura 3.1 se muestra la representación general de un proceso.

Figura 3.1. Representación de un proceso en el MC_MIC, basándose en Eriksson-Penker.

A la izquierda del símbolo de proceso se representan los recursos que entran al

proceso, mientras que a la derecha se indican los recursos que salen del proceso. En

la parte superior del símbolo de proceso se indica la meta u objetivos a alcanzar por

el proceso, mediante un recurso con el estereotipo <<goal>>. Los restantes recursos

involucrados en el proceso pueden representarse en la parte superior y/o en la parte

inferior del símbolo de proceso. Aquellos recursos que sean utilizados por el proceso

se relacionan con éste a través del estereotipo de dependencia <<supply>>, mientras

que aquellos encargados de controlar el proceso se relacionan mediante el estereotipo

<<control>>. Para evitar sobrecargar los diagramas de proceso, se decide excluir de la

representación gráfica a los recursos de tipo actores, responsables de la ejecución de las

Capítulo 3. Modelo Conceptual 31

tareas incluidas en los procesos. De esta forma, se ha ajustado la notación de

Eriksson-Penker a las necesidades de expresividad del MC_MIC.

Por otra parte, el MC_MIC se formaliza algebraicamente mediante la tupla:

3.1

Donde es el conjunto de todos los procesos identificados en el MC_MIC, es el

conjunto de todas las tareas, es el conjunto de todos los recursos tipo actores

responsables de la ejecución de los procesos, y es el conjunto de los restantes

recursos implicados en los procesos. En lo adelante, los recursos tipo actores se nombran

simplemente actores.

Cada proceso se define formalmente por la tupla:

3.2

Donde es la etiqueta o nombre del proceso, es el conjunto de las tareas

(actividades) que conforman el flujo del proceso, es el conjunto de los actores

responsables de la ejecución del proceso, y es el conjunto de los restantes

recursos involucrados en el proceso. Para todo proceso se cumple que

, , y . En cada proceso , el flujo que determina la

secuencia ordenada de las tareas se formaliza de manera gráfica mediante los

diagramas de actividad de UML extendidos, soportados en la notación de Eriksson-

Penker. En nuestro modelo se asocian las actividades (de los diagramas de actividad)

con las tareas identificas como parte del MC_MIC. De esta forma, el flujo de

tareas de cada proceso se representa dentro del MC_MIC tal y como se

muestra en la figura 3.2.

Figura 3.2. Representación del flujo de tareas del proceso p1.

Para el flujo de tareas representado en la figura 3.2, el conjunto de las tareas del

proceso estará compuesto por las tareas , y conjuntamente con las tareas

del sub-proceso :

3.3


Por otra parte, cada tarea , cada actor , y cada recurso se formaliza

respectivamente de la siguiente forma:

3.4

3.5

3.6

Donde , y representan las etiquetas que especifican el nombre de la tarea , el

nombre del actor , y el nombre del recurso respectivamente; mientras que y

especifican el tipo de dependencia que tiene el actor , o el recurso con cada

proceso con el que se relacione. Según define la notación de Eriksson-

Penker, los tipos de dependencia o relación que pueden establecer los recursos, de

manera general, con los procesos son:

<<input>> Para identificar las entradas del proceso

<<output>> Para identificar las salidas del proceso

<<achieve>> Para identificar las metas del proceso

<<supply>> Para identificar los recursos necesitados por el

proceso

<<control>> Para identificar los recursos que controlan el

proceso

Considerando las precisiones enunciadas con anterioridad para la representación de

los procesos y de los recursos implicados con estos, al ajustar la notación de

Eriksson-Penker a las necesidades de expresividad del MC_MIC, se decidió omitir en

dicha representación gráfica la especificación de los tipos de dependencia:

<<input>>, <<output>> y <<achieve>>, tal y como se ilustra en la figura 3.1.

Una vez definida la nomenclatura corresponde formalizar el MC_MIC. Para ello se

ha empleado la metodología top-down; es decir, se describen inicialmente los

elementos generales del modelo propuesto, y posteriormente estos se van detallando

hasta alcanzar el máximo nivel de granularidad. Luego, en un primer nivel de detalle,

el MC_MIC puede representarse como un único proceso (Integración) responsable,

como su nombre lo indica, de integrar n modelos locales de minería de datos que han

sido generados a partir de n conjuntos de datos (figura 3.3).


Figura 3.3. Integración de modelos locales de minería de datos.

El MIC tiene como restricción la imposibilidad de acceder a los conjuntos de datos

fuente, por lo que, el proceso de Integración (pI) deberá realizarse conociendo

únicamente los modelos locales y, asociado a cada uno, una ficha que recoge

información útil para la integración. Entonces, como entrada al proceso pI se tienen

los modelos locales y sus fichas correspondientes .

Donde y son los conjuntos de modelos locales y fichas respectivamente. De

manera general, las fichas registrarán información resumida referente a los conjuntos

de datos fuente (por ejemplo: cantidad de registros analizados), así como,

información concerniente al proceso de minería de datos desarrollado localmente

(por ejemplo, umbrales de medidas de patrones: valor mínimo de cobertura y de

precisión), entre otros. Como salida del proceso pI se obtiene un modelo global de

minería de datos integrado.

Figura 3.4. Detalle a nivel de procesos del MIC.

En un nivel de detalle superior, se representa en la figura 3.4 la vista de los

subprocesos que conforman el proceso pI. Como se puede observar este está

constituido por tres subprocesos: Codificación (pC), Síntesis (pS), y Representación (pR):


p p p 3.7

El primer subproceso (pC) consiste en la codificación de los modelos locales que

serán integrados. Este tiene como propósito realizar una traducción, del formato de

representación e intercambio en el que dichos modelos se reciben, a un formato

homogéneo de representación de conjuntos de patrones locales (correspondientes a

cada modelo) que resulte adecuado para el subproceso de Síntesis posterior. El

subproceso Síntesis (pS), que es el de mayor complejidad dentro del proceso de

Integración consiste, como su nombre sugiere, en la síntesis de los conjuntos de

patrones locales codificados, con el propósito de obtener, como solución, un único

conjunto de patrones globales que sea el que “más se parezca a todos” los conjuntos

de patrones locales codificados. Finalmente, el tercer y último subproceso,

Representación (pR), una vez obtenido el conjunto de patrones globales sintetizados, se

ocupa de la representación de dicho conjunto de patrones globales en el formato de

representación e intercambio de modelos requerido para ser entregado al usuario.

Este subproceso puede interpretarse como una traducción en sentido inverso a la

realizada en el subproceso de Codificación.

En los siguientes apartados se definen formalmente, describiéndose con mayor

detalle, cada uno de los subprocesos antes mencionados. Por lo que, el resto del

capítulo se estructura de la siguiente forma: en los apartados 3.1, 3.2 y 3.3 se

describen los subprocesos Codificación, Síntesis y Representación respectivamente;

mientras que, en el apartado 3.4 se concluye el capítulo y se incluye, a modo de

resumen, la definición algebraica de los conjuntos de procesos (P), tareas (T), actores

(A) y recursos (R) que resultan de la formalización del MC_MIC.

3.1. Codificación

Como se muestra en la figura 3.4, el subproceso Codificación (pC) es el responsable de

iniciar el proceso de Integración (pI). Este tiene como objetivo fundamental, una vez

que selecciona los modelos locales que serán integrados, traducir dichos modelos

locales, codificándolos en un formato homogéneo de representación, en forma de

conjuntos de patrones locales correspondientes a cada modelo. El carácter

homogéneo de la codificación, implica que se representen de manera similar

diferentes tipos de patrones (reglas de asociación y clusters). Esto contribuye a que el

subproceso Síntesis se pueda definir con independencia del tipo de los modelos

locales que se deseen integrar.


Los tipos de modelos de minería de datos o patrones que pueden ser integrados en

nuestro MIC son: reglas de asociación y cluster.

En la figura 3.5 se formaliza gráficamente el proceso pC, siguiendo la notación

Eriksson-Penker. Como se puede observar, el proceso pC, está compuesto por los

subprocesos: Selección de Modelos (pSM) y Traducción de Modelos (pTM).

Figura 3.5. Proceso de Codificación (pC).

El proceso se formaliza algebraicamente como:

3.8

La etiqueta del proceso ( ) tiene el valor “Codificación”. Los elementos que

conforman los conjuntos de tareas ( ), de actores ( ), y de recursos ( ) del

proceso se irán especificando a lo largo de esta sección 3.1, quedando definidos

explícitamente en el apartado 3.1.3. En la realización de las tareas del proceso pC

participa el actor Codificador de Modelos, responsable de todo el proceso.

A continuación se describe el proceso pC detallando cada uno de sus subprocesos

(pSM y pTM).

3.1.1. Subproceso Selección de Modelos

El subproceso Selección de Modelos (pSM), es el responsable de examinar las fichas

( ) de los modelos locales ( ) y descartar aquellas fichas “incompletas” y

sus modelos correspondientes. Finalmente, el conjunto de modelos locales cuyas

fichas están “completas” son revisados, atendiendo a los parámetros especificados,

con el propósito de seleccionar los modelos que serán considerados definitivamente

para la integración. En la figura 3.6 se formaliza gráficamente este subproceso. Como


se puede observar, el flujo de trabajo de pSM está constituido por dos tareas: Examinar

Fichas y Seleccionar Modelos.

Figura 3.6. Proceso Selección de Modelos (pSM).

En la tarea Examinar Fichas se revisan todas las fichas de los modelos locales

recibidos y se devuelve como resultado las fichas de los modelos locales a considerar

en las tareas y subprocesos siguientes, por calificarlas como “completas”. Para

conceder tal calificativo a una ficha, esta debe incluir como información obligatoria:

Tamaño de la vista de datos origen (cantidad de instancias).

Descripción de cada atributo de la vista de datos origen (etiqueta y dominio).

Umbral de precisión y de cobertura mínima utilizado para la aceptación de los

patrones en el modelo local correspondiente.

Una vez que se conocen las fichas “completas”, con sus modelos locales

correspondientes, el actor Codificador de Modelos prosigue a la ejecución de la tarea de

selección de los modelos locales que serán integrados, considerando los valores de

los Parámetros especificados por el usuario. En la tabla 3.1 se detallan los Parámetros

utilizados en este subproceso.

Tabla 3.1. Parámetros requeridos en el subproceso pSM.

Parámetro Significado Dominio Valor por defecto

Umbral mínimo de (cantidad

de patrones en un modelo local)

(al menos un patrón)

Umbral mínimo de (cantidad

de instancias de la vista de datos

origen utilizadas en la

construcción del modelo local)

(al menos una instancia)


En resumen, se seleccionan aquellos modelos locales que cumplan con los valores

especificados para los Parámetros y

.

3.1.2. Subproceso Traducción de Modelos

El subproceso Traducción de Modelos (pTM) se ocupa de codificar, en forma de conjunto

de patrones , cada uno de los modelos seleccionados en el subproceso pSM.

Donde cada patrón ( ) se formaliza mediante la tupla: . En

esta tupla, , que representa las características del patrón que lo identifican (el

antecedente y el consecuente de una regla o el centro de un cluster) se codifica como

un vector cuya dimensión se corresponde con la cantidad de atributos de las

vistas de datos origen, información almacenada en cada ficha. Cada elemento de

dicho vector representa un atributo diferente y se define por la tupla:

3.9

Donde indica el rol del atributo en el patrón del modelo local , tomando

como posibles valores: AR, CR, NR o CC (tabla 3.2); y se asocia con el valor

nominal (categórico) que toma el atributo en el patrón del modelo local .

Tabla 3.2. Valores posible del rol del atributo en el patrón del modelo ( ).

Valor de Significado

AR El atributo k en el patrón j aparece en el Antecedente de la Regla

(tipo de patrón: regla de asociación o regla de clasificación).

CR El atributo k en el patrón j aparece en el Consecuente de la Regla


NR El atributo k en el patrón j No aparece en la Regla


CC El atributo k en el patrón j caracteriza el Centro del Cluster

(tipo de patrón: cluster).

Por su parte, que representa las medidas de calidad del patrón en el modelo ,

se define por la tupla:

3.10


Donde indica la precisión del patrón en el modelo y su cobertura. En la

tabla 3.3 se resume, para cada tipo de patrón, el significado que se asume en el

MC_MIC, para ambas medidas.

Tabla 3.3. Significado de las medidas cobertura y precisión para cada tipo de patrón.

Tipo de patrón Cobertura ( ) Precisión ( )

Regla de

Asociación

Cantidad de

instancias que

cumplen con la

regla

.

Razón de instancias que cumplen con

la regla , de las que pueden

aplicar.

Cluster Cantidad de

instancias

agrupadas en el

cluster.

Distancia media de los elementos del

cluster al centro. Promedio de la

precisión asociada a cada atributo que

describe los clusters.

;

Donde es el Total de elementos

en el cluster del modelo local cuyo

valor del atributo es igual al valor que

toma dicho atributo en el centro del

cluster.

En la figura 3.7 se representa el flujo de trabajo del subproceso pTM, determinado por

una única tarea: Codificar Modelos.

Figura 3.7. Proceso Traducción de Modelos (pTM).

La tarea Codificar Modelos, como su nombre sugiere, codifica cada uno de los modelos

locales seleccionados en el subproceso pSM, tal y como se explicó anteriormente,


creando los conjuntos de patrones correspondientes a cada modelo . Para ello,

cada patrón se representa como un par : vector que identifica el patrón

( ) y sus medidas de precisión y de cobertura ( ). Esta tarea

es realizada por el actor Codificador de Modelos.

3.1.3. Resumen del Proceso Codificación

Ambos subprocesos descritos en las secciones precedentes (3.1.1 y 3.1.2) garantizan

que pC codifique en un formato homogéneo, adecuado para la posterior Síntesis, los

modelos locales seleccionados para la integración. Cada uno de estos subprocesos se

formalizó gráficamente, mediante la notación de Eriksson-Penker. A continuación, a

modo de resumen, se definen los conjuntos de tareas ( ), de actores ( ), y de

recursos ( ) que resultan de las formalizaciones gráficas asociadas al proceso pC.

3.11

3.12

3.13

3.2. Síntesis

Como se muestra en la figura 3.4, el subproceso Síntesis (pS) es el segundo en el flujo

de trabajo del proceso de Integración (pI). Este consiste, básicamente, en la Síntesis de

los conjuntos de patrones locales codificados con el propósito de obtener, como

solución, un único conjunto de patrones globales que sea el que más se “parezca” y

resuma a todos los conjuntos de patrones locales codificados. En otras palabras, se

trata de obtener un conjunto de patrones globales, de manera que la distancia entre

dicho conjunto y todos los conjuntos de patrones locales sea mínima. Para ello, se

parte de una solución inicial, o conjunto de soluciones iniciales, y posteriormente se

sigue un proceso iterativo de mejora de soluciones. Una vez que se decide detener el

proceso iterativo (los criterios de parada pueden ser diversos) se tiene una propuesta


final de conjunto de patrones globales. Cada uno de estos patrones globales carece de

medidas (cobertura y precisión) relativas al conjunto global de los datos que

originaron los modelos locales; es por ello que posteriormente es necesario asignar a

cada patrón global del conjunto solución un valor global estimado de cobertura y de

precisión.

En la figura 3.8 se formaliza gráficamente pS, siguiendo la notación Eriksson-Penker.

Figura 3.8. Proceso de Síntesis (pS).

Por otra parte, dicho proceso se formaliza algebraicamente como:

3.14

La etiqueta del proceso ( ) tiene el valor “Síntesis”. Los elementos que conforman

los conjuntos de tareas ( ), de actores ( ), y de recursos ( ) del proceso se irán

especificando a lo largo de esta sección 3.2, quedando definidos explícitamente en el

apartado 3.2.4. En la realización de las tareas del proceso pS participan los siguientes

actores: el actor Sintetizador, el que se comporta como responsable de todo el proceso,

controlando su ejecución, el actor Constructor de la Solución Inicial, el actor Mejorador de

Solución, el actor Estimador de Medidas , el actor Evaluador de Soluciones, y el actor Generador

de Vecindad.

En las siguientes secciones se describe pS detallando cada uno de sus subprocesos

(pCSI, pMS y pAM).


3.2.1. Subproceso Construcción de Solución Inicial

El subproceso Construcción de Solución Inicial (pCSI), una vez que selecciona la

codificación que se usará para las soluciones, se ocupa de construir una solución

inicial o conjunto de soluciones iniciales, según el valor del parámetro

que establece el tamaño de la población de soluciones. Si (valor por

defecto) entonces se construye una única solución (tabla 3.4). Posteriormente evalúa

la calidad de las soluciones construidas, según la función objetivo definida. En el

modelo que se propone, una solución constituye un conjunto de patrones globales.

En la figura 3.9 se formaliza gráficamente este subproceso. Como se puede observar,

el flujo de trabajo de pCSI está constituido por tres tareas: Seleccionar Codificación de

Soluciones, Construir Solución Inicial y Evaluar Solución.

Figura 3.9. Proceso Construcción de Solución Inicial (pCSI).

En la tarea Seleccionar Codificación de Soluciones, como su nombre sugiere, el actor

Sintetizador selecciona la codificación que se usará para representar las soluciones en el

modelo. Tanto la solución inicial como las restantes soluciones candidatas que se

obtienen tienen la misma representación. La codificación seleccionada dependerá del

nivel de integración del modelo global solicitado por el usuario. Como se puede

apreciar en la tabla 3.4, el modelo soporta dos niveles de integración: nivel uno o

básico ( ), y nivel dos o avanzado ( ).


Tabla 3.4. Parámetros requeridos en el subproceso pCSI.


Tamaño de la población de

soluciones

:

(Se evalúa una

solución en cada

iteración)

Nivel de Integración

requerido en el modelo

global

:

(Nivel de Integración

básico)

Tipo de Solución Inicial :

(Solución Inicial

Aleatoria)

En el nivel de integración básico ( ), los patrones del modelo global

integrado ( ) se toman solamente de los m modelos locales seleccionados en el

proceso pSM para su integración:

3.15

Es decir, en este nivel no es posible descubrir nuevos patrones. Por lo que, en este

caso, cada solución candidata constituye una selección de los patrones locales ( )

que se incluirán en el modelo global integrado. Por su parte, el nivel avanzado

( ), sí admite el descubrimiento de nuevos patrones. Por tal motivo, las

soluciones candidatas, en este caso, podrán estar conformadas tanto por patrones

contenidos en los modelos locales como por nuevos patrones descubiertos. A

continuación se define la codificación que se requiere para representar las soluciones

en cada nivel de integración.

En el nivel básico, cada solución candidata ( ) se representa en un vector binario

de dimensión fija . Donde:

3.16

Cada elemento del vector se corresponde con uno de los

patrones contenidos en los modelos locales seleccionados, tomando valor 0, si el

patrón correspondiente no se incluye en la solución candidata, o valor 1 en caso


contrario. Entonces, las soluciones candidatas ( ), en el nivel básico de integración,

se representan en un vector binario ( ) de dimensión fija. Esto determina un

espacio de soluciones constante de .

Por otra parte, en el nivel avanzado, cada solución candidata ( ), se representa, de

modo similar, en un vector . Sin embargo, en este caso, la dimensión del vector

es variable:

3.17

De manera que los primeros elementos

del vector se

corresponden con los patrones contenidos en los modelos locales seleccionados;

mientras que, los restantes elementos

del vector se

corresponden con los nuevos patrones descubiertos (patrones que no existen en

ningún modelo local, y que se crean combinando algunos de los patrones existentes).

Por cada patrón nuevo que se descubra, la dimensión del vector solución ( )

aumenta en uno. Los nuevos patrones descubiertos se van almacenando en la Lista

de Nuevos Patrones descubiertos ( ).

Una vez definida la codificación a emplear (vector binario de dimensión fija o de

dimensión variable), según el nivel de integración requerido, el actor Constructor de la

Solución Inicial ejecutará la tarea Construir Solución Inicial. Esta consiste, como su

nombre lo indica, en la construcción de la solución inicial ( ) o conjunto de

soluciones iniciales ( ), según el valor del parámetro (tabla 3.4). Con

independencia del nivel de integración requerido, las soluciones iniciales se

construyen sin patrones nuevos, por tanto, la dimensión del vector binario

correspondiente a una solución inicial será:

3.18

Una solución inicial puede crearse de manera aleatoria o no, según el valor del

parámetro (tipo de solución inicial, tabla 3.4). El modelo que se propone soporta

cuatro variantes de o, más bien, cuatro variantes de construir una solución

inicial ( ). La primera ( ) consiste en la construcción de una solución inicial

de manera aleatoria, que no es más que generar para cada elemento del vector un

bit aleatorio. La segunda variante ( ), se puede decir que es de tipo

seudoaleatoria, ya que , en este caso, contendrá el conjunto de patrones incluidos

en uno de los modelos locales a integrar, seleccionado aleatoriamente ( ). La

tercera variante ( ), se refiere al conjunto vacío de patrones, es decir, todos los


elementos del vector tendrán valor 0. Mientras que, en la cuarta variante (

) todos los elementos del vector tendrán valor 1.

Finalmente, la tarea Evaluar Solución, como su nombre indica, se ocupa de evaluar la

calidad de la solución inicial ( ) (o conjunto de soluciones iniciales ), que recibe

como entrada. Esta tarea la realiza el actor Evaluador de Soluciones. La calidad de una

solución está en correspondencia con la semejanza que existe entre el modelo

integrado que se tiene como solución candidata y el conjunto de modelos locales a

integrar. Por lo que, el propósito en el MIC es minimizar la distancia entre el modelo

integrado y dichos modelos locales. A continuación, se define la función objetivo

que permite evaluar una solución candidata ( ). En este caso se cumple que

.

3.19

Donde es un peso asociado a cada modelo local que se calcula a partir de la

cantidad de instancias del conjunto de datos que dio origen a cada modelo local

(ecuación 3.20), y

es una función que devuelve la distancia entre el

modelo integrado candidato cuyos patrones han sido ordenados ( ) y un

modelo local también ordenado ( ) (ecuación 3.21). Para ordenar los patrones de

los modelos y se utiliza el operador

.

Este operador ordena (ascendentemente) los patrones de ambos modelos, en función

de la distancia de los pares de patrones ( ) más similares. De manera que, el

patrón del modelo ( ordenado) quede “alineado” con el patrón del

modelo ( ordenado). Si la cantidad de patrones en ambos modelos no es la

misma existirán entonces patrones “no alineados” en el modelo de mayor dimensión.

3.20

Entonces, la función

se formaliza como sigue:

+

3.21

Donde:


3.22

3.23

3.24

En la ecuación 3.21, el primer sumando se refiere a la distancia por concepto de

patrones “alineados”; mientras que, el segundo sumando se refiere a la distancia por

concepto de patrones “no alineados”. Los coeficientes y se utilizan para

ajustar el peso que se otorga, en la distancia total entre dos modelos, a la distancia por

concepto de patrones “alineados” ( ) y a la distancia por concepto de patrones “no

alineados” ( ) respectivamente. Mientras que, los coeficientes binarios y se

utilizan para anular o no cada uno de los sumandos que calculan la distancia por

concepto de los patrones “no alineados” que existen en el modelo local ( ) o en el

modelo integrado ( ) respectivamente. El concepto de patrones “no alineados”

implica que estos existen en el modelo que contiene mayor cantidad de patrones.

En la ecuación 3.21, “penaliza” la función de distancia entre modelos, por

concepto de patrones “no alineados” en el modelo global. Es decir, representa

una medida de distancia por concepto de patrones que sobran en el modelo global.

Expresa la proporción que existe entre los patrones “no alineados” del modelo global

respecto al total de sus patrones (ecuación 3.25).

3.25

Por otra parte, la función

devuelve la distancia entre el patrón del

modelo y el patrón del modelo

(patrones “alineados”) (ecuación 3.26). La

distancia entre dos patrones depende del tipo de los patrones (regla o cluster). Como

se aprecia en la ecuación 3.26, la distancia entre dos reglas se define en función de la

distancia entre los antecedentes y los consecuentes de las reglas. En este caso, se tiene

un peso para los antecedentes y otro para los consecuentes . Por su parte,

la distancia entre dos clusters se define en función de la distancia entre sus centros.

3.26

Donde:


3.27

Las funciones de distancia entre antecedentes de reglas, consecuentes de reglas y

centros de clusters se definen a partir de la distancia entre atributos como sigue:

3.28

Donde:

3.29

En la ecuación 3.29, y representan el rol y el valor, respectivamente, del atributo

en el patrón del modelo que corresponda (modelo integrado o modelo local).

Por lo que, la distancia entre el atributo del patrón del modelo integrado y el

atributo del patrón del modelo local , tal y como se define en la ecuación 3.29,

es igual a:

0 Si el rol ( ) del atributo en ambos patrones es el mismo y los valores

( ) de dicho atributo son iguales.

0.5 Si el rol ( ) del atributo en ambos patrones es diferente, y además el

atributo no está presente en uno de los dos patrones, en cuyo caso

el rol del atributo toma valor (el atributo no está presente en el

antecedente o en el consecuente de la regla).

1 Si el atributo está presente en ambos patrones, pero con valores

diferentes.

Como se aprecia en la ecuación 3.21, cada patrón del modelo local tiene asociado

un peso (ecuación 3.30).


3.30

La función evalúa la “calidad” de cada patrón local en el modelo

correspondiente (ecuación 3.31). La “calidad” de los patrones en los modelos locales

dependerá de la precisión y de la cobertura de dicho patrón en el modelo.

3.31

Donde:

3.32

Como se aprecia en la ecuación 3.31, y son pesos correspondientes a las

medidas precisión y cobertura respectivamente. Las funciones y

devuelven la precisión y la cobertura respectivamente del patrón . A continuación

se definen ambas funciones.

3.33

3.34

En la tabla 3.5 se resumen los Parámetros utilizados en este subproceso.

Tabla 3.5. Parámetros requeridos en la tarea Evaluar Solución.


Peso asociado al

Antecedente de una regla.

(ecuación 3.25 y 3.26)

Peso asociado al

Consecuente de una regla.


Peso asociado a la medida

(precisión de un patrón).



Peso asociado a la medida

(cobertura de un patrón).


Peso asociado a la distancia

por concepto de patrones

“alineados”

Peso asociado a la distancia

por concepto de patrones

“no alineados”

En el siguiente apartado se describe el subproceso Mejora de Solución (pMS) del proceso

Síntesis (pS).

3.2.2. Subproceso Mejora de Solución

El subproceso pMS, persigue como propósito mejorar la solución inicial ( ) (o

conjunto de soluciones iniciales ) de manera iterativa. En cada iteración, a partir

de la solución candidata actual ( ) (o conjunto de soluciones candidatas ) se

obtienen nuevas propuestas de soluciones (soluciones vecinas) que se evalúan según

la función objetivo definida (ecuación 3.19). Posteriormente, considerando la calidad

de las soluciones vecinas generadas, así como, la calidad de la solución candidata

actual (o conjunto de soluciones candidatas actuales) se define el nuevo estado actual,

es decir, la nueva solución candidata (o el nuevo conjunto de soluciones

candidatas ). La forma en que se define un nuevo estado actual, depende de la

metaheurística que se implemente. El MC_MIC no propone la aplicación de un

algoritmo metaheurístico en particular [Wolpert & Macready, 1997], por lo que es

flexible en este sentido. Los valores que toman un conjunto de parámetros definidos

en el MC_MIC son los que definen las características de la metaheurística a

implementar en la búsqueda de la “mejor” solución.

Este proceso se repite hasta que se cumple la “condición de parada”. La “condición

de parada” puede ser por ejemplo: alcanzar un máximo de iteraciones, o estancarse

durante un máximo de iteraciones (no mejorar la calidad de la “mejor” solución

encontrada). En la figura 3.10 se formaliza gráficamente este subproceso. Como se

puede observar, el flujo de trabajo de pMS está constituido por tres tareas: Obtener

Soluciones Vecinas, Evaluar Soluciones Vecinas y Seleccionar Solución Candidata.


Figura 3.10. Proceso Mejora de Solución (pMS).

En la tarea Obtener Soluciones Vecinas, realizada por el actor Generador de Vecindad, como

su nombre sugiere, se generan nuevas soluciones a partir de la solución candidata

actual ( ) o de las soluciones candidatas actuales ( ). Para ello, se aplican

Operadores, según los valores de los Parámetros definidos, hasta generar la cantidad de

soluciones vecinas requeridas. Cada Operador tiene un valor de probabilidad asociado,

que se corresponde con la probabilidad de que dicho Operador sea utilizado para

generar soluciones vecinas. En la tabla 3.6 se resumen los Operadores definidos en

nuestro modelo, que están disponibles para cada nivel de integración. Como se puede

observar, el operador de agrupamiento no está disponible en el

nivel básico de integración. El nivel avanzado admite todos los Operadores definidos.

El operador (Operador aleatorio) es el más sencillo de los operadores.

Este permite generar soluciones aleatorias ( ).

El operador (Operador de mutación) permite mutar el valor de

( ) elementos de un vector , seleccionados aleatoriamente. Es

decir, se le aplica el operador de negación de la lógica ( ) a elementos (bits)

de un vector . Como cada elemento del vector ( ) representa un patrón, la

aplicación de este operador implica: incluir algunos patrones no contenidos en el

modelo integrado correspondiente a solución (cambiar los bits de 0 a 1), y eliminar

otros patrones que sí estaban contenidos en dicho modelo integrado (cambiar los bits

de 1 a 0). Si el tamaño de la población de soluciones es mayor que 1, entonces para

cada solución representada en el conjunto se genera un bit aleatorio que indica


si dicha solución muta o no. Las que no mutan pasan directamente a formar parte del

conjunto de soluciones que se devuelve.

El operador (Operador de cruzamiento) permite realizar

cruzamientos de soluciones a partir del conjunto actual de soluciones candidatas

( ). Este operador solo se puede aplicar si el tamaño de la población de soluciones

es mayor que 1. A partir del conjunto actual de soluciones candidatas se seleccionan

tantas soluciones como especifique el parámetro (porcentaje de selección).

Luego, de las soluciones seleccionadas se van tomando de dos en dos aleatoriamente.

De cada par de soluciones seleccionadas aleatoriamente (soluciones padres) resulta

un par de soluciones (soluciones hijas). Para cada par se genera un bit aleatorio que

indica si estos cruzan o no. El cruzamiento que se realiza es un cruzamiento

uniforme. Es decir, cada elemento de los vectores en las soluciones hijas se crea

copiando el correspondiente valor de un padre u otro, utilizando para ello una

máscara (vector binario) de cruce generada aleatoriamente. Donde hay un “1” en la

máscara los valores en el primer hijo se toman del primer padre y donde hay un “0”

se toman del segundo padre. Los valores del segundo hijo se establecen con las

decisiones inversas. Los pares que no cruzan pasan directamente a formar parte del

conjunto de soluciones que se devuelve. Esto se repite hasta obtener un conjunto de

soluciones del mismo tamaño que el conjunto de entrada ( ).

Por su parte, el operador (Operador de agrupamiento) permite agrupar

( ) patrones incluidos en una solución ( ), seleccionados

aleatoriamente. Es decir, se selecciona aleatoriamente elementos de un vector

con valor 1 (patrones incluidos en el modelo integrado actual) y se crea, a partir

de los patrones correspondientes seleccionados, un nuevo patrón (patrón hijo) que

“resume” las características de sus patrones padres. Si ya existe algún patrón igual al

patrón hijo creado, entonces se pone un 1 en el elemento correspondiente a dicho

patrón en el vector ; de lo contrario, se inserta al final de la Lista de Nuevos

Patrones descubiertos ( ) el nuevo patrón, y en un vector se adiciona al final un

elemento con valor 1, correspondiente al nuevo patrón descubierto que ha sido

incluido en el modelo integrado actual. Por lo tanto, al aplicar el operador

es posible que se genere un nuevo patrón; en este caso, la

dimensión del vector solución aumenta en uno. Finalmente, los elementos del

vector correspondientes a los patrones padres se ponen en 0 (son eliminados del

modelo integrado correspondiente al vector ). Cada elemento de contiene un

nuevo patrón descubierto ( ). Cada patrón en la lista carece de

medidas (cobertura y precisión) por lo que tiene la forma: . A

continuación se explica cómo este operador crea el patrón hijo a partir de los

patrones padres seleccionados. Si el tamaño de la población de soluciones es mayor


que 1, entonces para cada solución representada en el conjunto se genera un bit

aleatorio que indica si se le aplica o no a dicha solución el agrupamiento.

Tabla 3.6. Operadores definidos para la tarea Obtener Soluciones Vecinas.

Operador Función Nivel de

Integración

Genera soluciones aleatorias ( ). Nivel de Integración básico

( ) y Nivel de Integración avanzado

( )

Selecciona aleatoriamente ( ) elementos del vector ( bits),

que representan patrones, y le cambia su valor (si hay un 1 pone un 0, y si hay un 0 pone un 1).

Nivel de Integración básico


( )

Selecciona tantas soluciones de como

especifique el parámetro (porcentaje de selección).

Toma soluciones (de las seleccionadas) de dos en dos aleatoriamente.

Para cada par genera un bit aleatorio que indica si estos cruzan o no.

Si cruzan, realiza un cruzamiento uniforme.

Los que no cruzan pasan directamente a formar parte del conjunto de soluciones que se devuelve.

Repite, hasta obtener un conjunto de soluciones del mismo tamaño que el conjunto

de entrada ( ).

Nivel de Integración básico


( )

Para cada solución del conjunto genera

un bit aleatorio que indica si se le aplica o no el agrupamiento. Para las que requieran el agrupamiento hace lo siguiente:

Selecciona aleatoriamente (

) elementos del vector con el bit en 1,

Nivel de Integración avanzado

( )


que se corresponden con patrones

incluidos en el modelo integrado.

Genera un nuevo patrón (hijo), cuyos valores de atributos se obtienen a partir de los valores

de los patrones seleccionados (padres).

El nuevo patrón (hijo) resume las características de sus patrones padres.

El patrón descubierto se inserta al final en la

Lista de Nuevos Patrones descubiertos ( )

y en el vector se inserta al final un

elemento con el bit 1, correspondiente al patrón descubierto; mientras que, los elementos del vector correspondientes a los patrones padres se ponen a 0.

En nuestro modelo, como se explicó en el apartado 3.1.2, cada patrón , se

representa mediante un vector ( ), donde cada elemento del vector está definido

por la tupla (rol, valor). Entonces, en el operador de agrupamiento, para la

construcción de un nuevo patrón o patrón hijo (vector ), a partir de los

patrones padres seleccionados (conjunto de vectores ),

utiliza el operador ). Este operador sigue el siguiente

algoritmo:

Función

Entrada:

Salida: PARA HASTA HACER

FIN PARA

SI ENTONCES DEVOLVER SI NO

HACER

DEVOLVER FIN SI

Como se puede apreciar en el algoritmo descrito anteriormente, para determinar el

valor de cada posición del vector , se invoca a la función pasándole por

parámetro el conjunto de valores correspondientes a la posición en los vectores de

patrones padres. La función se define de la siguiente forma:

Función Entrada:

Salida: HACER //valor que más se repite

HACER //valor que más se repite


Una vez ejecutada la función para cada posición del vector , se invoca a

la función . Si el patrón representado en el vector es de tipo cluster,

dicha función devuelve siempre ; de lo contrario (el patrón es de tipo

regla) la función devuelve si no se cumple la siguiente

restricción:

3.35

La función devuelve si no existen atributos en el consecuente

de la regla, en cuyo caso no sería una regla válida. De suceder esto, es preciso invocar

a la función , cuyo algoritmo se muestra a continuación. Esta

función selecciona una posición aleatoria del vector (patrón hijo) y fija el

atributo correspondiente a dicha posición en el consecuente de la regla: poniendo el

valor en el rol ( ).

Función Entrada: Salida:

HACER HACER

En la tabla 3.7 se resumen los Parámetros utilizados en este subproceso, para la tarea

Obtener Soluciones Vecinas.

Tabla 3.7. Parámetros requeridos en la tarea Obtener Solucione Vecinas.


Probabilidad de aplicar el Operador aleatorio para generar soluciones vecinas.

Probabilidad de

aplicar el Operador de mutación para generar soluciones vecinas.

Probabilidad de aplicar el Operador de cruzamiento para generar soluciones vecinas.


Probabilidad de aplicar el Operador de agrupamiento para generar soluciones vecinas.

Parámetro del Operador aleatorio.

(tabla 3.6)

Parámetro del Operador de mutación.

(tabla 3.6)

;

Parámetro del Operador de cruzamiento.

(tabla 3.6)

Parámetro del Operador de agrupamiento.

(tabla 3.6)

;

Una vez generadas todas las soluciones requeridas para conformar la vecindad, el

actor Evaluador de Soluciones se ocupa de ejecutar la tarea Evaluar Soluciones Vecinas. Esta

tarea, como su nombre indica, consiste en la evaluación de la función objetivo

(ecuación 3.19) en cada una de las soluciones que conforman la vecindad generada.

La evaluación de cada una de las soluciones vecinas se realiza siguiendo el mismo

procedimiento descrito en el apartado 3.2.1, para la evaluación de la solución inicial.

Los parámetros requeridos en esta tarea se resumen en la tabla 3.5 (apartado 3.2.1).

Posteriormente, el actor Sintetizador ejecutará la tarea Seleccionar Solución Candidata, la

que, como su nombre sugiere, consiste básicamente en la selección de la nueva

solución candidata ( ) o nuevo conjunto de soluciones candidatas ( ),

considerando las soluciones vecinas generadas, lo que define el nuevo estado actual.

La forma específica en que se define el nuevo estado actual depende de la

metaheurística que se implemente.

Para finalizar la tarea Seleccionar Solución Candidata, el actor Sintetizador actualiza las

Variables de Estado que permiten controlar el subproceso Síntesis. En la tabla 3.8 se

resumen estas variables.


Tabla 3.8. Variables de Estado que se actualizan en la tarea Seleccionar Solución Candidata.

Variable Significado Dominio Valor Inicial

Cantidad de iteraciones realizadas

(No ha concluido ninguna iteración)

Mejor solución encontrada

(Solución Inicial)

Mejor valor alcanzado de la función objetivo

;

(Máximo valor que puede tomar la función objetivo)

(ecuación 3.19)

Cantidad de iteraciones consecutivas realizadas que mantienen constante el mejor valor encontrado de la función objetivo

( )

(No se han realizado iteraciones consecutivas que hayan mantenido constante el mejor valor encontrado de la función objetivo)

Indica si se finaliza o no el proceso Síntesis

(No se finaliza el proceso Síntesis)

La variable (tabla 3.8) se actualizará, según el valor del Parámetro (Condición

de Parada) (tabla 3.9). El modelo que se propone soporta tres variantes de Condición

de Parada para el proceso de Síntesis. La primera ( ) implica que se detiene el

proceso cuando se alcance una cantidad máxima de iteraciones ( ). En la segunda

variante ( ), se detiene cuando no se supere el mejor valor alcanzado para la

función objetivo ( ) en una cantidad de iteraciones determinada (

).

La tercera y última variante ( ) el proceso se detiene si se obtiene una solución

que mejore o iguale cierto valor umbral para la función objetivo ( ).

Con la actualización de las Variables de Estado, concluye la tarea Seleccionar Solución

Candidata. Al concluir esta tarea, tal y como se muestra en la figura 3.10, si la variable

, se concluye el proceso Síntesis, devolviéndose el conjunto de

Patrones globales (mejorados) ( ); de lo contrario ( ), comenzará una


nueva iteración, ejecutándose una vez más la tarea Obtener Soluciones Vecinas a partir de

la nueva solución candidata ( ) o el nuevo conjunto de soluciones candidatas

( ).

En la tabla 3.9 se resumen los Parámetros requeridos en la tarea Seleccionar Solución

Candidata.

Tabla 3.9. Parámetros requeridos en la tarea Seleccionar Solución Candidata.


Condición de Parada :

(Se alcanzó la cantidad iteraciones especificada en el

parámetro )

Umbral máximo de

(tabla 3.8)

(Cantidad máxima de iteraciones : 5000)

Umbral máximo de (tabla 3.8)

(Cantidad máxima de iteraciones sin mejorar la función objetivo: 50)

Umbral mínimo de (valor

de función objetivo)

(Mínimo valor de la función objetivo)

3.2.3. Subproceso Asignación de Medidas

El subproceso Asignación de Medidas (pAM), es el responsable, como su nombre sugiere,

de estimar y asignar las medidas correspondientes (cobertura y precisión) a cada uno

de los patrones globales que resultan del subproceso anterior. En la figura 3.11 se

formaliza gráficamente este subproceso. Como se puede observar, el flujo de trabajo

de pAM está constituido por una única tarea: Asignar Medidas, ejecutada por el actor

Estimador de Medidas.

Para asignar a cada patrón global las medidas de cobertura y precisión adecuadas, el

actor Estimador de Medidas asocia a cada patrón global del modelo integrado


un conjunto de patrones locales

, que serán utilizados

posteriormente para la estimación de las medidas de dicho patrón global . Por lo

que, cada patrón

se selecciona de un modelo local

diferente.

Esto se hace con el objetivo de elegir de cada modelo local el patrón que sea más

similar al patrón global ; es decir, aquel patrón

que devuelva el menor

valor en la función de distancia entre patrones:

(ecuación 3.26).

Figura 3.11. Proceso Asignación de Medidas (pAM).

Si los patrones son de tipo regla, debido a sus características, es posible mejorar el

proceso de selección de los patrones que se emplearán de cada modelo local

,

con el propósito de seleccionar aquel patrón que sea más conveniente, intentando

minimizar el error que se cometerá en la posterior estimación de las medidas del

patrón global correspondiente. Para ello, se propone utilizar una nueva función

de distancia entre atributos, modificando la ecuación 3.29 la que sería utilizada, en

este caso, por la función de distancia entre patrones (de tipo regla) de la ecuación

3.26:

3.36


Por lo que, la distancia entre el atributo del patrón del modelo y el atributo

en el patrón del modelo , tal y como se define en la ecuación 3.36, es igual a:

0 Si el rol ( ) del atributo en ambos patrones es el mismo y los valores

( ) de dicho atributo son iguales.

0.2 Si el rol ( ) del atributo en ambos patrones es diferente, y además el

atributo no está presente en el patrón local , en cuyo caso el rol

del atributo toma valor . Esto implica que dicho atributo no esté

presente en el antecedente o en el consecuente de la regla del modelo

local .

0.8 Si el rol ( ) del atributo en ambos patrones es diferente y además, el

atributo no está presente en el patrón global , en cuyo caso el

rol del atributo toma valor . Esto implica que dicho atributo no

esté presente en el antecedente o en el consecuente de la regla del

modelo integrado .

1 Si el atributo está presente en ambos patrones, pero con valores

diferentes.

Con el uso de esta nueva ecuación de distancia entre atributos (ecuación 3.36) se

priorizan aquellos patrones locales de tipo regla que representan un subconjunto del

patrón global.

Puede ocurrir que exista más de un patrón en un modelo local

que devuelva

el menor valor de distancia al evaluar la ecuación 3.26. Si esto sucede se selecciona,

en el caso de las reglas, aquel patrón local de menor calidad (ecuación 3.36; mientras

que en el caso de los clusters se selecciona uno al azar.

Una vez que se tienen los conjuntos de patrones locales asociados a cada patrón

global, considerando los valores de los Parámetros especificados por el usuario, se

prosigue a la aplicación de los operadores correspondientes para la estimación de las

medidas que serán asignadas a cada patrón global. A continuación se definen los

operadores que soporta nuestro modelo para la estimación de las medidas de

los patrones globales.

3.37


3.38

3.39

3.40

Donde y son los conjuntos de medidas locales y sus pesos

respectivamente, que corresponden al patrón global . El peso

de un

patrón local es una medida de semejanza entre el patrón global y el patrón local

seleccionado , el cual se define como:

3.41

Los operadores de estimación de medidas serán aplicados tantas veces como

patrones globales (mejorados) se tengan como entrada en el subproceso pAM. Los

valores de los Parámetros y determinarán el operador que se utilizará para

estimar la precisión y la cobertura respectivamente (tabla 3.10).

Tabla 3.10. Parámetros requeridos en el subproceso pAM.


Tipo de operador que se usará para

estimar (precisión)

(para estimar se usará el operador

promedio )

Tipo de operador que se usará para

estimar (cobertura)

(para estimar se usará el operador suma

)

Una vez aplicados los operadores definidos para la estimación de las medidas, estas

son asignadas a cada patrón global, resultando el conjunto de Patrones globales

(sintetizados) que constituye la salida del subproceso.


3.2.4. Resumen del Proceso Síntesis

Los subprocesos pCSI, pMS y pAM, descritos en las secciones precedentes (3.2.1, 3.2.2 y

3.2.3) garantizan que el proceso pS obtenga un conjunto de patrones globales que

sintetice los conjuntos de patrones locales seleccionados en el proceso pC, de manera

que el conjunto de patrones globales se corresponda con la mejor solución

encontrada según la función objetivo definida y los parámetros y operadores

especificados. Ante la imposibilidad de explorar todo el espacio de soluciones

posibles, el proceso pS no garantiza obtener una solución óptima, sino que su

objetivo fundamental es encontrar una Buena Solución, logrando un equilibrio

apropiado entre Eficacia y Eficiencia. Cada uno de los subprocesos que conforman el

proceso pS se formalizó gráficamente, mediante la notación de Eriksson-Penker. A

continuación, a modo de resumen, se definen los conjuntos de tareas ( ), de

actores ( ), y de recursos ( ) que resultan de las formalizaciones gráficas

asociadas al proceso pS.

3.42

3.43

3.44


3.3. Representación

El subproceso Representación (pR) tiene como propósito fundamental, una vez que

selecciona aquellos patrones (del conjunto de patrones globales sintetizados) que serán

incluidos definitivamente en el modelo integrado, representar dicho modelo global en

un formato estándar de intercambio de modelos de minería de datos. El uso de un

estándar de representación e intercambio de modelos de minería de datos garantiza el

vínculo o el enlace necesario con diferentes lenguajes y sistemas. Por lo tanto, el

resultado de la ejecución del subproceso pR será un fichero en formato estándar con

el modelo global integrado, el cual podrá ser interpretado en cualquier plataforma.

En la figura 3.12 se formaliza gráficamente el proceso pR, siguiendo la notación

Eriksson-Penker.

Figura 3.12. Proceso Representación (pR).

El proceso se formaliza algebraicamente como:

3.45

La etiqueta del proceso ( ) tiene el valor “Representación”. Los elementos que

conforman los conjuntos de tareas ( ), de actores ( ), y de recursos ( ) del

proceso se irán especificando a lo largo de esta sección 3.3, quedando definidos

explícitamente en el apartado 3.3.3. En la realización de las tareas del proceso pR

participa el actor Representador de Modelos, responsable de todo el proceso.

En las siguientes secciones se describe pR detallando cada uno de sus subprocesos.


3.3.1. Subproceso Selección de Patrones

El subproceso Selección de Patrones (pSP), es el responsable de examinar cada uno de los

patrones globales sintetizados ( ) con el propósito de seleccionar los patrones

que serán incluidos definitivamente en el modelo global integrado. En la figura 3.13

se formaliza gráficamente este subproceso. Como se puede observar, el flujo de

trabajo de pSP lo constituye una única tarea: Seleccionar Patrones.

Figura 3.13. Proceso Selección de Patrones (pSP).

La tarea Seleccionar Patrones, como su nombre lo indica, consiste en la selección de los

patrones que serán incluidos finalmente en el modelo global integrado, considerando

los valores de los Parámetros especificados por el usuario. En la tabla 3.11 se detallan

los Parámetros utilizados en este subproceso.

Tabla 3.11. Parámetros requeridos en el subproceso pSP.


Umbral mínimo de

(Se refiere a la magnitud mínima que debe tener la Precisión de los patrones en el modelo global)

(significa que se toma como

umbral mínimo de : el mínimo valor de Umbral de Precisión utilizado para la aceptación de los patrones en los modelos locales)

Umbral mínimo de

(Se refiere a la magnitud mínima que debe tener la Cobertura de los patrones en el modelo global)

(significa que se toma como

umbral mínimo de : el mínimo valor de Umbral de Cobertura utilizado para la aceptación de los

patrones en los modelos locales)

Umbral máximo de

(Se refiere a la

(no se limita la cantidad de


cantidad máxima permitida de patrones en el modelo global)

patrones en el modelo global)

En resumen, se seleccionarán aquellos patrones globales que cumplan con los valores

especificados para los Parámetros: ,

. Una vez realizada esta selección, si la

cantidad de patrones en el modelo global supera el valor de , entonces se

eliminarán aquellos patrones de menor precisión y cobertura, hasta cumplir con el

umbral máximo de cantidad de patrones especificado ( ).

3.3.2. Subproceso Representación de Modelo

El subproceso Representación de Modelo (pRM) se ocupa de representar el modelo global

de minería de datos. Este modelo contendrá el conjunto de patrones globales

seleccionados en el subproceso pSP. Como resultado se obtiene un fichero en

formato estándar correspondiente al modelo global de minería de datos que resultó

de la integración de un conjunto de modelos locales. En la figura 3.14 se representa el

flujo de trabajo del subproceso pRM, determinado por una única tarea: Representar

Modelo Global.

Figura 3.14. Proceso Representación de Modelo (pRM).

El actor Representador de Modelos, a partir de las Fichas de los modelos locales que fueron

integrados, crea el “encabezamiento” del fichero correspondiente al modelo global

que se quiere representar, según defina el formato estándar. Posteriormente, a partir

del conjunto de patrones globales (seleccionados), construye el “cuerpo” del fichero,

representando los patrones globales según el tipo de los modelos locales que fueron

integrados (reglas de asociación, clusters, etc.).


3.3.3. Resumen del Proceso Representación

Ambos subprocesos descritos en las secciones precedentes (3.3.1 y 3.3.2) garantizan

que pR represente, en un formato estándar de intercambio de modelos de minería de

datos, el modelo global obtenido a partir de los modelos locales de entrada al proceso

de Integración. Cada uno de estos subprocesos se formalizó gráficamente, mediante la

notación de Eriksson-Penker. A continuación, a modo de resumen, se definen los

conjuntos de tareas ( ), de actores ( ), y de recursos ( ) que resultan de las

formalizaciones gráficas asociadas al proceso pR.

3.46

3.47

3.48

3.4. Resumen del Proceso Integración

Los tres subprocesos (pC, pS y pR) descritos en las secciones precedentes (3.1, 3.2 y

3.3) garantizan que pI integre los modelos locales que recibe como entrada, según los

parámetros especificados, obteniendo como resultado un modelo de minería de

datos global representado en un formato estándar de intercambio de modelos. Cada

uno de estos subprocesos se formalizó gráficamente, mediante la notación de

Eriksson-Penker. A continuación se definen los conjuntos de tareas ( ), de actores

( ), y de recursos ( ) que resultan de las formalizaciones gráficas asociadas al

proceso pI.

3.49

3.50

3.51

Finalmente, en la ecuación 3.52 se formaliza algebraicamente el conjunto de Procesos

(P) que resulta de las especificaciones del MC_MIC.

3.52

65

CAPÍTULO 4

4 MODELO FUNCIONAL

Una vez definido el Modelo Conceptual (MC_MIC), mediante los procesos que

sustentan nuestra propuesta (Modelo de Integración de Conocimiento - MIC),

corresponde abordar el Modelo Funcional (MF_MIC). El MF_MIC constituye una

propuesta de especificación funcional de nuestro modelo (MIC). Este se define

formalmente como un Sistema Multi-Agente (MAS - Multi-Agent System) que

hemos denominado Sistema de Integración de Conocimiento (SIC). Las tareas que

ejecutan los agentes del SIC son el elemento de enlace entre el Modelo Conceptual y el

Modelo Funcional del MIC. En el presente capítulo se describe el Modelo Funcional,

definiendo los agentes que cooperan para controlar y ejecutar las tareas especificadas

en el Modelo Conceptual. La formalización del Modelo Funcional (MF_MIC) se realiza

tomando como base el marco formal definido en [Lorenzo, 2009; Lorenzo et al.,

2009; Maciá, 2001; Maciá & García, 2006], en el que se consideran los agentes como

entidades que están permanentemente percibiendo su entorno, deliberando sobre la

siguiente tarea que realizarán, y ejecutando dicha tarea. Este enfoque se conoce como

arquitectura PDE (Perception-Deliberation-Execution) [Maciá, 2001]. Por otra parte,

las necesidades de expresividad del MF_MIC hacen que resulte adecuado utilizar

para su especificación formal, el estándar UML (Unified Modeling Language) en su

versión 2.0 [Bauer & Odell, 2005; Rumbaugh et al., 2007].

El MF_MIC se formaliza algebraicamente mediante la tupla:

4.1

Donde constituye el entorno de nuestro sistema y es el conjunto de todos

los agentes responsables de ejecutar y controlar las tareas identificadas en el


MC_MIC, interactuando entre sí y con el entorno. Los agentes en el Modelo Funcional

se corresponden con los recursos de tipo actores identificados en el Modelo Conceptual.

El entorno puede interpretarse como un “repositorio de conocimiento” en el

que pueden existir modelos locales de minería de datos que requieren ser integrados,

y por otra parte, modelos globales de minería de datos que integran determinados

conjuntos de modelos locales. Formalmente se define como el conjunto de

estados del mundo , el conjunto de tareas ( ), el conjunto de influencias ( ) y la

reacción del mundo ante las distintas influencias ( ):

, , , eact 4.2

Los estados posibles del mundo ( ) constituyen instancias de los

conceptos fundamentales que se manejan en el entorno del sistema, con sus

propiedades y relaciones. Las tareas ( ) son las acciones que ejecutan los

agentes. Mientras que, las influencias ( ) no son más que la conjunción

de los estados y las tareas. La función modela la reacción del mundo ante las

distintas influencias, es decir, la reacción del entorno ante las acciones de los agentes.

Por su parte, cada agente del MF_MIC puede formalizarse, en principio,

como:

4.3

Donde es la etiqueta que especifica el nombre del agente y define el tipo de

dicho agente. Los tipos de agentes que pueden existir en nuestro modelo son: agentes

coordinadores ( ) y agentes operadores ( ). Los agentes coordinadores son los

responsables de coordinar la ejecución de las tareas definidas como parte de los

procesos descritos en el MC_MIC; mientras que, los agentes operadores son los

encargados de ejecutarlas. Donde:

4.4

4.5

En la ecuación 4.3, los restantes elementos que formalizan un agente: ,

y , se refieren a las funciones de Percepción, Deliberación y Ejecución

propias de la arquitectura PDE (figura 4.1).

Capítulo 4. Modelo Funcional 67

Figura 4.1. Estructura de un agente PDE dentro de un MAS.

Un agente , mediante la función convierte un estado del medio en una

interpretación propia. A estas interpretaciones se les nombra percepciones, y pueden

ser definidas para cada agente través del conjunto como:

4.6

De esta forma, para cada agente queda definida la percepción como una aplicación

del conjunto de estados del medio sobre el conjunto de percepciones del agente:

4.7

Los agentes que se definen en el MF_MIC se clasifican, según su comportamiento,

en agentes cognitivos [Maciá, 2001]. Estos agentes poseen la capacidad de

memorizar, por lo que, la función de deliberación ( ) que desarrollan está

dotada de conocimiento. En la formalización de un agente cognitivo se incluyen los

estados internos de la memoria del agente, y una función de memorización de

estados . Dicha función deberá relacionar las percepciones con el conjunto de

estados internos del agente, para obtener nuevos estados internos. Luego, sea el

conjunto de estados internos (conocimiento) de un determinado agente cognitivo :

4.8

La función de memorización se define como:

x 4.9

Entonces, la función de deliberación de cada agente del MF_MIC relacionará las

percepciones y los estados internos del agente para obtener las tareas a ejecutar:


x 4.10

Para los agentes cognitivos la función que representa su comportamiento se define, a

partir de los estados del medio y de sus estados internos, como:

con

4.11

Finalmente, la operación de ejecución de los agentes se define en función de las

percepciones de cada uno (ecuación 4.12). Es decir, cada agente utiliza sus

percepciones para obtener las influencias ( ). Esto implica que los agentes podrán

ejecutar sus tareas sin necesidad de tener conocimiento global del estado del entorno.

4.12

Un agente cognitivo se formaliza como:

4.13

Los cambios globales del sistema (SIC) de un estado a otro estado se

pueden expresar, de manera general, como:

(t 1) eact (t), t t

t 1 t t

t 1 t t

con t (t)

4.14

Donde la primera ecuación describe el estado del entorno según el tiempo y el

comportamiento de cada agente, y el resto de las ecuaciones expresan las

modificaciones en el estado interno de los agentes cognitivos.

La acción del sistema se expresa como la unión de todas las influencias aportadas por

los diferentes agentes. Ante la acción del sistema reacciona el entorno, lo cual se


modela mediante la función , ocurriendo de esta forma una transición hacia

un nuevo estado.

En los siguientes apartados se describirán en detalle el entorno del sistema ( ) y

el conjunto de agentes ( ) que conforman el MAS, ambos elementos del MF_MIC.

4.1. Entorno del SIC

Como se explicó antes, el conjunto de estados del mundo , el conjunto de tareas

( ), y el conjunto de influencias ( ) definen el entorno de nuestro sistema ( ).

De estos, el conjunto de influencias ( ) queda completamente definido a través de

las tareas ( ) y de los estados del mundo ; ya que, una influencia ( ) no es

más que la ejecución de una tarea sobre un estado del mundo . Es por

ello, que no es preciso dedicar un apartado a las influencias. A continuación se

describen los estados del mundo y las tareas del .

4.1.1. Estados del Mundo

Cada estado del entorno del sistema se puede formalizar como un conjunto de

pares ordenados:

4.15

Donde, cada elemento del conjunto posee la estructura , en la que el

primer elemento ( ) es una lista de modelos locales (ecuación 4.16), y el segundo

elemento ( ) es una lista de modelos globales (ecuación 4.17). Cada modelo (local

o global) incluye su correspondiente ficha ( ). En un elemento determinado

( ) del conjunto , cada uno de los modelos globales de la lista son el

resultado de la integración del conjunto de modelos locales . Para un conjunto de

modelos locales determinado pueden resultar diferentes modelos globales que los

integren, según el comportamiento de los diversos agentes del sistema ante sus

percepciones y su estado interno. Como se define en las ecuaciones 4.16 y 4.17, en

las listas y , cada elemento está compuesto por un modelo y su ficha

correspondiente.

4.16

4.17


Siempre que una determinada lista de modelos globales no esté vacía, la lista de

modelos locales correspondiente tampoco podrá estarlo, lo que se define

formalmente en la siguiente restricción:

4.18

Tal y como se definió en el apartado 1.2, cada uno de los modelos (locales o globales)

tienen asociados un conjunto de patrones, donde cada patrón ( ) se formaliza

mediante la tupla: .

4.1.2. Tareas

Las tareas que ejecutan los agentes constituyen el elemento de enlace entre el

MF_MIC y el MC_MIC, ya que se corresponden con los procesos y tareas

identificados durante el modelado conceptual. Se formalizan mediante la siguiente

estructura:

nombre, pre, acción 4.19

Donde se describe el nombre, las precondiciones y las acciones que se ejecutarán si

se cumplen las precondiciones [Maciá, 2001]:

nombre, es una expresión con la forma f(x1, ..., xk) donde cada xi es una variable

autorizada para aparecer en las fórmulas pre y acción.

pre y acción, son conjuntos de fórmulas con la forma g(a1, ..., an), donde g es un

predicado n-ario y cada ai son constantes o variables. pre describe las

condiciones que debe verificar la acción para ser ejecutada.

Al ejecutar la acción, se producen un conjunto de influencias que actúan sobre el

entorno. Las funciones de de cada agente se definen mediante la ejecución de

una determinada tarea como se expresa a continuación:

Ejec ( nombre, pre, acción , t )

acción si pre t se verifica

si pre t no se verifica

4.20

Para cada agente , la función de ejecución de una tarea ( ),

se define en función de las percepciones de dicho agente ( ). Cada agente utiliza

sus percepciones para ejecutar acciones, y como resultado obtener las influencias. A

partir de las percepciones, se evalúan las fórmulas declaradas como precondiciones


(pre). El conjunto de fórmulas que conforman la acción del agente se ejecuta sólo si se

verifican todas las precondiciones.

En el Modelo Conceptual se definieron las tareas como parte de los procesos

fundamentales que conforman nuestra propuesta. En esta vista funcional,

corresponde expresarlas en términos de tareas que podrán ser ejecutadas por un

agente del sistema; lo que implica definir a grandes rasgos el algoritmo que deberá

ejecutar el agente software. A modo de ejemplo, se muestra a continuación la

definición formal de las tareas Examinar Fichas y Seleccionar Modelos que constituyen el

primer subproceso (Selección de Modelos) definido en el Modelo Conceptual (apartado

3.1.1).

nombre ExaminarFichas(

)

pre ExistenModelosLocales( ) ExistenFichas( )

acción ObtenerModelosFichasCompletas(

)

Donde es la lista de modelos locales iniciales y la lista de sus fichas

correspondientes; mientras que, es la lista de los modelos locales iniciales

cuyas fichas están “completas” (apartado 3.1.1) y es la lista de sus fichas

correspondientes.

nombre SeleccionarModelos(

)

pre ExaminadasFichas(

)

ExisteModelosFichasCompletas(

)

acción ObtenerModelosCantPatrones(

)

ObtenerModelosCantInstancias(

)

Donde y

son los parámetros utilizados para la selección de los modelos

locales (apartado 3.1.1, tabla 3.1), almacenados en la memoria interna ( ) del agente

Codificador de Modelos ( ), responsable de la ejecución de la tarea Seleccionar Modelos.

Por su parte, es la lista de modelos locales seleccionados y la lista de sus

fichas correspondientes.

Como resultado de la ejecución de las diferentes tareas ( ) sobre un estado del

mundo ( ) se obtienen las influencias ( ). La unión de todas las influencias

( ) aportadas por los diferentes agentes define la acción del sistema.


4.2. Agentes del SIC

A continuación se definen los agentes ( ) que conforman el sistema (SIC), así como

sus interacciones con el propósito de integrar conjuntos de modelos locales ( ) y

generar, como resultado de la integración, nuevos modelos globales ( ). Estos

agentes son los responsables de la ejecución y del control de las tareas identificadas

en nuestro Modelo Conceptual (MC_MIC), lo que hace posible el funcionamiento del

sistema. Los agentes del SIC pueden desempeñar tres roles diferentes, en

correspondencia con su tipo: Agente Operador (AO), Agente Coordinador (AC) o Agente

Coordinador General (ACG). En la figura 4.2 se muestra la estructura jerárquica de los

agentes del SIC, según su rol.

Figura 4.2. Estructura jerárquica de los agentes del SIC.

El Agente Coordinador General (ACG), es el responsable del funcionamiento de todo el

sistema, por lo que, ejecuta fundamentalmente tareas de planificación y control en

correspondencia con el flujo de los procesos descritos en el MC_MIC. Subordinados

directamente a este agente se encuentran los Agentes Coordinadores (AC), responsables

de supervisar a los Agentes Operadores (AO) que se organizan en cada uno de los

paquetes funcionales del SIC. El Modelo Funcional (MF_MIC) que describe el SIC se

ha estructurado formalmente en paquetes funcionales que agrupan el desempeño de

los agentes del sistema, tal y como se muestra en el diagrama de paquetes de la figura

4.4, mediante notación UML [Rumbaugh et al., 2007]. Los paquetes Codificación,

Síntesis y Representación, se corresponde con cada uno de los tres procesos

fundamentales definidos en el MC_MIC (capítulo 3).

ACG

AC1

AO1 AOn

ACm

AOp


Figura 4.3. Diagrama de paquetes del SIC.

El agente Coordinador del SIC ( ) controla todo el sistema, interactuando con

los agentes coordinadores de cada paquete: agente Coordinador de Codificación ( ),

agente Coordinador de Síntesis ( ) y agente Coordinador de Representación ( ). Las

tareas ejecutadas por el ACG ( ) que le permiten llevar a cabo su función de

planificador y controlador general son: Activar codificación, Activar síntesis, Activar

representación, Desactivar codificación, Desactivar síntesis, Desactivar representación. Estas, no

son más que la activación y desactivación de cada uno de los procesos fundamentales

del modelo propuesto, correspondientes a cada paquete funcional. Las tareas de

activación, implican a su vez la especificación de los parámetros de configuración

requeridos en cada paquete. De esta forma el agente planifica y controla todo el

flujo de ejecución del SIC. Luego, el agente emplea interfaces para la

comunicación con los agentes coordinadores de los tres paquetes funcionales del

sistema: Paquete Codificación, Paquete Síntesis y Paquete Representación, tal y como se

formaliza gráficamente en el diagrama de componentes de la figura 4.4.

Figura 4.4. Interfaces de comunicación del agente Coordinador del SIC ( ).

Como se puede apreciar en la figura 4.4, la interacción entre los agentes del SIC,

representados como componentes del sistema, se formaliza mediante interfaces

obligatorias (interfaces de salida) para el agente iniciador de la comunicación, e


interfaces proporcionadas (interfaces de entrada) para el agente receptor de la

comunicación [Rumbaugh et al., 2007]. En el diagrama de la figura 4.4, se muestran

tres canales de comunicación, en los que el agente Coordinador del SIC ( ) es el

que posee la interfaz de salida, mientras que los agentes: agente Coordinador de

Codificación ( ), agente Coordinador de Síntesis ( ) y agente Coordinador de

Representación ( ) implementan las interfaces de entrada.

En el siguiente apartado se define formalmente el modelo de comunicación utilizado

por los agentes del SIC.

4.2.1. Comunicación entre Agentes

En el Modelo Funcional presentado en este trabajo, se deben precisar dos elementos

fundamentales para formalizar la comunicación entre los agentes del SIC: el lenguaje

de comunicación y el protocolo de interacción utilizado [Weiss, 2000; Wooldridge,

2009]. A continuación se definen ambos elementos.

Uno de los resultados más relevantes en la estandarización de la teoría de agentes es

el desarrollo de lenguajes de comunicación entre agentes ACLs (Agent

Communication Languages). La concepción de estos lenguajes implica la interacción

a un nivel más semántico, basándose en la teoría de actos comunicativos. La

definición formal de actos comunicativos permite especificar la intención de cada

mensaje. Existen varias especificaciones de ACLs, como: KQML (Knowledge Query

and Manipulation Language) [Labrou & Finin, 1998], y más recientemente FIPA-

ACL [FIPA, 2002c], propuesto por FIPA (Foundation for Intelligent Physical

Agents). KQML y FIPA-ACL presentan una estructura básica similar, aunque existen

diferencias en los actos comunicativos que definen. En nuestro Modelo Funcional, para

la definición de los mensajes que intercambian los agentes del SIC, se emplea el

estándar FIPA-ACL, siendo sus especificaciones compatibles con la notación UML

2.0.

En FIPA-ACL se definen 22 actos comunicativos o “performative”. Estos se listan

en la tabla 4.1, indicando la categoría de cada uno, según la intención que expresan

[FIPA, 2002c]. A su vez, la especificación de los mensajes en FIPA-ACL se basa en

FIPA-SL (FIPA-Semantic Language), lenguaje que permite formalizar la semántica

del contenido de los mensajes.


Tabla 4.1. Actos comunicativos de FIPA-ACL.

Categorías Actos Comunicativos

Solicitud de Información query-if, query-ref, subscribe

Envío de Información confirm, disconfirm, inform, inform-if, inform-ref

Negociación accept-proposal, cfp, propose, reject-proposal

Ejecución de Acciones agree, cancel, propagate, proxy, refuse, request, request-when, request-whenever

Manejo de Errores failure, not-understood

A modo de ejemplo se muestra a continuación cómo se expresa en nuestro caso, un

mensaje dirigido de un agente a otro agente , mediante el cual el agente emisor

solicita la receptor que seleccione modelos locales a integrar posteriormente; es decir,

que ejecute la acción Seleccionar Modelos (ver apartado 4.1.2), incluida en el proceso de

codificación.

(request

:sender

:receiver

:content (action iota ? ?

(SeleccionarModelos (

? ? )))

:language fipa-sl

)

Además, el estándar FIPA-ACL define una serie de protocolos de interacción que

representan los patrones que modelan las posibles conversaciones, definiendo el tipo

(mediante la especificación de la intención) y la secuencia de los mensajes

involucrados. En el MF_MIC, la comunicación entre los agentes se modela tomando

como base fundamentalmente los protocolos de interacción definidos por FIPA:

Contract Net (Red de Contratos) y Request (Solicitud) [FIPA, 2002a, 2002b, 2002c].

Mediante el protocolo Contract Net el agente iniciador de la comunicación realiza

solicitudes de determinado servicio, a varios agentes. Para ello, envía mensajes cfp con

la tarea requerida y las condiciones sobre su ejecución. Los agentes receptores del

mensaje son potenciales contratistas. Estos responden con propuestas que son

valoradas por el agente solicitante, con el propósito de elegir finalmente al agente que

contratará. En la figura 4.5 se muestra el diagrama de secuencia, en notación UML

2.0, correspondiente al protocolo Contract Net, tal y como lo define FIPA [FIPA,

2002a, 2002c]. La comunicación por este protocolo es bastante costosa, debido a la

cantidad de mensajes que se requiere intercambiar, por lo que, se utiliza sólo en casos

necesarios.


Figura 4.5. Diagrama de secuencia del protocolo Contract Net de FIPA.

Por otra parte, en la comunicación por el protocolo Request, el agente emisor solicita

al receptor que ejecute cierta acción. Una aplicación importante de este protocolo es

solicitar al agente receptor que realice determinado acto comunicativo. En la figura

4.6 se muestra el diagrama de secuencia que describe este protocolo [FIPA, 2002b,

2002c].


Figura 4.6. Diagrama de secuencia del protocolo Request de FIPA.

Además, tomando como referencia el estándar UML 2.0, los canales de

comunicación que se establecen entre los diferentes agentes del sistema se formalizan

gráficamente mediante diagramas de componentes. En estos, cada agente se

representa como un componente software, especificando sus interfaces obligatorias

(interfaces de salida) y sus interfaces proporcionadas (interfaces de entrada), según

corresponda. Según se define en UML 2.0 [Rumbaugh et al., 2007] una “interfaz

obligatoria” es una declaración de que el componente requiere obtener funciones o

servicios de otros elementos que los proporcionen. Mientras que, una “interfaz

proporcionada” es un conjunto de servicios proporcionados por el componente para

que sean invocados desde el exterior, es decir, desde componentes o clases externas.

Luego, un canal de comunicación entre dos agentes ( y ) se define como una

tupla formada por la interfaz de salida (interfaz obligatoria) del agente iniciador de

la comunicación, la interfaz de entrada (interfaz proporcionada) del agente

receptor, y el protocolo de interacción:

Protocolo 4.21


En los apartados siguientes se describen los agentes coordinadores y agentes

operadores del SIC, agrupados en los tres paquetes funcionales antes mencionados:

Paquete Codificación, Paquete Síntesis y Paquete Representación.

4.2.2. Paquete Codificación

El rol de Agente Coordinador en el Paquete Codificación lo desempeña (agente

Coordinador de Codificación), por lo que dicho agente es el responsable de la codificación

de los modelos locales que serán integrados posteriormente en el paquete Síntesis.

Para ello, controla el funcionamiento de los Agentes Operadores: agente Receptor de Modelos

( ) y agente Codificador de Modelos ( ), mediante la ejecución de las tareas: Iniciar

Recepción de Modelos, Detener Recepción de Modelos e Iniciar Codificación. Además, ejecuta la

tarea Enviar Modelos Codificados al Coordinador de Síntesis, lo que implica la comunicación

con dicho agente ( ). En la figura 4.7 se muestran las interfaces de comunicación

de los tres agentes contenidos en el Paquete Codificación.

Figura 4.7. Interfaces de comunicación de los agentes del Paquete Codificación.

El diagrama anterior describe las relaciones entre los agentes del Paquete Codificación,

mediante las interfaces de entrada (interfaces proporcionadas) y las interfaces de

salida (interfaces obligatorias) de cada uno. Además, el agente Coordinador de Codificación

( ) posee interfaz de salida con el agente Coordinador de Síntesis ( ) e interfaz de

entrada con el agente Coordinador del SIC ( ).


Mediante las tareas Iniciar Recepción de Modelos y Detener Recepción de Modelos el agente

orienta al agente que comience a receptar conjuntos de modelos locales de

minería de datos del entorno, o que detenga la recepción de modelos, según

corresponda. De manera similar, mediante la tarea Iniciar Codificación el agente

orienta, en este caso al agente , que inicie las tareas de codificación de modelos

locales de minería de datos. Finalmente, mediante la tarea Enviar Modelos Codificados al

Coordinador de Síntesis, como su nombre sugiere, el agente envía al agente Coordinador

de Síntesis ( ), los modelos locales codificados como conjuntos de patrones locales

(salida del proceso Codificación, descrito en el Modelo Conceptual) para su posterior

integración.

Las tareas que ejecuta el agente Receptor de Modelos ( ) son: Recibir Modelos y Enviar

Modelos al agente . El agente constituye el punto de entrada de los datos del

entorno hacia los restantes agentes del SIC, por lo que, su función de percepción

tiene especial importancia. Esta se define como sigue:

( )

donde 4.22

Por su parte, la función de deliberación del agente se puede formalizar como:

( ,

)

donde

4.23

La tarea Enviar Modelos consiste en enviar al agente los conjuntos de modelos

locales ( ) del entorno que requieren ser integrados, es decir aquellos en los que

la lista de modelos integrados correspondiente es nula o vacía ( ). La tarea

Recibir Modelos implica continuar recibiendo los conjuntos de modelos de minería de

datos del entorno del sistema.

Por su parte, el agente Codificador de Modelos ( ) ejecuta las tareas: Examinar Fichas,

Seleccionar Modelos, Codificar Modelos y Enviar Modelos Codificados al agente . Las tres

primeras tareas se corresponden con las descritas en el Modelo Conceptual como parte

del proceso Codificación (pC). La tarea Enviar Modelos Codificados consiste en enviar al

agente los modelos locales, codificados como conjuntos de patrones locales,

listos para su posterior integración.


En la tabla 4.2, a modo de resumen, se relacionan los agentes del Paquete Codificación

con las tareas que cada uno ejecuta.

Tabla 4.2. Resumen de tareas ejecutadas por los agentes del Paquete Codificación.

Agente Tareas

CC

(Coordinador)

Iniciar Recepción de Modelos, Detener Recepción de Modelos, Iniciar Codificación, Enviar Modelos Codificados al Coordinador de Síntesis

RM

(Operador)

Recibir Modelos, Enviar Modelos

CM

(Operador)

Examinar Fichas, Seleccionar Modelos, Codificar Modelos, Enviar Modelos Codificados

4.2.3. Paquete Síntesis

El Paquete Síntesis es el de mayor complejidad en el MF_MIC. En este caso, el rol de

Agente Coordinador corresponde al agente Coordinador de Síntesis ( ). Este es el

responsable de la síntesis de los modelos locales codificados con el propósito de

obtener un conjunto de patrones globales de manera eficiente y eficaz. Controla el

funcionamiento de los Agentes Operadores: agente Constructor de Solución Inicial ( ),

agente Mejorador de Solución ( ) y agente Estimador de Medidas ( ), mediante la

ejecución de las tareas: Iniciar Construcción de Solución Inicial, Iniciar Mejora de Solución e

Iniciar Estimación de Medidas. Además, ejecuta la tarea Enviar Patrones Globales al

Coordinador de Representación, lo que implica la comunicación con dicho agente ( ).

Además de los tres Agentes Operadores antes mencionados, existen otros dos agentes

en el Paquete Síntesis: agente Evaluador de Soluciones ( ) y agente Generador de Vecindad

( ). Estos agentes no se comunican con el agente Coordinador de Síntesis ( ), sino

con otros Agentes Operadores. En la figura 4.8 se muestran las interfaces de

comunicación de todos los agentes contenidos en el Paquete Síntesis.


Figura 4.8. Interfaces de comunicación de los agentes del Paquete Síntesis.

Como se puede apreciar en el diagrama anterior, el agente Coordinador de Síntesis ( )

posee interfaz de salida (interfaz obligatoria) con el agente Coordinador de Representación

( ) e interfaces de entrada (interfaces proporcionadas) con el agente Coordinador de

Codificación ( ) y con el agente Coordinador del SIC ( ). El agente Generador de

Vecindad ( ) posee interfaz de entrada con el agente Mejorador de Solución ( );

mientras que, el agente Evaluador de Soluciones ( ) posee interfaces de entrada con el

agente Constructor de Solución Inicial ( ) y con el agente Mejorador de Solución ( ).

Mediante las tareas Iniciar Construcción de Solución Inicial, Iniciar Mejora de Solución e Iniciar

Estimación de Medidas el agente indica a los agentes , y que

comiencen, respectivamente, las tareas de construcción de solución inicial, mejora

iterativa de la solución y estimación de medidas de patrones, especificando los

parámetros necesarios en cada caso. Finalmente, mediante la tarea Enviar Patrones

Globales al Coordinador de Representación, como su nombre sugiere, el agente envía al

agente Coordinador de Representación ( ), los patrones globales sintetizados (salida del

proceso Síntesis descrito en el Modelo Conceptual) para su posterior representación.

Las tareas que ejecuta el agente Constructor de Solución Inicial ( ) son: Seleccionar

Codificación de Soluciones, Construir Solución Inicial, Solicitar Evaluación de Solución Inicial y

Enviar Solución Inicial al agente . Las dos primeras tareas se corresponden con las

tareas, del mismo nombre, definidas en el proceso Construcción de Solución Inicial (pCSI),


descritas en el Modelo Conceptual. La tarea Solicitar Evaluación de Solución consiste, como

sugiere su nombre, en solicitar al agente que evalúe, mediante la función objetivo

propuesta (ecuación 3.19), la solución inicial construida. Finalmente, la tarea Enviar

Solución Inicial consiste en enviar al agente la solución inicial construida o conjunto

de patrones globales iniciales (carentes de medidas), especificando su “calidad”

(evaluación de la función objetivo).

A partir de la solución inicial construida por el agente , el agente Mejorador de

Solución ( ) se ocupa de la mejora iterativa de dicha solución inicial, tal y como se

define en el proceso Mejora de Solución (pMS) del Modelo Conceptual.

La naturaleza iterativa de este proceso, hace de la función de deliberación del agente

una de las más complejas de nuestro Modelo Funcional. En dicha función el agente

utiliza los datos almacenados en su memoria interna ( ) para llevar a cabo y

controlar el proceso iterativo.

Esta función de deliberación se formaliza como se muestra a continuación:

( ,

)

donde

(

4.24


Donde:

: Mejor solución encontrada (conjunto de patrones globales), almacenada en

la memoria del agente. Variable de Estado definida en el proceso Mejora de Solución

(pMS)(tabla 3.8).

: Valor de la función objetivo para la mejor solución encontrada (conjunto

de patrones globales), almacenado en la memoria del agente. Variable de Estado

definida en el proceso Mejora de Solución (pMS)(tabla 3.8).

: Variable almacenada en la memoria del agente que indica si este

ha comenzado ( ) o no ( ) a procesar determinada solicitud de mejora de solución

inicial.

: Variable almacenada en la memoria del agente, correspondiente a la Variable de

Estado del mismo nombre, definida en el proceso Mejora de Solución (pMS)(tabla 3.8), que

indica si se finaliza ( ) o no ( ) dicho proceso.

: Constituye el estado actual, a partir de la cual se genera la vecindad de

soluciones.

: Agrupa los siguientes parámetros de configuración del proceso Mejora de

Solución (pMS): , , , , , , ,

, , ,

, ) (tablas 3.4, 3.5, 3.7 y 3.9). Estos son

especificados por el agente Coordinador de Síntesis al solicitarle al agente Mejorador de

Solución, la mejora de una solución inicial determinada. El agente Mejorador de Solución,

mediante la función de memorización, almacena dichos patrones en su memoria

interna.

: Vecindad del estado actual (solución candidata o conjunto de soluciones

).

: Lista de los modelos locales seleccionados en el Paquete Codificación. Variable

almacenada en la memoria del agente.

: Lista de las fichas de los modelos locales seleccionados en el Paquete

Codificación. Variable almacenada en la memoria del agente.

: Evaluaciones de la función objetivo, definida en nuestro Modelo Conceptual,

para cada una de las soluciones incluidas en la vecindad , que constituyen una

medida de la “calidad” de dichas soluciones.

: Nuevo estado, soluciones candidatas seleccionadas.

: Valor de la función objetivo para las soluciones del nuevo estado actual.


Como se deduce de la función de deliberación del agente las tareas que este

ejecuta son: Solicitar Soluciones Vecinas, Solicitar Evaluación de Soluciones Vecinas, Seleccionar

Solución Candidata y Enviar Solución Mejorada al agente . La primera tarea consiste en

solicitar al agente Generador de Vecindad ( ) que genere un conjunto de soluciones

vecinas ( ) a partir del estado actual ( ). La segunda tarea radica en solicitar al

agente Evaluador de Soluciones ( ) que evalúe, en la función objetivo definida en

nuestro Modelo Conceptual, las soluciones vecinas ( ). La tercera se corresponde

con la tarea de igual nombre descrita en el Modelo Conceptual como parte del proceso

Mejora de Solución (pMS). Finalmente, la tarea Enviar Solución Mejorada consiste en enviar

al agente la propuesta final de patrones globales mejorados ( ). Se muestra a

continuación la definición formal de la tarea Seleccionar Solución Candidata.

nombre SeleccionarSoluciónCandidata(

)

pre GeneradasSolucionesVecinas( )

EvaluadasSolucionesVecinas(

)

acción SeleccionarNuevaSolución(

)

A continuación se formaliza la función de memorización ( ) del agente ,

debido a la importancia que esta tiene para el éxito del proceso Mejora de Solución

(pMS), y por considerarse dicho proceso el de mayor complejidad en nuestro Modelo

Conceptual. En dicha función sólo se especifican las variables de la memoria interna

del agente que cambian su valor.


( ,

) |

4.25

Por su parte, el agente Estimador de Medidas ( ) se ocupa de la estimación y

asignación de las medidas (cobertura y precisión) que corresponden a cada uno de los

patrones globales que recibe. Las tareas que ejecuta son: Asignar Medidas y Enviar

Patrones Globales con Medidas al agente . La primera tarea se corresponde con la

descrita en el Modelo Conceptual como parte del proceso Asignación de Medidas (pAM).

Esta se formaliza de la siguiente forma:


nombre AsignarMedidas( )

pre ExistenModelosLocales( )

ExistenPatronesGlobalesMejorados( )

acción ObtenerPatronesLocalesParaCadaPatrónGlobal( )

AplicarOperadoresDeEstimación( )

Donde y son los parámetros utilizados para la estimación de las medidas de

los patrones globales (tabla 3.10), que indican el tipo de operador a aplicar en cada

caso. es la lista de modelos locales que fueron seleccionados en el Paquete

Codificación. es el conjunto de patrones globales mejorados carentes de

medidas. representa un conjunto de conjuntos de patrones locales asociados a

cada patrón global, que utiliza los operadores de estimación de medidas. es el

conjunto resultante de patrones globales sintetizados, con medidas asignadas.

En resumen, el agente , al ejecutar la tarea Asignar Medidas asociará a cada patrón

global un conjunto de patrones, cada uno seleccionado de un modelo local diferente,

y posteriormente, a partir del conjunto de patrones locales asociado a cada patrón

global ( ), aplicará los operadores definidos para estimar las medidas

correspondientes.

Por otra parte, la tarea Enviar Patrones Globales con Medidas consiste en enviar al agente

los patrones globales sintetizados, con sus medidas asignadas, listos para su

posterior representación.

Como se explicó antes, el agente Evaluador de Soluciones ( ) y el agente Generador de

Vecindad ( ) no se comunican directamente con el agente Coordinador de Síntesis ( ),

sino con otros agentes operadores del paquete Síntesis que requieren de sus servicios.

El agente Evaluador de Soluciones ( ) ejecuta las tareas: Evaluar Solución, Evaluar

Soluciones Vecinas, Enviar Evaluación de Solución Inicial al agente y Enviar Evaluación de

Soluciones Vecinas al agente . Las dos primeras tareas se corresponden con las

descritas en el Modelo Conceptual como parte de los procesos Construcción de Solución

Inicial (pCSI) y Mejora de Solución (pMS), respectivamente. Estas se formalizan a

continuación:


nombre EvaluarSolución(

)

pre ExistenModelosLocalesFichas( )

acción EvaluarFunciónObjetivo (

)

La tarea Evaluar Soluciones Vecinas consiste básicamente en ejecutar las funciones

declaradas en la sección acción de la formalización anterior, correspondiente a la tarea

Evaluar Solución.

nombre EvaluarSolucionesVecinas(

)

pre ExistenSolucionesVecinas( )

ExistenModelosLocalesFichas( )

acción ParaCadaSoluciónVecinaEvaluar (

)

La tarea Enviar Evaluación de Solución Inicial consiste en enviar al agente la

evaluación de la solución inicial correspondiente; mientras que, la tarea Enviar

Evaluación de Soluciones Vecinas consiste en enviar al agente la evaluación de cada

una de las soluciones que conforman la vecindad de la solución actual. Para la

evaluación de las soluciones, el agente emplea la función objetivo definida en el

en el Modelo Conceptual.

El agente Generador de Vecindad ( ) ejecuta las tareas: Obtener Soluciones Vecinas y

Enviar Soluciones Vecinas al agente . La primera tarea se corresponde con la descrita

en el Modelo Conceptual como parte del proceso Mejora de Solución (pMS). Esta se define

formalmente como sigue:


nombre ObtenerSolucionesVecinas(

)

pre ExisteSoluciónCandidataActual( )

acción GenerarVecindad(

)

Para generar una vecindad de soluciones, se aplican los operadores definidos en el

Modelo Conceptual: cruzamiento, mutación, agrupamiento y aleatorio, en este orden,

según sus respectivos valores de probabilidad ( ), a partir de

las soluciones que conforman en estado actual ( ).

La tarea Enviar Soluciones Vecinas consiste en enviar al agente las soluciones

vecinas generadas a partir de la solución actual.

En la tabla 4.3, a modo de resumen, se relacionan los agentes del Paquete Síntesis con

las tareas que cada uno ejecuta.

Tabla 4.3. Resumen de tareas ejecutadas por los agentes del Paquete Síntesis.

Agente Tareas

CS

(Coordinador)

Iniciar Construcción de Solución Inicial, Iniciar Mejora de Solución, Iniciar Estimación de Medidas, Enviar Patrones Globales al Coordinador de Representación

CSI

(Operador)

Seleccionar Codificación de Soluciones, Construir Solución Inicial, Solicitar Evaluación de Solución Inicial, Enviar Solución Inicial

MS

(Operador)

Solicitar Soluciones Vecinas, Solicitar Evaluación de Soluciones Vecinas, Seleccionar Solución Candidata, Enviar Solución Mejorada

EM

(Operador)

Asignar Medidas, Enviar Patrones Globales con Medidas

ES

(Operador)

Evaluar Solución, Evaluar Soluciones Vecinas, Enviar Evaluación de Solución Inicial, Enviar Evaluación de Soluciones Vecinas

GV

(Operador)

Obtener Soluciones Vecinas, Enviar Soluciones Vecinas


4.2.4. Paquete Representación

En este caso, el agente Coordinador de Representación ( ) es el responsable de la

representación de los patrones globales en un formato estándar de intercambio de

modelos de minería de datos. Para ello, controla el funcionamiento de los Agentes

Operadores: agente Representador de Modelos ( ) y agente Emisor de Modelos ( ),

mediante la ejecución de las tareas: Iniciar Representación de Modelos e Iniciar Emisión de

Modelos. La figura 4.9 muestra las interfaces de comunicación de los tres agentes

agrupados en el Paquete Representación.

Figura 4.9. Interfaces de comunicación de los agentes del Paquete Representación.

El diagrama anterior describe las relaciones entre los agentes del Paquete Representación

mediante las interfaces que estos implementan. Adicionalmente, el agente Coordinador

de Representación ( ) posee interfaces de entrada (interfaces proporcionadas) con el

agente Coordinador del SIC ( ) y con el agente Coordinador de Síntesis ( ).

El agente , al ejecutar la tarea Iniciar Representación de Modelos, como su nombre

sugiere, indica al agente que inicie la representación de modelos de minería de

datos. De la misma forma, mediante la tarea Iniciar Emisión de Modelos indica, en este

caso al agente , que inicie la emisión de los modelos representados.

Las tareas que ejecuta el agente Representador de Modelos ( ) son: Seleccionar Patrones,

Representar Modelo Global y Enviar Modelos Representados al agente . Las dos primeras

tareas se corresponden con las descritas en el Modelo Conceptual como parte del

proceso Representación (pR). Mientras que, la tarea Enviar Modelos Representados consiste

en enviar al agente los modelos globales representados.


Como se definió en el Modelo Conceptual, la tarea Representar Modelo Global tiene como

propósito representar en un formato estándar de intercambio de modelos de minería

de datos, el conjunto de patrones globales seleccionados. Aunque existen otras

iniciativas para establecer estándares de representación e intercambio de modelos en

minería de datos, la iniciativa más destacada y ampliamente aceptada es PMML

(Predictive Model Markup Language), estándar basado en XML [DMG, 2010;

Grossman et al., 2002; Grossman, 2006; Guazzelli et al., 2009; Guazzelli et al., 2010].

PMML tiene dos ventajas fundamentales. La primera se refiere al intercambio de

modelos: un modelo creado en una herramienta determinada puede ser cargado e

interpretado por otra herramienta diferente. La segunda ventaja de PMML es la

facilidad de despliegue entre servidores y plataformas diferentes. La definición del

estándar PMML está siendo llevada a cabo por el denominado Data Mining Group

(DMG). Esta organización industrial se creó en 1998 y constituye un consorcio de la

mayoría de las grandes empresas vendedoras de productos de minería de datos, tales

como: IBM, Microsoft, Oracle, SAS y SPSS. La versión 4.0 de PMML es la más

reciente, publicada en junio del 2009 [DMG, 2010; Pechter, 2009]. Por todo lo

anterior, se propone el uso del estándar PMML en nuestro Modelo Funcional, para

representar los modelos globales de minería de datos resultantes.

Entre las secciones básicas que componen un documento PMML se encuentran las

siguientes [DMG, 2010; Guazzelli et al., 2010]:

Data Dictionary: Define los atributos de entrada a los modelos y especifica el

tipo y rango de valores de cada uno.

Mining Schema: Constituye la lista de los atributos utilizados en el modelo.

Estos atributos son un subconjunto de los atributos especificados en la

sección Data Dictionary. El Mining Schema contiene información específica

para un determinado modelo; mientras que, el Data Dictionary contiene las

definiciones de los datos que son independientes del modelo. En esta sección

se define, también, el role (usageType) de los atributos en el modelo, el que

puede ser: active (entrada al modelo), predicted (salida del modelo), o

supplementary (contiene información descriptiva y es ignorado por el

modelo).

Transformation Dictionary: Contiene información de los campos derivados

mediante el uso de transformaciones tales como: normalización,

discretización, mapeo de valores y agregación.

Statistics: Especifica estadísticas relativas al conjunto de datos de

entrenamiento (dataset).

Models: Esta sección describe el contenido de los modelos y es específica para

cada técnica de minería de datos.


Las entradas al modelo pueden ser definidas directamente desde la sección Mining

Schema (atributos básicos) o indirectamente, como atributos derivados, a través de la

sección Transformation Dictionary. Por otra parte, debido a que cada técnica de minería

de datos tiene diferentes tipos de contenido, los formatos de los documentos XML

necesarios para almacenar de manera persistente estos contenidos son diferentes. Por

ejemplo, en el caso de los árboles de decisión, PMML especifica etiquetas (tags) para

describir la topología del árbol, las condiciones de división de los nodos, así como,

estadísticas asociadas a cada nodo. PMML soporta la representación de modelos de

minería de datos para las siguientes técnicas: regresión polinomial, regresión logística,

regresión general, clusters basados en el cálculo de centros, clusters basados en el

cálculo de densidades, árboles de decisión, reglas de asociación, redes neuronales,

entre otros.

Luego, la tarea Representar Modelo Global que ejecuta el agente se define

formalmente como sigue:

nombre RepresentarModeloGlobal( )

pre ExistenFichas( )

SeleccionadosPatrones(

)

acción CrearEncabezamientoDeFichero( )

CrearCuerpoDeFichero( )

Donde ,

y son los parámetros utilizados para la selección de los

patrones globales (tabla 3.11). es la lista de las fichas correspondientes a los

modelos locales que fueron seleccionados en el Paquete Codificación. y son el

conjunto inicial de patrones globales y el conjunto de patrones globales

seleccionados, respectivamente. es el fichero PMML que representa el modelo

global integrado resultante.

En resumen, el agente , al ejecutar la tarea Representar Modelo Global crea el

encabezamiento del fichero PMML (secciones: Data Dictionary, Mining Shema,

Transformation Dictionary y Statistics), y posteriormente, a partir del conjunto de

patrones globales seleccionados ( ), construye la sección Model del

fichero PMML (específica para cada tipo de modelo de minería de datos).

Por su parte, el agente Emisor de Modelos ( ) ejecuta la tarea Emitir Modelo Global que

consiste, como su nombre sugiere, en emitir o devolver un modelo global de minería

de datos integrado, correspondiente a cierto conjunto de modelos locales. Por lo

tanto, este agente actúa directamente sobre el entorno del sistema.


En la tabla 4.4, a modo de resumen, se relacionan los agentes del Paquete Representación

con las tareas que cada uno ejecuta.

Tabla 4.4. Resumen de tareas ejecutadas por los agentes del Paquete Representación.

Agente Tareas

CR

(Coordinador)

Iniciar Representación de Modelos, Iniciar Emisión de Modelos

RepM

(Operador)

Seleccionar Patrones, Representar Modelo Global, Enviar Modelos Representados

EmiM

(Operador)

Emitir Modelo Global

4.2.5. Resumen de Agentes del SIC

En los apartados anteriores se han descrito cada uno de los elementos que formalizan

el MF_MIC como un MAS. Se definió formalmente el entorno del sistema ( )

y los agentes que conforman el SIC, agrupados en paquetes funcionales. A modo de

resumen en la tabla 4.5 se muestran dichos agentes y una descripción de su

funcionamiento.

Tabla 4.5. Resumen de agentes del SIC.

Nombre Descripción

Agente Controlador del SIC

(CSIC)

Controla el funcionamiento de los agentes coordinadores de los paquetes: Codificación, Síntesis y Representación, responsables de la ejecución de las

tareas fundamentales del SIC

Paquete Codificación

Agente Coordinador de

Codificación (CC)

Coordina la recepción y codificación de los modelos locales

Agente Receptor de Modelos

RM)

Recepta los conjuntos de modelos locales que requieren ser integrados

Agente Codificador de

Modelos CM)

Codifica, en un formato homogéneo de representación, los modelos locales seleccionados para su posterior integración


Paquete Síntesis


Síntesis (CS)

Coordina la Síntesis de los modelos locales codificados que recibe

Agente Constructor de

Solución Inicial CSI)

Construye una Solución Inicial

Agente Mejorador de

Solución MS)

Intenta obtener una nueva solución que mejore la solución que recibe

Agente Estimador de

Medidas EM)

Aplica operadores para la estimación y asignación de las medidas que corresponden a cada uno de los patrones globales que recibe

Agente Evaluador de

Soluciones ES)

Evalúa una solución candidata o un conjunto de soluciones vecinas, empleando la función objetivo definida

Agente Generador de

Vecindad GV)

Aplica operadores para generar, a partir de una solución dada, un número determinado de soluciones vecinas

Paquete Representación


Representación (CR)

Coordina la representación, en el estándar PMML, de un conjunto de patrones globales sintetizados

Agente Representador de

Modelos RepM)

Representa, en el estándar PMML, un modelo de minería de datos integrado

Agente Emisor de Modelos

EmiM)

Emite un modelo de minería de datos integrado, representado en formato PMML

95

CAPÍTULO 5

5 PRUEBAS Y VALIDACIÓN

Una vez alcanzado el objetivo general de la investigación, en el que se plantea la

formalización de un modelo general que permita integrar modelos de minería de

datos parciales descubiertos de manera independiente, corresponde abordar la última

fase de la investigación. Esta persigue como propósito validar la hipótesis de partida

planteada en la tesis. Para ello, nos apoyaremos en el método de experimentación,

que nos permitirá probar nuestra propuesta y analizar los resultados obtenidos para

demostrar su validez.

A continuación, se listan los objetivos específicos a cumplir mediante la

experimentación para demostrar la hipótesis de partida, definiendo cómo se pretende

alcanzar cada uno.

1. Validar el carácter general de la propuesta, ejecutando pruebas que integren tanto

conjuntos de modelos locales de agrupamiento, como conjuntos de modelos

locales de reglas de asociación.

2. Validar la factibilidad de la propuesta, analizando la calidad del modelo global

que se obtiene al integrar n modelos locales, comparándolo con el

correspondiente modelo centralizado (aquel que resulta de la aplicación de la

minería de datos sobre el conjunto de datos centralizado).

3. Validar la flexibilidad del modelo propuesto en su fase de síntesis, aplicando diferentes

metaheurísticas para obtener el modelo global integrado.

4. Analizar escalabilidad de la propuesta, analizando la calidad del modelo global

integrado resultante (comparándolo con el modelo centralizado

correspondiente), y el tiempo de respuesta, al aumentar la cantidad de

modelos y patrones locales a integrar.


En este capítulo se define, en primer lugar, el diseño de los experimentos y,

posteriormente, se describe la realización de los mismos, exponiendo los resultados

del análisis y la evaluación de las pruebas ejecutadas.

5.1. Diseño de Experimentos

El diseño de los experimentos debe permitir alcanzar los cuatro objetivos específicos,

definidos previamente, para demostrar la hipótesis de partida. A partir de estos

objetivos se identifican dos etapas fundamentales en la experimentación. Estas son:

selección y preparación de los datos de prueba, y aplicación de nuestra propuesta y

análisis de resultados (figura 5.1). A continuación se describe el diseño de ambas

etapas de la experimentación.

Figura 5.1. Etapas de la Experimentación.

En el diagrama de actividad, en notación UML, que se muestra en la figura 5.2 se

describe la primera etapa, la cual comprende la selección de las bases de datos y

creación, a partir de estas, de los conjuntos de modelos locales o parciales que

permitirán aplicar nuestra propuesta en la etapa posterior. Tal y como describe el

diagrama de actividad, la primera tarea es precisamente la selección de las bases de

datos que se utilizarán en las pruebas. Se decidió utilizar dos bases de datos en la

experimentación: una pública y otra privada.

La base de datos pública seleccionada fue Nursery ( ) disponible en [Frank &

Asuncion, 2010], la que se deriva de un modelo de decisión originalmente

desarrollado para clasificar las solicitudes de escuelas infantiles. Contiene 12960

instancias con 9 atributos (tabla 5.1). Esta base datos ha sido utilizada y referencia

recientemente en varias publicaciones científicas [Andreopoulos et al., 2009; BakIrlI

et al., 2010; He et al., 2010; Kumar et al., 2009; Quan et al., 2009].

Etapa 1: Selección y Preparación de los Datos de Prueba

Etapa 2: Aplicación de la Propuesta y Análisis

de los Resultados

Capítulo 5. Pruebas y Validación 97

Figura 5.2. Etapa 1: Selección y preparación de los datos de prueba.

Tabla 5.1. Atributos de la base de datos Nursery.

Atributo Valores

parents usual, pretentious, great_pret

has_nurs proper, less_proper, improper, critical, very_crit

form complete, completed, incomplete, foster

children 1, 2, 3, more

housing convenient, less_conv, critical

finance convenient, inconv

social non-prob, slightly_prob, problematic

health recommended, priority, not_recom

class not_recom, recommend, very_recom, priority, spec_prior


Por su parte, la base de datos privada que se utilizó, Diabetes ( ), procede de un

proyecto de minería de datos real que se desarrolla en la Facultad de Ingeniería

Informática del Instituto Superior Politécnico José Antonio Echeverría (CUJAE). En

esta se registran 5 características de 8624 pacientes diabéticos procedentes de la

localidad de Jaruco, Provincia Habana, Cuba. En la tabla 5.2 se describen los

atributos de esta base de datos.

Tabla 5.2. Atributos de la base de datos Diabetes.

Atributo Valores

Sexo Masculino, Femenino

Piel Blanca, Negra, Mestiza

Ha padecido de presión

alta o hipertensión

Verdadero, Falso

Índice de masa corporal N: normal, PO: pre obeso, O1: obeso tipo1, O2:

obeso tipo2, O3: obeso tipo3, D: delgado, DM:

delgadez moderada, DS: delgadez severa

Clasificación del paciente

en grupos de riesgo

DC: diabético conocido, DD: diabético detectado,

GNR: grupo de no riesgo, GR: grupo de riesgo,

TGA: tolerancia a la glucosa alterada, AGA: alteración

de la glucosa en ayunas

Una vez seleccionadas las bases de datos, estas se fragmentan horizontalmente

obteniéndose, a partir de cada una ( ), seis conjuntos de particiones de

datos ( ) de diferentes cantidades de particiones ( ): 3,

5, 7, 10, 15 y 20, respectivamente, con el objetivo de poder analizar la escalabilidad de la

propuesta en la etapa de experimentación posterior.

Las particiones de datos incluidas en cada conjunto (

) cumplen las siguientes premisas:

5.1

5.2


Posteriormente, a partir de cada partición de datos ( ,

) se genera un

modelo de reglas de asociación y un modelo de clustering. Se construyen tanto

modelos locales de reglas de asociación como modelos locales de agrupamiento, con

el objetivo de poder validar el carácter general de la propuesta. Para la creación de los

modelos de reglas de asociación se ejecuta el algoritmo A priori; mientras que, para la

creación de los modelos de clustering se ejecuta el algoritmo particional de

agrupamiento SimpleKMeans. Ambos algoritmos están implementados en la

herramienta de minería de datos Weka [Holmes et al., 1994; Weka, 2010; Witten &

Frank, 2005]. Con la creación de todos los modelos locales concluye la primera etapa

de la experimentación.

Corresponde entonces describir la segunda etapa. Esta se resume en el diagrama de

actividad que se muestra en la figura 5.3.

Como se puede apreciar, la primera tarea consiste en especificar, para cada caso, los

valores que tomarán los parámetros requeridos en el MIC (figura 5.3). Estos

parámetros se definieron en el Modelo Conceptual de nuestra propuesta (MC_MIC).

Seguidamente, se procede a la integración, en paralelo, de los diferentes conjuntos de

modelos locales, aplicando tres metaheurísticas diferentes en la fase de síntesis para

obtener el modelo global: búsqueda aleatoria, escalador de colinas y algoritmo

genético.

La búsqueda aleatoria se considera la más simple de las metaheurísticas pero, por lo

general, costosa computacionalmente. Esta no utiliza soluciones anteriores para guiar

la búsqueda, solo explora el espacio de soluciones de manera aleatoria para encontrar

la mejor solución. Por lo tanto, se podría decir que la “vecindad” de una solución

dada está determinada por todo el espacio de soluciones a explorar. En la mayoría de

las investigaciones, la búsqueda aleatoria se utiliza como punto de referencia para los

resultados que se obtienen con otros métodos y/o como medidor de las

características del espacio [Rosete, 2000].

El escalador de colinas [Korf, 1990; Rosete, 2000; Yuret & Maza, 1993], a diferencia

de la búsqueda aleatoria, se desplaza en el espacio de soluciones, buscando una

mejora del valor de la función objetivo con la idea de llegar al óptimo de la función.

Para esto, construye una “vecindad” asociada a la solución actual, que está compuesta

por una o varias soluciones candidatas generadas a partir de dicha solución.

Por su parte, un algoritmo genético [Goldberg & Horn, 1999] es una metaheurística

que, a diferencia de las dos primeras, permite llevar varias trayectorias de búsquedas a

la vez. Esta se basa en la idea de que la combinación de buenos individuos

(soluciones) puede dar lugar a individuos mejores adaptados, pues los seres vivos se

adaptan a su entorno gracias a las características heredadas de sus progenitores. Para


ello, parte de una población inicial de soluciones, que se somete a cruzamientos y

mutaciones. Posteriormente, se escoge una nueva población tomando los m mejores

individuos entre padres e hijos, a la que se le repite nuevamente el proceso.

Figura 5.3. Etapa 2: Aplicación de la propuesta y análisis de resultados.


En resumen, cada conjunto de modelos locales se integra aplicando búsqueda

aleatoria, escalador de colinas y algoritmos genéticos en la fase de síntesis, realizando

30 ejecuciones con cada metaheurística. Al probar diferentes algoritmos

metaheurísticos, es posible validar la flexibilidad del modelo propuesto en su fase de síntesis.

Una vez que se han obtenido todos los modelos globales con sus correspondientes

estadísticas (registradas durante el proceso de integración), se procede al análisis de

los resultados. Para ello, es preciso llevar a cabo las tareas siguientes (figura 5.3):

1. Realizar un análisis comparativo de las metaheurísticas aplicadas teniendo en

cuenta: la calidad de las soluciones (evaluadas mediante la función objetivo

(ecuación 3.19)) y el tiempo promedio de ejecución.

2. Identificar el conjunto de los modelos globales integrados ( )

obtenidos en las 30 ejecuciones realizadas con la metaheurística que mejor se

comportó para cada caso.

3. Obtener, en la herramienta Weka, los modelos centralizados

( ) de reglas de asociación y de agrupamiento a partir de cada

base de datos ( ).

4. Comparar los modelos globales integrados ( ) con su

correspondiente modelo centralizado ( ), con el propósito de

validar la factibilidad de la propuesta.

5. Analizar escalabilidad de la propuesta, a partir de los resultados de todas las

ejecuciones realizadas.

Tras definir el diseño de los experimentos que permite validar la hipótesis de partida

planteada en esta investigación, corresponde abordar, en el apartado que sigue, la

realización de dichos experimentos y el análisis de los resultados.

5.2. Experimentación y Resultados

Para llevar a cabo la experimentación diseñada, se implementó un sistema, prototipo

funcional del modelo propuesto, sobre la plataforma de desarrollo JAVA

[Richardson et al., 2007; Trottier, 2002]. En la implementación de la fase de síntesis

del modelo que se propone en el presente trabajo, se utilizó la biblioteca de clases

BiCIAM [Fajardo, 2009; Fajardo et al., 2009; Rosete et al., 2008] . Esta biblioteca fue

desarrollada por un grupo de profesores de la Facultad de Informática del Instituto

Superior Politécnico José Antonio Echeverría, en Cuba. La misma integra diferentes

algoritmos metaheurísticos, entre estos: búsqueda aleatoria, escalador de colinas y

algoritmo genético.


Todas las pruebas ejecutadas en el sistema, durante la fase de experimentación, se

efectuaron en un cluster de 8 ordenadores con idénticas características. Se trata de

dispositivos Asus EEE Box B202, ordenadores de propósito general y reducidas

dimensiones con un procesador Intel Atom de 1.6 GHz, una memoria de 1Gb y 80

Gb de almacenamiento (figura 5.4).

Figura 5.4. Escenario de pruebas.

Una vez descrito el escenario donde se ejecutarán las pruebas del modelo propuesto,

en el siguiente apartado se describe la primera etapa de la experimentación: Selección

y Preparación de los Datos de Prueba.

5.2.1. Selección y Preparación

En esta primera etapa, a partir de las bases de datos seleccionadas ( ), se

crean los seis conjuntos de particiones de datos ( ) de

tamaño: 3, 5, 7, 10, 15 y 20 respectivamente, tal y como se definió en el diseño de la

experimentación. La selección de los registros a incluir en las diferentes particiones

de ambas bases de datos se efectúa de manera aleatoria, respetando un porcentaje de

registros que deberá tener cada partición. En la tabla 5.3 se resumen los porcentajes

de registros totales de cada partición definidos para los seis conjuntos. Como se

puede apreciar, no existe ningún conjunto en el que todas las particiones tengan el

mismo tamaño.


Tabla 5.3. Porcentajes de registros totales en las particiones de datos.

Cantidad de Particiones

Porcentaje de registros totales en cada partición

3 15%, 30%, 55%

5 5%, 10%, 15%, 30%, 40%

7 5%, 5%,10%,10%,15%, 20%, 35%

10 5%, 5%,5%, 5%,5%,10%,10%,15%,15%, 25%

15 2%, 2%, 2%, 2%, 2%, 5%, 5%,5%, 5%,10%,10%,10%,10%,15%, 15%,

20 2%, 2%, 2%, 2%, 2%, 2%, 2%, 2%, 2%, 2%, 5%, 5%,5%, 5%,10%,10%,10%,10%,10%, 10%,

Una vez creadas las particiones a partir de ambas bases de datos, la siguiente tarea es

la obtención de los modelos de reglas de asociación y de clustering. Para ello, se carga

cada partición en la herramienta Weka y se ejecutan los algoritmos Apriori y

SimpleKMeans.

Los modelos de reglas de asociación, en el caso de las particiones de la base de datos

Diabetes se generaron especificando como valores mínimos de soporte (cobertura) y

de confianza (precisión) de las reglas 0.1 y 0.8 respectivamente. Mientras que, en el

caso de las particiones de la base de datos Nursery se generaron especificando como

valores mínimos de soporte y de confianza de las reglas 0.2 y 0.6 respectivamente.

Para la selección de estos valores mínimos se realizaron varias pruebas de generación

de modelos en diferentes particiones de datos, con el propósito de fijar finalmente

los valores que permitieran obtener, en la mayoría de los casos, reglas de diversidad

de medidas de soporte y confianza.

Por su parte, el algoritmo SimpleKMeans exige especificar como parámetro la cantidad

de grupos o clusters (K) que se desean generar. Por tanto, fue necesario definir el

valor de K para cada modelo de clustering a obtener desde cada partición de datos.

En la tabla 5.4 se muestra los valores del parámetro K especificados para la creación

de los modelos de clustering en cada una de las particiones generadas a partir de

ambas bases de datos. Estos valores se determinaron buscando que la cantidad de

grupos a generar en cada modelo de clustering a integrar fuera diferente y

proporcional al porcentaje de registros totales de la partición de datos

correspondiente (tabla 5.3). Para los conjuntos de particiones de tamaño 3, 5, y 10, la

cantidad total de clusters, o patrones locales, se fijó en 60; mientras que, para los

conjuntos de particiones de tamaño 7, 15 y 20, la cantidad total de clusters se fijó en

70, 90 y 120 respectivamente.


Tabla 5.4. Porcentajes de registros totales en las particiones de datos.

Cantidad de Particiones

Cantidad de grupos (K) a generar en cada partición

3 9, 18, 33

5 3, 6, 9, 18, 24

7 4, 4,7,7,10, 14, 24

10 3, 3, 3, 3, 3, 6, 6, 9, 9, 15

15 2, 2, 2, 2, 2, 5, 5, 5, 5, 9, 9, 9, 9,14,14

20 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 6, 6, 6, 6, 10,10,10,10,10,10

En los modelos locales de agrupamiento o clustering la cantidad de patrones a

obtener en cada uno es un parámetro de entrada (K); sin embargo, en los modelos de

reglas de asociación la cantidad de reglas a obtener no se fija previamente. Esta

cantidad está limitada por los valores mínimos de soporte y de confianza. La tabla 5.5

resume las cantidades de reglas de asociación que resultaron de cada partición de

datos, con los valores mínimos de soporte y de confianza especificados

anteriormente.

Tabla 5.5. Cantidad de reglas de asociación de los modelos locales.

Particiones Cantidad de reglas de asociación

BD Diabetes

55, 32, 30

76, 35, 37, 22, 46

76, 62, 28, 34, 38, 27, 39

76, 62, 25, 48, 68, 41, 14, 12, 58, 42

55, 37, 62, 12, 19, 54, 28, 20, 78, 68, 81, 68, 59, 48, 43

43, 48, 59, 73, 88, 73, 81, 68, 51, 68, 28, 76, 58, 20, 19, 62, 12, 14,

73, 48

BD Nursery

57, 24, 22

130, 46, 65, 35, 30

241, 186, 135, 113, 45, 41, 38

205, 168, 172, 246, 158, 118, 62, 47, 23, 49


529, 552, 360, 536, 548, 186, 181, 176, 247, 136, 48, 104, 64, 45,

25

569, 478, 279, 459, 509, 515, 478, 374, 552, 520, 168, 205, 247,

186, 127, 124, 126, 113, 151, 135

Una vez creados todos los modelos locales concluye la primera etapa de la

experimentación. En los dos apartados siguientes se aborda, para cada tipo de

modelo de minería de datos, la segunda etapa de la experimentación: aplicación de la

propuesta y análisis de los resultados.

5.2.2. Integración de Modelos de Reglas de

Asociación

En esta sección se describe la segunda etapa de la experimentación, específicamente

las pruebas de integración de modelos locales de reglas de asociación.

La primera tarea consiste en especificar los valores de los diferentes parámetros

requeridos en el modelo propuesto. En las pruebas de integración de modelos de

reglas de asociación, la mayoría de los parámetros mantuvieron sus valores por

defecto, especificados en las tablas del capítulo 3: 3.1, 3.4, 3.5, 3.7, 3.9-3.11, siendo

necesario modificar, en función de la metaheurística a aplicar en el proceso de

síntesis, los valores de los parámetros: . En la tabla

5.6 se muestran los valores especificados para dichos parámetros en cada caso.

Resulta importante precisar que la condición de parada utilizada en la fase de síntesis,

para las tres metaheurísticas, fue alcanzar la cantidad de iteraciones especificada en el

parámetro (5000 iteraciones). Por otra parte, para la estimación de las métricas

de precisión y de cobertura de las reglas de asociación globales se utilizó el operador

media ( ) y el operador suma ( ) respectivamente (ecuaciones 3.38 y 3.37), ya

que estos mostraron los mejores resultados en las pruebas con modelos de reglas de

asociación realizadas durante la etapa de concepción y ajuste del modelo propuesto,

como parte de la investigación de desarrollada.


Tabla 5.6. Valores de algunos parámetros especificados para cada metaheurística.


Metaheurística Valores de Parámetros

Búsqueda Aleatoria

Escalador de Colinas

Algoritmo Genético

Una vez especificados los valores de los parámetros requeridos, se procede a la

integración de cada uno de los conjuntos de modelos de reglas de asociación, para

cada metaheurística. Para realizar, a partir de los resultados, el análisis comparativo

de las metaheurísticas se considera dos aspectos fundamentales:

Calidad promedio de las soluciones evaluadas en las 5000 iteraciones de las 30

ejecuciones, mediante la función objetivo definida en el modelo.

Tiempo promedio de una ejecución.

Las tablas 5.7 y 5.8 resumen, para cada base de datos de prueba, las posiciones

jerárquicas de los algoritmos metaheurísticos (AM): búsqueda aleatoria (BA),

escalador de colinas (EC) y algoritmo genético (AG), en función de la media de los

valores mínimos de la función objetivo (FO) ( ) en las 30

ejecuciones realizadas. Como se puede apreciar la metaheurística que mejor se

comportó en la síntesis, para ambas bases de datos y con independencia de las

cantidades de modelos y patrones locales de entrada, fue el algoritmo genético. La

segunda y tercera posición, igualmente en todos los casos, resultó ser para el

escalador de colinas y la búsqueda aleatoria respectivamente.

Tabla 5.7. Jerarquía de AM según media de valores mínimos de la FO para la BD Diabetes.


Cantidad de Modelos/ Patrones Locales

Orden AM Media del Mínimo FO

3/117

1 AG 0,0173

2 EC 0,0193

3 BA 0,0265

5/216

1 AG 0,0233

2 EC 0,0249

3 BA 0,0344

7/304

1 AG 0,0245

2 EC 0,0259

3 BA 0,0378


10/446

1 AG 0,0271

2 EC 0,0293

3 BA 0,0497

15/732

1 AG 0,0298

2 EC 0,0326

3 BA 0,0529

20/1062

1 AG 0,0317

2 EC 0,0354

3 BA 0,0698

Tabla 5.8. Jerarquía de AM según media de valores mínimos de la FO para la BD Nursery.




3/103

1 AG 0,0274

2 EC 0,0283

3 BA 0,0369

5/306

1 AG 0,0365

2 EC 0,0421

3 BA 0,0499

7/799

1 AG 0,0405

2 EC 0,0483

3 BA 0,0629

10/1248

1 AG 0,0457

2 EC 0,0538

3 BA 0,0689

15/3737

1 AG 0,0508

2 EC 0,0619

3 BA 0,0849

20/6315

1 AG 0,0548

2 EC 0,0653

3 BA 0,0950

En las figuras 5.5 y 5.6 se puede apreciar gráficamente que, para ambas bases de

datos, en el proceso de síntesis la metaheurística que obtiene el menor valor de media

de la función objetivo en las 30 ejecuciones es el algoritmo genético, convergiendo al

mínimo de la función objetivo desde iteraciones tempranas. Nótese que la escala

empleada en todas las gráficas para el número de iteraciones (eje x) es 1:10 (una

iteración de la gráfica representa 10 iteraciones reales).


Figura 5.5. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Diabetes.


Con el escalador de colinas los resultados son similares al algoritmo genético, pero se

observa que la diferencia entre ambos aumenta al aumentar la cantidad de

modelos/patrones locales a integrar. Por su parte, la búsqueda aleatoria se diferencia

considerablemente de las dos restantes. Resulta interesante observar que esta

diferencia, al aumentar la cantidad de modelos/patrones locales, se hace más notoria.

Cuando aumenta la cantidad de modelos/patrones locales aumenta, a su vez, el

espacio de soluciones, lo que puede afectar la efectividad de una búsqueda a ciegas

como la que implementa la búsqueda aleatoria.


Figura 5.6. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Nursery.


Por otra parte, se observa que en las pruebas con la base de datos Nursery (figura 5.6),

la media de la función objetivo en los tres algoritmos metaheurísticos toma valores

más altos que en las pruebas con la base de datos Diabetes (figura 5.5). Esto se debe,

fundamentalmente, a que los modelos locales a integrar en las pruebas con la base de

datos Diabetes son más similares entre sí (tienen mayor número de reglas comunes)

que los de la bases de datos Nursery. Además, para un mismo número de modelos

locales a integrar, la cantidad de patrones locales totales en las pruebas

correspondientes a la base de datos Nursery es considerablemente mayor que en las de

Diabetes.


Las tablas 5.9 y 5.10 resumen, para cada base de datos, las posiciones jerárquicas de

las metaheurísticas, en función de la media del tiempo de ejecución. En estas se

observa que el algoritmo genético es también la metaheurística más rápida. Esto

puede parecer contradictorio si se considera que tanto la búsqueda aleatoria como el

escalador de colinas son metaheurísticas más simples que el algoritmo genético. Sin

embargo, el motivo de estos resultados se debe al tiempo de evaluación de la función

objetivo en cada una de las soluciones que se generan en las diferentes pruebas con

cada metaheurística.

La complejidad temporal de la evaluación de la función objetivo es , está en

función de tres variables: la cantidad total de patrones de los modelos locales ( ) a

integrar, la cantidad de atributos que describen los patrones locales ( ), y la cantidad

de patrones incluidos en el modelo global integrado correspondiente a la solución

candidata que se evalúa ( ). Las dos primeras variables ( ) se mantienen

constantes para cada conjunto de modelos locales a integrar. Sin embargo, como se

muestra en ambas tablas (5.9 y 5.10), la media de la cantidad de patrones globales ( )

incluidos en las soluciones candidatas avaluadas, es considerablemente menor en el

caso del algoritmo genético. Esto explica los resultados del tiempo promedio de las

ejecuciones para cada metaheurística.

Tabla 5.9. Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.



Orden AM Media de Tiempo Ejecución (min: seg: miliseg)

Media de Cantidad Patrones Globales

3/117

1 AG 1:40:482 27

2 EC 6:44:802 44

3 BA 10:17:360 59

5/216

1 AG 4:16:813 30

2 EC 18:04:203 45

3 BA 23:14:547 58

7/304

1 AG 5:57:931 28

2 EC 25:34:854 47

3 BA 39:14:674 56

10/446

1 AG 7:06:813 29

2 EC 36:09:375 58

3 BA 50:57:647 63

15/732

1 AG 9:35:987 28

2 EC 42:34:654 57

3 BA 76:27:565 68

20/1062

1 AG 14:56:813 29

2 EC 78:36:847 59

3 BA 99:19:742 73


La media del tiempo de ejecución de las pruebas realizadas con ambas bases de datos

(tablas 5.9 y 5.10), aún en el caso del algoritmo genético que es la metaheurística más

rápida, pude parecer alta; sin embargo, es preciso llamar la atención sobre un

elemento importante. Como se puede apreciar en las gráficas de las figuras 5.6 y 5.7,

en todas las pruebas ejecutadas, independientemente de la base de datos y de la

metaheurística, se converge al mínimo de la función objetivo desde iteraciones

tempranas: a partir, aproximadamente, de la iteración número 100 de las gráficas, que

representa la iteración 1000 por la escala empleada.

Tabla 5.10. Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.





3/103

1 AG 1:33:265 24

2 EC 6:06:000 44

3 BA 9:47:281 52

5/306

1 AG 6:40:344 43

2 EC 37:57:219 67

3 BA 47:59:312 77

7/799

1 AG 10:30:886 48

2 EC 58:34:854 77

3 BA 79:14:674 86

10/1248

1 AG 15:16:813 49

2 EC 66:09:375 78

3 BA 123:57:647 89

15/3737

1 AG 20:35:987 45

2 EC 80:34:654 77

3 BA 256:27:565 81

20/6315

1 AG 25:16:813 33

2 EC 90:36:847 41

3 BA 279:19:742 63

Para ambas bases de datos, en todas las pruebas ejecutadas, la jerarquía de las tres

metaheurísticas (considerando la media de la función objetivo y la media del tiempo

de ejecución) es la misma: el algoritmo genético se comporta mejor que las dos

restantes, luego le sigue el escalador de colinas, mientras que, los peores resultados se

obtienen con la búsqueda aleatoria.

Una vez concluido los tres procesos definidos en el Modelo Conceptual (codificación,

síntesis y representación), al analizar los modelos globales integrados que resultaron

en las 30 ejecuciones realizadas con algoritmo genético (para cada conjunto de

modelos locales) se identifican los modelos globales integrados diferentes obtenidos

para cada conjunto de modelos locales. En la tabla 5.11 se muestra la cantidad de


modelos globales integrados diferentes obtenidos al integrar cada conjunto de

modelos locales, para cada base de datos.

Tabla 5.11. Cantidad de modelos globales integrados diferentes, obtenidos para cada base de

datos. Integración de modelos de reglas de asociación.

Cantidad de Modelos Globales Integrados

Cantidad de Modelos Locales

BD Diabetes BD Nursery

3 1 1

5 1 1

7 2 2

10 1 3

15 2 3

20 3 3

Para validar la factibilidad de la propuesta es preciso analizar la calidad de los diferentes

modelos globales integrados obtenidos para cada conjunto de modelos locales. Para

ello, se compara cada modelo global integrado con el correspondiente modelo

centralizado (aquel que resulta de la aplicación de la minería de datos sobre el

conjunto de datos centralizado). Esta comparación se realiza considerando los

siguientes elementos:

1. Cantidad de patrones total de ambos modelos (integrado y centralizado).

2. Porcentaje de patrones comunes respecto al total de patrones del modelo

centralizado.

3. Porcentaje de patrones no alineados (sobrantes en uno u otro modelo)

respecto al total de patrones del modelo centralizado.

4. Distancia entre ambos modelos (integrado y centralizado), según la ecuación

de distancia definida en el capítulo 3 (ecuación 3.21).

5. Error relativo en la estimación de las medidas (soporte y confianza) de los

patrones del modelo global integrado que están presentes en el modelo

centralizado correspondiente (patrones comunes).

A partir de cada base de datos (Diabetes y Nursery) se generaron en Weka, mediante el

algoritmo Apriori ambos modelos centralizados. Para ello, se especificaron los

mismos valores mínimos de soporte y de confianza con los que se crearon los

modelos locales de cada base de datos. La tabla 5.12 resume las características de los

modelos centralizados.


Tabla 5.12. Modelos centralizados de Reglas de Asociación.


Cantidad de Reglas

27 2

Mínimo Valor de Soporte

0.1 0.2

Mínimo Valor de Precisión

0.8 0.6

Una vez obtenidos los modelos centralizados (MC), se analiza la calidad de los

modelos globales integrados (MI). Las tablas 5.13 y 5.14 resumen los valores

promedio de los cuatro primeros elementos definidos anteriormente, para cada

conjunto de modelos locales correspondiente a cada base de datos.

Por su parte, la tabla 5.15 muestra el error relativo promedio en la estimación del

soporte y de la confianza de los patrones comunes entre los modelos globales

integrados y el centralizado correspondiente, para cada conjunto de modelos locales

de ambas bases de datos.

Tabla 5.13. Métricas de los modelos globales integrados para la base de datos Diabetes.


Cantidad Modelos Locales/ Patrones Locales

Media de Cantidad de Patrones en MI

Media de Porcentaje de Patrones Comunes respecto al total en MC

Media de Porcentaje de Patrones no Alineados respecto al total en MC

Media de Distancia entre MI y MC

3/117 26 96,3% 0,04% 0,0063

5/216 23 85,2% 0,14% 0,0084

7/304 22 81,5% 0,18% 0,0091

10/446 24 88,8% 0,11% 0,0079

15/732 22 81,5% 0,18% 0,0091

20/1062 21 77,7% 0,22% 0,0089

Media 23 85,2% 0,14% 0,0083


Tabla 5.14. Métricas de los modelos globales integrados para la base de datos Nursery.





Media de Porcentaje de Patrones no Alineados respecto al total en MC


3/103 2 100% 0% 0

5/306 2 100% 0% 0

7/799 2 100% 0% 0

10/1248 3 100% 50% 0,0002

15/3737 3 100% 50% 0,0002

20/6315 3 100% 50% 0,0002

Media 3 100% 25% 0,0001

Es preciso recordar que la cantidad de patrones de los modelos globales que se

obtienen al finalizar el proceso de Integración, puede no coincidir con la cantidad de

patrones que resultan del subproceso de síntesis, ya que en el subproceso de

representación, posterior al de síntesis, se eliminan en este caso aquellas reglas que

no cumplen con los valores mínimos de soporte y confianza. De aquí la diferencia

que existe entre los valores de Media de Cantidad de Patrones Globales que se muestran

en las tablas 5. 9 y 5.10 y los valores de Media de Cantidad de Patrones en MI que se

muestran en las tablas 5.13 y 5.14.

Como se puede observar en las tablas 5.13 y 5.14 la Media de Distancia entre MI y MC

para la base de datos Diabetes es de 0,0083; mientras que, en el caso de la base de datos Nursery esta es menor, de: 0,0001. Esto se debe fundamentalmente a que para la base de datos Nursery, la cantidad de patrones en el modelo centralizado es sólo 2, estando estos presentes en todos los modelos globales integrados (100% de patrones comunes). Mientras que, para la base de datos Diabetes, el modelo centralizado tiene 27 patrones, y la media de patrones comunes es de un 85,2%. Es decir, como promedio el 100%, en el caso de la base de datos Nursery, y el 85,2%, en el caso de la base de datos Diabetes, de los patrones del modelo centralizado se obtienen en el modelo de Integración propuesto, sin necesidad de acceder a los datos originales, lo que se considera un buen resultado.

En cuanto a la media del error relativo en la estimación de las medidas (soporte y

confianza) de los patrones comunes (tabla 5.15), ambos valores se consideran bajos,

obteniéndose mejores resultados en la estimación del soporte (0,2% y 0,3% de error


relativo para las bases de datos Diabetes y Nursery, respectivamente) que en la

estimación de la confianza (1,1% y 1,4% de error relativo para las bases de datos

Diabetes y Nursery, respectivamente).

Tabla 5.15. Error relativo en estimación de medidas de patrones comunes.



Cantidad Modelos Locales

Media del Error Relativo (Soporte)

Media del Error Relativo (Confianza)

Media del Error Relativo (Soporte)

Media del Error Relativo (Confianza)

3 0,0027 0,0111 0,0030 0,0131

5 0,0023 0,0113 0,0027 0,0134

7 0,0019 0,0110 0,0034 0,0145

10 0,0021 0,0117 0,0033 0,0148

15 0,0025 0,0115 0,0038 0,0151

20 0,0018 0,0119 0,0035 0,0157

Media 0,0022 0,0114 0,0033 0,0144

A partir del análisis de las tablas 5.12-5.15 se puede concluir que los modelos globales

integrados obtenidos para ambas bases de datos poseen una alta calidad, más aún si

se considera que la obtención de estos se ha realizado sin acceder a los datos

originales. Estos presentan, considerando ambas bases de datos, como promedio un

porcentaje de patrones comunes igual 92,6% y un porcentaje de patrones no

alineados igual a 12,7%, mientras que la distancia media es de 0,0042, lo que

representa una diferencia entre el modelo centralizado y los modelos globales

integrados de un 0,42%. De esta forma se valida la factibilidad de la propuesta para la

integración de modelos de reglas de asociación, sin acceder a los datos originales.

La siguiente tarea de validación consiste en analizar la escalabilidad de la propuesta para la

integración de modelos de reglas de asociación, a partir de los resultados de los

experimentos descritos anteriormente. Para ello, nos basamos en dos elementos

fundamentales: la calidad del modelo global integrado resultante (comparándolo con

el modelo centralizado correspondiente), y el tiempo de ejecución del método, al

aumentar la cantidad de modelos y patrones locales a integrar, para ambas bases de

datos. En este análisis consideraremos solamente los resultados obtenidos con el

algoritmo genético que fue la metaheurística que mejor se comportó para ambas

bases de datos. Para analizar escalabilidad en cuanto a la calidad de la solución nos

centramos en los elementos que a nuestro criterio son más significativos: porcentaje


de patrones comunes respecto al total de patrones del modelo centralizado, distancia

entre ambos modelos (integrado y centralizado) y error relativo en la estimación del

soporte (cobertura) y en la estimación de la confianza (precisión) de los patrones

comunes. En las figuras 5.7 y 5.8 se muestran gráficas que ilustran cómo se

comportan estos elementos al aumentar la cantidad de modelos/patrones locales a

integrar, correspondientes a cada base de datos.

Figura 5.7. Calidad de los modelos globales integrados de reglas de asociación. Análisis de


Como se puede apreciar, para ambas bases de datos (figuras 5.7 y 5.8) a medida que

aumenta la cantidad de modelos y patrones locales la calidad del modelo global

integrado, haciendo una valoración general de todos los elementos, se mantiene

aceptable. Es decir, no se observa detrimento de la calidad de los modelos globales

integrados. La diferencia apreciable entre la media del porcentaje de patrones

comunes para la base de datos Diabetes y para la base de datos Nursery, así como, la


diferencia entre la media de la distancia entre los modelos globales integrados y el

correspondiente modelo centralizado, para dichas bases de datos, se debe,

fundamentalmente, a que el modelo centralizado de Nursery contiene muy pocos

patrones (solamente 2) que cumplen con los valores especificados de mínimo de

soporte y de confianza: 0.2 y 0.6 respectivamente.

Figura 5.8. Calidad de los modelos globales integrados de reglas de asociación. Análisis de


Por otra parte, en las figuras 5.9 y 5.10 se puede observar que a medida que aumenta

la cantidad de modelos y patrones locales, para ambas bases de datos, el tiempo de

ejecución también aumenta. No obstante, este aumento del tiempo de ejecución se

considera aceptable ya que la cantidad de patrones locales a integrar es elevada. En

este sentido, es importante analizar la tendencia lineal del tiempo de ejecución al

aumentar la cantidad de patrones locales a integrar, para cada base de datos (figuras

5.11 y 5.12).


Figura 5.9. Tiempo de ejecución en la integración de modelos de reglas de asociación.


Figura 5.10. Tiempo de ejecución en la integración de modelos de reglas de asociación.


En las gráficas de tendencia lineal correspondientes a las pruebas ejecutadas para

cada base de datos (figura 5.11 y 5.12), se puede apreciar que el índice de correlación

lineal (R2), para ambas bases de datos, es cercano a 1, lo que implica que estas

variables (tiempo de ejecución y cantidad de patrones locales) están directamente

correlacionadas. Luego, el tiempo de ejecución aumenta de manera lineal respecto a

la cantidad de patrones locales a integrar.


Figura 5.11. Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de

asociación). Análisis de escalabilidad. BD Diabetes.

Figura 5.12. Tendencia del tiempo de ejecución vs cantidad de patrones locales (reglas de

asociación). Análisis de escalabilidad. BD Nursery.

5.2.3. Integración de Modelos de Agrupamiento

En esta sección se abordan las pruebas de integración de modelos locales de

agrupamiento o clustering realizadas en la segunda etapa de la experimentación.

En estas, al igual que en las pruebas de modelos de reglas de asociación, la mayoría

de los parámetros mantuvieron sus valores por defecto, especificados en las tablas

3.1, 3.4, 3.5, 3.7, 3.9-3.11, siendo necesario modificar solamente los valores de los

parámetros: en función de la metaheurística a

aplicar en el proceso de síntesis. En la tabla 5.16 se muestran los valores

especificados para dichos parámetros en cada caso. De la misma forma, la condición


de parada utilizada en la fase de síntesis, para las tres metaheurísticas (búsqueda

aleatoria, escalador de colinas y algoritmo genético) fue alcanzar la cantidad de

iteraciones especificada en el parámetro (5000 iteraciones). Por otra parte, para

la estimación de las métricas de precisión y de cobertura de los grupos o globales se

utilizó el operador máximo ( ) y el operador media ( ), ya que estos

mostraron los mejores resultados en las pruebas con modelos de clustering realizadas

durante la etapa de concepción y ajuste del modelo propuesto, como parte de la

investigación de desarrollada.

Tabla 5.16. Valores de algunos parámetros especificados para cada metaheurística.


Metaheurística Valores de Parámetros

Búsqueda Aleatoria

Escalador de Colinas

Algoritmo Genético

Una vez especificados los valores de los parámetros requeridos, se procede a la

integración de cada uno de los conjuntos de modelos de agrupamiento, para cada

metaheurística. En el análisis comparativo de las metaheurísticas, al igual que en las

pruebas de reglas de asociación, se considera los siguientes elementos:

Calidad promedio de las soluciones evaluadas en las 5000 iteraciones de las 30

ejecuciones, mediante la función objetivo definida en el modelo.

Tiempo promedio de una ejecución.

Las tablas 5.17 y 5.18 resumen, para cada base de datos de prueba, las posiciones

jerárquicas de los algoritmos metaheurísticos (AM): búsqueda aleatoria (BA),

escalador de colinas (EC) y algoritmo genético (AG), en función de la media de los

valores mínimos de la función objetivo (FO) ( ) en las 30

ejecuciones realizadas.

En todas las pruebas de integración de modelos de agrupamiento, la metaheurística

que mejor se comportó en la síntesis, para ambas bases de datos y con independencia

de las cantidades de modelos y patrones locales de entrada, fue al algoritmo genético.

La segunda y tercera posición, igualmente en todos los casos, resultó ser para el

escalador de colinas y la búsqueda aleatoria respectivamente. Se observa, por tanto,

que, las metaheurísticas se comportan de manera similar en las pruebas de

integración de modelos de agrupamiento y en las pruebas realizadas para la

integración de modelos de reglas de asociación. Sin embargo, la media del mínimo de


la función objetivo, en comparación con los resultados de las pruebas de reglas de

asociación, toma valores más altos.

Tabla 5.17. Jerarquía de AM según media de valores mínimos de la FO para la BD Diabetes.




3/60

1 AG 0,1130

2 EC 0,1139

3 BA 0,1143

5/60

1 AG 0,1242

2 EC 0,1254

3 BA 0,1254

7/70

1 AG 0,1255

2 EC 0,1364

3 BA 0,1397

10/60

1 AG 0,1255

2 EC 0,1363

3 BA 0,1397

15/90

1 AG 0,1295

2 EC 0,1394

3 BA 0,1487

20/120

1 AG 0,1302

2 EC 0,1454

3 BA 0,1630

Tabla 5.18. Jerarquía de AM según media de valores mínimos de la FO para la BD Nursery.




3/60

1 AG 0,2139

2 EC 0,2244

3 BA 0,2289

5/60

1 AG 0,2190

2 EC 0,2304

3 BA 0,2340

7/70

1 AG 0,2270

2 EC 0,2504

3 BA 0,3940

10/60

1 AG 0,2280

2 EC 0,2514

3 BA 0,4140

15/90

1 AG 0,2330

2 EC 0,2574

3 BA 0,4440

20/120

1 AG 0,2389

2 EC 0,2634

3 BA 0,4740


En las figuras 5.14 y 5.15 se puede apreciar gráficamente que, en el proceso de

síntesis, para ambas bases de datos, la metaheurística que obtiene el menor valor de

media de la función objetivo en las 30 ejecuciones es el algoritmo genético,

convergiendo al mínimo de la función objetivo desde iteraciones tempranas. En

todas estas gráficas, la escala empleada para el número de iteraciones (eje x) es 1:10

(una iteración de la gráfica representa 10 iteraciones reales).

En las dos primeras pruebas las tres metaheurísticas se comportan de manera similar

para ambas bases de datos. No obstante, se identifica con mayor claridad que es el

algoritmo genético la mejor, a partir de los datos de las tablas 5.17 y 5.18. Se observa

que en las siguientes pruebas, al aumentar la cantidad de modelos/patrones locales a

integrar, los valores de la media de la función objetivo para las tres metaheurísticas se

van distanciando, fundamentalmente los relativos a la búsqueda aleatoria. Cuando

aumenta la cantidad de modelos/patrones locales aumenta, a su vez, el espacio de

soluciones, lo que puede afectar la efectividad de una búsqueda a ciegas como la que

implementa la búsqueda aleatoria.

Por otra parte, se observa que en las pruebas con la base de datos Nursery (figura

5.14), la media de la función objetivo en los tres algoritmos metaheurísticos toma

valores más altos que en las pruebas con la base de datos Diabetes (figura 5.13). Esto

se debe a que los modelos locales a integrar en las pruebas con la base de datos

Diabetes son más similares entre sí (los centros de los clusters son más similares) que

los de la bases de datos Nursery. Esto hace, a su vez, que los resultados con una

búsqueda a ciegas (búsqueda aleatoria) en el caso de esta base de datos sean peores.


Figura 5.13. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Diabetes.



Figura 5.14. Media de la FO en 30 ejecuciones de cada metaheurística, para la BD Nursery.


Las tablas 5.19 y 5.20 resumen, para cada base de datos, las posiciones jerárquicas de

las metaheurísticas, en función de la media del tiempo de ejecución. En estas, se

observa que el algoritmo genético es también la metaheurística más rápida, lo que se

explica al analizar las variables que influyen en la complejidad temporal de la

evaluación de la función objetivo en cada una de las soluciones que se generan, en las

diferentes pruebas, con cada metaheurística. Como se explicó en el apartado anterior,

la complejidad temporal de la evaluación de la función objetivo es , donde

es la cantidad total de patrones de los modelos locales a integrar, es la cantidad de


atributos que describen los patrones locales, y la cantidad de patrones incluidos en

el modelo global integrado correspondiente a la solución candidata que se evalúa. Las

dos primeras variables ( ) se mantienen constantes para cada conjunto de

modelos locales a integrar. Sin embargo, como se muestra en las tablas 5.19 y 5.20, la

media de la cantidad de patrones globales ( ) incluidos en las soluciones candidatas

avaluadas, es menor en el caso del algoritmo genético; tal y como sucede en las

pruebas de integración de modelos de reglas de asociación.

Tabla 5.19. Jerarquía de AM según media del tiempo de ejecución para la BD Diabetes.





3/60

1 AG 0:20:281 30

2 EC 0:53:688 33

3 BA 0:53:919 33

5/60

1 AG 0:26:813 30

2 EC 0:34:203 55

3 BA 0:44:547 58

7/70

1 AG 0:47:931 35

2 EC 1:44:854 57

3 BA 1:54:674 68

10/60

1 AG 0:30:813 29

2 EC 0:39:375 55

3 BA 0:44:547 58

15/90

1 AG 1:05:987 30

2 EC 2:34:654 57

3 BA 3:27:565 83

20/120

1 AG 1:26:813 29

2 EC 3:36:847 69

3 BA 4:19:742 97

La media del tiempo de ejecución de las pruebas realizadas con ambas bases de datos

(tablas 5.19 y 5.20), para la integración de modelos de agrupamiento toma valores

más bajos que en las pruebas de integración de reglas de asociación (5.9 y 5.10). Esto

se explica, fundamentalmente, por el hecho de que, para una misma cantidad de

modelos locales de entrada, el número total de patrones locales a integrar en las

pruebas con modelos de agrupamiento es menor que en las pruebas con modelos de

reglas de asociación.


Tabla 5.20. Jerarquía de AM según media del tiempo de ejecución para la BD Nursery.





3/60

1 AG 0:38:203 50

2 EC 0:78:688 43

3 BA 0:83:919 53

5/60

1 AG 0:36:813 40

2 EC 0:44:203 55

3 BA 0:44:547 58

7/70

1 AG 0:57:931 45

2 EC 1:44:854 57

3 BA 1:54:674 68

10/60

1 AG 0:56:813 49

2 EC 0:39:375 55

3 BA 0:44:547 58

15/90

1 AG 1:35:987 40

2 EC 2:34:654 57

3 BA 3:27:565 83

20/120

1 AG 2:16:813 49

2 EC 3:36:847 69

3 BA 4:27:565 83

Para ambas bases de datos, en todas las pruebas ejecutadas, de manera general la

jerarquía de las tres metaheurísticas (considerando la media de la función objetivo y la

media del tiempo de ejecución) es la misma: el algoritmo genético se comporta mejor

que las dos restantes, luego le sigue el escalador de colinas, mientras que, los peores

resultados se obtienen con la búsqueda aleatoria.

Una vez concluidos los tres procesos definidos en el Modelo Conceptual (codificación,

síntesis y representación), al analizar los modelos globales integrados que resultaron

en las 30 ejecuciones realizadas con el algoritmo genético (para cada conjunto de

modelos locales de agrupamiento a integrar) se identifican los diferentes modelos

globales de agrupamiento obtenidos para cada conjunto de modelos locales. En la

tabla 5.21 se muestra la cantidad de modelos globales integrados diferentes obtenidos

a partir de cada conjunto de modelos locales, para cada base de datos.


Tabla 5.21. Cantidad de modelos globales integrados diferentes, obtenidos para cada base de

datos. Integración de modelos de agrupamiento.

Cantidad de Modelos Globales Integrados

Cantidad de Modelos Locales BD Diabetes BD Nursery

3 3 3

5 3 3

7 4 4

10 3 5

15 4 5

20 5 6

Para validar la factibilidad de la propuesta es preciso analizar la calidad de los diferentes

modelos globales integrados obtenidos para cada conjunto de modelos locales. Para

ello, se compara cada modelo global integrado con el correspondiente modelo

centralizado (aquel que resulta de la aplicación de la minería de datos sobre el

conjunto de datos centralizado). En este caso, dicha comparación se realiza

considerando los siguientes elementos:

1. Cantidad de patrones total de ambos modelos (integrado y centralizado).

2. Porcentaje de patrones comunes respecto al total de patrones del modelo

centralizado.

3. Distancia entre ambos modelos (integrado y centralizado), según la ecuación

de distancia definida en el capítulo 3 (ecuación 3.21).

4. Error relativo en la estimación de las medidas (soporte y confianza) de los

patrones del modelo global integrado que están presentes en el modelo

centralizado correspondiente (patrones comunes).

A partir de cada base de datos (Diabetes y Nursery) se generaron en Weka, mediante el

algoritmo SimpleKMeans los modelos centralizados requeridos para comparar con los

modelos globales integrados obtenidos. Debido a las características propias de los

modelos de agrupamiento, se generan tantos modelos centrales como sea necesario

en función del valor requerido del parámetro K. Es decir, si es preciso comparar, por

ejemplo, con 2 modelos globales integrados de 30 y 40 grupos o clusters cada uno, se

generan 2 modelos centrales de 30 y 40 grupos respectivamente.

Una vez obtenidos los modelos centralizados (MC), se prosigue a analizar la calidad

de los modelos globales integrados (MI). Las tablas 5.22 y 5.23 resumen los valores

promedio de los tres primeros elementos definidos anteriormente, para los diferentes

conjuntos de modelos locales correspondientes a cada base de datos.


Por su parte, la tabla 5.24 muestra el error relativo promedio en la estimación de la

cobertura y de la precisión de los patrones comunes entre los modelos globales

integrados y el centralizado correspondiente, para cada conjunto de modelos locales

de ambas bases de datos.

Tabla 5.22. Métricas de los modelos globales integrados para la base de datos Diabetes.






3/60 30 76,6% 0,1322

5/60 30 73,3% 0,1442

7/70 32 71,8% 0,1371

10/60 29 68,9% 0,1535

15/90 33 69,7% 0,1489

20/120 29 68,9% 0,1377

Media 31 71,5% 0,1423

Tabla 5.23. Métricas de los modelos globales integrados para la base de datos Nursery.






3/60 50 61,4% 0,3442

5/60 40 69,3% 0,3187

7/70 45 68,5% 0,3076

10/60 49 62,7% 0,3437

15/90 40 65,8% 0,3301

20/120 49 63,6% 0,3399

Media 46 65,2% 0,3307


Como se puede observar en las tablas 5.22 y 5.23 la Media de Distancia entre MI y MC

para la base de datos Diabetes y para la base de datos Nursery es de 0,1423 y 0,3307 respectivamente. Estos valores resultan más altos que los correspondientes a las pruebas realizadas con modelos de reglas de asociación. Esto significa que el modelo propuesto ha obtenido modelos globales de mayor calidad en la integración de reglas de asociación que en la integración de clusters. Este resultado se justifica por la propia naturaleza de un tipo de modelo u otro. Los modelos de reglas de asociación, a diferencia de los de agrupamiento, contienen muchos patrones redundantes y similares entre sí: generalmente, en un mismo modelo, unas reglas están contenidas en otras. Por el contrario, en los modelos de agrupamiento, cada patrón (cluster) representa un conjunto de instancias o registros de datos con alta similitud entre sí, y diferentes a las instancias incluidas en otros clusters. Por otra parte, mientras que un patrón tipo regla puede identificarse mediante pocos atributos (al menos dos), un patrón cluster se identifica por su centro o centriode, el que se define especificando valores en todos los atributos del conjunto de datos origen. Esto hace que sea mayor la probabilidad de encontrar patrones iguales en dos modelos locales de reglas de asociación cualesquiera, que en dos modelos locales de agrupamiento.

De la misma forma, debido a la propia naturaleza de ambos tipos de modelos, los

valores de media del error relativo en la estimación de las medidas (cobertura y

precisión) de los patrones comunes (tabla 5.24), son superiores a los obtenidos en las

pruebas de integración de modelos de reglas de asociación. En este caso, los errores

más bajos son los correspondientes a la estimación de la precisión (8,0% y 8,2% de

error relativo para las bases de datos Diabetes y Nursery, respectivamente).

Por otra parte, es importante señalar que lo que en esta experimentación estamos

considerando error en la estimación de las medidas de los clusters globales, realmente

puede no serlo, ya que estamos considerando sólo los patrones comunes entre el

modelo global integrado y el centralizado para comparar sus medidas. Sin embargo,

las medidas de un cluster o grupo (cobertura y precisión) de un determinado modelo,

no dependen sólo de dicho cluster, como sí sucede con las reglas de asociación, sino

que depende de las características de los clusters restantes del modelo. Esto sucede

debido a que en un modelo de clustering cada instancia de los datos origen se agrupa

en el cluster cuyo centroide sea el “más cercano”. Luego, si se tienen dos modelos de

agrupamiento, para un mismo conjunto de datos origen, que poseen un cluster igual

(con igual centroide), la cantidad de instancias que se incluirán en dicho cluster para

cada modelo dependerá de la distribución de los restantes clusters representados en

el modelo.


Tabla 5.24. Error relativo en estimación de medidas de patrones comunes.



Cantidad Modelos Locales

Media del Error Relativo (Cobertura)

Media del Error Relativo (Precisión)

Media del Error Relativo (Cobertura)

Media del Error Relativo (Precisión)

3 0,203 0,081 0,303 0,092

5 0,214 0,078 0,314 0,086

7 0,226 0,083 0,326 0,089

10 0,217 0,079 0,317 0,091

15 0,219 0,080 0,319 0,082

20 0,213 0,079 0,313 0,096

Media 0,215 0,080 0,315 0,089

Haciendo una valoración general de los resultados reflejados en las tablas 5.22-5.24, y

teniendo en cuenta las características propias de los modelos de agrupamiento, se

puede concluir que los modelos globales integrados obtenidos para ambas bases de

datos poseen una buena calidad, más aún si se considera que la obtención de estos se

ha realizado sin acceder a los datos originales. Estos presentan, considerando ambas

bases de datos, como promedio un porcentaje de patrones comunes igual 68,3%, con

una distancia media entre modelos globales integrados y el correspondiente modelo

centralizado de 0,2265, lo que representa una diferencia entre el modelo centralizado

y los modelos globales integrados de un 22,7% aproximadamente. De esta forma se

valida la factibilidad de la propuesta para la integración de modelos de agrupamiento, sin

acceder a los datos originales.

El siguiente paso es analizar la escalabilidad de la propuesta para la integración de

modelos de clustering, a partir de los resultados de los experimentos descritos

anteriormente. Para ello, procedemos de la misma forma que en el análisis de

escalabilidad para reglas de asociación. Es decir, nos basamos en dos elementos

fundamentales: la calidad del modelo global integrado resultante (comparándolo con

el modelo centralizado correspondiente), y el tiempo de ejecución del método, al

aumentar la cantidad de modelos y patrones locales a integrar, para ambas bases de

datos, a partir de los resultados obtenidos con el algoritmo genético. Para analizar la

escalabilidad en cuanto a la calidad de la solución nos centraremos en: porcentaje de

patrones comunes respecto al total de patrones del modelo centralizado, distancia

entre ambos modelos (integrado y centralizado) y error relativo en la estimación de la

cobertura y de la precisión de los patrones comunes. En las figuras 5.15 y 5.16 se

muestran gráficas que ilustran cómo se comportan estos elementos al aumentar la


cantidad de modelos/patrones locales a integrar, correspondientes a cada base de

datos respectivamente.

Figura 5.15. Calidad de los modelos globales integrados de agrupamiento. Análisis de


Como se puede apreciar, para ambas bases de datos (figuras 5.15 y 5.16) a medida

que aumenta la cantidad de modelos y patrones locales la calidad del modelo global

integrado se mantiene estable.

La diferencia entre la media del porcentaje de patrones comunes para la base de

datos Diabetes y para la base de datos Nursery, así como, la diferencia entre la media de

la distancia entre modelos globales integrados y el correspondiente modelo

centralizado, para dichas bases de datos, se debe a que los modelos locales de la base

de datos Nursery son más diferentes entre sí, tienen menos clusters en común.


Figura 5.16. Calidad de los modelos globales integrados de agrupamiento. Análisis de


Por otra parte, en las figuras 5.17 y 5.18 se puede observar que a medida que

aumenta la cantidad de modelos y patrones locales, para ambas bases de datos, el

tiempo de ejecución también aumenta.


Figura 5.17. Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis de

escalabilidad. BD Diabetes.

Figura 5.18. Tiempo de ejecución en la integración de modelos de agrupamiento. Análisis de

escalabilidad. BD Nursery.

Al analizar la tendencia lineal del tiempo de ejecución en función de la cantidad de

patrones locales a integrar (figuras 5.19 y 5.20), se puede apreciar que el índice de

correlación (R2), para ambas bases de datos, es cercano a 1, lo que implica que estas

variables (tiempo de ejecución y cantidad de patrones locales) están directamente

correlacionadas. Tal y como ocurre para los modelos de reglas de asociación, el

tiempo de ejecución aumenta de manera lineal respecto a la cantidad de patrones

locales a integrar.


Figura 5.19. Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).


Figura 5.20. Tendencia del tiempo de ejecución vs cantidad de patrones locales (clusters).


5.3. Conclusiones

Los experimentos realizados permiten demostrar la hipótesis planteada en esta

investigación, dando cumplimiento a los objetivos específicos enunciados al inicio del

presente capítulo.

Se validó el carácter general de la propuesta, demostrando la aplicabilidad y

factibilidad del modelo para la integración, tanto de modelos locales de

agrupamiento, como de modelos locales de reglas de asociación. En las pruebas

realizadas los mejores resultados se obtuvieron en la integración de modelos de reglas


de asociación, obteniéndose una media de un 92,6% de patrones comunes entre los

modelos globales integrados y el correspondiente modelo centralizado.

Se validó la flexibilidad del modelo propuesto en su fase de síntesis, aplicando

diferentes metaheurísticas para obtener el modelo global integrado. De las

metaheurísticas utilizadas en la experimentación (búsqueda aleatoria, escalador de

colinas y algoritmo genético), el algoritmo genético fue la que mejor se comportó en

todos los casos, en cuanto a calidad del modelo global integrado y a tiempo de

ejecución.

Se analizó la escalabilidad de la propuesta, a partir de los resultados de las pruebas

realizadas. Se observó que en todos los casos, a medida que aumenta la cantidad de

modelos y patrones locales la calidad del modelo global integrado se mantiene

estable. Por otra parte, el tiempo de ejecución aumenta de manera lineal respecto a la

cantidad de patrones locales a integrar.

137

CAPÍTULO 6

6 CONCLUSIONES

En la presente tesis se ha realizado un estudio detallado, dentro del ámbito de la

minería de datos, centrado en la extracción de conocimiento global oculto en

múltiples bases de datos. La revisión realizada muestra el interés social y científico de

esta temática. Prueba de ello es el notable incremento del número de conferencias

de IEEE que abordan diferentes aristas de la minería de datos. Los trabajos más

recientes analizados demuestran la existencia aún de problemas abiertos y de interés.

De estos nos centramos en la obtención de conocimiento global a partir de

conocimiento local y huérfano, es decir, conjuntos de patrones locales descubiertos,

mediante minería de datos, en múltiples fuentes de datos desconocidas o a las que

no es posible acceder.

El principal resultado de este trabajo ha sido la creación de un modelo general que

facilita la integración de conocimiento expresado como conjuntos de patrones

procedentes de múltiples bases de datos a las que, por cualquier motivo, no es

posible acceder. El carácter general del modelo, a diferencia de propuestas

anteriores, hace posible que pueda ser utilizado para la integración tanto de modelos

de reglas de asociación, como de modelos de agrupamiento o clustering.

La formalización del modelo general propuesto se realiza mediante un modelo

conceptual que constituye la vista de los procesos y las tareas principales

identificadas como parte de estos. Junto a este modelo conceptual se presenta

también una propuesta de implementación funcional basada en el paradigma de

agentes.

Se ha diseñado e implementado una serie de experimentos para los que se han

creado conjuntos de modelos locales (tanto de reglas de asociación como de


clusters) a partir de dos bases de datos; los experimentos han permitido validar la

integración de los modelos locales siguiendo el modelo conceptual propuesto.

Los siguientes apartados abordan las principales aportaciones de la investigación, los

problemas abiertos y las líneas posibles de trabajo futuro, así como, las publicaciones

que han permitido divulgar y validar los resultados obtenidos durante la

investigación.

6.1. Aportaciones

El desarrollo de esta investigación ha generado aportaciones relevantes que se

resumen a continuación:

Un modelo conceptual que proporciona una solución de carácter genérico a

la integración de conocimiento expresado como conjuntos de patrones

procedentes de múltiples bases de datos. Este supone las siguientes

novedades:

Independencia del tamaño de los conjuntos de datos que dieron origen a

los modelos locales/parciales a integrar.

Reducción de la información procedente de los datos originales necesaria

para el proceso de integración.

Una codificación homogénea de modelos y patrones de minería de datos que

contribuye a la generalidad de la propuesta.

Un método de síntesis de patrones locales que se formaliza como un

problema de optimización mediante la definición de una función objetivo

que evalúa la calidad de las soluciones exploradas. Esta formalización es

flexible en su concepción, permitiendo aplicar diferentes metaheurísticas en

la búsqueda de la mejor solución (conjunto de patrones globales).

Un método de estimación de medidas de calidad de los patrones globales,

que se basa en la selección de un conjunto de patrones locales semejantes al

patrón global correspondiente, y la aplicación de operadores a partir de las

medidas de los patrones locales seleccionados.

Una propuesta de modelo funcional soportado en el modelo conceptual

definido, basado en el paradigma de agentes; este paradigma introduce de

forma inherente características de distribución y flexibilidad deseadas, que

pueden resultar muy útiles en aplicaciones de minería de datos.

Capítulo 6. Conclusiones 139

6.2. Problemas Abiertos

Tras esta investigación se identifican un conjunto de problemas abiertos que perfilan

el camino hacia el desarrollo de posibles trabajos científicos y líneas futuras de

investigación, de interés en el ámbito del descubrimiento de conocimiento en bases

de datos.

Entre los principales problemas abiertos, directamente relacionados con el modelo

propuesto, se tienen los siguientes:

Dotar al modelo de la capacidad de adaptarse dinámicamente a distintos

requerimientos y autoconfigurarse.

Extender el modelo propuesto para la integración de nuevos tipos de patrones

de minería de datos, o patrones que describan nuevos tipos de datos.

Optimizar la fase de síntesis del modelo propuesto, valorando nuevas

codificaciones de los modelos locales y de las soluciones que se evalúan.

Desarrollar nuevas estrategias de estimación de las medidas de calidad de los

patrones globales del modelo integrado, con el objetivo de disminuir el error de

la estimación.

Por otra parte, entre los principales problemas abiertos, derivados de la investigación

realizada, se han identificado los siguientes:

Desarrollar nuevas estrategias paralelas y distribuidas de minería de datos, a

partir del enfoque de síntesis de modelos locales/parciales propuesto en esta

tesis.

Generar datos ficticios a partir de un conjunto de modelos locales a integrar, y

aplicar posteriormente técnicas de minería de datos tradicionales

(procesamiento centralizado).

Definir métricas de distancia entre distintos tipos de modelos de minería de

datos.

Obtener patrones globales a partir de patrones de conocimiento distribuido en

modelos locales/parciales de minería de datos descubiertos en conjuntos de

datos altamente heterogéneos entre sí.


6.3. Divulgación de Resultados

Como parte del desarrollo de esta investigación se han presentado diversas

publicaciones a congresos y revistas que han permitido tanto divulgar como validar

los resultados obtenidos:

I. Wilford Rivera, D. Ruiz Fernández, A. Rosete Suarez, O. Marín Alonso, “Integrating Data ining odels from Distributed Data ources”. Distributed Computing and Artificial Intelligence: 7th International Symposium (DCAI), 2010, Advances in Intelligence and Soft Computing, 79, Editor-in-chief: J. Kacprzyk, Springer-Verlag, ISSN 1867-5662, pp 389-396. (Indexed by: SCOPUS, ISI Proceedings)

I. Wilford Rivera, D. Ruiz Fernández, A. Rosete Suarez, “Modelo de integración de conocimiento descubierto mediante técnicas de minería de datos”, Desarrollo de Grandes Aplicaciones de Red, VII Jornadas (JDARE 2010), Alicante, España, octubre 14-15, 2010. Actas. Eds Maciá, F et al, ISSN: 1889-7819, ISBN: 978-84-613-4894-7, pp 275-286.

D. Martín Rodríguez, D. Morales Vega, I. Wilford Rivera, I. Torres Pérez, A. osete uárez, D. uiz Fernández, “Aplicación de algoritmos metaheurísticos en la integración de modelos de minería de datos”, Desarrollo de Grandes Aplicaciones de Red, VII Jornadas (JDARE 2010), Alicante, España, octubre 14-15, 2010. Actas. Eds Maciá, F et al, ISSN: 1889-7819, ISBN: 978-84-613-4894-7, pp 213-224.

I. Wilford Rivera, A. Rosete Suarez, D. Ruiz Fernández, “Modelo Conceptual para la Integración de patrones de minería de datos”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.

D. Morales Vega, I. Wilford Rivera, A. Rosete Suarez, “Integración de modelos de agrupamiento obtenidos de múltiples fuentes de datos”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.

D. Martín Rodríguez, I. Wilford Rivera, A. Rosete Suarez, “Algoritmos Paralelos para la Extracción de Reglas de Asociación”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.

I. Torres Pérez, I. Wilford Rivera, A. Rosete Suarez, “Multiclasificadores: Un Paradigma dentro del Aprendizaje Automático”, V Taller de Inteligencia Artificial, UCIENCIA 2010, 4-6 febrero 2010, ISBN: 978-959-286-011-7.

I. Wilford Rivera, D. Ruiz Fernández, A. Rosete Suarez, D. Morales Vega, I. orres Pérez, D. artín odríguez. “ étodo para la Integración de odelos resultantes de la aplicación de Técnicas de Minería de Datos”. Desarrollo de

Capítulo 6. Conclusiones 141

Grandes Aplicaciones de Red, VI Jornadas (JDARE 2009), Alicante, España, octubre 15-16, 2009, Actas. Eds Maciá, F et al, ISSN: 1889-7819, ISBN: 978-84-613-4894-7, pp 367-380.

I. Wilford Rivera, A. Rosete Suarez, A. Rodríguez Díaz. “Aplicación de la Minería de Datos para el análisis de información clínica. Estudio Experimental en cardiopatías isquémicas”, Revista Cubana de Informática Médica (RCIM), No. 1, Año 9, ISSN: 1684-1859, 2009. (Certificada por el CITMA)

I. Wilford Rivera, A. osete uarez, A. odríguez Díaz. “Análisis de Información Clínica mediante técnicas de Minería de Datos”, RevistaeSalud.com, Vol. 5, No. 20, Editada por: FeSalud, ISSN: 1698-7969, 2009.

I. Wilford ivera, A. osete uarez, D. uiz Fernández. “Descubrimiento de conocimiento, a partir de múltiples conjuntos de datos, mediante la integración de modelos de minería de datos”. egundo aller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Ciudad de Panamá, Panamá, 4-7 noviembre 2009, ISBN 978-959-261-304-1.

D. artin odríguez, I. Wilford ivera, A. osete uarez. “Estado del arte: algoritmos paralelos de reglas de asociación”. egundo aller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Ciudad de Panamá, Panamá, 4-7 noviembre 2009, ISBN 978-959-261-304-1.

D. orales Vega, I. Wilford ivera, A. osete uarez. “Algoritmos de agrupamiento para el análisis de múltiples fuentes de datos. Estado del arte.” Segundo Taller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Ciudad de Panamá, Panamá, 4-7 noviembre 2009, ISBN 978-959-261-304-1.

I. Wilford Rivera, A. Rosete Suárez, D. Ruiz Fernández, D. Martin odríguez, D. orales Vega, I. orres Perez, “Propuesta de método para la integración de modelos de minería de datos”, COMPUMAT 2009, La Habana, Cuba, 18-20 noviembre 2009, ISSN: 1728-6042.

D. Martin Rodríguez, I. Torres Perez, I. Wilford Rivera, D. Morales Vega, A. osete uarez, “Aplicación de la minería de datos para el estudio de procedimientos de hemodinámica”, COMPUMAT 2009, La Habana, Cuba, 18-20 noviembre 2009, ISSN: 1728-6042.

I. Wilford ivera, D. uiz Fernández, A. osete uarez. “ inería de datos para el estudio de las coronariografías realizadas a pacientes con cardiopatía isquémica”, XXVI Congreso Anual de la ociedad Española de Ingeniería


Biomédica (CASEIB), Valladolid, España, 2008. Actas. ISBN: 978–84–691–3640–9, p. 427-430.

I. Wilford Rivera, A. Rosete Suarez, F.O. Fernández Peña, D. Ruiz Fernández. “Arquitectura para minería de datos distribuida basada en la semántica de la intención de los mensajes”, Desarrollo de Grandes Aplicaciones de Red, V Jornadas (JDARE 2008), Alicante, España, octubre 16-17, 2008, Actas. Eds Maciá, F et al, ISBN-13: 978-84-612-6812-2, pp. 259-268.

I. Wilford Rivera, A. Rosete uarez, D. uiz Fernández. “Estado del Arte sobre Minería de Datos Distribuida”, V Simposio Internacional de Ingeniería Industrial, Informática y Afines, III Taller de Informática Aplicada, XIV Convención Científica de Ingeniería y Arquitectura (CCIA), CUJAE, Cuba, 2008, ISBN: 978-959-261-281-5.

I. Wilford Rivera, A. Rosete uarez, D. uiz Fernández. “Aplicación de la minería de datos en la informática médica. Estudio de las coronariografías”, V Simposio Internacional de Ingeniería Industrial, Informática y Afines, III Taller de Informática Aplicada, XIV Convención Científica de Ingeniería y Arquitectura (CCIA), CUJAE, Cuba, 2008, ISBN: 978-959-261-281-5.

I. Wilford Rivera, A. Rosete Suarez, A. Rodríguez Díaz. “Aplicación de Técnicas de Minería de Datos para el Análisis de Información Clínica”, II Congreso Internacional de Ingeniería Biomédica, XIV Convención Científica de Ingeniería y Arquitectura (CCIA), CUJAE, Cuba, 2008, ISBN: 978-959-261-281-5.

I. Wilford Rivera, A. Rosete Suarez, F.O. Fernández Peña. “Consideraciones generales de una propuesta de arquitectura de software para minería de datos distribuida”, Primer taller internacional de descubrimiento de conocimiento, gestión del conocimiento y toma de decisiones, XIV Congreso Latino Ibero Americano de Investigación de Operaciones, (Eds. J. Amador, C. Paternina, J. Velázquez), CLAIO 9-12 Septiembre 2008, Cartagena de Indias, Colombia, ISBN: 978-958-825283-4, p. 108.

I. Wilford Rivera, A. Rosete Suárez, D. Ruiz Fernández, A. Rodríguez Díaz. “ inería de Datos Distribuida. Análisis de fuentes de datos homogéneas”, IV Taller de Inteligencia Artificial, UCIENCIA 2008, octubre 2008, ISBN: 978-959-286-007-0.

143

REFERENCIAS BIBLIOGRÁFICAS

[Adhikari & Rao, 2007]

Adhikari, A., Rao, P. R.: Enhancing quality of knowledge synthesized from multi-database mining. Pattern Recognition Letters. vol. 28, no. pp. 2312–2324 (2007)

[Adhikari & Rao, 2008]

Adhikari, A., Rao, P. R.: Synthesizing heavy association rules from different real data sources. Pattern Recognition Letters. vol. 29, no. pp. 59-71 (2008)

[Adhikari et al., 2010]

Adhikari, A., Ramachandrarao, P., Prasad, B., Adhikari, J.: Mining Multiple Large Data Sources. The International Arab Journal of Information Technology. vol. 7, no. 3, pp. 241-249 (2010)

[Aggarwal et al., 2005]

Aggarwal, C. C., Han, J., Wang, J., Yu, P. S. (2005). "On High Dimensional Projected Clustering of Data Streams." In Data Mining and Knowledge Discovery: Springer Science + Business Media, Inc.

[Agrawal & Srikant, 1994]

Agrawal, R., Srikant, R. (1994). "Fast Algorithms for Mining Association Rules." roc. of the 20th Int’l Conference on Very Large Databases Santiago, Chile.

[Agrawal & Shafer, 1996]

Agrawal, R., Shafer, J. C.: Parallel mining of association rules. IEEE Transactions on Knowledge and Data Engineering. vol. 8, no. 6, pp. 962-969 (1996)

[Amado et al., 2001]

Amado, N., Gama, J., Silva, F. (2001). "Parallel Formulations of Decision-Tree Classification Algorithms." In LNAI: 2258: Springer-Verlag Berlin Heidelberg.


[Andreopoulos et al., 2009]

Andreopoulos, B., An, A., Wang, X., Labudde, D.: Efficient layered density-based clustering of categorical data. Journal of Biomedical Informatics. vol. 42, no. 2, pp. 365-376 (2009)

[Aronis et al., 1997]

Aronis, J. M., Kolluri, V., Provost, F. J., Buchanan, B. G. (1997). "The WoRLD: Knowledge discovery from multiple distributed databases." 10th international Florida Arti Intelligence Research Symposium (FLAIRS-97) Florida, pp. 337–341.

[BakIrlI et al., 2010]

BakIrlI, G., Birant, D., Kut, A.: An incremental genetic algorithm for classification and sensitivity analysis of its parameters. Expert Systems with Applications. vol. 41 In Press, Corrected Proof, no. 3 pp. 12-27 (2010)

[Bauer & Odell, 2005]

Bauer, B., Odell, J.: UML 2.0 and agents: how to build agent-based systems with the new UML standard. Journal of Engineering Applications of Artificial Intelligence. vol. 18, no. 2, pp. 141-157 (2005)

[Ben & Tom, 2010]

Ben, Y., Tom, E.: A Streaming Parallel Decision Tree Algorithm. Journal of Machine Learning Research. vol. 11, no. 1 pp. 849-872 (2010)

[Berman, 2001]

Berman, F.: From teragrid to knowledge grid. Commun. ACM. vol. 44, no. 11, pp. 27-28 (2001)

[Berry & Linoff, 2000a]

Berry, M., Linoff, G.: Mastering Data Mining, The Art and Science of Customer Relationship Management. John Wiley & Sons, Inc. (2000a)

[Berry & Linoff, 2000b]

Berry, M., Linoff, S.: Mastering Data Mining. John Wiley & Sons. Inc (2000b)

[Berry & Linoff, 2004]

Berry, M., Linoff, G.: Data Mining Techniques for Marketing Sales, and Customer Relationship Management. Wiley Pub., Inc. (2004)

[Berry, 2004]

Berry, M. W.: Survey of text mining: clustering, classification, and retrieval. Springer-Verlag, New York (2004)

[Cannataro et al., 2004]

Cannataro, M., Congiusta, A., Pugliese, A., Talia, D., Trunfio, P.: Distributed Data Mining on Grids: Services, Tools, and Applications. IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics. vol. 34, no. 6, pp. 34-45 (2004)

Referencias Bibliográficas 145

[Cios et al., 2007]

Cios, K. J., Pedrycz, W., Swiniarsky, R. W., Kurgan, L. A.: Data Mining. A Knowledge Discovery Approach. Springer Science Business Media, LLC, New York, USA (2007)

[Chattratichat et al., 1999]

Chattratichat, J., Darlington, J., Guo, Y., Hedvall, S., Koler, M., Syed, J. (1999). "An architecture for distributed enterprise data mining." Proceedings of the 7th International Conference on High-Performance Computing and Networking. Lecture Notes In Computer Science 1593, pp. 573-582.

[Chen et al., 2010]

Chen, M., Gao, X., Li, H. (2010). "Parallel DBSCAN with Priority R-tree." Information Management and Engineering (ICIME), The 2nd IEEE International Conference on, pp. 508-511.

[Darlington et al., 1997]

Darlington, J., Guo, Y., Sutiwaraphun, J., Wing, H. (1997). "Parallel Induction Algorithms for Data MIning." In Advances in Intelligent Data Analysis Reasoning about Data, Second International Symposium, IDA-97. pp. 437-445.

[DataMiningGrid, 2007]

DataMiningGrid. (2007). DataMiningGrid Proyect, www.datamininggrid.org. [21 Diciembre 2007]

[DMG, 2010]

DMG. (2010). Predictive Model Markup Language (PMML). Data Mining Group, http://www.dmg.org.htm.

[Dubitzky, 2008]

Dubitzky, W.: Data mining techniques in grid computing environments. Wiley-Blackwell (2008)

[Eriksson & Penker, 1999]

Eriksson, H., Penker, M.: Business Modeling with UML: Business Patterns at work. Wiley & Sons (1999)

[Fajardo, 2009]

Fajardo, J. (2009). "Algoritmo Multigenerador de soluciones para la competencia y colaboración de generadores metaheurísticos." Tesis de Maestría en Informática Aplicada, CUJAE, C. Habana, Cuba.

[Fajardo et al., 2009]

Fajardo, J., Paredes, D., Rosete, A., Espín, R. A. (2009). "Modelo de Integración de los Algoritmos Metaheurísticos." Segundo Taller de Descubrimiento de Conocimiento, Gestión del Conocimiento y Toma de Decisiones, Hotel Royal Decamerón Playa Blanca, Ciudad de Panamá, Panamá, 4-7 de noviembre.

http://www.datamininggrid.org/

http://www.dmg.org.htm/


[Fayyad et al., 1996a]

Fayyad, U., Piatetsky-Shapiro, G., Smyth, P.: The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM. vol. 39, no. 11, pp. 27-34 (1996a)

[Fayyad et al., 1996b]

Fayyad, U. M., Haussler, D., Stolorz, Z. (1996b). "KDD for Science Data Analysis: Issues and Examples." Second International Conference on Knowledge Discovery and Data Mining (KDD-96) Menlo Park, Calif. pp. 50-56.

[Fayyad & Uthurusamy, 1996]

Fayyad, U. M., Uthurusamy, R.: Data Mining and Knowledge Discovery in databases Comm. of ACM. vol. 39, no. 11, pp. 24-26 (1996)

[Fielitz & Scott, 2003]

Fielitz, L., Scott, D.: Prediction of physical performance using data mining. Research Quarterly for Exercise and Sport. vol. 74, no. 1, pp. 24-26 (2003)

[FIPA, 2002a]

FIPA. (2002a). FIPA Contract Net Interaction Protocol Specification, http://www.fipa.org/specs/fipa00029. [Octubre 2010]

[FIPA, 2002b]

FIPA. (2002b). FIPA Request Interaction Protocol Specification, [Octubre 2010]

[FIPA, 2002c]

FIPA. (2002c). FIPA Propose Interaction Protocol Specification. Foundation for Intelligent Physical Agents, http://www.fipa.org/specs/fipa00036. [Septiembre 2010]

[Frank & Asuncion, 2010]

Frank, A., Asuncion, A. (2010). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science, http://archive.ics.uci.edu/ml. [Septiembre 2010]

[Friedman, 2003]

Friedman, N. (2003). "PCluster: Probabilistic Agglomerative Clustering of Gene Expression Profiles." In Technical. Report Technical Report 80: Hebrew University.

[Garg & Mishra, 2010]

Garg, R., Mishra, P. K.: Parallel Association Rule Mining on Heterogeneous System. International Journal of Computer Applications. vol. 1, no. 14, pp. 81-85 (2010)

http://www.fipa.org/specs/fipa00029

http://www.fipa.org/specs/fipa00036

http://archive.ics.uci.edu/ml


[Gionis et al., 2005]

Gionis, A., Mannila, H., Tsaparas, P. (2005). "Clustering aggregation." ICDE pp. 341-352.

[Giudici & Figini, 2009]

Giudici, P., Figini, S.: Applied Data Mining for Business and Industry. John Wiley and Sons Ltd (2009)

[Goil et al., 1999]

Goil, S., Nagesh, H., Choudhary, A. (1999). "MAFIA: Efficient and Scalable Subspace Clustering for Very Large Data Sets." In Center for Paralel and Distributed Computing: Technical Report No. CPDC-TR-906-0.

[Goldberg & Horn, 1999]

Goldberg, D. E., Horn, J.: Genetic Algorithm Difficulty and the Modality of Fitness Landscapes. Illinois Genetic Algorithms Laboratory (1999)

[Grossman et al., 2001]

Grossman, R., Kamath, C., Kegelmeyer, P., Kumar, V., Namburu, R.: Data Mining for Scientific and Engineering Applications. Kluwer Academic Publishers (2001)

[Grossman et al., 2002]

Grossman, R., Hornick, M., Meyer, G.: Data Mining Standards Initiatives. Commun. ACM. vol. 45, no. 8, pp. 59-61 (2002)

[Grossman, 2006]

Grossman, R.: KDD Workshop on Data Mining Standards, Services & Platforms (DM-SSP). ACM SIGKDD Explorations. vol. 8, no. 2, pp. 82-83 (2006)

[Guazzelli et al., 2009]

Guazzelli, A., Zeller, M., Chen, W., Williams, G.: PMML: An Open Standard for Sharing Models. The R Journal. vol. 1, no. 1, pp. 60-65 (2009)

[Guazzelli et al., 2010]

Guazzelli, A., Lin, W., Jena, T.: PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics. Prentice Hall (2010)

[Guo & Grossman, 1999]

Guo, Y., Grossman, R. (1999). "High Performance Data Mining. Scaling Algorithms, Applications and Systems." Data Mining and Knowledge Discovery New York pp. 235-339.

[Guo, 2002]

Guo, Y. (2002). Discovery Net, www.lesc.ic.ac.uk/projects/dnet.html. [ Diciembre 2007]

http://www.lesc.ic.ac.uk/projects/dnet.html


[Han et al., 2000]

Han, E., Karypis, G., Kumar, V.: Scalable parallel data mining for association rules. IEEE Trans. on Knowledge and Data Engineering. vol. 12, no. 3, pp. 337-352, (2000)

[Han & Kamber, 2006]

Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann, Oxford, UK (2006)

[He et al., 2010]

He, D., Wu, X., Zhu, X.: Rule Synthesizing from Multiple Related Databases. Advances in Knowledge Discovery and Data Mining, Lecture Notes in Computer Science, Springer Berlin / Heidelberg. vol. 6119, no. 3 pp. 201-213 (2010)

[Hernández et al., 2004]

Hernández, J., Ramírez, M., Ferri, C.: Introducción a la Minería de Datos. Prentice Hall, Madrid (2004)

[Holmes et al., 1994]

Holmes, G., Donkin, A., Witten, I. H. (1994). "Weka: A machine learning workbench " Second Australia and New Zealand Conference on Intelligent Information Systems Brisbane, Australia.

[Hore et al., 2009]

Hore, P., Hall, L., Goldgof, D. B.: A scalable framework for cluster ensembles. Pattern Recognition. vol. 42, no. 1 pp. 676-678 (2009)

[Hudgins-Bonafield, 1997]

Hudgins-Bonafield, C.: Data mining software scores high with the NBA. Network Computing. vol. 8, no. 11, pp. 36-47 (1997)

[IEEE, 2010]

IEEE. (2010). "IEEE Conferences & Events, http://www.ieee.org."

[Inmon, 2002]

Inmon, W. H.: Building the Data Warehouse, Third Edition. John Wiley & Sons, Inc., New York (2002)

[Inmon, 2005]

Inmon, W. H.: Building the Data Warehouse, Fourth Edition. Wiley Publishing, Inc., Indianapolis (2005)

[ISO, 2000]

ISO. (2000). Guidance on the Process Approach to Quality Management. ISO, www.iso.ch/iso/en/iso9000/200rev9.html. [Noviembre 2009]

http://www.ieee.org./

http://www.iso.ch/iso/en/iso9000/200rev9.html


[Jensen & Soparkar, 2000]

Jensen, V. C., Soparkar, N. (2000). "Frequent Itemset Counting Across Multiple Tables." PAKDD Berlin: Springer-Verlag.

[Jeston & Neils, 2006]

Jeston, J., Neils, J.: Business Process Management. Practical guide to successful implementations. Elsevier (2006)

[Joshi et al., 1998]

Joshi, M., Karypis, G., Kumar, V. (1998). "ScalParC: A scalable and parallel classification algorithm for mining large datasets." Parallel Processing Symposium.

[Kargupta et al., 1999]

Kargupta, H., Hamzaoglu, I., Stafford, B. (1999). "Scalable, distributed data mining using an agent based architecture " In Proceedings the Third International Conference on the Knowledge Discovery and Data Mining. California, USA: AAAI Press.

[Kargupta & Park, 2003]

Kargupta, H., Park, B. (2003). "Distributed Data Mining: Algorithms, Systems, and Applications." In The Handbook of Data Mining: Lawrence Erlbaum Associates.

[Kargupta et al., 2009]

Kargupta, H., Han, J., Yu, P. S., Motwani, R., Kumar, V.: Next Generation of Data Mining. Chapman &Hall/CRC Taylor & Francis Group, LLC (2009)

[Kimball & Ross, 2002]

Kimball, R., Ross, M.: The Data Warehouse Toolkit, Second Edition, The Complete Guide to Dimensional Modeling. John Wiley & Sons, Inc., New York (2002)

[Kirkosa et al., 2007]

Kirkosa, E., Spathisb, C., Manolopoulosc, Y.: Data Mining techniques for the detection of fraudulent financial statements. Expert Systems with Applications. vol. 32, no. 4, pp. 995-1003 (2007)

[Korf, 1990]

Korf, R. E. (1990). "Search." In Encyclopedia of Artificial Intelligence, ed. S.C. Shapiro: Wiley Inter-science.

[Krishnaswamy et al., 2001]

Krishnaswamy, S., Zaslavsky, A., Loke, S. W. (2001). "Federated data mining services and a supporting XML-based language." In Proceedings of the 34th Annual Hawaii International Conference on System Sciences, 2001. Hawaii IEEE.


[Kumar et al., 2009]

Kumar, P., Saroj, Siddavatam, R. (2009). "Classification Models: Non Evolutionary vs. Evolutionary Approach." Advances in Computing, Control, & Telecommunication Technologies, 2009. ACT '09. International Conference on pp. 341-343.

[Labrou & Finin, 1998]

Labrou, Y., Finin, T. (1998). "Semantics and Conversions for an Agent Communication Language." In Reading in Agents, ed. Huhns M & Singh M: Morgan Kaufmann, pp. 235-242.

[Lange & Buhmann, 2005]

Lange, T., Buhmann, J. M. (2005). "Combining partitions by probabilistics label aggregation." 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining pp. 147-156.

[Li et al., 2006]

Li, J., Liu, Y., Liao, W.-k., Choudhary, A.: Parallel Data Mining Algorithms for Association Rules and Clustering. (2006)

[Lindsay et al., 2003]

Lindsay, A., Downs, D., Lunn, K.: Business processes-attempts to find a definition. Information and Software Technology. vol. 45, no. 1, pp. 1015-1019 (2003)

[Little, 2009]

Little, B.: Data Mining: Method, Theory and Practice. WIT Press (2009)

[Long et al., 2005]

Long, B., Zhang, Z. M., Yu, P. S. (2005). "Combining multiple clusterings by soft correspondence." ICDM pp. 282-289.

[Lorenzo, 2009]

Lorenzo, I.: Modelo de Detección de Intrusos mediante Reducción de Características. Solución al Dilema Capacidad-Eficiencia. Departamento de Tecnología Informática y Computación, Universidad de Alicante, Alicante, Tesis Doctoral (2009)

[Lorenzo et al., 2009]

Lorenzo, I., Maciá, F., Mora, F. J., Marcos, D., Gil, J. A., Lau, R. (2009). "Marco Formal para el Modelado de un Sistema de Detección de Intrusos de Red." JDARE 2009 Alicante, España, pp. 15-37.

[Maciá, 2001]

Maciá, F.: Modelos de administración de redes heterogéneas de computadores. Sistema de regeneración de nodos de red. Departamento de Tecnología Informática y Computación, Universidad de Alicante, Alicante, Tesis Doctoral (2001)


[Maciá & García, 2006]

Maciá, F., García, J.: Mobile Agent System Framework Suitable for Scalable Networks. Kybernetes. The International Journal of Systems and Cybernetics. vol. 35, no. 5, pp. 688–699 (2006)

[Mehta et al., 1996]

Mehta, M., Agrawal, R., Rissanen, J. (1996). "SLIQ: A fast scalable classifier for data mining." Fifth Intl Conference on Extending Database Technology (EDBT) Avignon, France.

[Mehta, 2006]

Mehta, M., Agrawal, R., Rissanen, J.: SLIQ: A Fast Scalable Classifier for Data Mining. Advances in Database Technology. vol. 1057, no. 2 pp. 18-32 (2006)

[Miller & Han, 2009]

Miller, H. J., Han, J.: Geographic Data Mining and Knowledge Discovery. Chapman &Hall/CRC Taylor & Francis Group, LLC (2009)

[Mohammadian, 2004 ]

Mohammadian, M.: Intelligent Agents for Data Mining and Information Retrieval. Idea Group Publishing, Hershey (2004 )

[Mueller, 1995]

Mueller, A.: Fast sequential and parallel algorithms for association rule mining: A comparison. Technical Report CS-TR-3515, University of Maryland, College Park (1995)

[Nong, 2003]

Nong, Y.: The Handbook of Data Mining. Lawrence Erlbaum Associates, Inc., New Jersey (2003)

[Palma & Marín, 2008]

Palma, J. T., Marín, R.: Inteligencia Artificial: métodos, técnicas y aplicaciones. McGraw-Hill (2008)

[Park & Kargupta, 2003]

Park, B., Kargupta, H. (2003). "Distributed Data Mining." In The Handbook of Data Mining, ed. Ye. Nong. New Jersey: Lawrence Erlbaum Associates, Inc.

[Park et al., 1995]

Park, J. S., Chen, M., Yu, P. S. (1995). "Efficient parallel data mining for association rules." ACM Intl. Conf. Information and Knowledge Management.

[Parthasarathy & Subramonian, 2000]

Parthasarathy, S., Subramonian, R.: Facilitating data mining on a network of workstations. Advances in distributed and parallel knowledge discovery. vol. 11 no. 1 pp. 233-258 (2000)


[Paul & Saravanan, 2008]

Paul, S., Saravanan, V.: Knowledge integration in a parallel and distributed environment with association rule mining using XML data. International Journal of Computer Science and Network Security (IJCSNS). vol. 8, no. 5, pp. 334-339 (2008)

[Pechter, 2009]

Pechter, R.: What's PMML and What's New in PMML 4.0? The ACM SIGKDD Explorations Newsletter. vol. 11, no. 1, pp. 19-25 (2009)

[Pizzuti & Talia, 2003]

Pizzuti, C., Talia, D.: P-AutoClass: Scalable Parallel Clustering for Mining Large Data Sets. IEEE Computer Society. vol. 15, no. 3, pp. 629-641 (2003)

[Prakash & Parvathi, 2010]

Prakash, S., Parvathi, R. M. S.: An Enhanced Scaling Apriori for Association Rule Mining Efficiency. European Journal of Scientific Research. vol. 39, no. 2, pp. 257-264 (2010)

[Qian & Suen, 2000]

Qian, Y., Suen, C. (2000). "Clustering combination method." International Conference on Pattern Recognition (ICPR 2000) Barcelona, Spain, pp. 732-735.

[Quan et al., 2009]

Quan, T. T., Ngo, L. N., Siu Cheung, H. (2009). "An Effective Clustering-based Approach for Conceptual Association Rules Mining." Computing and Communication Technologies, 2009. RIVF '09. International Conference on pp. 1-7.

[Richardson et al., 2007]

Richardson, W. C., Avondolio, D., Schrager, S., Mitchell, M. W., Scanlon, J.: Professional Java, JDK 6 Edition. Wiley Publishing, Indianapolis (2007)

[Rosete, 2000]

Rosete, A. (2000). "Una solución flexible y eficiente para el trazado de grafos basada en el Escalador de Colinas Estocástico." ISPJAE, La Habana

[Rosete et al., 2008]

Rosete, A., Fajardo, J., Paredes, D., Bardají, Y.: Hacia un modelo integrado de los algoritmos metaheurísticos. 14 Convención Científica de Ingeniería y Arquitectura. (2008)

[Rumbaugh et al., 2007]

Rumbaugh, J., Jacobson, I., Booch, G.: El Lenguaje Unificado de Modelado. Manual de Referencia. Segunda Edición. Pearson, Addison Wesley (2007)


[Sánchez et al., 1999]

Sánchez, G., Ruiz, J., Díaz, J.: GLC: Un Nuevo Algoritmo de Agrupamiento para Grandes Conjuntos de Datos Mezclados. Technical Report, Serie Roja, CIC-IPN, México,. vol. 56, no. 7 pp. 67-78 (1999)

[Shafer et al., 1996]

Shafer, J., Agrawal, R., Mehta, M. (1996). "Sprint: A scalable parallel classier for data mining." 22nd VLDB.

[Sierra, 2006]

Sierra, B.: Aprendizaje Automático: conceptos básicos y avanzados. Prentice Hall, Madrid, España (2006)

[Smith & Fingar, 2002]

Smith, H., Fingar, P.: Business Process Management. The Third Wave. Meghan-Kiffer (2002)

[Stankovski et al., 2008a]

Stankovski, V., Swain, M., Kravtsov, V., Niessen, T., Wegener, D., Kindermann, J., Dubitzky, W.: The DataMiningGrid system is described in detail in the paper Grid-enabling data mining applications with DataMiningGrid: An architectural perspective of the authors. Future Generation Computer Systems. vol. 24, no. 4, pp. 259-279 (2008a)

[Stankovski et al., 2008b]

Stankovski, V., Trnkoczy, J., Swain, M., Dubitzky, W., Kravtsov, V., Schuster, A., Niessen, T., Wegener, D., May, M., Röhm, M., Franke, J. (2008b). "Digging Deep into the Data Mine with DataMiningGrid." In IEEE Computer Society.

[Stolfo, 1997]

Stolfo, S. (1997). "Java agents for meta-learning over distributed databases " In Proceedings Third International Conference on Knowledge Discovery and Data Mining. California: AAAI Press.

[Strehl & Ghosh, 2002]

Strehl, A., Ghosh, J. (2002). "Cluster ensembles – a knowledge reuse framework for combining partitionings." Conference on Artificial Intelligence (AAAI 2002) Edmonton, Canada, pp. 93-98.

[Talia et al., 2005]

Talia, D., Verta, O., Trunfio, P. (2005). "Weka4WS: A WSRF-Enabled Weka Toolkit for Distributed Data Mining on Grids " In Knowledge Discovery in Databases: PKDD 2005, ed. Springer Berlin / Heidelberg: Springer.


[Talia et al., 2008]

Talia, D., Trunfio, P., Verta, O.: The Weka4WS framework for distributed data mining in service-oriented Grids. Concurrency and Computation: Practice and Experience. vol. 20, no. 16, pp. 1933-1951 (2008)

[Taner & Dikmen, 2007]

Taner, O., Dikmen, O.: Parallel univariate decision trees. Pattern Recognition Letters. vol. 28, no. 10 pp. 825-832 (2007)

[Tardío et al., 1999]

Tardío, M. A., Arie, S., Bisbe, A. M. (1999). "ANGYCOR: Software para control de procedimientos en un Servicio de Hemodinámica." 1er Congreso Virtual de Cardiología.

[Tirumala et al., 2009]

Tirumala, S. N., Prasad, E. V., Venkateswarlu, N. B. (2009). "A Scalable k-means Clustering Algorithm on Multi-Core Architecture." International Conference on Methods and Models in Computer Science.

[Trottier, 2002]

Trottier, A. (2002). "Java 2 Core Language Little Black Book." Paraglyph Press.

[Wang, 2003]

Wang, J.: Data Mining: Opportunities and Challenges. Idea Group Publishing, Hershey (2003)

[Wang, 2006]

Wang, J.: Encyclopedia of Data Warehousing and Mining. Idea Group Reference, Hershey (2006)

[Wang & Fu, 2005]

Wang, L., Fu, X.: Data Mining with Computational Intelligence. Springer-Verlag Berlin Heidelberg New York (2005)

[Weiss, 2000]

Weiss, G.: Multiagent Systems. A Modern Approach to Distributed Artificial Intelligence. The MIT Press (2000)

[Weka, 2010]

Weka. (2010). Weka 3 - Data Mining Software in Java, http://www.cs.waikato.ac.nz/ml/weka. [Octubre 2010]

[Wilford et al., 2008]

Wilford, I., Ruiz, D., Rosete, A. (2008). "Minería de datos para el estudio de las coronariografías realizadas a pacientes con cardiopatía isquémica." XXVI Congreso Anual de la Sociedad Española de Ingeniería Biomédica (CASEIB) Valladolid, España pp. 427-430.

http://www.cs.waikato.ac.nz/ml/weka


[Witten & Frank, 2005]

Witten, I. H., Frank, E.: Data Mining Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann, San Francisco (2005)

[Wolpert & Macready, 1997]

Wolpert, D. H., Macready, W. G. (1997). "No free lunch theorems for optimization." In IEEE Transactions on Evolutionary Computation.

[Wooldridge & Jennings, 1995]

Wooldridge, M., Jennings, N. (1995). "Intelligent Agents - Theories, Architectures, and Languages." In Intelligent Agents, ed. Springer Berlin / Heidelberg.

[Wooldridge, 2009]

Wooldridge, M. J.: An introduction to multiagent systems. John Wiley & Sons (2009)

[Wu & Zhang, 2003]

Wu, X., Zhang, S.: Synthesizing High-Frequency Rules from Different Data Sources. IEEE Transactions on Knowledge and Data Engineering. vol. 15, no. 2, pp. 353-367 (2003)

[Yang et al., 2009]

Yang, J., Yan, P., Xie, Y.: An Efficient Parallel Clustering Algorithm for Large Scale Database. Journal of Software. vol. 4, no. 10, pp. 119-1126 (2009)

[Yang & Yang, 2010]

Yang, J., Yang, Y. (2010). "A Parallel Algorithm for Mining Association Rules." 2010 International Conference on Networking and Digital Society, IEEE, pp. 475-478.

[Ye, 2004]

Ye, N.: The Handbook of Data Mining. CRC Press (2004)

[Yuret & Maza, 1993]

Yuret, D., Maza, M. d. l. (1993). "Dynamic Hill Climbing: Overcoming the limitations of optimization techniques." Massachusetts Institute of Technology, Cambridge, USA

[Zaki et al., 1996]

Zaki, M. J., Ogihara, M., Parthasarathy, S., Li, W. (1996). "Parallel data mining for association rules on shared-memory multi-processors." ACM/IEEE Conf. on Supercomputing.

[Zaki, 1999]

Zaki, M. J.: Parallel and Distributed Association Mining: A Survey. IEEE Educational Activities Department vol. 7, no. 4, pp. 14-25 (1999)


[Zaki & Ho, 2000]

Zaki, M. J., Ho, C. T. (2000). "Large-Scale Parallel Data Mining." LNAI 1759, Springer-Verlag Berlin Heidelberg.

[Zhang et al., 2004a]

Zhang, C., Liu, M., Nie, W., Zhang, S.: Identifying Global Exceptional Patterns in Multi-database Mining. IEEE Computational Intelligence Bulletin. vol. 3, no. 1, pp. 19-24 (2004a)

[Zhang et al., 2003]

Zhang, S., Wu, X., Zhang, C.: Multi-Database Mining. IEEE Computational Intelligence Bulletin. vol. 2, no. 1, pp. 5-13 (2003)

[Zhang et al., 2004b]

Zhang, S., Zhang, C., Wu, X.: Knowledge Discovery in Multiple Databases. Spinger (2004b)

[Zhang et al., 2004c]

Zhang, S., Zhang, C., Yu, J.: An efficient strategy for mining exceptions in multi-databases. Information Sciences. vol. 165, no. 2 pp. 1-20 (2004c)

[Zhang et al., 2009]

Zhang, S., You, X., Jin, Z., Wu, X.: Mining globally interesting patterns from multiple databases using kernel estimation. Expert Systems with Applications. vol. 36, no. 1 pp. 10863–10869 (2009)

[Zhang & Brodley, 2004]

Zhang, X., Brodley, C. E. (2004). "Solving cluster ensemble problem by bipartite graph partitioning." ICML.

[Zhong et al., 2003]

Zhong, N., Yao, Y., Ohshima, M.: Peculiarity oriented multi-database mining. IEEE Transactions on Knowledge and Data Engineering. vol. 15, no. 5 pp. 952-960 (2003)

RUA, Repositorio Institucional de la Universidad de...

Documents

Transcript of RUA, Repositorio Institucional de la Universidad de...