Proyecto #2 - Data Mining

60
Universidad Tecnológica de Panamá Facultad de Ingeniería de Sistema Computacionales Lic. en Ingeniería de Sistemas de Información Proyecto #2 Data Mining 2010

Transcript of Proyecto #2 - Data Mining

Page 1: Proyecto #2 - Data Mining

Universidad Tecnológica de PanamáFacultad de Ingeniería de Sistemas

ComputacionalesLic. en Ingeniería de Sistemas de Información

Proyecto #2Data Mining

2010

Page 2: Proyecto #2 - Data Mining

¿Qué es la Minería de Datos?• La Minería de Datos (Data Mining) es una tecnología

compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Está fuertemente ligada con la supervisión de procesos industriales, ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Page 3: Proyecto #2 - Data Mining

¿Qué es la Minería de Datos?• Las bases de la minería de datos se encuentran en la

inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

• Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente.

• Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.

Page 4: Proyecto #2 - Data Mining

Objetivos Principales• Data Mining persigue ciertos objetivos de manera específica, a

saber:

▫ Descripción: El principal producto del proceso de la minería de datos es el descubrimiento de reglas. Estas mostrarán nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecerá el análisis y la descripción de la forma en que trabaja una compañía y ayudará en la planificación y en el diseño de futuros cambios.

▫ Predicción (Forecasting): Una vez descubiertas reglas importantes, estas pueden ser utilizadas para estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificación e interrupción a tiempo, de una futura mala experiencia de crédito. En esta tarea, se complementan las técnicas estadísticas tradicionales con aquellas provenientes de la inteligencia artificial.

Page 5: Proyecto #2 - Data Mining

Características Principales• Algunas de las características de Data Mining son:

▫ Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.

▫ Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.

▫ La minería de datos produce cinco tipos de información: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronósticos.

▫ Los mineros de datos usan varias herramientas y técnicas.

Page 6: Proyecto #2 - Data Mining

Ventajas de la Minería de Datos• Usar minería de datos para construir un modelo desde las bases de datos

tiene las siguientes ventajas:▫ Los modelos son fáciles de entender.

Personas sin un back up importante de estadísticas pueden interpretar el modelo y compararlo con sus propias ideas.

▫ Enormes bases de datos pueden ser analizadas.Enormes bases de datos pueden ser analizadas mediante la tecnología de la minería de datos. Estas bases de datos pueden ser enormes tanto en largo como en ancho.

 ▫ La minería de datos descubre información que no se esperaba obtener.

Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer.

Page 7: Proyecto #2 - Data Mining

Ventajas de la Minería de Datos▫ Los Modelos Son Confiables

El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego las predicciones que se obtienen por el modelo son válidas y confiables.

 ▫ Los modelos se construyen de manera rápida.

La minería de datos permite construir y generar modelos en sólo unos minutos u horas. El modelado se torna mucho más fácil puesto que muchos algoritmos son probados y sólo el mejor modelo es entregado al usuario.

Page 8: Proyecto #2 - Data Mining

Arquitectura Fundamental• El producto está basado en una arquitectura de tres elementos

en conjunto:

▫ La primera es la interfaz del usuario (GUI). Las interfaces de usuario están escritas en lenguaje puramente de Java; lo que significa cero preocupaciones por el mantenimiento por parte del cliente, y poder aplicarlo desde un browser conectado en red.

▫ La segunda es el servidor de la aplicación de la minería de datos. El servidor da la funcionalidad a la minería de datos. Contiene un repositorio que mantiene todos los objetos en el ambiente de la minería de datos.

 ▫ La última es la base de datos como Data Warehouse. Este

contiene los datos sobre los cuales se hará la minería.

Page 9: Proyecto #2 - Data Mining

Ejemplos de aplicación de la Minería de Datos• Aplicación en la universidad.▫ Se pretende conocer si los recién titulados de una

universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua, en México. Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los ex-alumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso.

Page 10: Proyecto #2 - Data Mining

Ejemplos de aplicación de la Minería de Datos• Aplicación en la universidad.▫ Dentro de la información considerada estaba el sexo, la

edad, la escuela de procedencia, el desempeño académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad.

Page 11: Proyecto #2 - Data Mining

Ejemplos de Aplicaciones y Herraminetas

• Weka: Magnífica suite de minería de datos de libre distribución.

▫ Weka es una colección de máquinas virtuales para implementar algoritmos para tareas de minería de datos. Los algoritmos pueden aplicarse directamente a un conjunto de datos o pueden utilizarse desde un programa de Java. Weka contiene herramientas para el procesamiento de datos, clasificación, asociación, visualización, entre otras. También está bien preparado para desarrollar esquemas. Weka es un software abierto emitido por GNU.

Page 12: Proyecto #2 - Data Mining

Ejemplos de Aplicaciones y Herraminetas

• Xelopes: Librería con licencia pública GNU para el desarrollo de aplicaciones de minería de datos.

▫ Es una librería de plataforma independiente para utilización de Data Mining. Proporciona algoritmos de minería de datos muy eficaces que usted puede integrar transparentemente en sus aplicaciones. Apoya la automatización de selección de parámetros de los métodos para que éstos puedan desplegarse totalmente automáticamente.

Page 13: Proyecto #2 - Data Mining

Extracción del Conocimiento• El proceso de extracción del conocimiento comienza con

la recopilación e integración de la información a partir de unos datos iniciales que se dispone. Las primeras fases son muy importantes porque determinan, que las fases sucesivas sean capaces de extraer conocimiento valido y útil a partir de la información original.

Page 14: Proyecto #2 - Data Mining

Fases Principales

Page 15: Proyecto #2 - Data Mining

Fases Principales - Selección

•En esta fase se integran y recopilan los datos, se determinan las fuentes de información que pueden ser útiles y donde conseguirlas, se identifican y selecciona las variables relevantes en los datos y se aplican las técnicas de muestreo adecuadas.

Page 16: Proyecto #2 - Data Mining

Fases Principales - Exploración• Esto es debido a que los datos provienen de diversas

fuentes, es necesaria su exploración mediantes técnicas formales de análisis exploratorio de datos, buscando entre otras cosas la distribución de los datos, su simetría, la correlaciones existentes en la información.

• Histograma de frecuencia: es conveniente iniciar el análisis exploratorio de datos con la construcción del histograma de frecuencias asociados, para poder así instruir la distribución de probabilidad de los datos su normalidad, su simetría y otras propiedades interesantes del análisis de datos.

Page 17: Proyecto #2 - Data Mining

Fases Principales – Limpieza y Transformación

• Ya que la información puede contener valores atípicos, valores faltantes y valores erróneos. En esta fase se analizan la influencia de los datos atípicos, se imputa la información faltante o se eliminan o corrigen los datos incorrectos.

• Valores atípicos: Es una puntuación extrema dentro de una variable.

• Información faltante: cuando se aplica un método de análisis multivariante sobre los datos disponibles pueda ser que no exista información para determinadas observaciones y variables.

Page 18: Proyecto #2 - Data Mining

Fases Principales – Minería de Datos

• La fase de minería de datos, engloba técnicas predictivas enfocadas a la modelización y clasificación ad hoc, y técnicas descriptivas enfocadas generalmente a la clasificación post hoc y otros tipos de técnicas variadas.

• Técnicas:▫ Técnicas predictiva: especifican el modelo para los datos

en base a un conocimiento teórico previo.

▫ Técnicas descriptivas: no se asigna ningún papel predeterminado a las variables.

Page 19: Proyecto #2 - Data Mining

Fases Principales - Evaluación

•Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.

Page 20: Proyecto #2 - Data Mining

Fases Principales – Difusión y Uso• Elaboración de informes para su distribución.• Usar el nuevo conocimiento de forma

independiente.• Incorporarlo a sistemas ya existentes (verificar

con conocimiento ya usado para evitar inconsistencias y posibles conflictos).

• La monitorización del sistema en acción dará lugar a nuevos.

• casos que realimentarán el ciclo del KDD• Las condiciones iniciales pueden variar,

invalidando el modelo adquirido.

Page 21: Proyecto #2 - Data Mining

Importancia de la Minería de Datos• Entre los beneficios que ofrece la minería de datos

están la posibilidad de elevar los niveles de competencia de los negocios, basándose en la rapidez para identificar, procesar y extraer la información que realmente es importante, descubriendo conocimiento y patrones en bases de datos. Su facilidad de uso hace que se pueda aplicar a cualquier área del conocimiento. Como limitaciones destacan la necesidad de dedicar mucho esfuerzo al establecimiento de medidas de evaluación del resultado derivado de la aplicación de la minería, así como el desafío que representa analizar datos que cambian en tiempo real.

Page 22: Proyecto #2 - Data Mining

Importancia de la Minería de Datos• La Minería de Datos y su impacto en la toma de decisiones en los

negocios:

▫ La Minería de Datos, bien empleada, se convierte en una herramienta estratégica que eleva los niveles de competencia en el cambiante mundo de los negocios.

▫ La Minería de Datos ha tenido una reciente inclusión en los negocios, debido a la enorme preocupación de las empresas por conocer más allá de los datos que éstos manejan.

▫ Para el aprovechamiento de la gran cantidad de conocimiento en la Minería de Datos es necesario reducir la cantidad de datos, quedándonos sólo con la información mínima necesaria, para disminuir el esfuerzo computacional y humano.

▫ Con Data Mining, las organizaciones cuentan con una nueva forma de ver sus datos, prometiendo beneficios a la solución de una gran variedad de problemas como: planeación económica, inteligencia empresarial, finanzas, análisis de mercados y análisis de perfiles de clientes.

Page 23: Proyecto #2 - Data Mining

Casos de Éxito en la Minería de Datos

• Un importante hecho que describen Molina y García (2004) es que con la implementación de procesos de Minería de Datos, a través de la aplicación de algunas técnicas estadísticas avanzadas y nuevos métodos de extracción de conocimiento en grandes base de datos, se pueden determinar las características contables de las empresas más rentables, al igual que el perfil de sus clientes. Se hace imprescindible, por un lado, un análisis exploratorio profundo de la base de datos y el empleo de métodos robustos, que hagan que dichos componentes sean menos sensibles a los amplios casos estadísticos. Por otro lado, es aconsejable diseñar con base a opiniones de expertos, si no hay información adecuada, o utilizar algún sistema de aprendizaje, por ejemplo, la utilización de redes neuronales, para el descubrimiento de patrones y extraer la información de la base de datos disponible.

Page 24: Proyecto #2 - Data Mining

Casos de Éxito en la Minería de Datos

• Autores como Han y Kamber (2001) consideran que el auge que ha alcanzado actualmente el Data Mining es debido a que en el presente nos encontramos ante enormes cantidades de datos y con la urgente necesidad de transformarlos en información útil y conocimiento. El Data Mining es la evolución natural de la tecnología de información. Por lo antes expuesto, se puede inferir que las necesidades de información de las organizaciones ha cambiando a lo largo del tiempo. Hoy día, la creciente dinámica de mercado y competitividad llevan a la necesidad de contar con la información adecuada en el momento indicado y para ello los gerentes necesitan estar bien informados para poder tomar las decisiones de negocio apropiadas. Por otra parte, los datos con los que cuentan dichas organizaciones generalmente se encuentran dispersos a través de diversos sistemas, propiciando de esta manera que datos valiosos se pierdan. De esto último, se puede decir que lo que poseen las empresas son datos, no información.

Page 25: Proyecto #2 - Data Mining

Herramienta para Data MiningRapidMiner

Page 26: Proyecto #2 - Data Mining

Descripción General

•RapidMiner (anteriormente, YALE, Yet Another Learning Environment) es un programa informático para el análisis y minería de datos.

•Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico.

•Se usa en investigación y en aplicaciones empresariales.

Page 27: Proyecto #2 - Data Mining

Descripción General• RapidMiner es el software de minería de datos

opensource lider en el mundo (de acuerdo a la encuesta KDNuggets 2007 y 2008 y la Data Mining Cup Study 2007).

• Empleada en cientos de aplicaciones en mas de 40 paises. Numerosas compañias lideres alrededor del mundo impulsan RapidMiner, incluyendo: ▫ Ford, Honda, E.ON, Nokia, IBM, Cisco, Hewlett

Packard, Elexso, Akzo Nobel, PharmaDM, Aureus Pharma, Sanofi-Aventis, BNP Paribas, Bank of America, Merril Lynch, mobilkom austria y muchas mas.

Page 28: Proyecto #2 - Data Mining

Descripción General• RapidMiner es una completa plataforma

integrada para Data Mining, Análisis Predictivo e Inteligencia de Negocio, y entre sus principales cualidades estan:▫Rápida creación de prototipos y mas allá:

desde el primer análisis exploratorio a la solución lista para producción en algunos pasos.

▫ Inteligencia de Negocios inteligente: ETL, OLAP, Modelado Predictivo y Reportes combinados en una única solución.

Page 29: Proyecto #2 - Data Mining

Descripción General▫Fáciles Conexiones: Numerosos

conectores para las mas comunes bases y formatos de datos como también data no estructurada como documentos de texto.

▫Sistema modular: Flexibilidad y fácil expansibilidad.

▫Precio Justo: Alta calidad y bajo costo total de propiedad en comparación con productos propietarios.

Page 30: Proyecto #2 - Data Mining

Características y Funciones de RapidMiner• Conectividad: Bases de datos como Oracle, IBM

DB2, MS SQL Server, MySQL, Ingres, Postgres, Teradata, etc.; Excel, SPSS, CSV, dBase, Arff, DasyLab; documentos de texto y paginas web en formato ASCII, PDF, HTML y XML. Datos de audio, datos de series de tiempo.

• Modelado automatizado: Técnicas de aprendizaje estadístico como Support Vector Machines (SVM), rule learners, arboles de decisión, Bayes, procesos Guassianos, redes neuronales, optimización evolutiva, boosting, Apriori, FPGGrowth, clustering y mucho mas.

Page 31: Proyecto #2 - Data Mining

Características y Funciones de RapidMiner•ETL and OLAP: Agregación,

discretizacion, normalización, filtro, sampling, PCA, valoración de factores de influencia, cuantificación de correlaciones, reposición de valores perdidos, generacion de nuevas variables y mucho mas.

•Evaluación: cross-validation, leave-one-out, sliding time windows, back testing, tests de significancia, ROC y mucho mas.

Page 32: Proyecto #2 - Data Mining

Características y Funciones de RapidMiner•Meta Operadores: Parámetros

automatizados de optimización, ciclos, estructuras de control, macros y mucho más.

•Visualización: Gráficos 1D, 2D y 3D en linea, Andrews, paralelos, desviaciones, SOM, lifts y mucho mas.

Page 33: Proyecto #2 - Data Mining

Valoración

•Como ya lo mencionamos antes, RapidMiner es una herramienta completamente Open Source en su versión Community Edition, la que es mantenida principalmente por la comunidad en internet.

•Además de esta, la empresa que lleva a cabo su desarrollo ofrece Tres versiones mas como Enterprise Edition, las cuales son: Small Standard y Developer.

Page 34: Proyecto #2 - Data Mining

Valoración

Page 35: Proyecto #2 - Data Mining

Valoración

Page 36: Proyecto #2 - Data Mining

Valoración

Page 37: Proyecto #2 - Data Mining

Valoración

Page 38: Proyecto #2 - Data Mining

Capturas de Pantalla

Page 39: Proyecto #2 - Data Mining
Page 40: Proyecto #2 - Data Mining
Page 41: Proyecto #2 - Data Mining
Page 42: Proyecto #2 - Data Mining
Page 43: Proyecto #2 - Data Mining
Page 44: Proyecto #2 - Data Mining
Page 45: Proyecto #2 - Data Mining
Page 46: Proyecto #2 - Data Mining
Page 47: Proyecto #2 - Data Mining
Page 48: Proyecto #2 - Data Mining
Page 49: Proyecto #2 - Data Mining
Page 50: Proyecto #2 - Data Mining
Page 51: Proyecto #2 - Data Mining
Page 52: Proyecto #2 - Data Mining
Page 53: Proyecto #2 - Data Mining
Page 54: Proyecto #2 - Data Mining
Page 55: Proyecto #2 - Data Mining
Page 56: Proyecto #2 - Data Mining
Page 57: Proyecto #2 - Data Mining
Page 58: Proyecto #2 - Data Mining
Page 59: Proyecto #2 - Data Mining

Conclusiones• Con lo investigado hemos concluido que con la

tecnología de Data Mining, podemos utilizar la información de nuestra empresa de manera provechosa, obteniendo como beneficios altos niveles de competitividad en los negocios.

• Por otro lado, es importante destacar que la Minería de Datos se puede aplicar a diversas áreas del conocimiento, por lo tanto, a cualquier tipo de negocio o empresa.

Page 60: Proyecto #2 - Data Mining

¡Gracias!