Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta...

23
v.1.0 Clase 2 Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Transcript of Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta...

Page 1: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

v.1.0

Clase 2

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 2: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Minería de datos

Herramientas de

DM

Temas

Clase 1: Conceptos de Minería

de Datos

Referencias

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Proceso de DM

Page 3: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Minería de datos

La minería de datos o descubrimiento de conocimiento en bases de datos (KDD,

さknowledge discovery in databasesざぶが es una poderosa herramienta informática de

gran alcance con un gran potencial para la extracción de información previamente

desconocida y potencialmente útil a partir de grandes bases de datos.

La minería de datos automatiza el proceso de búsqueda de relaciones y patrones

en los datos y proporciona resultados que pueden ser utilizados en un sistema de

apoyo a las decisiones estratégicas del negocio [11].

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 4: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Previamente a un proyecto en el que se someten los datos a técnicas de DM,

conviene tener claro qué objetivo de negocio se persigue y también se deben

considerar aspectos sobre la naturaleza de nuestros datos, entre los cuales se

tienen [12]:

¿Se tienen los datos disponibles?

Los datos deben estar en un formato accesible. Es común encontrar los datos

dispersos en diferentes ubicaciones y formatos (electrónicos y físicos), donde es

necesario unirlos en un solo archivo electrónico.

¿Los datos cubren los factores relevantes de análisis?

Es crítico contar con los factores/variables relevantes del proyecto, aunque es

propio de DM averiguar cuales son dichos factores relevantes. La experiencia y

conocimiento de un experto en el tópico es útil al momento de seleccionar los

factores.

¿Tienen mucho «ruido» los datos?

El término ruido se refiere a errores en los datos o valores perdidos. A mayor

ruido, mayor será la dificultad de alcanzar resultados satisfactorios.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Minería de datos

Page 5: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

¿Hay suficientes datos?

Depende da cada situación en particular. En las técnicas de análisis de datos, si se

trata de detectar relaciones o patrones más complejos, será necesario contar con

un mayor número de registros para encontrarlos.

¿Hay conocimiento sobre los datos disponibles?

Usualmente se cuenta con un experto que tiene conocimiento de sus datos y se

encarga de aplicar las distintas técnicas de DM. Pero si el responsable del proyecto

es indiferente al contexto del problema, es necesario contar con la ayuda de

expertos que no solamente ayudarán a identificar factores relevantes e interpretar

los resultados sino que también la orientación en la selección de la información

relevante para los objetivos perseguidos.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Minería de datos

Page 6: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Una metodología como CRISP-DM (Cross Industry Standard Process of data

mininig) sugerida por SPSS, no solo garantizaría una adecuada planeación sino una

mayor efectividad en los resultados de un proyecto de minería de datos. Se debe

tener presente que a pesar de disponer de la tecnología o las herramientas más

sofisticadas; un peso realmente importante del trabajo recaerá sobre alguien o un

grupo con un conocimiento profundo del negocio. Bajo la metodología CRISP-DM,

se deben responder las siguientes preguntas [13]

¿Cuál es el principal objetivo que se persigue resolver?

¿Qué datos se tendrán disponibles y cuales son relevantes en cuestión?

¿Qué clase de depuración de datos es requerida?

¿Qué técnica de minería de datos se empleará?

¿Cómo se evaluarán los resultados?

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Proceso de DM

Page 7: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Herramientas de DM

Page 8: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Un riguroso proyecto en minería de datos, contempla las anteriores preguntas para

aumentar las posibilidades de éxito en los resultados obtenidos.

El objetivo del presente artículo no es abordar en detalle cada uno de estos

cuestionamientos, sino dar un acercamiento a los elementos más importante y de

fácil comprensión por parte de la cabeza estratégica del área, equipo o compañía.

Esta metodología fue concebida en 1996, por Comisión Europea

SPSS / ISL, NCR, Daimler Chrysler, OHRA

Alrededor de 200 miembros de CRISP-DM al nivel

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Proceso de DM

Page 9: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

CRISP-DM consiste fundamentalmente

de 5 etapas:

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelado

Evaluación

Despliegue

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Proceso de DM

Fuente: CRISP-DM 1.0, 2007.

Page 10: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Comprensión del negocio (Objetivos y

requerimientos desde una perspectiva no

técnica)

Esta fase se enfoca en entender el objetivo

del proyecto y requerimientos desde una

perspectiva del negocio.

Objetivos:

• Situación de la compañía (área)

• Necesidades

Elaborar plan de trabajo:

• Etapas del proyecto

• Recursos requeridos

• Dependencias y herramientas adecuadas

Requerimientos:

• Inventario de recursos

• Supuestos y restricciones

• elación Costo/Beneficio

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: CRISP-DM 1.0, 2007.

Proceso de DM

Page 11: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Comprensión de los datos (Objetivos y

requerimientos desde una perspectiva no

técnica)

Inicia con una recopilación de datos y

procede con actividades para lograr

familiarizarse con los datos identificando

problemas de calidad y descubrir las

primeras ideas sobre los datos o detectar

subconjuntos de interés.

Recolección inicial de datos:

• Consecución de los datos

• Listado y ubicación de la fuentes de datos

• Descripción de datos.

• Cantidad. Campos に registros

• Formatos de los campos

• Tipos de variables

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: CRISP-DM 1.0, 2007.

Proceso de DM

Page 12: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Comprensión de los datos

Análisis Exploratorio de datos:

• Reportes de exploración

• Estadísticos descriptivos

• Gráficos

Calidad de los datos:

• Evaluar el porcentaje de datos perdidos

• Explorar posibles técnicas de imputación

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: CRISP-DM 1.0, 2007.

Proceso de DM

Page 13: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Preparación de los datos (Actividades para

construir la base de datos final que

alimentara los modelos)

Las tareas de preparación de datos

probablemente se realiza múltiples veces y

en cualquier orden. Estas tareas incluyen:

tablas, registros, transformación y limpieza

de los datos.

Selección de datos:

• Tablas, archivos

• Campos y registros

Limpieza de datos:

• Eliminar registros duplicados

• Eliminar registros inconsistentes

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: CRISP-DM 1.0, 2007.

Proceso de DM

Page 14: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Preparación de los datos

Construcción de data

• Derivar (crear) nuevas variables

• Recodificar variables

Integración de datos

• Agregar registros に variables

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: CRISP-DM 1.0, 2007.

Proceso de DM

Page 15: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Modelado (Aplicar las técnicas de minería de

datos a los bases de datos)

Varias técnicas de modelado son

seleccionadas y aplicadas y sus parámetros

son ajustados para un optimo

funcionamiento. Existen múltiples técnicas

para el mismo problema planteado en

minería de datos. Algunas técnicas

especifican requerimientos particulares en

los datos. Entonces, la etapa de preparación

de los datos y el conocimiento profundo de

las tecnicas es fundamental.

Seleccionar la técnica adecuada

Construcción del modelo

Cualidades de los modelos

• Revisión de parámetros

• Revisión de supuestos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: CRISP-DM 1.0, 2007.

Proceso de DM

Page 16: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Evaluación

En esta etapa del proyecto se ha construido

un modelo(s) que aparentemente tienen alta

calidad desde una perspectiva de análisis de

datos. Antes de proceder a la

implementación del modelo, es importante

evaluar a fondo el modelo y revisar los pasos

ejecutados para su construcción y estar

seguros que el modelo está propiamente

cumpliendo los logros del objetivo del

negocio.

Determinar los pasos a seguir:

• Lista de acciones o planes a desarrollar

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 17: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Despliegue (Explotar utilidad de los modelos,

integrándolos en las tareas de toma de

decisiones de la organización)

La construcción de un modelo generalmente

no es el fin del proyecto de DM. Incluso si el

fin del proyecto es incrementar el

conocimiento de los datos, el conocimiento

ganado necesitará ser organizado y

presentado de forma que los usuarios

puedan usarlo.

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 18: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

El acrónimo SEMMA に sample (muestra),

explore (explorar), modify (modificar),

model (modelar) y assess (evaluar). Se

refiere al corazón central del proceso de

minería de datos [14]

Inicia con una con un muestra estadística

representativa de los datos, esto facilita

aplicar análisis estadístico exploratorio y

técnicas de visualización de información.

Selecciona y transforma las más

representativas variables predictivas,

modelar las variables para predecir

resultados y confirmar la precisión del

modelo.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Applied Analytics Using

SAS Enterprise Miner, 2010

Proceso de DM

Page 19: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Applied Analytics Using

SAS Enterprise Miner, 2010

Proceso de DM

Muestra

Crear una o más tablas utilizando muestras

de los datos contenidos en el Data

Warehouse. Las muestras deberían ser lo

suficientemente grandes como para

contener información significativa, aunque lo

suficientemente pequeñas como para poder

procesarse con rapidez.

Las técnicas de muestreo estadístico son

necesarias para un correcto proceso de

muestreo.

Explorar

Buscar por anticipado relaciones, tendencias

no anticipadas y anomalías para ganar

comprensión e ideas.

Page 20: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Applied Analytics Using

SAS Enterprise Miner, 2010

Proceso de DM

Modificar

Creación, selección y transformación de una

o más variables para centrar el proceso de

selección de modelos en una dirección

particular o para aumentar los datos para

obtener claridad o coherencia.

Modelar

Crear un modelo de datos implica la

utilización de una solución de minería que

busque automáticamente una combinación

de datos que prevean de forma fiable un

resultado deseado.

Page 21: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Applied Analytics Using

SAS Enterprise Miner, 2010

Proceso de DM

Evaluar

Estimar el modelo para su posterior

evaluación.

Un método común para evaluar un modelo

es aplicarlo a la porción de los datos que se

dejaron de lado durante la etapa de

muestreo. Si el modelo es válido debería

funcionar para esta muestra reservada, de

igual modo que funciona para la muestra

utilizada para construir el modelo.

Page 22: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Proceso de DM

Tarea 02

1. Realizar la lectura del capítulo Introductorio del texto Data Mining on

Multimedia Data.

2. Comente el método de minería de datos que más le cautivó y las razones de

ello.

3. Sobre el modelo seleccionado, investigue una aplicación en la industria para

ser expuesta en clase.

Page 23: Clase 2 - gustavovalencia.com · Fuente: CRISP-DM 1.0, 2007. Proceso de DM. Evaluación En esta etapa del proyecto se ha construido un modelo(s) que aparentemente tienen alta

Referencias

[11] Perner, Petra (2002). Data Mining on Multimedia Data. Springer

[12] IBM SPSS, Introduction a IBM SPSS Modeler, 2012.

[13] CRISP-DM 1.0 Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer & Wirth,

2007.

[14] Applied Analytics Using SAS Enterprise Miner, 2010

Módulo: Minería de datos Docente: Gustavo Valencia Zapata