Minería de Datos

46
Minería de Datos Un caso práctico Ania Cravero Leal Master en Tecnologías de la Información aplicadas a la Empresa Doctor en Ciencias de la Computación y Sistemas de Información Académico Depto. De Ingeniería de Sistemas Investigadora en Proyecto CEIS Universidad de La Frontera

description

Ania Cravero - Universidad de la Frontera

Transcript of Minería de Datos

Page 1: Minería de Datos

Minería de DatosUn caso práctico

Ania Cravero LealMaster en Tecnologías de la Información aplicadas a la Empresa

Doctor en Ciencias de la Computación y Sistemas de Información

Académico Depto. De Ingeniería de Sistemas

Investigadora en Proyecto CEIS

Universidad de La Frontera

Page 2: Minería de Datos

2

Temario

Introducción

Análisis de Datos de la Organización

Minería de Datos

Caso Práctico

Conclusiones

Page 3: Minería de Datos

3

Introducción

Introducción Sistemas de apoyo a la decisión

El Almacén de Datos (AD)

Diferencias Sistemas Transaccionales y AD

Arquitectura de Almacenes de Datos

Aproximaciones de Diseño

Análisis de Datos de la Organización

Minería de Datos

Caso Práctico

Conclusiones

Page 4: Minería de Datos

4

IntroducciónSistemas de apoyo a la decisión

Empresas en la actualidad Sistemas orientados a los procesos diarios de la

empresa Sistemas de Procesamiento Transaccional en Línea

(On-Line Transactional Processing, OLTP)

Compras de productos, ventas, pedidos, gestión de clientes, ..

Optimizados para la edición e inserción de datos

Aproximadamente el 90% de SGBD son relacionales SGBD eficientes, robustos, etc.

Datos históricos almacenamientos externos

Page 5: Minería de Datos

5

IntroducciónSistemas de apoyo a la decisión

Entornos económicos altamente competitivos Empresas necesitan adoptar decisiones

estratégicas ¿ Qué tipo de cliente me ha estado comprando el

Peugeot 206 durante los últimos 10 años ?

¿ Ha variado un cliente sus gustos de compra de vehículos?

¿Ha estado comprando el mismo vehiculo de soltero que de casado?

¿ Qué descuento deberíamos ofrecer para incrementar significativamente las ventas ?

Sistemas de apoyo a la decisión

Page 6: Minería de Datos

6

IntroducciónSistemas de apoyo a la decisión

¿ Son válidos los sistemas OLTP para

tales entornos ?

Algunos problemas

Gran volumen de datos históricos no

disponibles en sistemas diarios OLTP

Normalmente en distintas fuentes de datos

Los directivos/analistas no saben manejar

tales sistemas

Page 7: Minería de Datos

7

IntroducciónEl Almacén de Datos

El Almacén de datos (Data Warehouse, DW) Repositorio de datos históricos para ser

utilizados por los Sistemas de Apoyo a la Decisión

Son sistemas eminentemente de consultaenfocados a extraer conocimiento de los datos históricos almacenados

El análisis de los datos On-Line Analytical Processing (OLAP) Utilizan el modelado multidimensional (cubos,

hipercubos, etc)

Page 8: Minería de Datos

8

IntroducciónEl Almacén de Datos

Definición según W. Inmon (1992)

“Una colección de datos orientados por

tema, variables en el tiempo y no

volátiles que se emplea como apoyo a la

toma de decisiones estratégicas”

Page 9: Minería de Datos

9

IntroducciónEl Almacén de Datos

Orientados por tema

El diseño enfocado a responder eficientemente

a consultas estratégicas

Actividades de interés: compra, ventas, arriendos,…

Contexto de análisis: clientes, vendedores, productos,

etc…

El modelado Multidimensional (primera

aproximación)

Hechos actividades de interés

Dimensiones contexto de análisis

Page 10: Minería de Datos

10

IntroducciónEl Almacén de Datos

Integrados Datos integrados de distintas fuentes de datos

operacionales

Variables en el tiempo Datos relativos a un periodo de tiempo y se

incrementan periódicamente

No volátiles Los datos almacenados normalmente no se

modifican ni actualizan nunca (casi nunca), sólo se insertan nuevos datos

Page 11: Minería de Datos

11

IntroducciónDiferencias Sistemas Transaccionales y de AD

OLTP AD/OLAP

Usuario Personal del negocio Tomador de decisiones

Función Operaciones diarias Apoyo a la decisión

Diseño de BD Orientada a la aplicación

(ER)

Orientado al tema/negocio

(Multidimensional, ej.

Estrella)

Datos Actuales Históricos

Unidades de trabajo Transacciones simples Consultas complejas

Registros accedidos Decenas Millones

Tamaño de la BD 100 MB - GB 100 GB - TR

Page 12: Minería de Datos

12

IntroducciónArquitectura de Almacenes de Datos

Page 13: Minería de Datos

13

IntroducciónArquitectura de Almacenes de Datos

Page 14: Minería de Datos

14

IntroducciónArquitectura de Almacenes de Datos

Page 15: Minería de Datos

15

IntroducciónArquitectura de Almacenes de Datos

Page 16: Minería de Datos

16

IntroducciónArquitectura de Almacenes de Datos

Almacenes de datos Desnormalización

Optimizadas para consultas complejas Reduce número de objetos y de relaciones entre éstos

Fácil interpretación por el tomador de decisiones

Diseño conceptual Modelado MD (intuitivo)

Diseño lógico Esquema estrella

Diseño físico Modelo físico (Indices,

particionamiento,…)

Page 17: Minería de Datos

17

IntroducciónArquitectura de Almacenes de Datos

Ejemplo de desnormalización

Page 18: Minería de Datos

18

IntroducciónArquitectura de Almacenes de Datos

Aproximaciones de Diseño

Diseño guiado por requerimientos de usuarios

(user requirement driven) Top-down

Análisis requerimientos Modelado MD

Diseño guiado por datos (data driven)

Bottom-up

A partir de fuentes de datos

Aproximación híbrida

Propuesta Grupo Lucentia

Page 19: Minería de Datos

19

IntroducciónArquitectura de Almacenes de Datos

Page 20: Minería de Datos

20

Temario

Introducción

Análisis de Datos de la Organización Consultas simples

Consultas complejas para apoyo a la toma de decisiones

Información Oculta

Minería de Datos

Caso Práctico

Conclusiones

Page 21: Minería de Datos

21

Análisis de Datos de la OrganizaciónConsultas Simples

SQL

Select

Insert

Update

Delete

Page 22: Minería de Datos

22

Análisis de Datos de la OrganizaciónConsultas Complejas

Page 23: Minería de Datos

23

Análisis de Datos de la OrganizaciónInformación Oculta

¿Cuáles son las preferencias para mis clientes en

los próximos 10 años?

¿Tengo clientes que realicen fraude?

¿Qué grupo de clientes prefiere los productos

innovadores de la empresa? ¿Seguirán prefiriendo

nuestros productos en los próximos 2 años?

?

Page 24: Minería de Datos

24

Temario

Introducción

Análisis de Datos de la Organización

Minería de Datos Generalidades

Métodos más conocidos

Técnicas- Algunos algoritmos

Herramientas para Minería de Datos

Caso Práctico

Conclusiones

Page 25: Minería de Datos

25

Minería de DatosGeneralidades

La Minería de Datos es una de las

soluciones que nos ayuda a extraer

conocimiento a partir de los datos.

Este conocimiento puede obtenerse a partir

de la búsqueda de conceptos, ideas o

patrones estadísticamente confiables, que

no son evidentes a primera vista,

desconocidos anteriormente y que pueden

derivarse de los datos originales.

Page 26: Minería de Datos

26

Minería de DatosGeneralidades

La minería de datos produce cinco

tipos de información:

Asociaciones.

Secuencias.

Clasificaciones.

Agrupamientos.

Pronósticos.

Page 27: Minería de Datos

27

Minería de DatosGeneralidades

Aplicaciones:

Análisis de fidelización de clientes

Segmentación de mercados

Venta Cruzada

Optimización de la cadena de suministro

Detección y prevención de fraudes

Detección de intrusos en sistemas

computacionales

Detección de Anomalías

Page 28: Minería de Datos

28

Minería de DatosMétodos más conocidos

Knowledge Discovery in Databases (KDD)

Page 29: Minería de Datos

29

Minería de DatosMétodos más conocidos

Cross-Industry Standard Process for Data Mining (CRISP-DM)

Etapas:

1. Comprensión del negocio

2. Comprensión de los datos

3. Preparación de datos

4. Modelización

5. Evaluación

6. Implementación

Page 30: Minería de Datos

30

Minería de DatosTécnicas- Algunos Algoritmos

¿Qué es un cluster?

Un conjunto de entidades que son “parecidas”Ejemplos: K-Means,

DBSCAN, Sequence,

Kohonen, TwoStep

Page 31: Minería de Datos

31

Minería de DatosTécnicas- Algunos Algoritmos

Ejemplo árboles de decisión

Son estructuras que representan

conjuntos de decisiones, y estas

decisiones generan reglas para la

clasificación de un conjunto de

datos.

Page 32: Minería de Datos

32

Minería de DatosTécnicas- Algunos Algoritmos

Ejemplo redes neuronales

Son modelos predecibles, no lineales que aprenden a través del

entrenamiento.

Page 33: Minería de Datos

33

Minería de DatosTécnicas- Algunos Algoritmos

Redes Bayesianas

Buscan determinar relaciones causales que expliquen un fenómeno

según los datos contenidos en una base de datos.

Se han usado principalmente para realizar predicciones.

Page 35: Minería de Datos

35

Temario

Introducción

Análisis de Datos de la Organización

Minería de Datos

Caso Práctico

Introducción

Aplicación del Método: CRISP- DM

Resultados

Conclusiones

Page 36: Minería de Datos

36

Caso PrácticoIntroducción

El caso de estudio fue desarrollado en en una empresa del sector de Servicios Sanitarios (agua potable, alcantarillado, tratamiento de aguas, etc.), y por lo tanto, la búsqueda de actitudes fraudulentas de los consumidores no forma parte de sus funciones activas.

Actualmente, la oficina de fraudes dispone de personal que revisa físicamente los medidores de los clientes caso a caso, con el fin de detectar posibles fraudes

Page 37: Minería de Datos

37

Caso PrácticoIntroducción

Requerimientos para el proyecto: Debe ser capaz de analizar y entregar indicadores sobre los

siguientes datos: Consumo de servicios entregados (agua potable, alcantarillado,

etc.),

Tiempo (año, mes, semestre, etc.),

Ubicación (localidad, sector, ruta) donde se entrega el servicio y las Características del servicio

Debe proveer capacidad de análisis visual, matemático, y entrega de reportes.

Objetivo: realizar un estudio a través de técnicas de MD que permitan localizar y estudiar comportamientos anómalossobre conjuntos de datos, para poder así identificar posibles fraudes en clientes que hacen uso indebido de los servicios que ofrece la empresa

Page 38: Minería de Datos

38

Caso PrácticoIntroducción

El problema de la detección de fraude, radica en el

análisis de perfiles de usuario que permitan

describir el comportamiento de un cliente con el fin

de detectar anomalías (DA).

La meta principal en la DA, es encontrar objetos

que sean diferentes de los demás. Frecuentemente

estos objetos son conocidos como Outlier

Page 39: Minería de Datos

39

Caso PrácticoIntroducción

Clementine- client contiene múltiples algoritmos para la detección de fraudes, entre los cuales se encuentran los de Clusterización: K-Means, Sequence, TwoStep, Kohonen; y de Detección de Anomalías (Outlier).

El software analiza los resultados obtenidos con el set de datos introducidos y busca la mejor alternativa con el menor error posible al aplicar cada uno de los algoritmos.

Page 40: Minería de Datos

40

Caso PrácticoMétodo CRISP- DM

Comprensión del Negocio

Reuniones con la Gerencia de Clientes

El equipo propone utilizar técnicas de

clustering para la detección de

anomalías con el fin de obtener un

listado de clientes que presenten datos

atípicos

Page 41: Minería de Datos

41

Caso PrácticoMétodo CRISP- DM

Comprensión de los Datos

Fue necesario analizar el modelo de base de

datos relacional del sistema de información de

la empresa, específicamente aquellas entidades

que tienen relación con el proceso de

facturación.

Éste mantiene información del consumo

mensual de uso de agua potable y alcantarillado

de cada cliente que utiliza estos servicios

Page 42: Minería de Datos

42

Caso PrácticoMétodo CRISP- DM

Preparación de los Datos

Debió diseñarse un Almacén de Datos

Page 43: Minería de Datos

43

Caso PrácticoMétodo CRISP- DM

Modelado El modelo de detección de anomalías

de Clementine, entrega como resultado grupos de datos con características similares, los cuales son llamados grupos homólogos del modelo.

Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros

Page 44: Minería de Datos

44

Caso PrácticoMétodo CRISP- DM

Evaluación

Los registros anómalos deben ser

contrastados con la información histórica

de casos de fraude que almacena la

empresa.

Implementación

Page 45: Minería de Datos

45

Caso PrácticoResultados

Resultados

Después de varios intentos, se obtuvo

información confiable.

Cerca del 73% de los registros detectados

como anómalos son posibles causas de

fraude

Baja de los costos

Page 46: Minería de Datos

46

Conclusiones

Consultas simples SQL SGBD

Consultas complejas OLAP DW

Información oculta Técnicas de MD

La MD es una técnica eficiente para la detección de anomalías, siempre y cuando se disponga de un conjunto de datos suficientes para un correcto análisis y

una metodología que permita llevar un control de los resultados dando la posibilidad de reestructurar medidas como la: recolección de nuevos datos,

separación de datos en clases,

transformaciones de las variables,

eliminación de datos,

selección de otros algoritmos de MD,

cambio en los parámetros introducidos en los modelos,

delimitación del campo de búsqueda, etc