Minería de Datos
-
Upload
paulocoloms157 -
Category
Documents
-
view
1.059 -
download
5
description
Transcript of Minería de Datos
![Page 1: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/1.jpg)
Minería de DatosUn caso práctico
Ania Cravero LealMaster en Tecnologías de la Información aplicadas a la Empresa
Doctor en Ciencias de la Computación y Sistemas de Información
Académico Depto. De Ingeniería de Sistemas
Investigadora en Proyecto CEIS
Universidad de La Frontera
![Page 2: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/2.jpg)
2
Temario
Introducción
Análisis de Datos de la Organización
Minería de Datos
Caso Práctico
Conclusiones
![Page 3: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/3.jpg)
3
Introducción
Introducción Sistemas de apoyo a la decisión
El Almacén de Datos (AD)
Diferencias Sistemas Transaccionales y AD
Arquitectura de Almacenes de Datos
Aproximaciones de Diseño
Análisis de Datos de la Organización
Minería de Datos
Caso Práctico
Conclusiones
![Page 4: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/4.jpg)
4
IntroducciónSistemas de apoyo a la decisión
Empresas en la actualidad Sistemas orientados a los procesos diarios de la
empresa Sistemas de Procesamiento Transaccional en Línea
(On-Line Transactional Processing, OLTP)
Compras de productos, ventas, pedidos, gestión de clientes, ..
Optimizados para la edición e inserción de datos
Aproximadamente el 90% de SGBD son relacionales SGBD eficientes, robustos, etc.
Datos históricos almacenamientos externos
![Page 5: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/5.jpg)
5
IntroducciónSistemas de apoyo a la decisión
Entornos económicos altamente competitivos Empresas necesitan adoptar decisiones
estratégicas ¿ Qué tipo de cliente me ha estado comprando el
Peugeot 206 durante los últimos 10 años ?
¿ Ha variado un cliente sus gustos de compra de vehículos?
¿Ha estado comprando el mismo vehiculo de soltero que de casado?
¿ Qué descuento deberíamos ofrecer para incrementar significativamente las ventas ?
Sistemas de apoyo a la decisión
![Page 6: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/6.jpg)
6
IntroducciónSistemas de apoyo a la decisión
¿ Son válidos los sistemas OLTP para
tales entornos ?
Algunos problemas
Gran volumen de datos históricos no
disponibles en sistemas diarios OLTP
Normalmente en distintas fuentes de datos
Los directivos/analistas no saben manejar
tales sistemas
![Page 7: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/7.jpg)
7
IntroducciónEl Almacén de Datos
El Almacén de datos (Data Warehouse, DW) Repositorio de datos históricos para ser
utilizados por los Sistemas de Apoyo a la Decisión
Son sistemas eminentemente de consultaenfocados a extraer conocimiento de los datos históricos almacenados
El análisis de los datos On-Line Analytical Processing (OLAP) Utilizan el modelado multidimensional (cubos,
hipercubos, etc)
![Page 8: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/8.jpg)
8
IntroducciónEl Almacén de Datos
Definición según W. Inmon (1992)
“Una colección de datos orientados por
tema, variables en el tiempo y no
volátiles que se emplea como apoyo a la
toma de decisiones estratégicas”
![Page 9: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/9.jpg)
9
IntroducciónEl Almacén de Datos
Orientados por tema
El diseño enfocado a responder eficientemente
a consultas estratégicas
Actividades de interés: compra, ventas, arriendos,…
Contexto de análisis: clientes, vendedores, productos,
etc…
El modelado Multidimensional (primera
aproximación)
Hechos actividades de interés
Dimensiones contexto de análisis
![Page 10: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/10.jpg)
10
IntroducciónEl Almacén de Datos
Integrados Datos integrados de distintas fuentes de datos
operacionales
Variables en el tiempo Datos relativos a un periodo de tiempo y se
incrementan periódicamente
No volátiles Los datos almacenados normalmente no se
modifican ni actualizan nunca (casi nunca), sólo se insertan nuevos datos
![Page 11: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/11.jpg)
11
IntroducciónDiferencias Sistemas Transaccionales y de AD
OLTP AD/OLAP
Usuario Personal del negocio Tomador de decisiones
Función Operaciones diarias Apoyo a la decisión
Diseño de BD Orientada a la aplicación
(ER)
Orientado al tema/negocio
(Multidimensional, ej.
Estrella)
Datos Actuales Históricos
Unidades de trabajo Transacciones simples Consultas complejas
Registros accedidos Decenas Millones
Tamaño de la BD 100 MB - GB 100 GB - TR
![Page 12: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/12.jpg)
12
IntroducciónArquitectura de Almacenes de Datos
![Page 13: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/13.jpg)
13
IntroducciónArquitectura de Almacenes de Datos
![Page 14: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/14.jpg)
14
IntroducciónArquitectura de Almacenes de Datos
![Page 15: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/15.jpg)
15
IntroducciónArquitectura de Almacenes de Datos
![Page 16: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/16.jpg)
16
IntroducciónArquitectura de Almacenes de Datos
Almacenes de datos Desnormalización
Optimizadas para consultas complejas Reduce número de objetos y de relaciones entre éstos
Fácil interpretación por el tomador de decisiones
Diseño conceptual Modelado MD (intuitivo)
Diseño lógico Esquema estrella
Diseño físico Modelo físico (Indices,
particionamiento,…)
![Page 17: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/17.jpg)
17
IntroducciónArquitectura de Almacenes de Datos
Ejemplo de desnormalización
![Page 18: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/18.jpg)
18
IntroducciónArquitectura de Almacenes de Datos
Aproximaciones de Diseño
Diseño guiado por requerimientos de usuarios
(user requirement driven) Top-down
Análisis requerimientos Modelado MD
Diseño guiado por datos (data driven)
Bottom-up
A partir de fuentes de datos
Aproximación híbrida
Propuesta Grupo Lucentia
![Page 19: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/19.jpg)
19
IntroducciónArquitectura de Almacenes de Datos
![Page 20: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/20.jpg)
20
Temario
Introducción
Análisis de Datos de la Organización Consultas simples
Consultas complejas para apoyo a la toma de decisiones
Información Oculta
Minería de Datos
Caso Práctico
Conclusiones
![Page 21: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/21.jpg)
21
Análisis de Datos de la OrganizaciónConsultas Simples
SQL
Select
Insert
Update
Delete
![Page 22: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/22.jpg)
22
Análisis de Datos de la OrganizaciónConsultas Complejas
![Page 23: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/23.jpg)
23
Análisis de Datos de la OrganizaciónInformación Oculta
¿Cuáles son las preferencias para mis clientes en
los próximos 10 años?
¿Tengo clientes que realicen fraude?
¿Qué grupo de clientes prefiere los productos
innovadores de la empresa? ¿Seguirán prefiriendo
nuestros productos en los próximos 2 años?
?
![Page 24: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/24.jpg)
24
Temario
Introducción
Análisis de Datos de la Organización
Minería de Datos Generalidades
Métodos más conocidos
Técnicas- Algunos algoritmos
Herramientas para Minería de Datos
Caso Práctico
Conclusiones
![Page 25: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/25.jpg)
25
Minería de DatosGeneralidades
La Minería de Datos es una de las
soluciones que nos ayuda a extraer
conocimiento a partir de los datos.
Este conocimiento puede obtenerse a partir
de la búsqueda de conceptos, ideas o
patrones estadísticamente confiables, que
no son evidentes a primera vista,
desconocidos anteriormente y que pueden
derivarse de los datos originales.
![Page 26: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/26.jpg)
26
Minería de DatosGeneralidades
La minería de datos produce cinco
tipos de información:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronósticos.
![Page 27: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/27.jpg)
27
Minería de DatosGeneralidades
Aplicaciones:
Análisis de fidelización de clientes
Segmentación de mercados
Venta Cruzada
Optimización de la cadena de suministro
Detección y prevención de fraudes
Detección de intrusos en sistemas
computacionales
Detección de Anomalías
![Page 28: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/28.jpg)
28
Minería de DatosMétodos más conocidos
Knowledge Discovery in Databases (KDD)
![Page 29: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/29.jpg)
29
Minería de DatosMétodos más conocidos
Cross-Industry Standard Process for Data Mining (CRISP-DM)
Etapas:
1. Comprensión del negocio
2. Comprensión de los datos
3. Preparación de datos
4. Modelización
5. Evaluación
6. Implementación
![Page 30: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/30.jpg)
30
Minería de DatosTécnicas- Algunos Algoritmos
¿Qué es un cluster?
Un conjunto de entidades que son “parecidas”Ejemplos: K-Means,
DBSCAN, Sequence,
Kohonen, TwoStep
![Page 31: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/31.jpg)
31
Minería de DatosTécnicas- Algunos Algoritmos
Ejemplo árboles de decisión
Son estructuras que representan
conjuntos de decisiones, y estas
decisiones generan reglas para la
clasificación de un conjunto de
datos.
![Page 32: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/32.jpg)
32
Minería de DatosTécnicas- Algunos Algoritmos
Ejemplo redes neuronales
Son modelos predecibles, no lineales que aprenden a través del
entrenamiento.
![Page 33: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/33.jpg)
33
Minería de DatosTécnicas- Algunos Algoritmos
Redes Bayesianas
Buscan determinar relaciones causales que expliquen un fenómeno
según los datos contenidos en una base de datos.
Se han usado principalmente para realizar predicciones.
![Page 34: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/34.jpg)
34
Minería de DatosHerramientas
![Page 35: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/35.jpg)
35
Temario
Introducción
Análisis de Datos de la Organización
Minería de Datos
Caso Práctico
Introducción
Aplicación del Método: CRISP- DM
Resultados
Conclusiones
![Page 36: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/36.jpg)
36
Caso PrácticoIntroducción
El caso de estudio fue desarrollado en en una empresa del sector de Servicios Sanitarios (agua potable, alcantarillado, tratamiento de aguas, etc.), y por lo tanto, la búsqueda de actitudes fraudulentas de los consumidores no forma parte de sus funciones activas.
Actualmente, la oficina de fraudes dispone de personal que revisa físicamente los medidores de los clientes caso a caso, con el fin de detectar posibles fraudes
![Page 37: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/37.jpg)
37
Caso PrácticoIntroducción
Requerimientos para el proyecto: Debe ser capaz de analizar y entregar indicadores sobre los
siguientes datos: Consumo de servicios entregados (agua potable, alcantarillado,
etc.),
Tiempo (año, mes, semestre, etc.),
Ubicación (localidad, sector, ruta) donde se entrega el servicio y las Características del servicio
Debe proveer capacidad de análisis visual, matemático, y entrega de reportes.
Objetivo: realizar un estudio a través de técnicas de MD que permitan localizar y estudiar comportamientos anómalossobre conjuntos de datos, para poder así identificar posibles fraudes en clientes que hacen uso indebido de los servicios que ofrece la empresa
![Page 38: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/38.jpg)
38
Caso PrácticoIntroducción
El problema de la detección de fraude, radica en el
análisis de perfiles de usuario que permitan
describir el comportamiento de un cliente con el fin
de detectar anomalías (DA).
La meta principal en la DA, es encontrar objetos
que sean diferentes de los demás. Frecuentemente
estos objetos son conocidos como Outlier
![Page 39: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/39.jpg)
39
Caso PrácticoIntroducción
Clementine- client contiene múltiples algoritmos para la detección de fraudes, entre los cuales se encuentran los de Clusterización: K-Means, Sequence, TwoStep, Kohonen; y de Detección de Anomalías (Outlier).
El software analiza los resultados obtenidos con el set de datos introducidos y busca la mejor alternativa con el menor error posible al aplicar cada uno de los algoritmos.
![Page 40: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/40.jpg)
40
Caso PrácticoMétodo CRISP- DM
Comprensión del Negocio
Reuniones con la Gerencia de Clientes
El equipo propone utilizar técnicas de
clustering para la detección de
anomalías con el fin de obtener un
listado de clientes que presenten datos
atípicos
![Page 41: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/41.jpg)
41
Caso PrácticoMétodo CRISP- DM
Comprensión de los Datos
Fue necesario analizar el modelo de base de
datos relacional del sistema de información de
la empresa, específicamente aquellas entidades
que tienen relación con el proceso de
facturación.
Éste mantiene información del consumo
mensual de uso de agua potable y alcantarillado
de cada cliente que utiliza estos servicios
![Page 42: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/42.jpg)
42
Caso PrácticoMétodo CRISP- DM
Preparación de los Datos
Debió diseñarse un Almacén de Datos
![Page 43: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/43.jpg)
43
Caso PrácticoMétodo CRISP- DM
Modelado El modelo de detección de anomalías
de Clementine, entrega como resultado grupos de datos con características similares, los cuales son llamados grupos homólogos del modelo.
Cada grupo homólogo entrega información sobre la cantidad de registros procesados, la cantidad de anomalías encontradas, un resumen sobre los campos escogidos a estudiar, entre otros
![Page 44: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/44.jpg)
44
Caso PrácticoMétodo CRISP- DM
Evaluación
Los registros anómalos deben ser
contrastados con la información histórica
de casos de fraude que almacena la
empresa.
Implementación
![Page 45: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/45.jpg)
45
Caso PrácticoResultados
Resultados
Después de varios intentos, se obtuvo
información confiable.
Cerca del 73% de los registros detectados
como anómalos son posibles causas de
fraude
Baja de los costos
![Page 46: Minería de Datos](https://reader031.fdocuments.ec/reader031/viewer/2022012317/5571f82749795991698cc24e/html5/thumbnails/46.jpg)
46
Conclusiones
Consultas simples SQL SGBD
Consultas complejas OLAP DW
Información oculta Técnicas de MD
La MD es una técnica eficiente para la detección de anomalías, siempre y cuando se disponga de un conjunto de datos suficientes para un correcto análisis y
una metodología que permita llevar un control de los resultados dando la posibilidad de reestructurar medidas como la: recolección de nuevos datos,
separación de datos en clases,
transformaciones de las variables,
eliminación de datos,
selección de otros algoritmos de MD,
cambio en los parámetros introducidos en los modelos,
delimitación del campo de búsqueda, etc