Minería de datos
Dr. Francisco J. Mata
1
Introducción a la
minería de datosTema 1
2
Minería de datos
Dr. Francisco J. Mata
Temario
¿Qué es minería de datos?
¿Quién usa minería de datos?
¿Por qué de la minería de datos?
Ciclo virtuoso de la minería de datos
Resumen de principales técnicas de
minería de datos
3
Minería de datos
Dr. Francisco J. Mata
Definición de minería de
datos Minería de datos es la exploración y
análisis de grandes cantidades de datos
con el objeto de encontrar patrones y
reglas significativas (conocimiento)
4
Minería de datos
Dr. Francisco J. Mata
Metas de la minería de datos
Permitir a una organización MEJORAR
_____ a través de un mejor
CONOCIMIENTO de _______
Mejorar la ventaja competitiva
5
Minería de datos
Dr. Francisco J. Mata
La minería de datos es un campo
multidisciplinario
Minería de datos
Inteligencia
Artificial
(“Machine
Learning”)
Estadística
Bases de
Datos
(VLDB)
Graficación y
visualización
Ciencias de
la información
Otras
disciplinas
6
Minería de datos
Dr. Francisco J. Mata
La minería de datos es un
subconjunto de la inteligencia de
negocios
7
Minería de datos
Dr. Francisco J. Mata
Minería de datos
Proceso de utilizar datos “crudos” para inferir importantes relaciones entre ellos
Colección de técnicas poderosas para analizar grandes volúmenes de datos
No existe un solo enfoque para minería de datos sino un conjunto de técnicas que se pueden utilizar de manera independiente o en combinación
Existe una relación con la estadística, aunque frecuentemente se separan las técnicas que no están basadas en métodos estadísticos
8
Minería de datos
Dr. Francisco J. Mata
Tipos de aplicaciones de la
minería de datos
Aplicaciones o problemas de minería de
datos pueden clasificarse en las
siguientes categorías
Clasificación
Estimación
Pronóstico
Asociación
Agrupación o segmentación
9
Minería de datos
Dr. Francisco J. Mata
Clasificación
Examinar las características de un nuevo
objeto y asignarle una clase o categoría
de acuerdo a un conjunto de tales objetos
previamente definido
Ejemplos:
Clasificar aplicaciones a crédito como bajo,
medio y alto riesgo
Detectar reclamos fraudulentos de seguros
10
Minería de datos
Dr. Francisco J. Mata
Estimación
Relacionado con clasificación
Mientras clasificación asigna un valor
discreto, estimación produce un valor
continuo
Ejemplos:
Estimar el precio de una vivienda
Estimar el ingreso total de una familia
11
Minería de datos
Dr. Francisco J. Mata
Pronóstico
Predecir un valor futuro con base a
valores pasados
Ejemplos:
Predecir cuánto efectivo requerirá un cajero
automático en un fin de semana
12
Minería de datos
Dr. Francisco J. Mata
Asociación
Determinar cosas u objetos que van juntos
Ejemplo:
Determinar que productos se adquieren
conjuntamente en un supermercado
13
Minería de datos
Dr. Francisco J. Mata
Agrupación o segmentación
Dividir una población en un número de
grupos más homogéneos
No depende de clases pre-definidas a
diferencia de clasificación
Ejemplo:
Dividir la base de clientes de acuerdo con los
hábitos de consumo
14
Minería de datos
Dr. Francisco J. Mata
Usos de la minería de datos
Administración de la relación con los
clientes:
Identificar nuevos clientes potenciales para
aumentar ventas
Ampliar la base de cliente con la mínima
inversión por parte de la empresa
Retener clientes existentes evitando que se
vayan a la competencia (“attrition”)
Vender más a clientes existentes (“ventas
cruzadas”)
15
Minería de datos
Dr. Francisco J. Mata
Usos de la minería de datos
Detección de fraudes en el uso de tarjetas
de crédito
Determinar patrones que puedan estar
relacionados con lavado de dinero
Determinar el precio de una casa con
base en sus características y el precio de
otras casas vendidas
16
Minería de datos
Dr. Francisco J. Mata
Ejercicio en grupos
Equipos: 3 personas máximo
Objetivos:
Identificar situaciones concretas para utilizar
la minería de datos (10 minutos)
Reportar a la clase verbalmente (3 minutos)
Las situaciones identificadas
Tipo de aplicación o problema de minería de datos
relacionado
Los beneficios esperados de aplicar la minería de
datos
17
Minería de datos
Dr. Francisco J. Mata
Usos de la minería de datos
Usos de la minería de datos se han
ampliado con el comercio electrónico
18
Minería de datos
Dr. Francisco J. Mata
Recomendaciones
19
Minería de datos
Dr. Francisco J. Mata
Disponibilidad de datos de
transacciones
20
Minería de datos
Dr. Francisco J. Mata
¿Por qué de la minería de
datos? Datos se encuentran disponibles
Poder computacional es cada vez menos
costoso
Las presiones competitivas son enormes
Software para minería de datos se
encuentra disponible
21
Minería de datos
Dr. Francisco J. Mata
Ciclo virtuoso de la minería de
datos
22
Minería de datos
Dr. Francisco J. Mata
Principales técnicas de minería
de datos
Análisis de canasta de supermercado
K vecinos más cercanos
Detección de grupos
Análisis de encadenamiento
Árboles de decisión
Redes neuronales artificiales
Algoritmos genéticos
23
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Análisis de canasta de supermercado
Agrupar objetos que aparecen juntos
Ejemplos:
Pañales y cervezas
24
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
K vecinos más cercanos
Determinar los K vecinos más cercanos en
instancias conocidos con el objeto de
clasificar o hacer una predicción sobre una
instancia desconocida
Ejemplo: Dado un reclamo para un seguro
determinar basado en reclamos similares
(vecinos) si se debe pagar o investigar
25
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Detección de grupos
Encontrar objetos similares entre sí
Ejemplos: tipificar clases de clientes
26
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Análisis de encadenamiento
Encuentra relaciones entre objetos de
acuerdo con patrones
Relacionado con la teoría de grafos
Ejemplos:
Relaciones entre individuos basados en llamadas
telefónicas
Relaciones entre casos criminales de acuerdo con
sus características
27
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Árboles de decisión
Dividir objetos en grupos asociando reglas
para la asignación de los objetos en su
correspondiente grupo
Ejemplos: determinar el sexo o grupo de edad
de una persona en función a una serie de
preguntas contestadas
28
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Redes neuronales artificiales
Más común de las técnicas y para algunos
sinónimo de minería de datos
Modelos simples de interconexiones
neuronales en el cerebro que aprenden de un
conjunto de adiestramiento y generalizan
patrones dentro de él con el objeto de
clasificar, estimar o predecir
Ejemplo: estimar el valor de una casa
tomando en cuenta el precio pagado por
casas similares
29
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Algoritmos genéticos
Aplican la mecánica de la genética y la
selección natural para encontrar un conjunto
de parámetros óptimos para una función
predictiva
Utilizados para entrenar redes neuronales
artificiales
30
Minería de datos
Dr. Francisco J. Mata
Resumen técnicas de minería de
datos
Técnicas mencionadas pueden utilizarse en
varias aplicaciones o problemas de minería de
datos
Ejemplo: árboles de decisión sirven para detectar
grupos, clasificar y predecir
Varias técnicas pueden ser utilizadas en una
misma aplicación o problema de minería de
datos
Ejemplo: K vecinos más próximos, árboles de
decisión y redes neuronales artificiales pueden
utilizarse para clasificación