DATA MINING MINERIA DE DATOS Gersom Costas. INTRODUCCIÓN Recolección masiva de datos: aumento...

DATA MINING

MINERIA DE DATOS

Gersom Costas

http://www.cs.virginia.edu/research/images/data_mining_6.jpg

INTRODUCCIÓN

• Recolección masiva de datos:

aumento dimensionalidad y nº observacioneshistóricosimperfectos

• Análisis de datos es crucial para el negocio

• Toma decisiones rápidas

• Dificultad para aplicar técnicas tradicionales

• Solamente un 5 % de la información es analizada

•Potentes computadoras con multiprocesadores

KDD: Descubrimiento de conocimiento en las bases de datos (Knowledge Discovery in Databases),

“proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996

Data mining: Minería de datos

“proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos” (Witten y Frank, 2000)

DEFINICIONES

Integración y recopilación

Selección, limpieza y transformación

DATA MININGEvaluación e interpretación

Datos iniciales

Almacén de Datos

(Data Warehouse)

Datos seleccionados

Patrones

Conocimiento

Proceso de KDD

Knowledge Discovery from DatabasesKDD

Data Mining : confluencia de múltiples disciplinas

Data Mining

Sistemas de información

VisualizaciónEstadística

Aprendizaje

automático

Otras disciplinas

Áreas de aplicación más frecuentes (Cajal et al.,

2001).

Distribución de las materias (Cajal et al.,

2001).

Objetivos KDD

VERIFICACIÓN DESCUBRIMIENTO

DESCRIPCIÓN PREDICCIÓN

CLASIFICACIÓN TENDENCIA/ REGRESIÓN

SQLOLAP

Análisis estadístico

VisualizaciónAgrupamiento

Reglas de asociación Árboles de decisión

Reglas asociaciónRedes neuronales

Métodos bayesianos

Árboles de regresiónRedes neuronalesSeries temporales

• Clasificación: se asignan los registros de datos en categorías predefinidas• Algoritmos genéticos. Técnicas de optimización que usan procesos como combinaciones genéticas, mutación y selección natural, • Redes neuronales: modelos predecibles no lineales, aprenden a través del entrenamiento.• Árboles de decisión: estructura en forma de árbol que representan conjunto de decisiones.

1. SUPERVISADOS: predicen el valor de un atributo de un conjunto de datos conocidos otros atributos.

Regresión o estimación: inducir a un modelo de predecir un valor de la clase. Usa árboles de regresión, regresión lineal, redes neuronales.

2. NO SUPERVISADOS: descubren patrones y tendencias en los datos sin tener ningún tipo de conocimiento previo acerca de cuales son los patrones buscados

• Clustering: agrupa los datos basándose en sus similitudes.• Análisis de enlace: determina asociaciones entre registros de datos.• Análisis de frecuencia: análisis de registros ordenados en el tiempo. Detecta secuencias

CLASIFICACION ALGORITMOS

Algunas de las técnicas más comúnmente usadas en Data Mining son:

Redes neuronales artificiales: modelos predecibles no-lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.

Árboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Incluyen :

- Árboles de Clasificación - Árboles de Regresión

Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.

SVM (Support Vector Machine): técnica que clasificación que se aplica a problemas con dos clases.

Regla de inducción: extracción de reglas if-then de datos basados en significado estadístico.

Objetivo: Segmentar la población para encontrar grupos homogéneos según una cierta variable de respuesta. Esta técnica permite representar de forma gráfica una serie de reglas sobre la decisión que se debe tomar en la asignación de un determinado elemento a una clase o valor de salida.

Los árboles difieren según:

-Tipo de la variable de respuesta-Tipos de variables de segmentación-Árboles binarios o n-arios-Criterio de partición-Criterio de parada

Árboles de decisión son particiones secuénciales de un conjunto de datos que maximizan las diferencias de la variable independiente

ÁRBOLES DE DECISION

ÁRBOLES DE DECISIONLos árboles de decisión suelen ser empleados en tareas de clasificación sobre variables de respuesta categóricas (árboles de clasificación), y también, aunque en menor medida, en tareas de predicción sobre variables de respuesta cuantitativas (árboles de regresión).

Ej. Acontecimientos relativos al hundimiento del Titanic

REGLAS DE ASOCIACION

Nos permite predecir patrones de comportamientos futuros sobre ocurrencias simultaneas de valores de variables. Técnica no supervisada

Una asociación entre dos atributos ocurre cuando la frecuencia con la que se dan dos o más valores determinados de cada uno conjuntamente es relativamente alta.

Las reglas de asociación intentan descubrir asociaciones o conexiones entre objetos.

· Ejemplo, en un supermercado se analiza si los pañales y los potitos debebé se compran conjuntamente.

Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m.

Sistemas de procesamiento de la información cuya estructura y funcionamiento están inspirados en las redes neuronales biológicas. Consisten en un conjunto de elementos simples de procesamiento llamados nodos o neuronas conectadas entre sí por conexiones que tienen un valor numérico modificable llamado peso.

Consiste en sumar los valores de las entradas (inputs) que recibe de otras unidades conectadas a ella, neurona aplica una función de activación (usualmente no lineal), enviar activación o salida (output) a las unidades a las que esté conectada.

REDES NEURONALES

Supervisada : ej. Perceptrón multicapa

No supervisada: ej. Mapas autoorganizativos de Kohonen

PERCEPTRÓN MULTICAPA : Aprende la asociación que existe entre un conjunto de patrones de entrada y sus salidas correspondientes.

REDES NEURONALES

Pueden ser utilizadas en problemas de clasificación (la variable de salida es cualitativa) o en predicción (la variable de salida es cuantitativa).

MAPAS AUTOORGANIZATIVOS DE KOHONEN

Aprendizaje competitivo. Descubrir por si misma rasgos, peculiaridades, correlaciones o categorías que se encuentren en los datos. El objetivo es descubrir “características o patrones característicos” de entre un conjunto de datos de entrada, pero de forma NO SUPERVISADA.

Reflejadas en la estructura topológica de la red

REDES NEURONALES

Divide un conjunto de datos en grupos de tal forma que los elementos en un grupo sean similares y los elementos en grupos diferentes tengan la menor similitud posible

Proceso de aprendizaje no-supervisado

CLUSTERING

•Medida de similitud/disimilitud

•Función de distancia d (i,j)

Algoritmo particional: K-

MeansMétodo

jerárquico

Step 0 Step 1 Step 2 Step 3 Step 4

b

d

c

e

a a b

d e

c d e

a b c d e

Step 4 Step 3 Step 2 Step 1 Step 0

agglomerative(AGNES)

divisive(DIANA)

CLUSTERING

• Se define sobre un espacio de vectores donde el problema es encontrar el hiperplano separador óptimo que mejor discrimine los datos en dos clases

• Una vez detectado el hiperplano, los ejemplos se pueden clasificar chequeando en qué lado del hiperplano se encuentra

SVM (Support Vector Machine)

Máquinas de Vectores de soporte

DATA MINING MINERIA DE DATOS Gersom Costas. INTRODUCCIÓN Recolección masiva de datos: aumento...

Documents

Transcript of DATA MINING MINERIA DE DATOS Gersom Costas. INTRODUCCIÓN Recolección masiva de datos: aumento...