1. Introducción a La Minería de Datos

39
Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

description

mineria de datos.

Transcript of 1. Introducción a La Minería de Datos

Page 1: 1. Introducción a La Minería de Datos

Introducción a la minería de datos

CI-2352 Intr. a la minería de datosProf. Braulio José Solano Rojas

ECCI, UCR

Page 2: 1. Introducción a La Minería de Datos

Minería de datos● Detección, interpretación y predicción de patrones

cuantitativos y cualitativos en los datos.

● Proceso de extraer información o patrones interesantes (no triviales, implícitos, previamente desconocidos y potencialmente útiles) desde grandes repositorios.

2 de 39

Page 3: 1. Introducción a La Minería de Datos

Minería de datos● Etapa principal y una etapa más del proceso global de

descubrimiento de conocimiento en bases datos (KDD) (Hätönen et al., 1996).

● Siguen dos etapas:– El postprocesamiento del conocimiento descubierto (selección de

los patrones realmente interesantes, presentación de los patrones, ...).

– Poner el conocimiento descubierto en uso.

3 de 39

Page 4: 1. Introducción a La Minería de Datos

Minería de datos● La Minería de Datos es un proceso no

elemental de búsqueda de relaciones, correlaciones, dependencias, asociaciones, modelos, estructuras, tendencias, clases, segmentos, los cuales que se obtienen de conjuntos de datos grandes que generalmente están en repositorios de datos (relacionales o no).● Esta búsqueda se lleva a cabo utilizando métodos

matemáticos, estadísticos o algorítmicos.

4 de 39

Page 5: 1. Introducción a La Minería de Datos

Descubrimiento de conocimiento● Se considera al Descubrimiento de

Conocimiento en Bases de Datos (KDD) como el proceso, lo más automatizado posible, que va de los datos elementales disponibles en un repositorio de datos a la decisión.

● El objetivo principal del Descubrimiento de Conocimiento en Bases de Datos (KDD) es crear un proceso automatizado que tome como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones.

5 de 39

Page 6: 1. Introducción a La Minería de Datos

Minería de datos contra KDD● Usualmente ambos términos son

intercambiables.

● Descubrimiento de conocimiento en bases de datos● Es el proceso de encontrar información y/o

patrones útiles en los datos.

● Minería de Datos● Es el uso de algoritmos para extraer información

y/o patrones derivados dentro del proceso KDD.

6 de 39

Page 7: 1. Introducción a La Minería de Datos

Minería de datos, etapa del KDD

7 de 39

Page 8: 1. Introducción a La Minería de Datos

Minería de datos contra estadística● La estadística generalmente analiza muestras

de datos para luego hacer inferencia a toda la población, mientras que la minería de datos pretende buscar información útil usando toda la base datos.

8 de 39

Page 9: 1. Introducción a La Minería de Datos

Minería de datos contra estadística● La estadística en la mayoría de los casos

supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geométrica, Poisson, etc.), mientras que la minería de datos usa técnicas mucho más exploratorias que vienen del aprendizaje de máquina o del análisis de datos, por ejemplo.

9 de 39

Page 10: 1. Introducción a La Minería de Datos

Minería de datos contra análisis de datos

● Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgió del “matrimonio” entre la informática y la estadística: el análisis de datos (conocido en francés como analyse des données y en inglés como exploratory data analysis).

10 de 39

Page 11: 1. Introducción a La Minería de Datos

Minería de datos contra análisis de datos

● Esta nueva manera de analizar los datos con un objetivo decisional usa mucho más la informática y los métodos analíticos (el análisis de factorial, la clasificación automática, la discriminación, etc.) que los métodos estadísticos clásicos, las pruebas de hipótesis, que parten de supuestos matemáticos muy difíciles de verificar en la práctica. Por ejemplo, no se supone que los datos siguen cierta distribución de probabilidad -los datos se muestran por sí mismos-.

11 de 39

Page 12: 1. Introducción a La Minería de Datos

Minería de datos contra análisis de datos

● A diferencia de la minería de datos, el análisis de datos usualmente no es automatizado, ni trata con volúmenes de datos tan grandes.

● Entiéndase esto entonces cómo que la minería datos y el análisis de datos son ramas de ciencias diferentes, las ciencias de la computación y la matemática, respectivamente.

12 de 39

Page 13: 1. Introducción a La Minería de Datos

Minería de datos contra bodegas de datos

● Una bodega de datos es un almacén de datos de una compañía que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del históricos, datos evolutivos y posiblemente aquellos datos externos a la compañía pero que tienen una posible relación con las actividades de esta.

● Estos datos se depositan en una o más bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones.

13 de 39

Page 14: 1. Introducción a La Minería de Datos

Minería de datos contra bodegas de datos

● Evidentemente bodegas de datos y minería de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minería de datos. Podría decirse que ambos, las bodegas de datos y la minería de datos son partes del proceso KDD.

14 de 39

Page 15: 1. Introducción a La Minería de Datos

Minería de datos contra aprendizaje de máquinas

● Aprendizaje de máquinas● Es un área de la Inteligencia Artificial (IA) que trata

sobre como escribir programas que puedan aprender.

● En minería de datos es usualmente usado para predicción y clasificación.

● Se divide en dos:● aprendizaje supervisado (aprendizaje por

ejemplos).● aprendizaje no supervisado.

15 de 39

Page 16: 1. Introducción a La Minería de Datos

Minería de datos: ciencia ecléctica

16 de 39

Page 17: 1. Introducción a La Minería de Datos

Tareas de la minería de datos● Descriptivas:

● OLAP (visualización).● Agrupamiento (clustering).● Métodos Factoriales como ACP o AFC.

● Predictivas:● Series de tiempo.● Análisis discriminante.● Regresión.● Árboles de decisión.

17 de 39

Page 18: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: agrupamiento

● Agrupamiento (clasificación no supervisada, aprendizaje no supervisado).

● Es similar a la clasificación, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridadde los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos que se forman.

18 de 39

Page 19: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: agrupamiento

● Métodos

● Clasificación jerárquica (grupos disjuntos).

● Nubes dinámicas (grupos disjuntos).

● Clasificación piramidal (grupos NO disjuntos).

19 de 39

Page 20: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: agrupamiento

Análisis de grupos

20 de 39

Page 21: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: agrupamiento

Método de agrupamiento nubes dinámicas (k-means)

21 de 39

Page 22: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: clasificación

● Clasificación (discriminación)● Empareja o asocia datos a grupos predefinidos

(aprendizaje supervisado).● Encuentra modelos (funciones) que describen y

distinguen clases o conceptos para futuras predicciones.

● Ejemplos: Calificación de crédito (credit scoring).

● Métodos: Análisis discriminante, árboles de decisión, reglas de clasificación, redes neuronales.

22 de 39

Page 23: 1. Introducción a La Minería de Datos

23 de 39

Page 24: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: análisis factorial

● Descubrimiento de factores (análisis factorial)● El análisis factorial es un nombre genérico que se

da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos).

● Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores.

24 de 39

Page 25: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: análisis factorial

● Descubrimiento de factores (análisis factorial)● Se puede considerar cada factor como una variable

dependiente que es función del conjunto entero de las variables observadas.

● El objetivo central es el resumen y la reducción de datos.

● Métodos● Análisis en componentes principales (ACP).● Análisis factorial de correspondencias simples y

múltiples (AFC).● Análisis canónico (AC).● Análisis discriminante (AD).

25 de 39

Page 26: 1. Introducción a La Minería de Datos

26 de 39

Page 27: 1. Introducción a La Minería de Datos

27 de 39

Page 28: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: regresión

● Regresión● Se usa una regresión para predecir los valores

ausentes de una variable basándose en su relación con otras variables del conjunto de datos.

● Hay regresión lineal, no lineal, logística, logarítmica, univariada, multivariada, etc.

28 de 39

Page 29: 1. Introducción a La Minería de Datos

29 de 39

Page 30: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: series de tiempo

● Series de tiempo● Una serie de tiempo corresponde a un conjunto de

observaciones hechas respecto a una variable en momentos equidistantes en el tiempo.

● Pasos1. Xt: Serie de tiempo.2. Corregir errores sistemáticos.3. Transformaciones matemáticas.4. Xt=Tendencia+Estacionalidad+Ciclos+Et.5. Para Et (Si no es un ruido blanco)

1. Elegir el modelo (Box-Jenkings).1. ARMA(p,q) (AutoRegressiveMovingAverage)2. ARIMA(p,d,q) (AutoRegressive-IntegratedMovingAverage)

2. Estimar parámetros.6. Pronósticos.

30 de 39

Page 31: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: series de tiempo

31 de 39

Page 32: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: resumen

● Resumen● Los métodos de resumen asignan los datos a

conjuntos (individuos de segundo orden) que tienen asociadas descripciones.

● Estos métodos permiten extraer o derivar datos representativos de una base de datos.

● Permite el análisis de conceptos.

● Métodos:● Análisis de datos simbólicos.● Lógica difusa.● Análisis de intervalos.

Page 33: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: asociación

● Asociación o análisis de afinidad● Conocido como link analysis, se refiere a encontrar

relaciones no evidentes en los datos.

● Métodos● Reglas de asociación (association rules).● Análisis de correlación y de causalidad.

33 de 39

Page 34: 1. Introducción a La Minería de Datos

Tareas de la minería de datos: secuencias

● Descubrimiento de secuencias● Secuence analysis es usado para descubrir

secuencias de patrones en los datos, estos patrones son similares a los encontrados con reglas de asociación pero tales relaciones son basadas en el tiempo.

● Métodos● Redes neuronales.● Series de tiempo.

34 de 39

Page 35: 1. Introducción a La Minería de Datos

¿En qué tipos de datos?● Bases de datos relacionales● Bodegas de datos● Bases de datos transaccionales● Bases de datos avanzadas y repositorios de

información● Bases de datos orientadas a objetos y simbólicas.● Bases de datos espaciales (sistemas de

información geográfica).● Series de tiempo y datos temporales.● Bases de datos textuales y multimedia.● Bases de datos heterogéneas y heredadas.● World wide web (minería web).

35 de 39

Page 36: 1. Introducción a La Minería de Datos

Pasos del descubrimiento de conocimiento en bases de datos

1. Aprender el dominio de aplicación● Conocimiento previo relevante y objetivos de la aplicación.

2. Crear un conjunto de datos objetivo: selección de los datos3. Limpieza de los datos y preprocesamiento: (¡puede tomer un

60% del esfuerzo!)4. Reducción de datos y transformación

● Encontrar características útiles, reducción de variables/dimensionalidad, representación invariante.

5. Escoger funciones (métodos) de la minería de datos● Resumen, clasificación, regresión, asociación, agrupamiento.

6. Escojer el (los) algoritmo(s) de minería de datos7. Minería de datos: buscar patrones de interés8. Evaluación de patrones y representación del conocimiento

● visualización, transformación, eliminar patrones redundantes, etc.9. Uso del conocimiento descubierto

36 de 39

Page 37: 1. Introducción a La Minería de Datos

Minería de datos e inteligencia de negocios

37 de 39

Page 38: 1. Introducción a La Minería de Datos

Arquitectura de un sistema de minería de datos típico

38 de 39

Page 39: 1. Introducción a La Minería de Datos

¡Gracias por su atención!

¿Preguntas?