3. Introducción a La Minería de Datos

39
Introducción a la minería de datos PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

description

utfgy

Transcript of 3. Introducción a La Minería de Datos

  • Introduccin a la minera de datos

    PF-5028 Minera de datosProf. Braulio Jos Solano Rojas

    UCR

  • Minera de datos Deteccin, interpretacin y prediccin de patrones

    cuantitativos y cualitativos en los datos.

    Proceso de extraer informacin o patrones interesantes (no triviales, implcitos, previamente desconocidos y potencialmente tiles) desde grandes repositorios.

    2 de 39

  • Minera de datos Etapa principal y una etapa ms del proceso global de

    descubrimiento de conocimiento en bases datos (KDD) (Htnen et al., 1996).

    Siguen dos etapas: El postprocesamiento del conocimiento descubierto (seleccin de

    los patrones realmente interesantes, presentacin de los patrones, ...).

    Poner el conocimiento descubierto en uso.

    3 de 39

  • Minera de datos La Minera de Datos es un proceso no

    elemental de bsqueda de relaciones, correlaciones, dependencias, asociaciones, modelos, estructuras, tendencias, clases, segmentos, los cuales que se obtienen de conjuntos de datos grandes que generalmente estn en repositorios de datos (relacionales o no). Esta bsqueda se lleva a cabo utilizando mtodos

    matemticos, estadsticos o algortmicos.

    4 de 39

  • Descubrimiento de conocimiento Se considera al Descubrimiento de

    Conocimiento en Bases de Datos (KDD) como el proceso, lo ms automatizado posible, que va de los datos elementales disponibles en un repositorio de datos a la decisin.

    El objetivo principal del Descubrimiento de Conocimiento en Bases de Datos (KDD) es crear un proceso automatizado que tome como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones.

    5 de 39

  • Minera de datos contra KDD Usualmente ambos trminos son

    intercambiables.

    Descubrimiento de conocimiento en bases de datos Es el proceso de encontrar informacin y/o

    patrones tiles en los datos.

    Minera de Datos Es el uso de algoritmos para extraer informacin

    y/o patrones derivados dentro del proceso KDD.

    6 de 39

  • Minera de datos, etapa del KDD

    7 de 39

  • Minera de datos contra estadstica La estadstica generalmente analiza muestras

    de datos para luego hacer inferencia a toda la poblacin, mientras que la minera de datos pretende buscar informacin til usando toda la base datos.

    8 de 39

  • Minera de datos contra estadstica La estadstica en la mayora de los casos

    supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geomtrica, Poisson, etc.), mientras que la minera de datos usa tcnicas mucho ms exploratorias que vienen del aprendizaje de mquina o del anlisis de datos, por ejemplo.

    9 de 39

  • Minera de datos contra anlisis de datos

    Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgi del matrimonio entre la informtica y la estadstica: el anlisis de datos (conocido en francs como analyse des donnes y en ingls como exploratory data analysis).

    10 de 39

  • Minera de datos contra anlisis de datos

    Esta nueva manera de analizar los datos con un objetivo decisional usa mucho ms la informtica y los mtodos analticos (el anlisis de factorial, la clasificacin automtica, la discriminacin, etc.) que los mtodos estadsticos clsicos, las pruebas de hiptesis, que parten de supuestos matemticos muy difciles de verificar en la prctica. Por ejemplo, no se supone que los datos siguen cierta distribucin de probabilidad -los datos se muestran por s mismos-.

    11 de 39

  • Minera de datos contra anlisis de datos

    A diferencia de la minera de datos, el anlisis de datos usualmente no es automatizado, ni trata con volmenes de datos tan grandes.

    Entindase esto entonces cmo que la minera datos y el anlisis de datos son ramas de ciencias diferentes, las ciencias de la computacin y la matemtica, respectivamente.

    12 de 39

  • Minera de datos contra bodegas de datos

    Una bodega de datos es un almacn de datos de una compaa que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del histricos, datos evolutivos y posiblemente aquellos datos externos a la compaa pero que tienen una posible relacin con las actividades de esta.

    Estos datos se depositan en una o ms bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones.

    13 de 39

  • Minera de datos contra bodegas de datos

    Evidentemente bodegas de datos y minera de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minera de datos. Podra decirse que ambos, las bodegas de datos y la minera de datos son partes del proceso KDD.

    14 de 39

  • Minera de datos contra aprendizaje de mquinas

    Aprendizaje de mquinas Es un rea de la Inteligencia Artificial (IA) que trata

    sobre como escribir programas que puedan aprender.

    En minera de datos es usualmente usado para prediccin y clasificacin.

    Se divide en dos: aprendizaje supervisado (aprendizaje por

    ejemplos). aprendizaje no supervisado.

    15 de 39

  • Minera de datos: ciencia eclctica

    16 de 39

  • Tareas de la minera de datos Descriptivas:

    OLAP (visualizacin). Agrupamiento (clustering). Mtodos Factoriales como ACP o AFC.

    Predictivas: Series de tiempo. Anlisis discriminante. Regresin. rboles de decisin.

    17 de 39

  • Tareas de la minera de datos: agrupamiento

    Agrupamiento (clasificacin no supervisada, aprendizaje no supervisado).

    Es similar a la clasificacin, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similitud de los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretacin de los grupos que se forman.

    18 de 39

  • Tareas de la minera de datos: agrupamiento

    Mtodos

    Clasificacin jerrquica (grupos disjuntos).

    Nubes dinmicas (grupos disjuntos).

    Clasificacin piramidal (grupos NO disjuntos).

    19 de 39

  • Tareas de la minera de datos: agrupamiento

    Anlisis de grupos

    20 de 39

  • Tareas de la minera de datos: agrupamiento

    Mtodo de agrupamiento nubes dinmicas (k-means)

    21 de 39

  • Tareas de la minera de datos: clasificacin

    Clasificacin (discriminacin) Empareja o asocia datos a grupos predefinidos

    (aprendizaje supervisado). Encuentra modelos (funciones) que describen y

    distinguen clases o conceptos para futuras predicciones.

    Ejemplos: Calificacin de crdito (credit scoring).

    Mtodos: Anlisis discriminante, rboles de decisin, reglas de clasificacin, redes neuronales.

    22 de 39

  • 23 de 39

  • Tareas de la minera de datos: anlisis factorial

    Descubrimiento de factores (anlisis factorial) El anlisis factorial es un nombre genrico que se

    da a una clase de mtodos multivariantes cuyo propsito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos).

    Generalmente hablando, aborda el problema de cmo analizar la estructura de las interrelaciones (correlaciones) entre un gran nmero de variables con la definicin de una serie de dimensiones subyacentes comunes, conocidas como factores.

    24 de 39

  • Tareas de la minera de datos: anlisis factorial

    Descubrimiento de factores (anlisis factorial) Se puede considerar cada factor como una variable

    dependiente que es funcin del conjunto entero de las variables observadas.

    El objetivo central es el resumen y la reduccin de datos.

    Mtodos Anlisis en componentes principales (ACP). Anlisis factorial de correspondencias simples y

    mltiples (AFC). Anlisis cannico (AC). Anlisis discriminante (AD).

    25 de 39

  • 26 de 39

  • 27 de 39

  • Tareas de la minera de datos: regresin

    Regresin Se usa una regresin para predecir los valores

    ausentes de una variable basndose en su relacin con otras variables del conjunto de datos.

    Hay regresin lineal, no lineal, logstica, logartmica, univariada, multivariada, etc.

    28 de 39

  • 29 de 39

  • Tareas de la minera de datos: series de tiempo

    Series de tiempo Una serie de tiempo corresponde a un conjunto de

    observaciones hechas respecto a una variable en momentos equidistantes en el tiempo.

    Pasos1. Xt: Serie de tiempo.2. Corregir errores sistemticos.3. Transformaciones matemticas.4. Xt=Tendencia+Estacionalidad+Ciclos+Et.5. Para Et (Si no es un ruido blanco)

    1. Elegir el modelo (Box-Jenkings).1. ARMA(p,q) (AutoRegressiveMovingAverage)2. ARIMA(p,d,q) (AutoRegressive-IntegratedMovingAverage)

    2. Estimar parmetros.6. Pronsticos.

    30 de 39

  • Tareas de la minera de datos: series de tiempo

    31 de 39

  • Tareas de la minera de datos: resumen

    Resumen Los mtodos de resumen asignan los datos a

    conjuntos (individuos de segundo orden) que tienen asociadas descripciones.

    Estos mtodos permiten extraer o derivar datos representativos de una base de datos.

    Permite el anlisis de conceptos.

    Mtodos: Anlisis de datos simblicos. Lgica difusa. Anlisis de intervalos.

  • Tareas de la minera de datos: asociacin

    Asociacin o anlisis de afinidad Conocido como link analysis, se refiere a encontrar

    relaciones no evidentes en los datos.

    Mtodos Reglas de asociacin (association rules). Anlisis de correlacin y de causalidad.

    33 de 39

  • Tareas de la minera de datos: secuencias

    Descubrimiento de secuencias Secuence analysis es usado para descubrir

    secuencias de patrones en los datos, estos patrones son similares a los encontrados con reglas de asociacin pero tales relaciones son basadas en el tiempo.

    Mtodos Redes neuronales. Series de tiempo.

    34 de 39

  • En qu tipos de datos? Bases de datos relacionales Bodegas de datos Bases de datos transaccionales Bases de datos avanzadas y repositorios de

    informacin Bases de datos orientadas a objetos y simblicas. Bases de datos espaciales (sistemas de

    informacin geogrfica). Series de tiempo y datos temporales. Bases de datos textuales y multimedia. Bases de datos heterogneas y heredadas. World wide web (minera web).

    35 de 39

  • Pasos del descubrimiento de conocimiento en bases de datos

    1. Aprender el dominio de aplicacin Conocimiento previo relevante y objetivos de la aplicacin.

    2. Crear un conjunto de datos objetivo: seleccin de los datos3. Limpieza de los datos y preprocesamiento: (puede tomer un

    60% del esfuerzo!)4. Reduccin de datos y transformacin

    Encontrar caractersticas tiles, reduccin de variables/dimensionalidad, representacin invariante.

    5. Escoger funciones (mtodos) de la minera de datos Resumen, clasificacin, regresin, asociacin, agrupamiento.

    6. Escojer el (los) algoritmo(s) de minera de datos7. Minera de datos: buscar patrones de inters8. Evaluacin de patrones y representacin del conocimiento

    visualizacin, transformacin, eliminar patrones redundantes, etc.9. Uso del conocimiento descubierto

    36 de 39

  • Minera de datos e inteligencia de negocios

    37 de 39

  • Arquitectura de un sistema de minera de datos tpico

    38 de 39

  • Gracias por su atencin!

    Preguntas?

    Pgina 1Pgina 2Pgina 3Pgina 4Pgina 5Pgina 6Pgina 7Pgina 8Pgina 9Pgina 10Pgina 11Pgina 12Pgina 13Pgina 14Pgina 15Pgina 16Pgina 17Pgina 18Pgina 19Pgina 20Pgina 21Pgina 22Pgina 23Pgina 24Pgina 25Pgina 26Pgina 27Pgina 28Pgina 29Pgina 30Pgina 31Pgina 32Pgina 33Pgina 34Pgina 35Pgina 36Pgina 37Pgina 38Pgina 39