1 Data Mining

download 1 Data Mining

of 14

Transcript of 1 Data Mining

  • 7/22/2019 1 Data Mining

    1/14

    Introduccin al DataIntroduccin al Data MiningMining Fernando Berzal, Fernando Berzal, [email protected]@acm.org

    Introduccin al DataIntroduccin al Data MiningMining

    Qu es la minera de datos?Qu es la minera de datos?

    AplicacionesAplicaciones

    KDD (KDD (KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases)) El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento

    Carcter multidisci linarCarcter multidisci linar

    Tcnicas de minera de datosTcnicas de minera de datos Modelos descriptivos y modelos predictivosModelos descriptivos y modelos predictivos

    Clasificacin de las tcnicas de minera de datosClasificacin de las tcnicas de minera de datos

    Fuentes de datosFuentes de datos

    Evaluacin de resultadosEvaluacin de resultados Sistemas de minera de datosSistemas de minera de datos

    11

  • 7/22/2019 1 Data Mining

    2/14

    Qu es la minera de datos?Qu es la minera de datos?

    Extraccin de patrones (conocimiento)Extraccin de patrones (conocimiento)enen grandesgrandes bases de datos.bases de datos.

    22

    Qu es la minera de datos?Qu es la minera de datos?

    Extraccin deExtraccin de conocimientoconocimientoen grandes bases de datos.en grandes bases de datos.

    RequisitosRequisitos

    No trivialNo trivial

    ImplcitoImplcito

    PreviamentePreviamente desconocidodesconocido

    PotencialmentePotencialmente tiltil

    33

  • 7/22/2019 1 Data Mining

    3/14

    Qu es la minera de datos?Qu es la minera de datos?

    DefinicionesDefiniciones

    NonNon--trivial extraction of implicit, previously unknowntrivial extraction of implicit, previously unknownand potentially useful information from data.and potentially useful information from data.

    FrawleFrawle PiatetskPiatetsk --Sha iro &Sha iro & MatheusMatheus::Knowledge Discovery in Databases: An Overview.Knowledge Discovery in Databases: An Overview.MIT Press, 1991.MIT Press, 1991.

    Exploration and analysis, by automatic orExploration and analysis, by automatic or

    semisemi--automatic means, of large quantities of data inautomatic means, of large quantities of data inorder to discover meaningful patterns.order to discover meaningful patterns.Berry &Berry & LinoffLinoff::Data Mining Techniques.Data Mining Techniques.Wiley, 1997Wiley, 1997

    44

    Qu es la minera de datos?Qu es la minera de datos?

    How can I analyze this data?

    55

    Data rich,Information poor

    Knowledge

    Conocimiento(patrones interesantes)

  • 7/22/2019 1 Data Mining

    4/14

    AplicacionesAplicaciones

    MarketMarket basketbasket analysisanalysis (compras)(compras)

    Perfiles de usuario en la WebPerfiles de usuario en la Web Segmentacin de clientesSegmentacin de clientes

    Deteccin de fraudes / intrusosDeteccin de fraudes / intrusos

    66

    KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))

    Extraccin de conocimiento en bases de datosExtraccin de conocimiento en bases de datos77

  • 7/22/2019 1 Data Mining

    5/14

    KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))

    El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento

    Limpieza de datosLimpieza de datos(eliminacin de ruido e inconsistencias)(eliminacin de ruido e inconsistencias)

    Integracin de datosIntegracin de datos(combinacin de mltiples fuentes de datos)(combinacin de mltiples fuentes de datos)

    Reduccin/Seleccin de datosReduccin/Seleccin de datos(identificacin de datos relevantes para el problema)(identificacin de datos relevantes para el problema)

    Transformacin de datosTransformacin de datos(preparacin de los datos para su anlisis)(preparacin de los datos para su anlisis)

    Minera de datosMinera de datos(tcnicas de extraccin de patrones y medidas de inters)(tcnicas de extraccin de patrones y medidas de inters)

    Presentacin de resultadosPresentacin de resultados(tcnicas de visualizacin y de representacin del conocimiento)(tcnicas de visualizacin y de representacin del conocimiento)

    88

    KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))

    Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:

    99

  • 7/22/2019 1 Data Mining

    6/14

    KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))

    Carcter multidisciplinarCarcter multidisciplinar

    Bases de datos Estadstica

    Evaluacin de resultadosEvaluacin de resultados

    Resumen de datosResumen de datosGestin de grandes cantidades de datosGestin de grandes cantidades de datos

    1010

    Data Mining

    IA Visualizacin

    AprendizajeAprendizajeRepresentacin del conocimientoRepresentacin del conocimiento

    Presentacin de resultadosPresentacin de resultados

    KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))

    I keep saying the sexy job in the next ten years will beI keep saying the sexy job in the next ten years will bestatisticians. People think Im joking, but who wouldvestatisticians. People think Im joking, but who wouldve

    guessed that computer engineers wouldve been the sexyguessed that computer engineers wouldve been the sexy

    job of the 1990s? The ability to take datajob of the 1990s? The ability to take datato be able toto be able tounderstand it, to process it, to extract value from it, tounderstand it, to process it, to extract value from it, to

    v sua ze , o commun ca ev sua ze , o commun ca e a s go ng o e a uge ya s go ng o e a uge yimportant skill in the next decadesimportant skill in the next decades

    Because now we really do have essentially free andBecause now we really do have essentially free andubiquitous data. So the complimentary scarce factor is theubiquitous data. So the complimentary scarce factor is theability to understand that data and extract value from it.ability to understand that data and extract value from it.

    Hal R. VarianHal R. VarianGoogles Chief EconomistGoogles Chief Economist

    Professor of Information Sciences, Business, and EconomicsProfessor of Information Sciences, Business, and Economicsat the University of California at Berkeleyat the University of California at Berkeley

    1111

  • 7/22/2019 1 Data Mining

    7/14

    KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))

    Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:

    1212

    Tcnicas de minera de datosTcnicas de minera de datos

    Modelos de minera de datosModelos de minera de datos

    1313

  • 7/22/2019 1 Data Mining

    8/14

    Tcnicas de minera de datosTcnicas de minera de datos

    Clasificacin de los modelos de minera de datosClasificacin de los modelos de minera de datos

    En funcin de su propsito general:En funcin de su propsito general:

    (describen el comportamiento de los datos de forma(describen el comportamiento de los datos de formaque sea interpretable por un usuario experto).que sea interpretable por un usuario experto).

    Modelos predictivosModelos predictivos(adems de describir los datos, se utilizan para(adems de describir los datos, se utilizan parapredecir el valor de algn atributo desconocido).predecir el valor de algn atributo desconocido).

    1414

    Tcnicas de minera de datosTcnicas de minera de datos

    EjemplosEjemplos

    Reglas de asociacin (modelo descriptivo)Reglas de asociacin (modelo descriptivo)Los compradores de paales tambin suelen comprar cerveza.Los compradores de paales tambin suelen comprar cerveza.

    us er ngus er ng mo e o escr p vomo e o escr p vo

    Segmentacin de los clientes de un hipermercado:Segmentacin de los clientes de un hipermercado:

    -- Clientes ocasionales que gastan mucho.Clientes ocasionales que gastan mucho.

    -- Clientes habituales con presupuesto limitado.Clientes habituales con presupuesto limitado.

    -- Clientes ocasionales con presupuesto limitado.Clientes ocasionales con presupuesto limitado.

    Clasificacin (modelo predictivo):Clasificacin (modelo predictivo):-- Datagramas que corresponden a intentos de intrusin.Datagramas que corresponden a intentos de intrusin.

    -- Perfil de un cliente de alto riesgo para prstamos bancarios.Perfil de un cliente de alto riesgo para prstamos bancarios. 1515

  • 7/22/2019 1 Data Mining

    9/14

    Tcnicas de minera de datosTcnicas de minera de datos

    Algunas tcnicas de minera de datosAlgunas tcnicas de minera de datos

    Caracterizacin o resumenCaracterizacin o resumen

    Discriminacin o contrasteDiscriminacin o contraste

    ,,

    Clasificacin y prediccinClasificacin y prediccin

    Deteccin de agrupamientos (Deteccin de agrupamientos (clusteringclustering))

    Deteccin de anomalas (Deteccin de anomalas (outliersoutliers))

    Anlisis de tendencias (series temporales)Anlisis de tendencias (series temporales)

    1616

    Tcnicas de minera de datosTcnicas de minera de datos

    Las tcnicas de minera de datosLas tcnicas de minera de datos

    tambin se pueden clasificar atendiendo atambin se pueden clasificar atendiendo a

    el tipo de conocimiento que se obtieneel tipo de conocimiento que se obtiene

    el tipo de herramienta que se utilizael tipo de herramienta que se utiliza

    el dominio de aplicacinel dominio de aplicacin1717

  • 7/22/2019 1 Data Mining

    10/14

    Fuentes de datosFuentes de datos

    Fuentes de datosFuentes de datos

    1818

    Fuentes de datosFuentes de datos

    Fuentes de datosFuentes de datos

    Bases de datos relacionalesBases de datos relacionales

    Bases de datos multidimensionales (DW)Bases de datos multidimensionales (DW)

    Series temporales, secuencias y dataSeries temporales, secuencias y data streamsstreams

    Datos estructurados (grafos, redes sociales)Datos estructurados (grafos, redes sociales)

    Datos espaciales y espaciotemporalesDatos espaciales y espaciotemporales

    Textos e hipertextos (p.ej. Web)Textos e hipertextos (p.ej. Web)

    Bases de datos multimedia (p.ej. Imgenes)Bases de datos multimedia (p.ej. Imgenes)

    1919

  • 7/22/2019 1 Data Mining

    11/14

    Evaluacin de resultadosEvaluacin de resultados

    Evaluacin de resultadosEvaluacin de resultados

    2020

    Evaluacin de resultadosEvaluacin de resultados

    Un resultado es interesante siUn resultado es interesante si

    es comprensible (por seres humanos)es comprensible (por seres humanos)

    es vlido con cierto grado de certezaes vlido con cierto grado de certeza

    es novedoso o sirve para validar una hiptesises novedoso o sirve para validar una hiptesis

    El inters de los resultados se puede evaluarEl inters de los resultados se puede evaluar

    objetivamente (criterios estadsticos)objetivamente (criterios estadsticos)

    subjetivamente (perspectiva del usuario)subjetivamente (perspectiva del usuario)

    2121

  • 7/22/2019 1 Data Mining

    12/14

    Sistemas de minera de datosSistemas de minera de datos

    ArquitecturaArquitecturatpicatpica

    Evaluacin de patrones

    Interfaz de usuario

    2222

    Base de datos odata warehouse

    Motor de minera de datos

    DB DW WWW

    Base deBase deconocimientoconocimiento

    Limpieza, integracin, seleccin y transformacin de datos

    Sistemas de minera de datosSistemas de minera de datos

    Descripcin de una tarea de minera de datos:Descripcin de una tarea de minera de datos:

    Datos relevantesDatos relevantes(lo que hay que analizar)(lo que hay que analizar)

    (lo que se desea obtener)(lo que se desea obtener)

    Conocimiento previoConocimiento previo((backgroundbackground knowledgeknowledge, para guiar el proceso), para guiar el proceso)

    Medidas de intersMedidas de inters

    (para evaluar los resultados obtenidos)(para evaluar los resultados obtenidos) Tcnicas de representacinTcnicas de representacin

    (para representar los resultados obtenidos)(para representar los resultados obtenidos)2323

  • 7/22/2019 1 Data Mining

    13/14

    Sistemas de minera de datosSistemas de minera de datos

    Software de minera de datosSoftware de minera de datos

    KNIMEKNIMEhttp://www.knime.org/http://www.knime.org/

    RapidMinerRapidMinerhtt : ra idminer.comhtt : ra idminer.com

    WekaWekahttp://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/

    RR

    http://www.rhttp://www.r--project.org/project.org/ SPSSSPSS ModelerModeler

    http://www.spss.com/software/modeler/http://www.spss.com/software/modeler/

    SAS EnterpriseSAS Enterprise MinerMinerhttp://www.sas.com/http://www.sas.com/ 2424

    Temas de investigacinTemas de investigacin

    Tcnicas eficientes de minera de datosTcnicas eficientes de minera de datos EscalabilidadEscalabilidad

    Tcnicas incrementalesTcnicas incrementales

    Algoritmos paralelosAlgoritmos paralelos

    Incorporacin de conocimiento previoIncorporacin de conocimiento previo

    Evaluacin de resultados (inters)Evaluacin de resultados (inters)

    Interaccin con el usuarioInteraccin con el usuario Tcnicas interactivas (a distintos niveles de abstraccin)Tcnicas interactivas (a distintos niveles de abstraccin)

    Tcnicas de presentacin y visualizacin de resultadosTcnicas de presentacin y visualizacin de resultados

    Anlisis de nuevos tipos de datosAnlisis de nuevos tipos de datos Estructuras complejas (grafos, redes sociales)Estructuras complejas (grafos, redes sociales)

    Bases de datos heterogneasBases de datos heterogneas

    2525

  • 7/22/2019 1 Data Mining

    14/14

    PangPang--NingNing Tan,Tan,MichaelMichael SteinbachSteinbach&& VipinVipin KumarKumar::IntroductionIntroduction toto DataData MiningMining

    BibliografaBibliografa

    AddisonAddison--WesleyWesley, 2006., 2006.ISBN 0321321367ISBN 0321321367

    JiaweiJiawei HanHan

    && MichelineMicheline KamberKamber::DataData MiningMining::ConceptsConcepts andand TechniquesTechniquesMorganMorgan KaufmannKaufmann, 2006., 2006.ISBN 1558609016ISBN 1558609016 2626

    RevistasRevistas ACMACM TransactionsTransactions onon KnowledgeKnowledge DiscoveryDiscovery fromfrom Data (TKDD)Data (TKDD)

    IEEEIEEE TransactionsTransactions onon KnowledgeKnowledge and Dataand Data EngineeringEngineering (TKDE)(TKDE)

    DataData MiningMining andand KnowledgeKnowledge DiscoveryDiscovery (DMKD)(DMKD) ACMACM SIGKDDSIGKDD ExplorationsExplorations

    Bibliografa (investigacin)Bibliografa (investigacin)

    DataData && KnowledgeKnowledge EngineeringEngineering (DKE(DKE))

    KnowledgeKnowledge andand InformationInformation SystemsSystems (KAIS)(KAIS)

    CongresosCongresos KDDKDD (ACM SIGKDD International(ACM SIGKDD International ConferenceConference onon KDD)KDD)

    ICDMICDM (IEEE International(IEEE International ConferenceConference onon DataData MiningMining))

    SDMSDM (SIAM Data(SIAM Data MiningMining ConferenceConference)) PKDDPKDD ((PrinciplesPrinciples andand PracticesPractices of KDD)of KDD)

    SIGMODSIGMOD (Management of Data)(Management of Data)

    CIKMCIKM ((InformationInformation andand KnowledgeKnowledge ManagementManagement))2727