Ex Posicion We Ka

download Ex Posicion We Ka

of 30

Transcript of Ex Posicion We Ka

  • 8/18/2019 Ex Posicion We Ka

    1/30

    MINERIA DE DATOS

    CON WEKA

    PRESENTADO POR

    •Maria Rosa Díaz

  • 8/18/2019 Ex Posicion We Ka

    2/30

     ¿Minería de Datos?

     Objetivo de la Minería de Datos

     ¿Para

     que sirve la Minería de Datos?

     El proceso de KDD Fases del KDD

     Que es WEKA?

     Historia de WEKA

     Interfaz

     Uso Básico de WEKA.

     Conclusiones.

  • 8/18/2019 Ex Posicion We Ka

    3/30

    •   En (Clark P., 2000), se define la minería de datos como el proceso de extraer 

    conocimiento útil y comprensible, previamente desconocido, desde grandes

    cantidades de datos almacenados en distintos formatos.

    •   A partir del análisis de los datos podemos conocer a los clientes, optimizar 

    las comunicaciones, explicar el pasado buscando anticipar y predecir 

    comportamientos futuros con datos almacenados en las bases de datos.

  • 8/18/2019 Ex Posicion We Ka

    4/30

    •   Sobre el objetivo de la Minería de DatosHernández, Ramírez y Ferri sostienen   “De  una

    manera simplista pero ambiciosa podríamos

    decir que el objetivo de la minería de datos es

    convertir datos en  conocimiento”

     (2004, p. 6)

    •   Estos es, pasar de tener un conjunto de datos

    aislados, a convertirlos en información, luego en

    conocimiento, el conocimiento en inteligencia, yesa inteligencia en rentabilidad

  • 8/18/2019 Ex Posicion We Ka

    5/30

      Básicamente, el DATAMINING surge para intentar ayudar a

    comprender el contenido de una base de datos.

      De forma general, los datos son la materia prima bruta.

      En el momento que el usuario les atribuye algún significado especial

    pasan a convertirse en información.

      Cuando los especialistas elaboran o encuentran un modelo, haciendo

    que la interpretación que surge entre la información y ese modelo

    represente un valor agregado, entonces nos referimos al

    conocimiento(Knowledge Data Discovery (KDD).

  • 8/18/2019 Ex Posicion We Ka

    6/30

    AREAS DE APLICACION

    • Ámbitos financieros y

    de negocios

    • Salud

    • Sistemas informáticos

    • Ciencia

  • 8/18/2019 Ex Posicion We Ka

    7/30

    EJEMPLOS

     En los negocios

      Los hábitos de compra en los

    supermercados

     Los fraudes

      Los recursos humanos

     El comportamiento por Internet

     El terrorismo

      La ciencia y la ingeniería

  • 8/18/2019 Ex Posicion We Ka

    8/30

    Fuente: Hernández, Ramírez y Ferri . Introducción a la Minería de Datos, Madrid, pág.. 13

  • 8/18/2019 Ex Posicion We Ka

    9/30

    Fuente: Hernández, Ramírez y Ferri . Introducción a la Minería de Datos, Madrid, pág.. 20

  • 8/18/2019 Ex Posicion We Ka

    10/30

    1. Orange:

    2. RapidMiner 

    3. WEKA

    4. JHepWork

    5. KNIME

  • 8/18/2019 Ex Posicion We Ka

    11/30

  • 8/18/2019 Ex Posicion We Ka

    12/30

    •   En 1993, la Universidad de Waikato en Nueva Zelanda,inició el desarrollo de la versión original de WEKA.

    •   En 1997 se decidió escribir su código en java,

    adicionándole la implementación de nuevos algoritmos de

    modelado.•   En el 2005, WEKA recibe el galardón   “Data   Mining

    and Knowledge Discovery   Services”   (Servicios de

    Minería de Datos y Descubrimiento del Conocimiento),

    por parte de ACM.•   En 2006 Pentaho Corporation adquirió una licencia

    exclusiva para usar WEKA en Inteligencia de Negocios

  • 8/18/2019 Ex Posicion We Ka

    13/30

    Explorer: Entorno visual que ofreceuna interfaz gráfica para el uso de los

    paquetes.

    Experimenter: Entorno centrado en laautomatización de tareas de manera que

    se facilite la realización de experimentos agran escala.

    KnowledgeFlow: Permite generarproyectos de minería de datos mediante la

    generación de flujos de información.

    Simple CLI: Entorno consola para

    invocar directamente con java a lospaquetes de weka

  • 8/18/2019 Ex Posicion We Ka

    14/30

    Fichas del modo Explorer:Preprocess:Selección de la fuente de

    datos y preparación para el filtrado.

    Classification: Facilidades para

    aplicar esquemas de clasificación y

    regresión, entrenar modelos y evaluar 

    supervisión.

    Cluster:   Integra varios métodos de

    agrupamiento.

    Associate:   Incluye unas pocas

    técnicas de reglas de negocio.

    Select Attributes: Búsqueda

    supervisada de subconjuntos de datos

    representativos..

    Visualice: En este apartado podemos

    estudiar el comportamiento de losdatos mediante técnicas de

    visualización.

    Selección de la fuente de

    datos y peparación (filtrado

  • 8/18/2019 Ex Posicion We Ka

    15/30

    •   Para dar explicación al funcionamiento de la herramientase utilizara el fichero de datos titanic.arff : Corresponde a

    las características de los 2.201pasajeros del Titanic.

    •   Se consideraran cuatro variables:

    •   clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera),•   edad (1 = adulto, 0 = niño)

    •   sexo (1 = hombre, 0 = mujer)

    •   sobrevivió (1 = sí, 0 = no).

  • 8/18/2019 Ex Posicion We Ka

    16/30

    Secuencia de Operaciones

    Selección de

    Filtros para

    los datos

    Desglose del

    atributo

    seleccionado

    Estadística

    de los datos

    Nombres de

    los atributos

  • 8/18/2019 Ex Posicion We Ka

    17/30

  • 8/18/2019 Ex Posicion We Ka

    18/30

    Elección del

    Clasificador 

    Opciones

    adicionales para

    hacer el test,

    Comienza la

    construcción del

    clasificador 

    Porcentaje demasiado optimista, no conviene usarlo

    Selección de test distintos del entrenamiento.

    Porcentaje de registros a ser utilizados

    Porcentaje de acierrtos esperados

  • 8/18/2019 Ex Posicion We Ka

    19/30

  • 8/18/2019 Ex Posicion We Ka

    20/30

  • 8/18/2019 Ex Posicion We Ka

    21/30

  • 8/18/2019 Ex Posicion We Ka

    22/30

  • 8/18/2019 Ex Posicion We Ka

    23/30

  • 8/18/2019 Ex Posicion We Ka

    24/30

    Resultados.

  • 8/18/2019 Ex Posicion We Ka

    25/30

    Recomendaciones de

    información de la

    relación de todos los

    registros que ingresamos

  • 8/18/2019 Ex Posicion We Ka

    26/30

    Variable que nos recomienda

    Elegir variable mas

    influyente

    Método

     Algoritmo Evaluador 

    Determinar cuales son los atributos mas

    relevantes, para saber cual es la variable

    mas influyente en todo el proceso.

  • 8/18/2019 Ex Posicion We Ka

    27/30

    Definición de tamaño de las

    graficas.

    Muestra gráficamente la

    distribución de todos los

    atributos, representando en

    los ejes todos los pares de

    combinación de los atributos,

    nos permite ver  

    correlaciones y asociaciones

    entre atributos de forma

    grafica.

  • 8/18/2019 Ex Posicion We Ka

    28/30

      La minería de datos es muy importante dentro del proceso global de extracción de datosocultos, previamente desconocidos y potencialmente útiles (KDD), por lo cual merece una

    gran atención y estudio por parte de aquellos quienes tienen la oportunidad de aplicar su

    concepto y llevar a cabo el proceso de minería de datos dentro de las organizaciones.

      La información que sale como resultado de este proceso es clave o principal, la cual al ser 

    bien manejada e interpretada puede aplicarse como apoyo al proceso de toma de

    decisiones en una empresa.

      Weka es una herramienta robusta, excelente a la hora de realizar implementaciones de

    minería de datos con sus diferentes técnicas y múltiples algoritmos existentes, sin

    embargo la capacidad que provee WEKA en el análisis de patrones de información la

    convierte en una excelente herramienta de apoyo en la toma de decisiones.

  • 8/18/2019 Ex Posicion We Ka

    29/30

    •Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor

    oma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.

    •Machine Learning Group at the University of Waikato. Weka 3: Data Mining Software in Java;

    [Citado 2014 Enero 3] Disponible en: http://www.cs.waikato.ac.nz/ml/weka/•http://www.ing.unlpam.edu.ar/home/archivos/mineria_datos.pdf 

    •Clark P., B. (2000). Data Minning, Practical Machine Learning Tools and Techniques with Java

    mplementations. Morgan Kaufmann Publishers.

    •Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor

    oma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.

    •Ramirez, J. H. (2004). Introduccion a la Mineria de Datos. Madrid: Pearson Prentice Hall.

    http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/

  • 8/18/2019 Ex Posicion We Ka

    30/30