Ex Posicion We Ka

8/18/2019 Ex Posicion We Ka

1/30

MINERIA DE DATOS

CON WEKA

PRESENTADO POR

•Maria Rosa Díaz


2/30

¿Minería de Datos?

Objetivo de la Minería de Datos

¿Para

que sirve la Minería de Datos?

El proceso de KDD Fases del KDD

Que es WEKA?

Historia de WEKA

Interfaz

Uso Básico de WEKA.

Conclusiones.


3/30

• En (Clark P., 2000), se define la minería de datos como el proceso de extraer

conocimiento útil y comprensible, previamente desconocido, desde grandes

cantidades de datos almacenados en distintos formatos.

• A partir del análisis de los datos podemos conocer a los clientes, optimizar

las comunicaciones, explicar el pasado buscando anticipar y predecir

comportamientos futuros con datos almacenados en las bases de datos.


4/30

• Sobre el objetivo de la Minería de DatosHernández, Ramírez y Ferri sostienen “De una

manera simplista pero ambiciosa podríamos

decir que el objetivo de la minería de datos es

convertir datos en conocimiento”

(2004, p. 6)

• Estos es, pasar de tener un conjunto de datos

aislados, a convertirlos en información, luego en

conocimiento, el conocimiento en inteligencia, yesa inteligencia en rentabilidad


5/30

Básicamente, el DATAMINING surge para intentar ayudar a

comprender el contenido de una base de datos.

De forma general, los datos son la materia prima bruta.

En el momento que el usuario les atribuye algún significado especial

pasan a convertirse en información.

Cuando los especialistas elaboran o encuentran un modelo, haciendo

que la interpretación que surge entre la información y ese modelo

represente un valor agregado, entonces nos referimos al

conocimiento(Knowledge Data Discovery (KDD).


6/30

AREAS DE APLICACION

• Ámbitos financieros y

de negocios

• Salud

• Sistemas informáticos

• Ciencia


7/30

EJEMPLOS

En los negocios

Los hábitos de compra en los

supermercados

Los fraudes

Los recursos humanos

El comportamiento por Internet

El terrorismo

La ciencia y la ingeniería


8/30

Fuente: Hernández, Ramírez y Ferri . Introducción a la Minería de Datos, Madrid, pág.. 13


9/30

Fuente: Hernández, Ramírez y Ferri . Introducción a la Minería de Datos, Madrid, pág.. 20


10/30

1. Orange:

2. RapidMiner

3. WEKA

4. JHepWork

5. KNIME


11/30


12/30

• En 1993, la Universidad de Waikato en Nueva Zelanda,inició el desarrollo de la versión original de WEKA.

• En 1997 se decidió escribir su código en java,

adicionándole la implementación de nuevos algoritmos de

modelado.• En el 2005, WEKA recibe el galardón “Data Mining

and Knowledge Discovery Services” (Servicios de

Minería de Datos y Descubrimiento del Conocimiento),

por parte de ACM.• En 2006 Pentaho Corporation adquirió una licencia

exclusiva para usar WEKA en Inteligencia de Negocios


13/30

Explorer: Entorno visual que ofreceuna interfaz gráfica para el uso de los

paquetes.

Experimenter: Entorno centrado en laautomatización de tareas de manera que

se facilite la realización de experimentos agran escala.

KnowledgeFlow: Permite generarproyectos de minería de datos mediante la

generación de flujos de información.

Simple CLI: Entorno consola para

invocar directamente con java a lospaquetes de weka


14/30

Fichas del modo Explorer:Preprocess:Selección de la fuente de

datos y preparación para el filtrado.

Classification: Facilidades para

aplicar esquemas de clasificación y

regresión, entrenar modelos y evaluar

supervisión.

Cluster: Integra varios métodos de

agrupamiento.

Associate: Incluye unas pocas

técnicas de reglas de negocio.

Select Attributes: Búsqueda

supervisada de subconjuntos de datos

representativos..

Visualice: En este apartado podemos

estudiar el comportamiento de losdatos mediante técnicas de

visualización.

Selección de la fuente de

datos y peparación (filtrado


15/30

• Para dar explicación al funcionamiento de la herramientase utilizara el fichero de datos titanic.arff : Corresponde a

las características de los 2.201pasajeros del Titanic.

• Se consideraran cuatro variables:

• clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera),• edad (1 = adulto, 0 = niño)

• sexo (1 = hombre, 0 = mujer)

• sobrevivió (1 = sí, 0 = no).


16/30

Secuencia de Operaciones

Selección de

Filtros para

los datos

Desglose del

atributo

seleccionado

Estadística

de los datos

Nombres de

los atributos


17/30


18/30

Elección del

Clasificador

Opciones

adicionales para

hacer el test,

Comienza la

construcción del

clasificador

Porcentaje demasiado optimista, no conviene usarlo

Selección de test distintos del entrenamiento.

Porcentaje de registros a ser utilizados

Porcentaje de acierrtos esperados


19/30


20/30


21/30


22/30


23/30


24/30

Resultados.


25/30

Recomendaciones de

información de la

relación de todos los

registros que ingresamos


26/30

Variable que nos recomienda

Elegir variable mas

influyente

Método

Algoritmo Evaluador

Determinar cuales son los atributos mas

relevantes, para saber cual es la variable

mas influyente en todo el proceso.


27/30

Definición de tamaño de las

graficas.

Muestra gráficamente la

distribución de todos los

atributos, representando en

los ejes todos los pares de

combinación de los atributos,

nos permite ver

correlaciones y asociaciones

entre atributos de forma

grafica.


28/30

La minería de datos es muy importante dentro del proceso global de extracción de datosocultos, previamente desconocidos y potencialmente útiles (KDD), por lo cual merece una

gran atención y estudio por parte de aquellos quienes tienen la oportunidad de aplicar su

concepto y llevar a cabo el proceso de minería de datos dentro de las organizaciones.

La información que sale como resultado de este proceso es clave o principal, la cual al ser

bien manejada e interpretada puede aplicarse como apoyo al proceso de toma de

decisiones en una empresa.

Weka es una herramienta robusta, excelente a la hora de realizar implementaciones de

minería de datos con sus diferentes técnicas y múltiples algoritmos existentes, sin

embargo la capacidad que provee WEKA en el análisis de patrones de información la

convierte en una excelente herramienta de apoyo en la toma de decisiones.


29/30

•Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor

oma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.

•Machine Learning Group at the University of Waikato. Weka 3: Data Mining Software in Java;

[Citado 2014 Enero 3] Disponible en: http://www.cs.waikato.ac.nz/ml/weka/•http://www.ing.unlpam.edu.ar/home/archivos/mineria_datos.pdf

•Clark P., B. (2000). Data Minning, Practical Machine Learning Tools and Techniques with Java

mplementations. Morgan Kaufmann Publishers.

•Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor

oma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.

•Ramirez, J. H. (2004). Introduccion a la Mineria de Datos. Madrid: Pearson Prentice Hall.

http://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/


30/30

Ex Posicion We Ka

Documents

Transcript of Ex Posicion We Ka