De qué hablamos cuando hablamos de Data Science

Post on 15-Jan-2017

243 views 2 download

Transcript of De qué hablamos cuando hablamos de Data Science

DE QUÉ HABLAMOS CUANDO HABLAMOS

DE DATA SCIENCEHéctor E. Neri Cano

Empecemos con una historia de Datos…

De Datos a lo Grande.

Las 3 V de… ¿”Los Desafíos en la Gestión de los Datos”?

Volumen, Velocidad y Variedad.

¿Cómo fue que surgió lo que llamamos “Big Data”?

Doug Laney, Feb 6, 2001: “3D Data Management: Controlling Data Volume, Velocity, and Variety”.

VeracidadValorVariabilidadVisualización

ValidezVisibilidad

ViralidadViscosidad

¿Qué pasa con las otras V de Big Data?

“Big Data is high Volume, high Velocity, and/or high Variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization”[Gartner Group]

Los dos chicos de moda:Data Science y Big DataData Science NO es igual a Big Data AnalyticsData Science NO es igual a Big Data Management

“Rising alongside the relatively new technology of big data is the new job title data scientist. While not tied exclusively to big data projects, the data scientist role does complement them because of the increased breadth and depth of data being examined, as compared to traditional roles”. [IBM]

Aspecto Análitica de Datos Ciencia de DatosFilosofía Saber Entender

Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos

Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo

Resultados Operacionales y Tácticos Estratégicos y Generan Valor

Carga de Trabajo Repetitiva y Sistemática Experimental y Particular

Ámbito de Estudio Limitado y Específico Amplio y General

Variedad de Datos Datasets limitados y coherentes Ilimitados, formados flexiblemente

Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida

Basado en la tabla del Dr. Jerry A. Smith, DataScientistInsights.com

¿Y qué es entonces la Ciencia de Datos?

Veamos varias perspectivas

“Data Science enables the creation of Data Products”- Mike Loukides, “What is Data Science?” Ed.

O’Reilly

“The three components involved in data science are organising, packaging and delivering data”.- “DataScientists.net”

… ¿Una ciencia que tiene

por objetivo crear productos?

“The key word in data science is not 'data'; but 'science'. Data science is only useful when the data are used to answer a question”.- Irizarry, Peng & Leek, SimplyStatistics.org

“Data Science is the study of the generalizable extraction of knowledge from data”- Vasant Dhar, “Data Science and Prediction”

Pero… todas las ciencias usan datos

para generar conocimiento, ¿no?

“Data science involves using automated methods to analyze massive amounts of data and to extract knowledge from them.”- New York University

“Data science is an interdisciplinary field about processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured, which is a continuation of some of the data analysis fields such as statistics, data mining, and predictive analytics”.- en.Wikipedia.org

Eso explica el cómo, pero no el qué

y el porqué…

¿Qué estudia exactamente la Ciencia de Datos?

"Data science is the theory, method and

technology of studying datanature,

data itself".- Yangyong Zhu & Yun Xiong “Defining Data

Science”

“The first component is the study of the patterns and rules of data itself. Its goal is to explore datanature and scientific issues related to datanature.

The second component is the study of the rules of the natural world as reflected by data, i.e., the study the natural world performed through the study of data”.

Sin embargo…¿De qué hablamos cuando hablamos de Data Science?

¿Hacer un análisis estadístico y minería de datos con Machine Learning, en un conjunto masivo de datos con estructuras diversas, distribuido en Hadoop y ejecutándose usando MapReduce para lograr obtener conocimiento que comunicamos mediante visualización de datos?

“[...] Author a multistage processing pipeline in Python, design a hypothesis test, perform a regression analysis over data samples with R, design and implement an algorithm for some data intensive product or service in Hadoop, or communicate the results of our analyses”.Jeff Hammerbacher, describe las actividades del término que acuñó: “data scientist”.

Okay… Vayamos por partes…

Una prueba de hipótesis se utiliza para determinar si

existe suficiente evidencia en una muestra de datos

para inferir que cierta condición es cierta para

toda la población.

La Estadística estudia muestras representativas

para explicar correlaciones y

dependencias de fenómenos físicos o

naturales.

Genera modelos, inferenciales o predictivos,

teniendo en cuenta la aleatoriedad. Se usa para

modelar relaciones de variables (análisis de

regresión) o para modelar patrones / minar datos.

El análisis de regresión estima una función de cómo el valor de una variable dependiente

varía al cambiar el valor de una o varias variables

independientes.

La minería de datos intenta descubrir patrones en

conjuntos grandes de datos mediante un análisis

automático o semiautomático.

El Aprendizaje Automático (o Machine Learning) se trata

de crear programas que generalicen

comportamientos a partir de proporcionar información

con alta complejidad computacional.

MapReduce es un modelo de programación para dar

soporte a computación paralela sobre grandes

conjuntos de datos utilizando dos funciones de la programación funcional.

Hadoop es un framework open source que permite

trabajar con miles de nodos y petabytes de datos. Es distribuido, escalable y

fehaciente.

R y Python son los dos lenguajes de programación más utilizados para realizar actividades de ciencia de datos, por ser los que más facilitan dichas actividades.

Hay muchas cosas que hacemos cuando hablamos de Data Science…

Pero tal vez la respuesta está en porqué hacemos dichas cosas…

Las siguientes son 2 propuestas, una versión “pro” y otra versión más simple pero amplia y “académica”.

La Ciencia de Datos es el estudio de la eficiencia en el

descubrimiento y/o optimización de patrones,

procesos, modelos y propiedades de flexibles conjuntos de datos que

conllevan una alta complejidad computacional.

La Ciencia de Datos es la teoría y método del estudio eficiente de los datos y sus

fenómenos.

Esto es tan solo una introducciónal Arte de la Ciencia de Datos…

“A data scientist is somebody who is inquisitive, who can stare at

data and spot trends. It's almost like a Renaissance individual who really wants to learn and bring change to an organization."Anjul Bhambhri, vice president of big data

products at IBM