De qué hablamos cuando hablamos de Data Science

42
DE QUÉ HABLAMOS CUANDO HABLAMOS DE DATA SCIENCE Héctor E. Neri Cano

Transcript of De qué hablamos cuando hablamos de Data Science

Page 1: De qué hablamos cuando hablamos de Data Science

DE QUÉ HABLAMOS CUANDO HABLAMOS

DE DATA SCIENCEHéctor E. Neri Cano

Page 2: De qué hablamos cuando hablamos de Data Science

Empecemos con una historia de Datos…

De Datos a lo Grande.

Page 3: De qué hablamos cuando hablamos de Data Science

Las 3 V de… ¿”Los Desafíos en la Gestión de los Datos”?

Volumen, Velocidad y Variedad.

Page 4: De qué hablamos cuando hablamos de Data Science

¿Cómo fue que surgió lo que llamamos “Big Data”?

Page 5: De qué hablamos cuando hablamos de Data Science

Doug Laney, Feb 6, 2001: “3D Data Management: Controlling Data Volume, Velocity, and Variety”.

Page 6: De qué hablamos cuando hablamos de Data Science

VeracidadValorVariabilidadVisualización

ValidezVisibilidad

ViralidadViscosidad

¿Qué pasa con las otras V de Big Data?

Page 7: De qué hablamos cuando hablamos de Data Science

“Big Data is high Volume, high Velocity, and/or high Variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization”[Gartner Group]

Page 8: De qué hablamos cuando hablamos de Data Science

Los dos chicos de moda:Data Science y Big DataData Science NO es igual a Big Data AnalyticsData Science NO es igual a Big Data Management

Page 9: De qué hablamos cuando hablamos de Data Science

“Rising alongside the relatively new technology of big data is the new job title data scientist. While not tied exclusively to big data projects, the data scientist role does complement them because of the increased breadth and depth of data being examined, as compared to traditional roles”. [IBM]

Page 10: De qué hablamos cuando hablamos de Data Science

Aspecto Análitica de Datos Ciencia de DatosFilosofía Saber Entender

Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos

Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo

Resultados Operacionales y Tácticos Estratégicos y Generan Valor

Carga de Trabajo Repetitiva y Sistemática Experimental y Particular

Ámbito de Estudio Limitado y Específico Amplio y General

Variedad de Datos Datasets limitados y coherentes Ilimitados, formados flexiblemente

Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida

Basado en la tabla del Dr. Jerry A. Smith, DataScientistInsights.com

Page 11: De qué hablamos cuando hablamos de Data Science

¿Y qué es entonces la Ciencia de Datos?

Veamos varias perspectivas

Page 12: De qué hablamos cuando hablamos de Data Science

“Data Science enables the creation of Data Products”- Mike Loukides, “What is Data Science?” Ed.

O’Reilly

Page 13: De qué hablamos cuando hablamos de Data Science

“The three components involved in data science are organising, packaging and delivering data”.- “DataScientists.net”

Page 14: De qué hablamos cuando hablamos de Data Science

… ¿Una ciencia que tiene

por objetivo crear productos?

Page 15: De qué hablamos cuando hablamos de Data Science

“The key word in data science is not 'data'; but 'science'. Data science is only useful when the data are used to answer a question”.- Irizarry, Peng & Leek, SimplyStatistics.org

Page 16: De qué hablamos cuando hablamos de Data Science

“Data Science is the study of the generalizable extraction of knowledge from data”- Vasant Dhar, “Data Science and Prediction”

Page 17: De qué hablamos cuando hablamos de Data Science

Pero… todas las ciencias usan datos

para generar conocimiento, ¿no?

Page 18: De qué hablamos cuando hablamos de Data Science

“Data science involves using automated methods to analyze massive amounts of data and to extract knowledge from them.”- New York University

Page 19: De qué hablamos cuando hablamos de Data Science

“Data science is an interdisciplinary field about processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured, which is a continuation of some of the data analysis fields such as statistics, data mining, and predictive analytics”.- en.Wikipedia.org

Page 20: De qué hablamos cuando hablamos de Data Science

Eso explica el cómo, pero no el qué

y el porqué…

¿Qué estudia exactamente la Ciencia de Datos?

Page 21: De qué hablamos cuando hablamos de Data Science

"Data science is the theory, method and

technology of studying datanature,

data itself".- Yangyong Zhu & Yun Xiong “Defining Data

Science”

Page 22: De qué hablamos cuando hablamos de Data Science

“The first component is the study of the patterns and rules of data itself. Its goal is to explore datanature and scientific issues related to datanature.

The second component is the study of the rules of the natural world as reflected by data, i.e., the study the natural world performed through the study of data”.

Page 23: De qué hablamos cuando hablamos de Data Science
Page 24: De qué hablamos cuando hablamos de Data Science

Sin embargo…¿De qué hablamos cuando hablamos de Data Science?

Page 25: De qué hablamos cuando hablamos de Data Science

¿Hacer un análisis estadístico y minería de datos con Machine Learning, en un conjunto masivo de datos con estructuras diversas, distribuido en Hadoop y ejecutándose usando MapReduce para lograr obtener conocimiento que comunicamos mediante visualización de datos?

Page 26: De qué hablamos cuando hablamos de Data Science

“[...] Author a multistage processing pipeline in Python, design a hypothesis test, perform a regression analysis over data samples with R, design and implement an algorithm for some data intensive product or service in Hadoop, or communicate the results of our analyses”.Jeff Hammerbacher, describe las actividades del término que acuñó: “data scientist”.

Page 27: De qué hablamos cuando hablamos de Data Science

Okay… Vayamos por partes…

Page 28: De qué hablamos cuando hablamos de Data Science

Una prueba de hipótesis se utiliza para determinar si

existe suficiente evidencia en una muestra de datos

para inferir que cierta condición es cierta para

toda la población.

Page 29: De qué hablamos cuando hablamos de Data Science

La Estadística estudia muestras representativas

para explicar correlaciones y

dependencias de fenómenos físicos o

naturales.

Page 30: De qué hablamos cuando hablamos de Data Science

Genera modelos, inferenciales o predictivos,

teniendo en cuenta la aleatoriedad. Se usa para

modelar relaciones de variables (análisis de

regresión) o para modelar patrones / minar datos.

Page 31: De qué hablamos cuando hablamos de Data Science

El análisis de regresión estima una función de cómo el valor de una variable dependiente

varía al cambiar el valor de una o varias variables

independientes.

Page 32: De qué hablamos cuando hablamos de Data Science

La minería de datos intenta descubrir patrones en

conjuntos grandes de datos mediante un análisis

automático o semiautomático.

Page 33: De qué hablamos cuando hablamos de Data Science

El Aprendizaje Automático (o Machine Learning) se trata

de crear programas que generalicen

comportamientos a partir de proporcionar información

con alta complejidad computacional.

Page 34: De qué hablamos cuando hablamos de Data Science

MapReduce es un modelo de programación para dar

soporte a computación paralela sobre grandes

conjuntos de datos utilizando dos funciones de la programación funcional.

Page 35: De qué hablamos cuando hablamos de Data Science

Hadoop es un framework open source que permite

trabajar con miles de nodos y petabytes de datos. Es distribuido, escalable y

fehaciente.

Page 36: De qué hablamos cuando hablamos de Data Science

R y Python son los dos lenguajes de programación más utilizados para realizar actividades de ciencia de datos, por ser los que más facilitan dichas actividades.

Page 37: De qué hablamos cuando hablamos de Data Science

Hay muchas cosas que hacemos cuando hablamos de Data Science…

Pero tal vez la respuesta está en porqué hacemos dichas cosas…

Las siguientes son 2 propuestas, una versión “pro” y otra versión más simple pero amplia y “académica”.

Page 38: De qué hablamos cuando hablamos de Data Science

La Ciencia de Datos es el estudio de la eficiencia en el

descubrimiento y/o optimización de patrones,

procesos, modelos y propiedades de flexibles conjuntos de datos que

conllevan una alta complejidad computacional.

Page 39: De qué hablamos cuando hablamos de Data Science

La Ciencia de Datos es la teoría y método del estudio eficiente de los datos y sus

fenómenos.

Page 40: De qué hablamos cuando hablamos de Data Science

Esto es tan solo una introducciónal Arte de la Ciencia de Datos…

Page 41: De qué hablamos cuando hablamos de Data Science

“A data scientist is somebody who is inquisitive, who can stare at

data and spot trends. It's almost like a Renaissance individual who really wants to learn and bring change to an organization."Anjul Bhambhri, vice president of big data

products at IBM

Page 42: De qué hablamos cuando hablamos de Data Science