Científico de datos con software libre

23
Científico de datos con Software Libre Ing. Mauricio Arancibia 1

Transcript of Científico de datos con software libre

1

Científico de datos con Software LibreIng. Mauricio Arancibia

2 Datos, el nuevo petróleo.

En los últimos 10 minutos se generanmás datos que desde la prehistoria

hasta el 2003.

3 Todo el tiempo estamos generando información

4

5 BIG DATA

Término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad)

6

7 Científico de datos (Data Scientist)

8 Data Scientist: El trabajo más sexy del siglo 21

9 Que es “Data Science”

Habilidades para resolver problemas Habilidades de comunicación Mente abierta Otras cualidades:

Es escéptico y curioso. Conocimientos sobre machine learning Estadísticas y probabilidad Aplica el método científico. Ejecuta experimentos. Es bueno codificando y hackeando. Capaz de hacer frente a la ingeniería de datos de TI. Capaz de encontrar respuestas a las incógnitas. Tiene conocimiento del dominio

10

11 Que hacen los Data Scientists

Diseña y personaliza sistemas y herramientas Trabaja con datos estructurados y no estructurados Crea flujos de procesos de datos Analiza grandes volúmenes de datos (TB, PB) Construye modelos predictivos Crea visualizaciones Diseña productos de datos Usa Hadoop, MapReduce, Hive, Python, R

12 BI vs Data Science

13

14 Flujo del proceso de un Data Scientist

15 Aplicaciones

16 Data Science y el Open Source

Sistemas operativos: Linux + Shell tools

Instrumentos Big data: Hadoop (MapReduce) + hadoop tools Hive, Pig NoSQL (Hbase, MongoDB, Cassandra, Neo4J)

Bases de datos SQL

17 Data Science y el Open Source

Programación: Python Java R

Machine Learning: Matlab Python libraries (NumPy, SciPy, Nltk) Java Libraries (Mahout)

18 Programación en R

Here are just a few examples: Google uses R to calculate the ROI on advertising campaigns. Ford uses R to improve the design of its vehicles. Twitter uses R to monitor user experience. The US National Weather Service uses R to predict severe flooding. The Rockefeller Institute of Government uses R to develop models for

simulating the finances of public pension funds. The Human Rights Data Analysis Group uses R to quantify the impact of war. R is used frequently by The New York Times to create infographics and

interactive data journalism applications.

19 PROGRAMACIÓN CON R

Que es R? R es un lenguaje de programación estadístico con licencia

GPL. Está basado en el leguaje S desarrollado en los laboratorios

Bell. Es un lenguaje muy poderoso para escribir programas y es

multiplataforma (MacOS, Linux, Windows) Posee muchas funciones estadísticas. Existen muchísimos paquetes que extienden su funcionalidad

20 Introducción con R

Donde lo obtenemos: http://www.r-project.org Descargas: CRAN Seleccionar un mirror Seleccionar el sistema operativo. Seleccionar la base, ultima versión: R 3.2.0

21 Introducción con R

La GUI de R

22 R Studio

RStudio es un entorno de desarrollo integrado (IDE) para R que funciona con la versión estándar de R disponible en CRAN.

Al igual que R, RStudio es software libre. El objetivo de sus creadores es desarrollar una herramienta potente que

soporte los procedimientos y técnicas requeridas para realizar análisis de alta calidad y dignos de confianza.

Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos usuarios de R.

23