Anatomía de un proyecto de Big Data

82
Anatomía de un proyecto de Big Data 8 Septiembre 2015

Transcript of Anatomía de un proyecto de Big Data

Page 1: Anatomía de un proyecto de Big Data

Anatomía de un proyecto de Big

Data

8 Septiembre 2015

Page 2: Anatomía de un proyecto de Big Data

abel.coronado @ inegi.org.mx@abxda

Page 3: Anatomía de un proyecto de Big Data
Page 4: Anatomía de un proyecto de Big Data

COOPERACIÓN INTERINSTITUCIONAL

• Nacional • Internacional

@abxda

Page 5: Anatomía de un proyecto de Big Data

¿QUÉ ES BIG DATA?

Page 6: Anatomía de un proyecto de Big Data

Dan Ariely, Duke University

¿Qué es Big Data?

@abxda

Page 7: Anatomía de un proyecto de Big Data

¿Qué es Big Data?

http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante @abxda

Page 8: Anatomía de un proyecto de Big Data

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 9: Anatomía de un proyecto de Big Data

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 10: Anatomía de un proyecto de Big Data

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 11: Anatomía de un proyecto de Big Data

http://datascience.berkeley.edu/what-is-big-data/ @abxda

¿Qué es Big Data?

Page 12: Anatomía de un proyecto de Big Data

Según Gartner

Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas

creativas y viables económicamente para procesarla con el fin de contribuir

a tomar decisiones, actuar y crear valor.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

¿Qué es Big Data?

@abxda

Page 13: Anatomía de un proyecto de Big Data

Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales

@abxda

Page 14: Anatomía de un proyecto de Big Data

@abxda

Page 15: Anatomía de un proyecto de Big Data

http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg

Tomar decisiones, actuar y crear valor

@abxda

Page 16: Anatomía de un proyecto de Big Data

Big Data en las Oficinas Nacionales de Estadística

http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184 @abxda

Page 17: Anatomía de un proyecto de Big Data

• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.

• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.

@abxda

Big Data en las Oficinas Nacionales de Estadística

Page 18: Anatomía de un proyecto de Big Data

• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.

• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda

Big Data en las Oficinas Nacionales de Estadística

Page 19: Anatomía de un proyecto de Big Data

Fuentes alternas (Big Data)

Registros Administrativos

Encuestas

CensosMayor:Desagregación, Precisión, ComparabilidadCosto, Recursos, Dificultad de Obtención

Mayor:Oportunidad, Autonomía (intrínseca)Conocimientos, Capacidades Técnicas, Dificultad de Análisis

@abxda

Page 20: Anatomía de un proyecto de Big Data

Experto encomputación ydesarrollo avanzados

Experto enestadística

matemática

Experto enel dominio de

datos

CIENCIADE

DATOSZonapeligrosa!

Investigacióntradicional

Machinelearning

Ciencia de Datos

@abxdahttp://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Page 21: Anatomía de un proyecto de Big Data

Experto encomputación ydesarrollo avanzados

Experto enestadística

matemática

Experto enel dominio de

datos

Unicornio

Zonapeligrosa!

Investigacióntradicional

Machinelearning

Ciencia de Datos

@abxda

CIENCIADE

DATOS

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html

Page 22: Anatomía de un proyecto de Big Data

Científico de Datos

Ingeniero de Datos

@abxda

Productos de Datos

Manejar las 3 v’s

vsVisualización

Modelado

Contar Historias

Científico de Datos

Administración de Sistemas

Programación

Matemáticas

Estadística

Ingeniero de DatosAdministración de Bases de DatosAlmacenamiento de Datos

http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/

Page 23: Anatomía de un proyecto de Big Data

Equipo de Big Data y Ciencia de DatosEstadística

Matemáticas

Machine Learning

Minería de Texto

Interfaces de Usuario

Experiencia del Usuario

First Mobile

Visualización de Datos

Ingeniería de Software

Administradores de Sistemas

Bases de datos NoSQL

Arquitecturas Big Data

Arquitecturas de Software

Crowdsourcing

@abxda

Page 24: Anatomía de un proyecto de Big Data

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos Crudoshdfs://

Información(Significado)

TomarDecisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de DatosEstadística Machine Learning

Estratificaciones

Análisis de Regresión

Muestreo

Mucho más…Análisis de Redes (Grafos)

Minería de Datos

Velocidad

Varie

dad

VolumenCiencia de Datos

(Transforma/Modela)Cómputo Concurrente y Paralelo

Arquitectura paraCiencia de Datos y Big Data

@abxda@hbcolectivo

Page 25: Anatomía de un proyecto de Big Data

Internet de las Personas

Internet de las Cosas

Sensores

{ json }< xml >

c,s,v

Redes Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos Distribuidos

Computo Paralelo y Concurrente

Programación Funcional

Razonamiento Algebraico

Estadística

Análisis MultivariadoMachine Learning

Análisis de Interacción Espacial

{ json }< xml >

c,s,v

{ json }< xml >

c,s,v

Bases de Datos NoSQL

Visualización

Panorama TecnológicoInfraestructura de Cómputo

Page 26: Anatomía de un proyecto de Big Data

ESTRATIFICADOR INEGIQué es un producto de datos

Page 27: Anatomía de un proyecto de Big Data

Ciencia de Datos

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda

Page 28: Anatomía de un proyecto de Big Data

Tecnologías Involucradas (2013)

{ JSON }

@abxda

D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Motor de análisis estadístico,habilitador de la inteligenciaestadística.

Page 29: Anatomía de un proyecto de Big Data

Ciencia de Datos

Page 30: Anatomía de un proyecto de Big Data

Ciencia de Datos

Page 31: Anatomía de un proyecto de Big Data

@abxda

Ciencia de Datos

Page 32: Anatomía de un proyecto de Big Data

@abxda

Ciencia de Datos

Page 33: Anatomía de un proyecto de Big Data

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda

Estratificación de 1.2 M de ManzanasEn la misma Pc de 4 Procesadores:(2013)

Software Tiempo Manzanas

Big Data 8 Seg. 1’221,180

Tradicional 8 Seg. 2,666

https://spark.apache.org/

Page 34: Anatomía de un proyecto de Big Data

@hbcolectivo

TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …

Page 35: Anatomía de un proyecto de Big Data

2009 2010 2011 2012 2013 2014 2015

(Junio) GIVAS = Global Pulse

(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services

(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS

(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.

(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.

(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.

DGAI Inicia con Herramientas Big Data

(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.

(Diciembre 2013) Visita de Upenn a INEGI

(Febrero 2014) Inicia recolección de Tuits (Hydra)

(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC

(Julio 2014) SECTUR y mapa resultado y paper.

(Agosto 2014) Inicia Pioanálisis

(Nov. 2014) Concluye clasificación de Twits.

(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits

(Febrero 2015) Viaje a UPenn

(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.

(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real

(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC

(Julio 2015) Herramienta de Visualización

@abxda

Page 37: Anatomía de un proyecto de Big Data

OBJETIVO DEL PROYECTO

Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.

@abxda

Page 38: Anatomía de un proyecto de Big Data

Impactos esperados del proyectoDesarrollo Estadístico

• Propuesta de indicadores obtenidos a partir de fuentes Big Data

• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.

• Producción científica de los académicos participantes

@abxda

Page 39: Anatomía de un proyecto de Big Data

Impactos esperados del proyectoDesarrollo Tecnológico

• Adquirir experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos

• Identificar el proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales

• Identificar los requerimientos de Hardware y Software para desarrollar un ambiente de producción de Big Data

@abxda

Page 40: Anatomía de un proyecto de Big Data

¿Cuántos caracteres?

@abxda

Page 41: Anatomía de un proyecto de Big Data

140 ???@abxda

Page 42: Anatomía de un proyecto de Big Data

Todo listo para la presentación de #BigData en el @FSLmx .

1482

Json: Formato de Intercambio

Page 43: Anatomía de un proyecto de Big Data

Nuestra huella en las Redes Sociales

@abxda

Page 44: Anatomía de un proyecto de Big Data

Todos los tuits están disponibles para su recolección en tiempo real.

@abxda

Page 45: Anatomía de un proyecto de Big Data

Incluso permite consultas geográficas

@abxda

Page 46: Anatomía de un proyecto de Big Data

¿Dónde recolectar?

@abxda

Page 47: Anatomía de un proyecto de Big Data

http://www.elasticsearch.org/

@abxda

Page 48: Anatomía de un proyecto de Big Data

¿Por qué ElasticSearch?

@abxda

Page 49: Anatomía de un proyecto de Big Data

Hydra

@abxda< ESCALABILIDAD HORIZONTAL >

Page 50: Anatomía de un proyecto de Big Data

Hydra

@abxda

Page 51: Anatomía de un proyecto de Big Data

@abxda

Page 52: Anatomía de un proyecto de Big Data

– 1 año 7 meses de estar recolectando las 24 horas 7 días de la semana tuits georeferenciados.

– Mas de 150 millones de tuits recolectados

Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL.

@abxda

Page 53: Anatomía de un proyecto de Big Data

Visualización de la Base de Datos

>150 Millones de Tuits

@abxda

Page 54: Anatomía de un proyecto de Big Data

~ 70 Millones de Tuits

@abxda

Page 55: Anatomía de un proyecto de Big Data

Frecuencia de Tuiteo

# Tuits

Frecuencia por hora del día

882,007 Tuiteros generaron 43’079,312 de Tuits

@abxda

Page 56: Anatomía de un proyecto de Big Data

Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros

@abxda

Page 57: Anatomía de un proyecto de Big Data

@abxda

Red Nacional de Caminos y Twitter

Page 58: Anatomía de un proyecto de Big Data

Red Nacional de Caminos y Twitter

@abxda

Page 59: Anatomía de un proyecto de Big Data

DENUE & Twitter

@abxda

Page 60: Anatomía de un proyecto de Big Data

DENUE & Twitter

@abxda

Page 61: Anatomía de un proyecto de Big Data

DENUE & Twitter

@abxda

Page 62: Anatomía de un proyecto de Big Data

DENUE & Twitter

@abxda

Page 63: Anatomía de un proyecto de Big Data

Horarios de Tuiteo cerca de algún sector

@abxda

Page 64: Anatomía de un proyecto de Big Data

PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING

Qué es un producto de datos

Page 65: Anatomía de un proyecto de Big Data

Indicador de sentimiento

Proceso de Machine LearningObjetivo:

@abxda

Page 66: Anatomía de un proyecto de Big Data

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representación numéricahttp://scikit-learn.org/http://www.r-project.org/

Machine Learning

Tuits en Tiempo Real

ClasificadorIndicador

de sentimiento

@abxda

Entrenamiento

Producción

Page 67: Anatomía de un proyecto de Big Data

http://cienciadedatos.inegi.org.mx/pioanalisis

@hbcolectivo @ricardoaolvera

@abxda

Page 68: Anatomía de un proyecto de Big Data

@abxda

{ JSON }

D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.

Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página

Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.

JSON formato de intercambio de datos.

Web Api 2 / Interface REST

Tecnologías Involucradas

Page 69: Anatomía de un proyecto de Big Data

Resultados

@hbcolectivo

@ricardoaolvera

@abxda

Alrededor de 5000 anotadores de la Universidad Tec Milenio

Page 70: Anatomía de un proyecto de Big Data

El proceso de limpieza sirvió para eliminar redundancias e inconsistencias, dejando un conjunto menor de Tuits pero con mayor calidad.

@abxda

Page 71: Anatomía de un proyecto de Big Data

El proceso de normalización convierte cada tuit a una representación que facilite su clasificación automatizada. @abxda

Page 72: Anatomía de un proyecto de Big Data

Preparación para el entrenamiento de algoritmos de Machine Learning@abxda

Page 73: Anatomía de un proyecto de Big Data

El resultado final de la fase de entrenamiento consistió en un ensamblado desarrollado por la colaboración INFOTEC - Centro Geo

@abxda

Page 74: Anatomía de un proyecto de Big Data

@abxda

Page 75: Anatomía de un proyecto de Big Data

@abxda

Page 76: Anatomía de un proyecto de Big Data

IMPLEMENTACIÓN DE BIG DATAVisión de

Page 77: Anatomía de un proyecto de Big Data

Hadoop / Apache Spark

@abxda

ó

Procesamiento70 Cores > 3 Ghz>250 Gb Ram5 TB

+Recolección20 Cores > 3 Ghz100 Gb Ram1 TB

Page 78: Anatomía de un proyecto de Big Data

• Tecnología de procesamiento en paralelo para Ciencia de Datos

Apache Spark

@abxda

Page 79: Anatomía de un proyecto de Big Data

@abxda

Page 81: Anatomía de un proyecto de Big Data

Preguntas

@abxda

Page 82: Anatomía de un proyecto de Big Data

[email protected] @abxda