Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS...
Transcript of Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS...
![Page 1: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/1.jpg)
GESTIÓN DE DATOS (MASIVOS)
DIPLOMADO DE DATOS 2017
Clase 1: Introducción
Aidan Hogan
![Page 2: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/2.jpg)
EL VALOR DE LOS DATOS
![Page 3: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/3.jpg)
Soho, London, 1854
![Page 4: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/4.jpg)
Cólera: Lo que sabemos hoy en día …
![Page 5: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/5.jpg)
Cólera: Lo que sabíamos en 1854
![Page 6: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/6.jpg)
1854: La teoría del miasma de Galen
![Page 7: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/7.jpg)
1854: La caza por el cólera invisible
![Page 8: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/8.jpg)
John Snow: 1813–1858
![Page 9: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/9.jpg)
John Snow: 1813–1858
![Page 10: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/10.jpg)
La encuesta de Soho
![Page 11: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/11.jpg)
Recolección de datos ...
![Page 12: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/12.jpg)
Lo que los datos mostraron …
![Page 13: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/13.jpg)
Lo que los datos mostraron …
![Page 14: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/14.jpg)
616 muertes, 8 días después …
![Page 15: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/15.jpg)
Lo que aprendimos ...
![Page 16: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/16.jpg)
Cartel cólera ca. 1866 (aviso de hervir el agua)
![Page 17: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/17.jpg)
30 años antes (del descubrimiento) de V. cholerae
![Page 18: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/18.jpg)
John Snow: El padre de la Epidemiología
![Page 19: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/19.jpg)
Historias de éxitos de la Epidemiología
![Page 20: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/20.jpg)
Valor de los datos: No sólo Epidemiología
![Page 21: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/21.jpg)
Cuadernos no son suficientemente buenos
![Page 22: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/22.jpg)
EL CRECIMIENTO DE LOS DATOS
![Page 23: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/23.jpg)
“Big Data”
1 Wiki = 1 Wikipedia
English Wikipedia
≈ 51 GB de datos
(2015 dump)
(Texto; Datos actuales)
(XML; no comprimido)
![Page 24: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/24.jpg)
“Big Data”
Wikimedia Commons
≈ 24 TB de datos
≈ 470.6 Wiki
(2014 dump)
![Page 25: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/25.jpg)
“Big Data”
Sloan Digital Sky Survey
≈ 200 GB / día
≈ 4 Wiki / día
(2013, generados por el SDSS)
![Page 26: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/26.jpg)
“Big Data”
≈ 8 TB / día
≈ 157 Wiki / día
(2013, generados)
![Page 27: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/27.jpg)
“Big Data”
Large Hadron Collider
≈ 68 TB / día
≈ 1,370 Wiki / día
(2012, datos de colisiones
generados)
![Page 28: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/28.jpg)
“Big Data”
≈ 600 TB / día
≈ 11,764 Wiki / día
(2014, entrada, datos en Hive)
![Page 29: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/29.jpg)
“Big Data”
Vigilancia de la NSA
≈ 29 PB / día
≈ 568,627 Wiki / día
(2013, procesados)
![Page 30: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/30.jpg)
“Big Data”
≈ 100 PB / día
≈ 2,000,000 Wiki / día
(2014, procesados)
![Page 31: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/31.jpg)
“Big Data”
El tráfico de Internet
≈ 2,417 PB / día
≈ 47,000,000 Wiki / día
(2014, estimaciones de Cisco)
![Page 32: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/32.jpg)
Los datos: Un cuello de botella moderno?
![Page 33: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/33.jpg)
Las ‘V’s de “Big Data”
![Page 34: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/34.jpg)
“BIG DATA” EN ACCIÓN …
![Page 35: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/35.jpg)
La mejor ruta (Waze)
“¿Cuál es ahora la ruta más rápida para llegar a casa?”
• Procesa viajes reales para construir conocimiento
• Participatory Sensing
![Page 36: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/36.jpg)
Prediciendo pre-crimen (PredPol)
“¿Qué áreas de la ciudad tienen una mayor necesidad de
patrullas policíacas a las 13:55 los lunes?”
• Sistema PredPol usado por la policía de Santa Cruz (EEUU)
• Predicciones basadas en análisis de 8 años de datos
![Page 37: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/37.jpg)
Ser elegido presidente (Narwhal)
“¿Quiénes son los votantes indecisos, y cómo los convenzo
de que voten por mí?”
• Perfiles de usuarios construidos e integrados de la Web
• Emails enviados a votantes, basados en sus perfiles
![Page 38: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/38.jpg)
Ganar "Jeopardy" (IBM Watson)
“¿Puede una máquina vencer a los mejores expertos
humanos en Jeopardy?”
• Indexó 200 millones de páginas de contenido
• Un ensamblaje de 100 técnicas
![Page 39: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/39.jpg)
“BIG DATA” NECESITA
“GESTIÓN DE DATOS (MASIVOS)” …
![Page 40: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/40.jpg)
Cada aplicación es distinta …
• Datos pueden ser
– (semi-)estructurados
• (Relational DBs, JSON, XML, CSV)
– sin estructura
• (documentos de texto, tweets, comentarios)
– y cualquier cosa entre medio!
![Page 41: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/41.jpg)
Cada aplicación es distinta …
• Procesamiento puede involucrar
– Gestión de Datos Estructurados
• (indexación, consultas, joins, agregación)
– Procesamiento de Lenguaje Natural
• (búsqueda de texto, clasificación de texto, análisis de
sentimiento, relevancia y similitud, etc.)
– Minería de Datos y Aprendizaje
• (regresión, reconocimiento de patrones, clasificación, detección
de eventos, etc.)
– Y cualquier cosa entre medio.
![Page 42: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/42.jpg)
¿Por dónde deberíamos empezar?
![Page 43: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/43.jpg)
GESTIÓN DE DATOS (MASIVOS)
![Page 44: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/44.jpg)
Con doble los datos, necesitamos ...
... y listo?
![Page 45: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/45.jpg)
La escala es un factor importante …
Tengo un algoritmo.
Tengo una máquina que
puede procesar 1.000
entradas por hora.
Si compro una máquina que es n veces más
potente, ¿cuántas entradas
puedo procesar?
Nota: No la misma
máquina!
Cuadrático O(n2)
usualmente es demasiado
¡Depende del algoritmo!
![Page 46: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/46.jpg)
La escala es un factor importante …
• ¿Una máquina que es n veces más potente?
• ¿n máquinas que son
igualmente potentes
entre ellas?
vs.
¿Cuál es mejor?
¡Depende de la aplicación!
![Page 47: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/47.jpg)
La escala es un factor importante …
• Intensivo en los datos (nuestro foco!)
– Algoritmos baratos / Grandes entradas
– p.ej., Google, Facebook, Twitter
• Intensivo en computo (no es nuestro foco!)
– Algoritmos más caros / Entradas más pequeñas
– p.ej., simulaciones de clima, ajedrez, etc.
• No es blanco y negro
![Page 48: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/48.jpg)
"GESTIÓN DE DATOS (MASIVOS)" NECESITA
"COMPUTACIÓN DISTRIBUIDA"
![Page 49: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/49.jpg)
Computación distribuida
• Necesita más de una máquina
• Google ca. 1998:
![Page 50: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/50.jpg)
Computación distribuida
• Necesita más de una máquina
• Google ca. 2014:
![Page 51: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/51.jpg)
Costos de transporte de los datos (estimaciones)
Memoria Principal
Disco Duro
Disco de Estado Sólido
Red(mismo rack)
30 GB/s 600 MB/s 100 MB/s
Red(a través de
los racks)
1.25 GB/s 5 GB/s
50–150 ns 10–100 μs 5–15 ms 300–600 ns 1–15 μs
(transmisión)
(latencia)
¡Se necesita minimizar los costos de red!(La red da un costo adicional)
(Se reparte la red entre muchas máquinas)
![Page 52: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/52.jpg)
Colocación de los datos
• Hay que pensar cuidadosamente dónde poner
qué datos
Tengo cuatro máquinas para
correr mi página web. Tengo 10
millones de usuarios.
Cada usuario tiene un perfil
personal, fotos, amigos y juegos.
¿Cómo debería dividir los datos
en las máquinas?
¡Depende de la aplicación!
(Pero buenos principios de
diseño aplican universalmente.)
![Page 53: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/53.jpg)
Fallas de red/nodo
• Si tenemos miles de máquinas, ¡hay que pensar
en las fallas!
![Page 54: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/54.jpg)
Colocación de los datos
• Hay que pensar (¡aún más!) cuidadosamente
dónde poner qué datos
Tengo cuatro máquinas para
correr mi página web. Tengo 10
millones de usuarios.
Cada usuario tiene un perfil
personal, fotos, amigos y juegos.
¿Cómo debería dividir los datos
en las máquinas?
¡Depende de la aplicación!
(de nuevo)
(Pero buenos principios de
diseño aplican universalmente.)
![Page 55: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/55.jpg)
Computación distribuida humana
![Page 56: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/56.jpg)
"COMPUTACIÓN DISTRIBUIDA”
LIMITACIONES Y DESAFÍOS …
![Page 57: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/57.jpg)
¡Distribución no es siempre aplicable!
![Page 58: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/58.jpg)
Desarrollo distribuido es difícil
• Sistemas Distribuidos pueden ser complejos
• Con múltiples máquinas hay que ocuparse de:– Datos en diferentes localizaciones
– Logs y mensajes en diferentes lugares
– La eficiencia de la red
– ¡Hay que manejar fallas!
– ¡Hay que balancear carga!
• ¡Tareas toman mucho tiempo!– Bugs pueden no ser evidentes por horas
– Muchos datos = muchos contra ejemplos
![Page 59: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/59.jpg)
Frameworks/abstracciones pueden ayudar
Para procesamiento distribuido
(p.ej.)
![Page 60: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/60.jpg)
Frameworks/abstracciones pueden ayudar
Para almacenamiento distribuido
(p.ej.)
![Page 61: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/61.jpg)
¿CÓMO FUNCIONA(BA) TWITTER?
![Page 62: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/62.jpg)
“Twitter Timelines at Scale”
Basado en las dispositivas del 2013, del
Arquitecto Principal de Twitter: Raffi Krikorian
![Page 63: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/63.jpg)
• 150 millones de usuarios activos
• 400 millones de tweets por día
– 4.600 tweets por segundo
– max: 143.199 tweets por segundo
• 300 mil consultas/s por timelines de usuarios
• 6 mil consultas/s por búsqueda personalizada
Big Data en Twitter
¿Qué debería ser la
prioridad al optimizar?
![Page 64: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/64.jpg)
Twitter Timeline
![Page 65: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/65.jpg)
Implementando timelines: Escritura
• 4.600 tweets por segundo (en promedio)
![Page 66: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/66.jpg)
Nodos con alto grado
![Page 67: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/67.jpg)
Implementando timelines: Lectura
• 300.000 consultas por segundo (en promedio)
1ms @p504ms @p99
![Page 68: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/68.jpg)
Búsqueda de texto
![Page 69: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/69.jpg)
Implementando búsqueda de texto
• 6.000 consultas por segundo (en promedio)
![Page 70: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/70.jpg)
Timeline vs. Búsqueda
300.000 peticiones/s4.600 peticiones/s
4.600 peticiones/s 6.000 peticiones/s
![Page 71: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/71.jpg)
Twitter: Arquitectura Completa
![Page 72: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/72.jpg)
"GESTIÓN DE DATOS"
ACERCA DEL CURSO
![Page 73: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/73.jpg)
¿Qué es el curso/No es?
• Intensivo en datos | no intensivo en computo
• Tareas distribuidas | no crear redes
• Hardware no especializado | no supercomputadores
• Métodos generales | no algoritmos específicos
• Métodos prácticos | con poco teoría
![Page 74: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/74.jpg)
Estructura del curso
• Primera mitad de la sesión: Clase
• Segunda mitad de la sesión: Práctica
1. Introducción Conteo local de palabras
2. GFS & MapReduce HDFS & Hadoop y Conteo de palabras
3. Hive Contando IMDb co-actores con Hive
4. Spark Analizando series de televisión
5. Crawling & Indices Invertidos Búsqueda sobre Wikipedia
6. TF–IDF & PageRank Búsqueda Ranqueada sobre Wikipedia
7. NoSQL I Cassandra
8. NoSQL II MongoDB
Nota final: 100% prácticas (8 en total, 12,5% cada una)
![Page 75: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/75.jpg)
En preparación:
![Page 76: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com](https://reader030.fdocuments.ec/reader030/viewer/2022040409/5ec55c9b9938da36061c1ee9/html5/thumbnails/76.jpg)
Preguntas?