Post on 07-Jan-2017
Big Data: experiencias (académicas) reales
Marcos Colebrook SantamaríaCarlos J. Pérez González
José L. Roda García
Jornadas #BigDataCanarias 21-22 diciembre 2016
Contenidos
■ Un poco de retrospectiva■ Proyectos Fin de Carrera (PFC) y Trabajos Fin de Grado (TFG)
sobre Big Data:● PFC: Hadoop + MapReduce (2014)● TFG: Análisis de ficheros log de la WiFi-ULL (2015)● TFG: Ana ́lisis de los incidentes del 1·1·2 (2016)● TFG: Módulo BI para la plataforma X4Apps (2016)● TFG: Despliegue de clúster Spark sobre Docker (2016)
■ PFC y TFG sobre Genómica:● PFC: IonGAP (2014)● TFG: QuiimeApp (2016)● TFG: Notebook de Jupyter para el MinION (2016)
■ Otros proyectos relacionados:● TFG: Extracción y visualización de info legal (2015)
■ ¿Preguntas?2
Conclusiones:
■ Big Data: tecnología emergente, pero verdadera oportunidad de mercado.
■ Data Scientist/Engineer:● Matemáticas+Estadística● R, Python, Hadoop, Spark,
D3, Java, etc.● Curiosidad● Storytelling: comunicación
de resultados.■ Tendencias:
● Visualización de datos● Modelos predictivos● Social Analytics● Spark / Storm vs. Hadoop
Un poco de retrospectiva: 16-6-2014
3Jornadas #BigDataCanarias 21-22 diciembre 2016
PFC: Hadoop+MapReduce (1)
4Jornadas #BigDataCanarias 21-22 diciembre 2016
Procesando Big Data mediante MapReduce (2014)Autores: Alejandro Tejera, Jaime CorralesDirectores: José L. Roda, Marcos Colebrook
■ Primer proyecto dirigido en ETSII y una primera aproximación al tópico Big Data
■ Esquema:● Introduccio ́n a Big Data● Te ́cnicas y algoritmos● Hadoop y MapReduce● Casos de estudio
■ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs del Centro de Cálculo ETSII.
PFC: Hadoop+MapReduce (2)
5Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:● Cálculo de la temperatura máxima de datos
meteorológicos: reducción del tiempo de cómputo en un 90%.
● Ana ́lisis del weblog del Centro de Ca ́lculo: detección de IPs conflictivas.
● Bu ́squeda de duplicados en el registro de padro ́n: comparando 106 registros (+detalles luego)
● Estudio estadi ́stico del contexto: buenos resultados con corpus de 4GB y solo 16 nodos.
TFG: Análisis de ficheros log de la WiFi-ULL (1)
6Jornadas #BigDataCanarias 21-22 diciembre 2016
Análisis de ficheros log de la WiFi-ULL usando técnicas de Big Data (2015)Autor: Víctor PlazaDirectores: Marcos Colebrook, José L. Roda
■ Objetivo: dado un rango de fechas obtener tuplas(Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS)
■ Esquema:● Estado del arte● Problemática● Fases y Desarrollo del proyecto
■ Tecnología: Python y Hadoop 2 sobre cluster de 5-7 nodos.
TFG: Análisis de ficheros log de la WiFi-ULL (2)
7Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes: se pudieron relacionar diferentes logs de los servidores, del DNS, de la WiFi, del DHCP, y de la geolocalización de los edificios, en base a un rango de fechas y horas, para obtener:
■ Para + info: riull.ull.es/xmlui/handle/915/1412
TFG: Análisis de ficheros log de la WiFi-ULL (3)
8Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Análisis de los incidentes del 1·1·2 (1)
Ana ́lisis de los incidentes del CECOES 1·1·2 utilizando te ́cnicas de Ciencia de los Datos (2016)Autor: Teno GonzálezDirectores: Marcos Colebrook, Carlos J. Pérez
■ Objetivo: creación de una interfaz que muestra info extraída de los 7 millones de registros (2005-2014) como gráficas dinámicas o mapas.
■ Esquema:● Estado del arte● Problemática● Fases y desarrollo del proyecto
■ Tecnología: R+Shiny y RStudio para el desarrollo.9Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Análisis de los incidentes del 1·1·2 (2)
10Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes: limpieza y carga optimizada de datos, además de una web intuitiva (más detalles en la siguiente charla)
■ Para + info: riull.ull.es/xmlui/handle/915/2616
TFG: Módulo BI para plataforma X4Apps (1)
Módulo de Inteligencia de Negocio para la plataforma X4Apps (2016)Autor: Sandro ChineaDirector: Marcos Colebrook
■ Objetivo: diseño de un mo ́dulo de BI para la plataforma X4Apps de desarrollo para móviles.
■ Esquema:● Estado del arte● Desarrollo de la solución
■ Se analizaron tecnologías como MongoDB, Hadoop, y Pentaho.
11Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Módulo BI para plataforma X4Apps (2)
12Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
TFG: Despliegue de clúster Spark sobre Docker (1)
Despliegue de un clúster Spark sobre Docker para Big Data (2016)Autor: Sergio MartínDirectores: Marcos Colebrook, Carlos J. Pérez
■ Objetivo: desarrollo y despliegue de un cluster Spark 2.0.0 sobre Docker 1.12
■ Esquema:● Análisis del problema● Solución basada en Docker 1.11● Solución basada en Docker 1.12● Ejecución y benchmarks
13Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Despliegue de clúster Spark sobre Docker (2)
14Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/3088
PFC y TFG en Bioinformática (1)
15Jornadas #BigDataCanarias 21-22 diciembre 2016
Fuente: www.genome.gov/sequencingcostsdata
PFC y TFG en Bioinformática (2)
16Jornadas #BigDataCanarias 21-22 diciembre 2016
PFC: IonGAP (1)
IonGAP – an Integrated Genome Assembly Platform for Ion Torrent Data (2014)Autor: Adrián BaezDirectores: Marcos Colebrook, José L. Roda■ Objetivo: desarrollo de una web pu ́blica para el ensamblado de
genomas bacterianos y su ana ́lisis posterior.■ Esquema:
● The genome assembler● A genome assembly and analysis pipeline● IonGAP web service● Parallel assembly of large genomes
■ Tecnologías: Django, Apache Web Server, HTML+CSS+JavaScript y apps libres para análisis genómico.
17Jornadas #BigDataCanarias 21-22 diciembre 2016
PFC: IonGAP (2)
18Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
PFC: IonGAP (3)
IonGAP: integrative bacterial genome analysis for Ion Torrent sequence data (2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila, J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17).
iongap.hpc.iter.es
19Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: QuiimeApp (1)
QiimeApp – Una plataforma web para análisis metagenómicos (2016)Autor: Víctor JuidíasDirectores: Marcos Colebrook, José L. Roda■ Objetivo: desarrollo de app para procesar y analizar datos
metagenómicos obtenidos por secuenciación masiva de ADN.■ Esquema:
● Estado del arte● Diseño y desarrollo de la app● Resultados
■ Tecnologías: la app base es QIIME (Python), la cual permite realizar análisis metagenómicos sobre comunidades microbianas.
20Jornadas #BigDataCanarias 21-22 diciembre 2016
$ split_libraries_fastq.py -i lane1_read1.fastq.gz -b lane1_barcode.fastq.gz --rev_comp_mapping_barcodes -o slout_q20/ -m map.txt -q 19
PFC: QuiimeApp (2)
21Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/2614
TFG: Notebook de Jupyter para el MinION (1)
Herramienta bioinformática usando Jupyter para el secuenciador de ADN MinION (2016)Autor: Héctor RodríguezDirectores: Marcos Colebrook, José L. Roda■ Objetivo: desarrollo de un notebook de Jupyter para trabajar con
el secuenciador MinION de Nanopore.■ Esquema:
● Estado del arte● Diseño y desarrollo de la solución● Resultados
■ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas específicas del MinION.
22Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Notebook de Jupyter para el MinION (2)
23Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/3089
TFG en NLP de textos legales
24Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Extracción y visualización de info legal (1)
Extracción y visualización de información de textos legales (2015)Autor: Francisco J. RodríguezDirectores: Isabel Sánchez, Marcos Colebrook■ Objetivo: visualización de info estructurada a partir de un corpus
de textos de jurisprudencia (CENDOJ) para obtener conclusiones sobre las sentencias (fav. / desfav. / parcial) usando NLP.
■ Esquema:● Desarrollo del proyecto● Diseño e implementación● Resultados
■ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript, D3.
25Jornadas #BigDataCanarias 21-22 diciembre 2016
TFG: Extracción y visualización de info legal (2)
26Jornadas #BigDataCanarias 21-22 diciembre 2016
■ Resultados interesantes:
■ Para + info: riull.ull.es/xmlui/handle/915/845
■ Desde 2014, se han propuesto y desarrollado varios PFC y TFG en Big Data usando herramientas abiertas y de software libre.
■ Son proyectos piloto o PoC (Proof of Concept) que nos permiten adquirir know-how para proyectos más complejos.
■ A partir de estos PFC/TFG, tenemos buena experiencia con proyectos financiados/subvencionados con contratos menores (<18K) que permiten contratar becarios al menos 12 meses.
■ Para ello, habrá que firmar un convenio (marco y específico) de colaboración con ULL.Y la autorización para difundir los resultados en forma de publicación científica (revista, congreso, libro).
Conclusiones
27Jornadas #BigDataCanarias 21-22 diciembre 2016
¡¡ GRACIAS !!
¿Preguntas?
28Jornadas #BigDataCanarias 21-22 diciembre 2016