Codemotion 2016 - Big Data para Javeros con Apache Flink

Big Data para Javeros con Apache Flink

Luis O. Roldán

@cloudhispano

• Desarrollando desde 1999

• Con Java desde 2001

• En Altran desde 2007

• Participando en proyectos de I+D desde 2013

• AGILE - BIG DATA - CLOUD - IOT - JAVA - MOBILE -NOSQL - PERFORMANCE - WEB DEV - DEVOPS

18/11/2016 Big Data para Javeros con Apache Flink 3

¿Por qué Flink?

• Java

• Big Data envy

• Cloud ready

• Comunidad

Historia de Flink

• 05/2011: Stratosphere 0.1

• 05/2014: Stratosphere 0.5 (Apache Incubator)

• 08/2014: Apache Flink 0.6-incubating

• 01/2015: Apache Flink 0.8-incubating

• 06/2015: Apache Flink 0.9

• 08/2016: Apache Flink 1.1

• 12/10/2016: Apache Flink 1.1.3

Intro de flink

• Apache Flink es una plataforma Open Source

• Procesado distribuido de datos tanto en Stream como en Batch.

– Comunicación.

– Tolerancia a fallos.

– Gestión de memoria.

– Optimización del Job.

Deploy

• Local

• Cluster

– Standalone

– YARN

• Cloud

– GCE

– EC2

– Amazon Elastic MapReduce (EMR)

• La capa de Runtime recibe un programa en

forma de gráfico de tareas. Un Job Graph es

un flujo de datos paralelo genérico con tareas

arbitrarias que consumen y producen flujos de

datos.

APIs: Batch y Streaming

• DataSet Transformations

• File systems:

– Hadoop Distributed File

System (HDFS)

– Amazon S3

– MapR file system

– Alluxio

– ¿MongoDB?

Streaming

• DataStream Windows

• Connectores:– Apache Kafka (sink/source)

– Elasticsearch (sink)

– Elasticsearch 2x (sink)

– Hadoop FileSystem (sink)

– RabbitMQ (sink/source)

– Amazon Kinesis Streams(sink/source)

– Twitter Streaming API (source)

– Apache NiFi (sink/source)

– Apache Cassandra (sink)

– Redis (sink)

Librerías

• El stack de Flink ofrece bibliotecas de alto

nivel para diferentes casos de uso:

– Procesamiento de eventos complejos (CEP)

– Aprendizaje automático (FlinkML)

– Análisis gráfico (Gelly)

– Consultas relacionales (Table)

Casos de uso: Play

Casos de uso: Bond

HeatMap example

Contras

• Apoyo de las distribuciones Hadoop

(Cloudera, MapR, etc)

• FlinkML: Faltan algoritmos “potentes”

• Third party packages: Evolucionando…

• Es JAVA!

• Streaming First

• Arquitectura Lambda

¿Preguntas?

Codemotion 2016 - Big Data para Javeros con Apache Flink

Data & Analytics

Transcript of Codemotion 2016 - Big Data para Javeros con Apache Flink

Big Data: retos y oportunidades para la investigación ...socialbigdata.transyt-projects.com › wp-content › uploads › 2017 › 07 … · Apache Flink Apache Flink Paraleliza

JavaScript para Javeros. ¿Cómo ser moderno y no morir en el intento?

DevOps Mashup - Codemotion ES 2015

Codemotion: descubriendo las cachés

Codemotion Madrid 2016 - De Java a Groovy: ¡Hora de Aventuras!

Introducción a Cocos2D: Evento Codemotion

¿Dónde encaja Apache Flink en el ecosistema actual de tecnologías Big Data?

Mejora tus retrospectivas (codemotion 2014)

Cómo Diseñar Software de Calidad en 4 pasos - Codemotion 2015

[Codemotion Madrid 2017] Como hacer una presentacion y no matar a la audiencia

Codemotion 2013 - Desarrollo de videojuegos dirigido por pruebas

Codemotion 2013 - Utilizando el contexto y la movilidad como nueva forma de diversión

Codemotion 2014 - Juegos Dependientes de Contexto. Un caso práctico

Codemotion 2013 - Quiero tiempo real y lo quiero para ayer

Codemotion 2016: Cacahuetes y monos digitales

Codemotion 24-25 noviembre. Madrid, España · Codemotion 24-25 noviembre. Madrid, España ... OWASP MOBILE TOP 10 - 2016 M1 • Incorrecto uso de la plataforma M2 • Inseguridad

In-Transit Molecular Dynamics Analysis with Apache Flinksc18.supercomputing.org/proceedings/workshops/workshop_files/w… · frameworks. We use Apache Flink, a distributed streaming

[Codemotion 2015] patrones de diseño con java8

Graduado en Ingeniería Informáticaoa.upm.es/54265/1/TFG_MARCOS_AMOEDO_FERNANDEZ.pdf•Apache Kafka versión 0.11.0.3 •Apache Zookeeper versión 3.4.8 •Apache Flink versión 1.4.2

Codemotion 2014 - Hackathones - de 0 a produccion en 24 horas