Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero...

24
Big Data: Tendencias 2016 José Antonio Guerrero [email protected] BuleBar Café 2 Marzo 2016

Transcript of Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero...

Page 1: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Big Data: Tendencias 2016

José Antonio Guerrero

[email protected] BuleBar Café 2 Marzo 2016

Page 2: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Mi etapa profesional en Gestión Sanitaria

Page 3: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Estadística Multivariable vs Aprendizaje Automático

Page 4: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

MACHINE LEARNING Arthur Samuel (1959): "Field of study that gives computers the ability to learn without being explicitly programmed“

Page 5: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Estadística Multivariable Paramétrica

Hipótesis:

Normalidad No correlación de errores Homocedasticidad No colinealidad

Bondad del ajuste:

Grados de libertad Descomposición de la varianza Estimaciones puntuales y por IC de errores y coeficientes Contraste de hipótesis

X , Y

Page 6: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Asumir hipótesis sobre la distribución de los datos

Mal manejo de la colinealidad (Convergencia y estabilidad de las

soluciones)

La limitación en la forma funcional del modelo

Alta sensibilidad a observaciones extremas

Mal manejo de observaciones desconocidas

Problemas de escalabilidad

Mal manejo variables >> casos

Debilidades

Page 7: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Reproducibles Rápidos de ajustar Modelos interpretables (expresión analítica) Importancia relativa de variables Inferencia (bondad de ajuste, coeficientes)

Fortalezas

Page 8: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria
Page 9: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria
Page 10: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria
Page 11: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria
Page 12: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria
Page 13: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

9 de cada 10 Científicos de Datos están buscando palabras con ‘V’ en vez de trabajando en Big Data

Page 14: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria
Page 15: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

ML para Big Data Aplicaciones distribuidas

Doug Cutting

Volumen

Page 16: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Volumen

Page 17: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Machine Learning for Spark

Page 18: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Variedad Bases de datos noSQL: Bases documentales: MongoDB, DynamoDB Bases de datos orientadas a columna: Hbase, Cassandra…

Page 19: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Velocidad

John Langford Elmer Fudd Vorpal Rabbit

Page 20: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

David Sculley

Sofia – ML

FTRL : Follow the regularized leader

Hashing

Velocidad

Page 21: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Biclustering

Page 22: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Semisupervised Learning: Label propagation

Page 23: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Manifold

Semisupervised Learning: Label propagation

Page 24: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria

Selección de variables – Reducción dimensionalidad PCA (Análisis Componentes Principales) Stepwise Regularización: Lasso Ensembling: Muestreo de variables T-SNE (t-Distributed Stochastic Neighbor Embedding)