Big data medellin_seminario_internacional

136
1 Prof. Luis Joyanes Aguilar BIG DATA Análisis de grandes volúmenes de datos en organizaciones y empresas MEDELLIN (Colombia), 6 de noviembre, 2014

description

Conferencia en universidad de medellin, 6 de noviembre 2014. Big Data. Análisis de grandes volúmenes de datos en organizaciones y empresas

Transcript of Big data medellin_seminario_internacional

Page 1: Big data medellin_seminario_internacional

11Prof. Luis Joyanes Aguilar

BIG DATAAnálisis de grandes volúmenesde datos en organizaciones y empresas

MEDELLIN (Colombia), 6 de noviembre, 2014

Page 2: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CONTENIDO

1. EL UNIVERSO DIGITAL DE DATOS : La

revolución de los datos (los datos el nuevo mana, el nuevo petróleo…)

La revolución digital de los datos (8 ZettaBytes en 2012, 40 ZB en 2020).

2. ANÁLISIS DE LOS DATOS

3. ALMACENAMIENTO DE LOS DATOS (Data Centers)… Virtualización y la nube

Página –2–

Page 3: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CONTENIDO

2. ¿CÓMO SE HA LLEGADO A ESTA SITUACIÓN?

Social Media (Web 2.0, redes sociales…)

Movilidad

Realidad Aumentada y Geolocalización

Cloud Computing

Big data Internet de las cosas

Ciudades inteligentes

Impresión 3D

Tecnologías wearables (ponibles, llevables…)

Página –3–

Page 4: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CONTENIDO¿QUÉ ES BIG DATA?

TECNOLOGÍAS DE BIG DATA Bases de datos analíticas (MPP, procesamiento

masivo paralelo)

Bases de datos “in-memory”

Bases de datos NoSQL

MapReduce …. Google

HDFS (GFS) --- Google

Hadoop

Lenguajes de programación: R, Python… el nuevo y prometedor lenguaje de programación ·Julia”

Página –4–

Page 5: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CONTENIDO CIENCIA DE DATOS (DATA SCIENCE)

NUEVAS PROFESIONES …. El científico de datos (data scientist)

CTO (nuevo rol) versus CIO

CDO (director de datos)

CAO (analista de datos)

EL FUTURO DEL BIG DATA está vinculado

a la Nube y ambas convergerán en

INTERNET DE LAS COSAS

BIBLIOGRAFÍA

Página –5–

Page 6: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Harvard Business Review, octubre 2012

Página –6–

Page 7: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Foreign Affairs, mayo 2013

Página –7–

Page 8: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Revista BBVA, innovation edge, junio 2013

Página –8–

Page 9: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CONSULTORA GARTNER, mayo 2014

Según Gartner –similar a otras consultoras

como OBS, Forrester- estima que la inversión en servicios de Big Data será de 132.000 millones de dólares ( 96.000 millones de euros) en 2015, lo que

generará unos 4,4 millones de empleos en todo el mundo. Gracias al Big Data el Producto Interno Bruto (PIB) de la Unión Europea crecerá un 1,9% adicional para 2020.

Página –9–

Page 10: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CONSULTORA GARTNER, mayo 2014

Por sectores, las mayores inversiones en soluciones de Big Data se harán en Comercio, Industria, Salud, Información y Comunicaciones, Banca y Finanzas, Seguros y Administración Pública.

Página –10–

Page 11: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

UNIÓN EUROPEA, 4 julio 2014

A cada minuto se genera en el mundo datos por el equivalente a 360.000 DVD. Como consecuencia de ello, el sector de datos crece un 40% al año, siete veces más rápido que el mercado global de la información y de las comunicaciones: aumentará 16.900 millones de dólares USA en el 2015 y los datos crearán cientos de miles de nuevos puestos de trabajo en Europa.

Por todo ello, la apuesta por el Big Data por parte del sector público es un fenómeno en aumento… hasta tal

punto que la Comisión Europea ha solicitado a los gobiernos nacionales que “abran los ojos ante la revolución del Big Data“.

Página –11–

Page 12: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

UNIÓN EUROPEA, 4 julio 2014

Neelie Kroes, vicepresidenta de la Comisión y responsable de la Agencia Digital Europea, declaró al respecto que:

“ya es hora de que nos centremos en los aspectos positivos de los macrodatos(big data). Estos suenan negativos y alarmantes, pero la mayoría de las veces no lo son. Los líderes necesitan aprovecharlos”.

Página –12–

Page 13: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

UNIÓN EUROPEA, 4 julio 2014 Esta toma de posicionamiento de la Comisión se concreta en

una comunicación al Parlamento titulada “Hacia una economía de los datos próspera” donde

también se establece la definición que las instituciones

europeas de Big Data:

“una gran cantidad de diferentes tipos de datos producidos a alta velocidad a partir de un gran número de diversos tipos de fuentes”.

Página –13–

Page 14: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

UNIÓN EUROPEA, 4 julio 2014

“Para manejar los conjuntos de datos muy variables y en tiempo real de hoy en día, se necesitan nuevas herramientas y métodos, como software, algoritmos y procesadores de gran potencia”.

Página –14–

Page 15: Big data medellin_seminario_internacional

1515

IETEN Business&TechnologySchool

Prof. Luis Joyanes Aguilar

BIG DATAEl universo digital de datos

Page 16: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

1TB (250.000 canciones)

20 TB (fotos “uploaded” a Facebookcada mes)

120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos)

Página –16–

Page 17: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)

1TB (250.000 canciones)

20 TB (fotos “uploaded” a Facebookcada mes)

120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos)

Página –17–

Page 18: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –18–

Page 19: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

El universo digital de datos, IDC 2012

Pina –19–

Page 20: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

El universo digital de datos, 2013

Página –20–

Page 21: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

Página –21–

Page 22: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente:

Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto

significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si

pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial.

Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-gran-universo-digital-la-data-crece-mas-rapido-de-lo-que-podemos-protegerla

Página –22–

Page 23: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El

estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por

personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.

Página –23–

Page 24: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA ERA DEL EXABYTE/ZETTABYTE CISCO

LA ERA DEL EXABYTE, CISCO . Estudio “Cisco Visual Networking Index (VNI)2007-2012. Tráfico mundial de datos.

LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Tráfico mundial de datos (publicado en 2013)

Página –24–

Page 25: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Página –25–

Page 26: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

¿Qué sucede en 1´ en INTERNET (2012)

Página –26–

Page 27: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Informe de GP Bullhound, el banco de

inversión líder en Europa (2012 vs 2013)

Página –27–

Page 28: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

http://blog.qmee.com/qmee-online-in-60-seconds/ (Noviembe-2013

Página –28–

Page 29: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Página –29–

Page 30: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA AVALANCHA DE DATOS

Twitter: (redes sociales) 90 millones de tuits (tweets) por día que representa 8

Terabytes.

Boeing: (industria) Vuelo transoceánico de un jumbo puede generar 640

Terabytes.

Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que

alimenta una base de datos de 2.5 petabytes.

Google procesa al día 20 PB de información

Página –30–

Page 31: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA AVALANCHA / DILUVIO DE DATOS

El 90% de los datos acumulados en todo el mundo se han creado en los dos últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información.

Página –31–

Page 32: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA AVALANCHA / DILUVIO DE DATOS

Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están “desestructurados·.

El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que

generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores.

Página –32–

Page 33: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA AVALANCHA / DILUVIO DE DATOS

La respuesta para ordenar este caos es bigdata, la nueva herramienta para

sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información.

Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street

Página –33–

Page 34: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA AVALANCHA DE DATOS

Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)

Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji.

Página –34–

Page 35: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

LA ERA DEL EXABYTE/ZETTABYTE CISCO

LA ERA DEL EXABYTE, CISCO . Estudio “Cisco Visual Networking Index (VNI)2007-2012. Tráfico mundial de datos.

LA ERA DEL ZETTABYTE: Cisco VNI:

Forecast and Methodology 2012-2017. Tráfico mundial de datos (publicado en 2013)

Página –35–

Page 36: Big data medellin_seminario_internacional

3636

Prof. Luis Joyanes Aguilar

BIG DATA: Fundamentos

Page 37: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

MAPA DE ETIQUETAS DE BIG DATA

Página –37–

Page 38: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: Gartner

Gartner* define “Big data” como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información

www.gartner.com/id=2100215

Página –38–

Page 39: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: Gartner

“Big Data es la capacidad de analizar grandes volúmenes de datos de diferentes tipos y a gran velocidad, para mejorar los procesos de negocio actuales o crear nuevas áreas de oportunidad”.

Página –39–

Page 40: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: IBM

Página –40–

Page 41: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: IBM

VOLUMEN de datos procesados por las

empresas ha crecido significativa y exponencialmente.

Google procesa 20 petabytes al día

En 2020 se esperan 42.000 millones de pagos electrónicos.

La Bolsa de Nueva York genera UN terabyte de datos al día

Twitter genera 8 TB

Página –41–

Page 42: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: IBM

VELOCIDAD. Rapidez con la que se accede

a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente.

Flujo de datos a alta velocidad.

eBay se enfrenta al fraude a través

de PayPal analizando cinco millones de transacciones en tiempo real al día.

Página –42–

Page 43: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: IBM

VARIEDAD: Big data es cualquier tipo de

dato – estructurado y no estructurado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos “logs”, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, mediossociales,

Una creciente variedad de datos necesitan ser procesados y convertidos a información

Página –43–

Page 44: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE BIG DATA: IBM (5V-6V)

Página –44–

Page 45: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Estructura de Big Data: tipos de datos

Estructurados

No estructurados No estructurados (texto, datos de vídeo, datos de audio,,,)

Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –45–

Page 46: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Fuentes de Big Data Herramientas para análisis de datos en grandes

volúmenes de datos. Infraestructuras de Big Data

Fuentes de Big Data (Soares 2012):

Web y Social media

Machine-to-Machine (M2M, Internet de las cosas)

Biometria

Datos de transacciones de grandes datos (salud, telecomunicaciones…)

Datos generados por las personas (humanos)

Página –46–

Page 47: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Sunil Soares (2003). Big Data Governance Emerging

Página –47–

Page 48: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE BIG DATA

Los Gigantes de Internet como Google, Amazon o Facebook basan su éxito en el valor de los “big data” sin ellos tendrían serias dudas de supervivencia.

Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas.

Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas”

Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios.

Página –48–

Page 49: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE BIG DATA

La central de reservas Amadeus (líneas aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS.

Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich.

El informe indica que “las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia”.

Página –49–

Page 50: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE BIG DATA

La industria aérea comercial podría ahorrar 30

millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones.

Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en

función de sofisticados sistemas de análisis de datos de clientes (MINERÍA DE DATOS)

Página –50–

Page 51: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE BIG DATA

En España, un sistema privado de seguridad, Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes.

“En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios” [Portavoz de Sanitas al periódico El País]

Página –51–

Page 52: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE BIG DATA

Las farmacéuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad.

“hacer predicciones de comportamientos futuros de pacientes” son grandes ventajas de big data, que puede “mejorarnos la vida hasta límites insospechados”.

Página –52–

Page 53: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Oportunidades en Big DataOportunidad profesional: En 2015, Gartner predice que4,4 millones de empleos serán creados en torno a bigdata. (Gartner, 2013)

Fuente: http://www.gartner.com/technology/topics/big-data.jsp

Página –53–

Page 54: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

RETOS Y OPORTUNIDADES

IDC entiende Big data como un nuevo valor económico basado en la toma de decisiones a partir del análisis de grandes volúmenes de datos procedentes de una amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a los datos móviles, los medios sociales y el Internet de las Cosas, un campo aún incipiente donde en 2020 convivirán 212.000 millones de dispositivos conectados.

Big data también ofrece riesgos. Fundamentalmente en privacidad y seguridad de los datos. Normas legales de la Unión Europea, sus países miembros, América…

Página –54–

Page 55: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

RETOS Y OPORTUNIDADES Sus ventajas para el negocio en áreas como la

gestión de las relaciones con el cliente, el desarrollo de nuevos productos, la detección del fraude o la predicción del comportamiento de los consumidores permiten a las compañías obtener resultados financieros un 20% por encima de sus competidores, según estimaciones de Gartner.

Se entiende así que, una vez superada la fase de evaluación y prueba en la que todavía nos encontramos, la adopción creciente de Big data dispare un mercado que, de acuerdo con la firma de investigación, cerrará 2013 con un volumen de negocio asociado de 34.000 millones de dólares, 6.000 millones más que en 2012.

Página –55–

Page 56: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

RETOS Y OPORTUNIDADES

Las promesas de Big data alcanzan a prácticamente todos los sectores de actividad, como demuestran las primeras experiencias de éxito emprendidas por organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su adopción se irá extendiendo a medida que los responsables TI vayan asumiendo el valor que aportan nuevos frameworks de software como Hadoop y los nuevos sistemas avanzados de almacenamiento, bases de datos, analítica y lenguajes de programación especialmente orientados a los grandes datos.

Página –56–

Page 57: Big data medellin_seminario_internacional

5757

Prof. Luis Joyanes Aguilar

INTERNET DELAS COSAS

Page 58: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

INTERNET DE LAS COSAS (OBJETOS)

Página –58–

Page 59: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

MACHINE TO MACHINE (M2M)

Intercambio de información en formato de datos entre dos puntos remotos, bien a través de red fija o móvil sin interacción humana con características específicas en cuanto a tráfico y tarjetas SIM e integradas en la fabricación de dispositivos

Automatización de los procesos de comunicación entre máquinas, entre dispositivos móviles (celulares) y

máquinas (Mobile to Machine) y entre hombres y

máquinas (Man to Machine)

En 2011 había más de 1.500 millones de dispositivos alrededor del mundo conectados entre sí; 15.000 millones en 2013. Previsiones de Cisco, 25.000 millones para 2015

Página –59–

Page 60: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

COMUNICACIÓN M2M

La comunicación machine to machine hará

posible que los objetos intercambien información, facilitando la toma de decisiones de forma autónoma.

Habrá un aumento de la productividad de los procesos, debido a los nuevos paradigmas y modelos de negocios generados por el análisis de big data

Predicciones fiables hablan de que el 65% de los estudiantes que inician hoy sus estudios se dedicarán a trabajos que aún no están inventados

Página –60–

Page 61: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

INTERNET DE LAS COSAS (OBJETOS)

Cada día aumenta el número de dispositivos de todo tipo que proporcionan acceso a Internet. Las “cosas” que permiten y van a permitir estos accesos irá aumentando con el tiempo. Ahora ya tenemos videoconsolas, automóviles, trenes, aviones, sensores, aparatos de televisión, … y pronto el acceso se realizará desde los electrodomésticos

Página –61–

Page 62: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

World Wide Web, Internet móvil, cloud

computing, INTERNET DE LAS COSAS Un mundo en el que miles de millones de objetos

informarán de su posición, identidad e historia a través de conexiones inalámbricas … mediante tecnologías RFID, bluetooth, sensores inalámbricos, NFC, …

La realización del “Internet de las cosas” , probablemente requerirá cambios dramáticos en sistemas, arquitecturas y comunicaciones,… Invisible es la descripción de las nuevas

tecnologías empotradas “Computación ubicua”… A

medida que avance su penetración:

Producirá un CAMBIO SOCIAL, posiblemente, de tanto impacto y tan poco previsible, como las actuales tecnologías Web

Página –62–

Page 63: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE LA UIT DE IoT

https://itunews.itu.int/Es/4503-Internet-de-las-cosas-Maquinas-empresas-personas-todo.note.aspx

Página –63–

Page 64: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DEFINICIÓN DE IoT DE LA UIT

La definición que da la UIT de Internet de las cosas es "infraestructura mundial de la sociedad de la información, que ofrece servicios avanzados interconectando cosas (físicas y virtuales) utilizando las tecnologías de la información y la comunicación compatibles existentes y en evolución". La definición fundamental de la UIT, publicada el 4 de julio de 2012, es útil para comprender el concepto y un buen punto de partida para seguir analizando e investigando la Internet de las cosas. Es importante que la UIT señale que la Internet de las cosas es una "visión", no una sola tecnología, y que tiene "consecuencias tecnológicas y sociales".

Página –64–

Page 65: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

VENTAJAS Y RIESGOS DE IoTVENTAJAS Y OPORTUNIDADES CISCO, ERICSSON,… prevén que para el año 2020 habrá cerca

de 50 mil millones de dispositivos conectados a Internet, capaces de comunicarse entre sí, desde automóviles, aparatos de consumo en el hogar, teléfonos inteligentes, marcapasos, televisores, carros (coches), ropa inteligente, electrodomésticos, puertas - ventanas de hogares y edificios, PCs, tabletas…

Infinitas ventajas

RIESGOS*…Hackers “maliciosos”, ciberespionaje …

* Cibereespionajes, piratas y mafias, El País, febrero 2013 http://elpais.com/elpais/2013/02/19/eps/1361281322_025092.html

Página –65–

Page 66: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NÚMERO DE OBJETOS CONECTADOS

En la Tierra hay muchas más cosas que personas, y el número de cosas que podrían formar parte de Internet de las cosas varía enormemente según los expertos. No importa la cifra exacta, ¡sólo sabemos que es enorme! Por ejemplo, según estimaciones del Internet Business Solutions Group de Cisco, unos 25.000 millones de dispositivos estarán conectados a Internet en 2015, y 50.000 millones en 2020. Son por ejemplo aparatos móviles, parquímetros, termostatos, monitores cardíacos, neumáticos, carreteras, automóviles, estanterías de supermercados e incluso ganado.

Página –66–

Page 67: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE IOT

El Ministerio de Industria, Energía y Turismo de ESPAÑA EN ENERO DE 2014 ha puesto en marcha la convocatoria de ayudas para el desarrollo empresarial de proyectos tecnológicos innovadores por una cuantía de 140 millones de euros, de los que 20 millones son subvenciones y 120 préstamos.

Tras la publicación en el Boletín Oficial del Estado de la resolución de la Secretaría de Estado de Telecomunicaciones y para la Sociedad de la Información, hoy se abre el plazo para solicitar las ayudas dentro del Plan de Investigación Científica y Técnica y de Innovación 2013-2016.

Página –67–

Page 68: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE IOT

Se financiarán líneas de actuación en infraestructuras de internet del futuro, componentes y sistemas electrónicos,

soluciones para el desarrollo de computación en la nube, soluciones TIC Big Data, ciberseguridad y confianza digital, así

como a los proyectos internacionales englobados en el programa EUREKA de apoyo a la I+D+i cooperativa en el ámbito europeo.

Página –68–

Page 69: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE IOT

Entre los servicios que pueden mejorar significativamente se encuentran el suministro y consumo de energía o de agua, el transporte y la movilidad, la seguridad ciudadana y la protección civil, la creación de un entorno favorable para los negocios, el gobierno de la ciudad, la transparencia y participación ciudadanas, el soporte al turismo y al comercio, la gestión de residuos, la gestión del mobiliario urbano, la eficiencia energética de los edificios o la gestión de los aparcamientos.

Página –69–

Page 70: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

APLICACIONES DE IOT

Otros campos de aplicación: La sanidad, para monitorizar a los pacientes y conectarlos a los médicos y demás profesionales sanitarios; los sectores de la energía y del transporte, para conectar a proveedores y clientes; el sector del retail, para predecir cuándo comprarán los consumidores; las telecomunicaciones y los servicios de información; los servicios financieros; o las fábricas inteligentes. En estos y otros campos es posible encontrar también casos muy concretos de aplicación, como el marketing y la publicidad, la educación, los vehículos o los juegos y el entretenimiento conectados o las redes eléctricas inteligentes, en los que las nuevas posibilidades alcanzan rendimientos máximos.

Página –70–

Page 71: Big data medellin_seminario_internacional

7171

Prof. Luis Joyanes Aguilar

Smart Cities

CIUDADES INTELIGENTES

Page 72: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CIUDADES INTELIGENTES (Smart Cities)

Las smart cities (o ciudades inteligentes) pueden ser un buen ejemplo de lo que es capaz de dar de sí el Internet de las Cosas.

En ellas, la combinación de dispositivos, sensores,

redes de comunicaciones, capacidad de

almacenamiento y de procesamiento y plataformas de gestión hacen posible unas ciudades en la que se prestan servicios de una forma más eficiente y sostenible, mejorando la vida de los ciudadanos, las posibilidades de los negocios y el atractivo de la propia ciudad para conseguir turismo, talento e inversiones

Página –72–

Page 73: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Smart City según Gartner La consultora Gartner en su Hype Cycle for Smart City

Technologies and Solutions define la Smart City como “una zona urbanizada donde múltiples sectores públicos y privados cooperan para lograr resultados sostenibles a través del análisis de la información contextual intercambiada entre ellos. La interacción de la información procedente de sectores específicos y la que fluye entre diferentes sectores da como resultado ciudades más eficientes desde el punto de vista de los recursos, lo cual permite la provisión de servicios más sostenibles y más transferencia de conocimientos entre los sectores”.

Página –73–

Page 74: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

PRESENTE Y FUTURO DE LA CIUDAD

En el futuro, todo lo que hay en una ciudad, desde la red eléctrica pasando por las tuberías de alcantarillado y hasta las calles, edificios y automóviles estarán conectados a una red.

Habrá edificios que le apagarán la luz, carros que se manejen solos encontrarán ese tan anhelado espacio de parqueo. Hasta los basureros serán inteligentes.

Pero, ¿cómo nos preparamos para este futuro inteligente? ¿Quién hará un monitoreo y controlará los sensores que paulatinamente estarán más presentes en cada edificio, poste de luz y tubería? ¿Es ese el futuro que queremos?

Página –74–

Page 75: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

PRESENTE Y FUTURO DE LA CIUDAD

Los embotellamientos (trancones) son probablemente uno de los principales problemas de las grandes ciudades.

Gracias a la información disponible se puede predecir dónde pasarán los embotellamientos.

La compañía israelí Waze le pide a los

ciudadanos ayuda para resolver el problema y, con base en los datos de viajes reales enviados masivamente por sus fuentes, crea un mapa de las condiciones en tiempo real.

Página –75–

Page 76: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

PRESENTE Y FUTURO DE LA CIUDAD

IBM tiene alrededor de 2.500 proyectos alrededor del mundo e, incluso, ha registrado la marca "ciudades más inteligentes" (SmarterCities).

Muchas corporaciones como IBM, Siemens, Microsoft, Intel y Cisco actualmente tienen una enorme actividad comercializando software

para resolver gran cantidad de problemas de las ciudades, desde escapes de agua hasta

contaminación del aire y congestión vial.

Página –76–

Page 77: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

VÍA INTELIGENTE. El Mundo, 5-11-14

Vías que recopilan información

El proyecto (de Medellín se ha convertido en un instrumento para recopilar información mediante unas membranas ubicadas en el asfalto (estará hasta finales de diciembre como proyecto piloto, se espera que después de forma permanente se implemente en otras calles de calle la ciudad

Página –77–

Page 78: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CIUDADANÍA DIGITAL versus PRIVACIDAD

¿Es una ciudad con sensores una ciudad con censura?

La primera fase de las ciudades inteligentes puede ser emocionante. La ciudad se convierte en un laboratorio viviente de tecnologías inteligentes que pueden gestionar todos los sistemas: desde el agua, al transporte, la seguridad, la basura, la energía limpia, etc.Pero, ¿en qué punto esta ciudad repleta de sensores puede convertirse en una ciudad que censura? En muchos sentidos, cuando ponemos en común todos los sistemas digitales que están en funcionamiento en una ciudad, tenemos una especie de "llave en mano" hacia una ciudad con censura.

Página –78–

Page 79: Big data medellin_seminario_internacional

7979

Prof. Luis Joyanes Aguilar

Tecnologías BIG DATA

Bases de datos NoSQL, “in-memory·, HADOOP

Page 80: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Bases de datos

In-Memory (en-memoria) SAP Hana

Oracle Times Ten In-Memory Database

IBM solidDB

Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…

Transferencia de datos entre Hadoop y bases de datos relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…)

Página –80–

Page 81: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BASES DE DATOS RELACIONALES (REPASO)

La mayoría de las bases de datos cumplen con las

propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un

comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización.

Página –81–

Page 82: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BASES DE DATOS ANALÍTICAS

Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.

Bases de datos de procesamiento paralelo masivo (MPP)

Bases de datos “en memoria”

Almacenamiento en columnas Históricamente estas bases de datos tan especializadas

tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de

cada organización.

Página –82–

Page 83: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Bases de datos analíticas Bases de datos diseñadas específicamente para ser

utilizadas como motores de Data Warehouse.

Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:

Almacenamiento en columnas en lugar de filas (registros)

Massively parallel processing (MPP)

In-Memory Analytics

Página –83–

Page 84: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Almacenamiento en columnas, no filas:FUENTE: datalytics.com

Página –84–

Page 85: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Computación en memoria “In-Memory”

La computación en memoria es una

tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.

Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado).

Existen un amplio conjunto de tecnologías que emplean

bases de datos en memoria. SAP HANA es una de las

más acreditadas y populares… (Oracle, IBM,…)

Página –85–

Page 86: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Página –86–

Page 87: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BASES DE DATOS NoSQL

Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas

Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.

Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”).

Página –87–

Page 88: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Taxonomía de Bases de datos NoSQL

Los principales tipos de BBDD de acuerdo con su implementación son los siguientes:

– Almacenes de Clave-Valor

– Almacenes de Familia de Columnas (columnares)

– Almacenes de documentos (orientadas a documentos)

– Almacenes de Grafos (orientadas a grafos)

- Cachés de memoria

Página –88–

Page 89: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

SOLUCIONES DE BASES DE DATOS NoSQL

Página –89–

Page 90: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

¿Quién usa Apache Cassandra?

Algunos usuarios importantes de Cassandra son:

Digg

Facebook

Twitter

Rackspace

SimpleGEO

Página –90–

Page 91: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Logo de HADOOP

Página –91–

Page 92: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Logo de HADOOP

Página –92–

Page 93: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIG DATA (JOYANES)

Página –93–

Page 94: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Hadoop

“The Apache Hadoop software library is a framework that allows for the distributedprocessing of large data sets acrossclusters of computers using a simple Programming model”

De la página de Hadoop

Página –94–

Page 95: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Fundación Apache: proyectos open source

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good

Página –95–

Page 96: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido en

el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:

Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.

Facebook: Tiene ha día de hoy el mayor clúster Hadoopdel mundo que almacena hasta 30 peta bytes de información

Amazon A9: Se utiliza para la generar índices de búsqueda de los

productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos

cada uno.Página –96–

Page 97: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Hadoop en la actualidad

The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.

Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres

Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source.

Página –97–

Page 98: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Business Analytics (Analytics)

Se necesita entender no solo QUÉ está pasando, sino CUÁNDO, DÓNDE, QUIÉN Y PORQUÉ.

Solución a los requerimientos de información con OPORTUNIDAD

Escalar, contribuir y compartir a todos los tipos de usuarios en la organización

Se necesita información y conocimiento a partir de los datos de la empresa.

Página –98–

Page 99: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Distribuciones de Hadoop

Página –99–

Page 100: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Proveedores de Big Data

Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular

Otros ejemplos: MapR, Greenplum, Hortonworks, …

Hay docenas

Página –100–

Page 101: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Integración con Big Data. FUENTE: datalytics.com

Página –101–

Page 102: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Integración con Big Data. FUENTE: datalytics.com

Página –102–

Page 103: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

ANALÍTICA DE NEGOCIOS (Analytics)

Analítica descriptiva (Descriptive analytics): Logra un profundo conocimiento a partir de datos históricos con informes, cuadros de mando, agrupación, etc.

Analítica predictiva (Predictive analytics): Diseño y uso de modelos predictivos a partir de técnicas de aprendizaje automática/minería de datos.

Analítica prescriptiva/perceptiva (Prescriptiveanalytics): Sugiere opciones de decisión acerca de la manera de aprovechar una oportunidad de futuro o mitigar un riesgo futuro y muestra las consecuencias de cada decisión.

Analítica de diagnóstico (de descubrimiento). ¿Porqué ha sucedido?

Página –103–

Page 104: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

ANALÍTICA DE DATOS (Analytics)

El análisis descriptivo responde a las preguntas ¿qué pasó y por qué sucedió?

El análisis predictivo responde a la pregunta ¿qué va a pasar?.

Análisis perceptivo responde a la pregunta ¿por qué va a pasar? Sugiere opciones de decisión acerca de la manera de aprovechar una oportunidad de futuro o mitigar un riesgo futuro y muestra las consecuencias de cada decisión

Página –104–

Page 105: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Analítica predictiva

El término analítica predictiva describe el método de analítica de negocios de predicción o previsión de problemas y oportunidades en lugar de simplemente de emitir informes (reportes) a medida que se producen.

La analítica predictiva utiliza predicciones avanzadas y modelos de simulación.

Forecasting (predicción) es la predicción del futro. Esta forma de analítica predictiva es esencial para la construcción y manipulación de modelos, ya que cuando una decisión se implementa los resultados normalmente ocurren en el futuro

Página –105–

Page 106: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Analítica predictiva

La analítica predictiva utiliza técnicas de minería de datos, datos históricos y suposiciones sobre futuras condiciones para predecir resultados de eventos, tales como la probabilidad de que un cliente responderá a una oferta o compra de un producto específico.

Página –106–

Page 107: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIG DATA PARA MEJORAR LA SEGURIDAD

Página –107–

Page 108: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIG DATA Y SEGURIDAD

Todas las aerolíneas comerciales y los aviones privados están obligados a instalar y utilizar “cajas negras” para registrar diversos parámetros de vuelo. El registrador de datos de vuelo está concebido para grabar los datos operativos de los sistemas del avión, incluida la altitud, la velocidad, la aceleración vertical, el rumbo y la posición de los sistemas de control. El registrador de voz de la cabina de pilotaje graba la voz de la tripulación y los sonidos dentro de la cabina de pilotaje. Estos equipos de control dan a los investigadores datos esenciales sobre las causas de un accidente. “ITU invitará

a los fabricantes de aviónica y aviones, así como a los operadores de satélites y las aerolíneas, a trabajar sobre nuevas normas para el rastreo de aeronaves en tiempo real

Página –108–

Page 109: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIG DATA Y SEGURIDAD

Big Data y la nube podrían reemplazar a las ‘cajas negras’ de los aviones

A raíz de la trágica desaparición del vuelo MH370 de Malaysian Airlines el 8 de marzo, Malasia ha pedido a ITU que elabore normas para facilitar la transmisión de datos de vuelo en tiempo real. La solución podría basarse en Big Data y la nube.

Los datos de las aeronaves, incluidos los de las cajas negras, podrían transmitirse en flujo continuo y almacenarse en centros de datos en tierra. Las tecnologías de Big podrían extraer y analizar esos datos sin necesidad de encontrar las cajas negras.

Página –109–

Page 110: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CIENCIA DE DATOS (DATA SCIENCE)

Página –110–

Page 111: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CIENCIA DE DATOS

Ciencia de datos es la extracción de información

útil de grandes volúmenes de datos. La ciencia de datos necesita acceder a los datos, a la ingeniería de datos y a las tecnologías de procesamiento de datos.

La Ciencia de Datos es una especialización creciente que toca muchos de los siguientes áreas:

Computación en nube, big data, matemáticas, estadística, métodos de optimización, teoría de negocios y teoría de ciencias de la computación.

Página –111–

Page 112: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CIENCIA DE DATOS

Data Science es una disciplina que incorpora elementos diferentes y se basa en las técnicas y teorías de muchos campos, incluyendo Matemáticas, Estadística, Ingeniería de Datos, Reconocimiento de Formas y Aprendizaje, Visualización Avanzada de Computación, Modelando e incertidumbre, almacenamiento de datos y computación de alto rendimiento, con el objetivo de extraer el significado de los datos y la creación de productos de datos -

Página –112–

Page 113: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

CIENCIA DE DATOS

La analítica de negocios implica la aplicación de diferentes tecnologías al análisis de datos:

Estadistica

Consultas de bases de datos (lenguaje SQL) y herramientas de interfaz gráficas de usuario (GUI) para ayudar a formular consultas (QBE, query byexample)

Data warehousing

Análisis de regresión

Aprendizaje máquina (machine learning)

Minería de datos

Página –113–

Page 114: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Ciencia de datos: multidisciplinar

Página –114–

Page 115: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

DISCIPLINAS CLAVE DE DATA SCIENCE

Página –115–

Page 116: Big data medellin_seminario_internacional

116116

OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS

Prof. Luis Joyanes Aguilar

Page 117: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADALas entidades no sólo buscan la

tecnología idónea y precisa, sino también los perfiles profesionales que interpreten el valor analítico de los datos y los adapten a las estrategias de negocio.

Las organizaciones necesitan afrontar ajustes en sus roles, incluso aunque ya cuenten con usuarios experimentados en analítica.

Página –117–

Page 118: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA

Nuevos roles profesionales que interpretan el valor analítico de los datos y los adaptan a las estrategias de negocio:

CDO (Chief Data Officer)

CAO (Chief Data Officer)Adaptación a los nuevas tecnologías de los roles clásicos:

CIO (Cief Information Officer) y CTO (Chief Technology Officer)

Página –118–

Page 119: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NUEVAS PROFESIONES EN LA ECONOMÍA Y EMPRESA DIGITAL

Algunas de las profesiones o roles más demandados son:

Profesionales de big data : analistas,

ingenieros de datos, consultores…

Profesionales de ciencia de datos

Profesionales de CIBERSEGURIDAD

Profesionales de INTERNET DE LAS COSAS y de CIUDADES INTELIGENTES Y DIGITALES.

Página –119–

Page 120: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…

Community Manager, Social Media Manager y Analista Web y SEO

Ingeniero de Cloud Computing (En España hay

una universidad privada que inició el curso pasado un grado)

Ingeniero de negocios digitales (Digital Business Intelligence)

Ingeniero de datos (Infraestructuras, Bases de datos

NoSQL, Hadoop, Tecnologías “in-memory”…)

Analítica de datos (Analytics) y Analítica de Big Data

Página –120–

Page 121: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA

El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se

deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…

UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)

Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS”

Página –121–

Page 122: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

NUEVAS CARRERAS Y PROFESIONES

EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…)

Página –122–

Page 123: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Escuela de negocios española

especialidada en tecnologías avanzadas

Página –123–

Page 124: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

COMPUTACIÓN EN LA NUBE (JOYANES)

Página –124–

Page 125: Big data medellin_seminario_internacional

125125

ESTADO DEL ARTE DECLOUD COMPUTING

Prof. Luis Joyanes Aguilar

COMPUTACIÓN EN LA NUBELa nueva era de la computación

Page 126: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIG DATA (JOYANES)

Página –126–

Page 127: Big data medellin_seminario_internacional

127

Page 128: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Página –128–

MUCHAS GRACIAS … ¿Preguntas?

Portal tecnológico y de conocimientowww.mhe.es/joyanes

Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com

Twitter:@luisjoyaneswww.slideshare.net/joyanes

www.facebook.com/joyanesluis

CORREO-e: [email protected]

Page 129: Big data medellin_seminario_internacional

129

Prof. Luis Joyanes Aguilar

BIBLIOGRAFÍA

Page 130: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIBLIOGRAFÍA BÁSICAJOYANES, Luis (2012). Computación en

la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo

JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona:

Marcombo Colección de libros NTiCS (Negocios, Tecnología, Innovación,

Conocimiento y Sociedad) dirigida por el profesor Luis

Joyanes y publicada en la editorial Alfaomega de México DF.

Página –130–

Page 131: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIBLIOGRAFÍA

Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innovation-edge/21-big-data

SOARES, Sunil (2013). Big Data Governance. Anemerging Imperative. Boise, USA: MC Press.

DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.

Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)

Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00

Página –131–

Page 132: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

BIBLIOGRAFÍA

ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and StreamingData. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/

ZIKOPOULOS, Paul C. et al (2013). Harness the Powerof Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Página –132–

Page 133: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Página –133–

Page 134: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

REFERENCIAS

McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February2, 2012.

www-01.ibm.com/software/data/bigdata/

Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina

Página –134–

Page 135: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

REFERENCIAS

Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Página –135–

Page 136: Big data medellin_seminario_internacional

© Luis Joyanes Aguilar

Medellín, Colombia6 de noviembre, 2014

Página –136–

MUCHAS GRACIAS … ¿Preguntas?

Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com

Twitter:@luisjoyanes

www.facebook.com/joyanesluis

www.slideshare.net/joyanes

PORTAL NTICS : luisjoyanes.wordpress.com

CORREO-e: [email protected]