Exposicion big data

B I G D A T AB I G D A T A

(del inglés… grandes datos ) “conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales”.

En estos momentos hablamos de (aproximadamente):

1 terabyte (TB) = 1.000 gigabytes(GB)1 petabyte (PB) = 1.000.000gigabytes (GB)1 exabyte (EB) = 1.000.000.000 gigabytes (GB)1 zettabyte (ZB) = 1.000.000.000.000 Gigabytes(GB)

Una supercomputadora se habla de FLOPS(“ floating point operations per second”), es decir, la cantidad de operaciones que procesa por segundo…. teras y petas.

El IBM Institute for Business Value y la Saïd Business School de University of Oxford, introducen el concepto de las “4 V del BD” :

Volumen: las empresas están cubiertas de una

cantidad cada vez mayor de datos de todo tipo,

acumulando fácilmente terabytes, incluso

petabytes, de información.

Volumen: las empresas están cubiertas de una

cantidad cada vez mayor de datos de todo tipo,

acumulando fácilmente terabytes, incluso

petabytes, de información.

Velocidad: En ocasiones 2 minutos es

demasiado. Para procesos que dependen

especialmente del tiempo, como son

identificar fraudes, Big data actúa en el sentido

de potencializar la eficacia de los sistemas

que son sensibles en tiempo.

Velocidad: En ocasiones 2 minutos es

demasiado. Para procesos que dependen

especialmente del tiempo, como son

identificar fraudes, Big data actúa en el sentido

de potencializar la eficacia de los sistemas

que son sensibles en tiempo.

Variedad: Big data, es todo tipo de información,

estructurada y no estructurada, como texto,

lecturas de sensores, videos, clicks, archivos,

logs y mucho mas. Y además, nuevos

conceptos aparecen cunado se ponen diferentes tipos de

archivos juntos.

Variedad: Big data, es todo tipo de información,

estructurada y no estructurada, como texto,

lecturas de sensores, videos, clicks, archivos,

logs y mucho mas. Y además, nuevos

conceptos aparecen cunado se ponen diferentes tipos de

archivos juntos.

Veracidad: 1 de cada 3 lideres de negocios no

confían en la información que utilizan para tomar

decisiones. Como puede actuar en base a una

información en la que no confías?. Establecer

confianza en Big data representa un gran

desafío conforme a la variedad y el numero de

fuentes crece.

Veracidad: 1 de cada 3 lideres de negocios no

confían en la información que utilizan para tomar

decisiones. Como puede actuar en base a una

información en la que no confías?. Establecer

confianza en Big data representa un gran

desafío conforme a la variedad y el numero de

fuentes crece.

¿Quién genera esos grandes volúmenes de datos?

Los medios y las redes sociales

(todos nosotros estamos

generando datos)

Los instrumentos científicos

(recogida de todo tipo de datos)

Los dispositivos móviles

(seguimiento de todos los datos todo el tiempo)

Sensor de tecnología y redes

(medición de todo tipo de datos)

Hay que prepararse:

Por qué un evento de Big Data AHORALa explosión de datos no estructurados y las aplicaciones móviles generarán una gran oportunidad para la creación de valor en los negocios, ya que si estos datos se pueden gestionar y acceder de manera eficiente se convertirán en una ventaja competitiva y un apoyo al momento de tomar decisiones. El enorme crecimiento de datos hará que sea imposible replicar o realizar una copia de seguridad por medios tradicionales.

Cinco puntos que debería saber ¿Está ajustando su plan para “Big data”?

1. Haga un balance de sus datos: 1. Haga un balance de sus datos: hacer un inventario de los datos creados internamente

2. Deje que prevalezcan las necesidades del 2. Deje que prevalezcan las necesidades del negocio:negocio: es responsabilidad del área de TI de tomar control sobre cómo los conceptos de “Data Sharing” y “Data Federation” (muchas fuentes sin crear redundancia)

3. Reevalue la infraestructura3. Reevalue la infraestructura: : reunir estos sistemas dispersos y asilados y construir un sistema de sistemas.

4. Estructure sus datos: 4. Estructure sus datos: bases de datos en columnas y equipos para “data warehouses” (almacenes de datos)

5. Prepare a su equipo: 5. Prepare a su equipo: expertos en Hadoop o científicos de datos

HadoopHadoop es probablemente la tecnología para big data más conocida; es un marco de software de código abierto gratuito y ampliamente disponible que nació en el seno de Google y que es utilizado profusamente por Yahoo; desde entonces se ha convertido en el estándar de facto para el almacenamiento, procesamiento y análisis de cientos de terabytes e incluso peta bytes de datos.

El procesamiento masivo en paralelo (MPP) es lo que

ha hecho a Hadoop tan popular; se pueden utilizar

muchos procesadores informáticos funcionando en

paralelo para analizar datos; las empresas pequeñas

pueden utilizar sus redes de ordenadores de oficina

para analizar datos complejos a un coste

relativamente reducido.

Empresas dedicadas al servicio:

es una compañía colombiana de base tecnológica

dedicada a proveer productos y servicios de

Investigación, Desarrollo e Innovación en tecnologías

de la información, que permitan optimizar los

procesos organizacionales de nuestros clientes.

Herramientas:Herramientas:

SAS dio a conocer SAS Visual Analytics, que permite analizar una cantidad masiva de datos, explorar los datos a la velocidad de la vista y compartir nuevos insights (ideas) con cualquiera, en cualquier lugar, por medio de la web o un iPad.

Entre más datos sean utilizados para el análisis, más precisos serán los resultados.

Apache Pig plataforma para el análisis de grandes conjuntos de datos lenguaje de alto nivel para expresar programas de análisis de evaluación.

Tiene un compilador que produce secuencias MapReduce, que los usuarios de Hadoop analizan los datos y menos tiempo en desarrollar aplicaciones; el lenguaje es Pig Latin, crea estructuras tipo SQL (SQL-like), de manera que crea un script el cual es paralelizado y distribuido a través de un clúster.

Yahoo!, fue el creador de Pig, lo usa tanto para los procesos de búsqueda web como al incorporarlo en Hadoop; también están:

LinkedIn: utiliza Hadoop y Pig para ofrecer recomendaciones de conocidos, páginas y empleos de interés.

Twitter: utiliza Pig para procesar estos logs de datos

AOL y WhitePages: Pig para filtrar registros en sus procesos de búsqueda de información.

IBM InfoSphere BigInsights™: análisis de grandes volúmenes de información mediante Hadoop. Facilita la instalación, integración y seguimiento de esta tecnología de código abierto.

Bidoop, basándose en Hadoop, aporta un valor añadido en cuanto a las herramientas que utiliza, Ofrece los siguientes productos:

Software AG se ha basado en tecnología de

Terracotta para lanzar su plataforma in-memory

para la gestión del Big Data, denominada In-Genius,

capaz de trabajar en entornos Oracle, SAP Hana y

Hadoop; el sistema puede trasladar toda la

información desde las tradicionales y lentas

unidades de disco a memoria RAM de forma

extremadamente rápida, permitiendo realizar

análisis de cientos de terabytes de datos en arrays

de memoria.. Todo ello en tiempo real.

Herramientas más punteras y que están jugando un mayor papel en lo referente a Big Data.

Es una interfaz web que permite

implementar y administrar clústers de

Apache Hadoop. Su desarrollo está

siendo dirigido por ingenieros de

Hortonworoks, que incluyen en su

plataforma de datos “Ambari

Hortonworks”.

Es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Es compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).

es una BD distribuida desarrollada por Facebook.

Para manejar grandes cantidades de datos

distribuidos a través de servidores commodity,

tiene como características un arquitectura de tipo

"key/value", el no tener ningún punto único de

fallo (SPOF), un método de replicación de

información basado en "gossip protocol" y la

problemática "eventual consistency".

Chukwa es un subproyecto dedicado a la

carga masiva de varios ficheros texto

dentro de un Clúster Hadoop (ETL). Se

construye bajo el sistema de archivos

distribuido (HDFS) y el marco MapReduce

y hereda la escalabilidad y robustez de

Hadoop. Incluye un conjunto de

herramientas flexible y potente para la

visualización y análisis de los resultados.

Flume es un marco para aportar datos

a Hadoop. Los agentes están poblados

de toda las infraestructura de TI - dentro

de los servidores web, servidores de

aplicaciones y dispositivos móviles, para

recoger esos datos e integrarlos en

Hadoop.

Hama es una plataforma de

computación distribuida basada en

técnicas computación paralela masiva

para, por ejemplo cálculos científicos,

matriz, gráfico y algoritmos de redes.

es una BD NoSQL; se trata de la versión java opensource de Hadoop de la famosa BBDD NoSQL de Google: BigTable.

Principales características :

Datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas, recuperación automática en caso de fallos. Ha sido elegido por Facebook, entre otras cosas, para almacenar todos los correos de los usuarios de la misma plataforma.

(Hadoop Distributed File System), la

capa de almacenamiento de Hadoop, es

un sistema de fichero distribuido escrito

en java, escalable, tolerante a fallos.

HDFS es totalmente compatible con

MapReduce y ofrecer la optimización de

"localidad de los datos", lo cual lo

convierte en la solución "natural" de

Hadoop.

Impala es el nuevo motor de query

desarrollado por Cloudera. Inspirado en

software Dremel de Google, permite

realizar consultas SQL muy parecidas a

la sintaxis HQL de Hive, pero sin pasar

por ningún proceso MapReduce. Esto le

permite ser hasta 50 veces más rápido

que Hive y lo transforma en la

herramienta ideal para acceder a los

datos en tiempo real.

(desarrollado por LinkedIn) Es un sistema

distribuido de publicación-suscripción de

mensajería que ofrece una solución

capaz de manejar toda la actividad del

flujo de datos y procesar estos datos en

un sitio web de gran consumo. Este tipo

de datos (páginas vistas, búsquedas y

otras acciones del usuario) son un

ingrediente clave en la web social actual.

MapReduce es un marco de software que

sirve como capa informática de Hadoop.

Los trabajos se dividen en dos: La función

"Map" divide una consulta en múltiples

partes y procesa los datos a nivel de nodo.

“Reduce", como su nombre indica, reduce

los agregados función de los resultados de

la función "Map" para determinar la

"respuesta" a la consulta.

Hadoop User Experience es proyecto de

código abierto que crea un interfaz web,

el cual facilita el uso de Apache Hadoop.

Cuenta con un explorador de archivos

para HDFS; una aplicación para la

creación de flujos de trabajo en Oozie; un

diseñador de trabajo para MapReduce;

una interfaz de usuario Impala; una

colección de Hadoop API; y mucho más.

R es un lenguaje y un entorno para

computación y gráficos estadísticos. Es

un proyecto GNU, que es similar al

lenguaje S. R ofrece una gran variedad

de estadísticas (modelos lineales y no

lineales, tests estadísticos clásicos,

análisis de series de tiempo,

clasificación, clustering, ...) y las técnicas

gráficas. Además es altamente

extensible.

es un sistema de computación

distribuida en tiempo real, libre y de

código abierto, nacido en el seno de

Twitter. Hace fácil procesar de

manera fiable flujos no estructurados

de datos, haciendo en el ámbito del

procesamiento en tiempo real, lo que

hizo Hadoop para el procesamiento

por lotes.

Ejemplos de empresas que utilizan big data

Big Data, la gran oportunidad para la banca: nadie parece realmente seguro de lo que es. ¿Cómo utilizar el Big Data?, ¿Big Data transformará el futuro del marketing financiero?

utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros de "Fraud Management“ desarrolló un proceso de detección de fraude basados en datasets masivos que son analizados.

Axa adopta Teradata Data Warehouse Appliance para iniciativas de Business Intelligence: AXA Bélgica, para ayudar a los empleados en las líneas del frente de la institución para tomar la mejor decisión posible

“banco de inversiones y agente de bolsa”; Permite manejar petabytes de datos que no son escuchados en el mundo de las bases de datos tradicionales” dice el director ejecutivo de la empresa

hace que la sincronización de datos sea una tarea enorme

Monitorización en tiempo real de los clientes para analizar sus patrones de compra: Con RetailNext, fue capaz de interpretar secuencias de vídeo digital y reconocer los seres humanos moviéndose a través de las tiendas, para medir el comportamiento del comprador en el interior de su entorno

El sector de la salud se "apunta" a la tecnología Big Data: Debido a la prisa en las salas de emergencia y la saturación de las plantas de hospitalización, muchos pacientes sólo reciben una rápida revisión de su salud

Analizando los datos de pacientes para un mejor control médico: proyecta un servicio a empleados y consumidores con una operación de investigación con muchos datos, donde sus consumidores se vuelven pacientes responsables (e-pacientes) que pueden tomar mejores decisiones

San Diego Gas & Electric, intentando conectar clientes a smart grid: La iniciativa incluye un despliegue de 1,4 millones en medidores de electricidad inteligentes objeto de seguimiento en tiempo real

Destaca la importancia del Big Data para su éxito: El presidente de la empresa afirma que sin la tecnología Big Data encontrar y explotar nuevas fuentes de recursos naturales sería casi imposible. El trafico de IT diario de es de1,5 Terabytes

El Big Data ayuda a predecir huracanes: investigadores de la Northwestern University y sus colaboradores han desarrollado un nuevo método basado en la análisis de datos masivos para pronosticarlos.

Big Data - DiseñosBig Data - Diseños

Aplicaciones verticales

Medios de Comunicación

Medios de Comunicación Negocios

InteligentesNegocios

InteligentesAnalítica y

VisualizaciónAnalítica y

Visualización

Servicios de DatosServicios de Datos

Aplicación para registro de datosAplicación para

registro de datos

Infraestructura AnaliticaInfraestructura Analitica Infraestructura Operacional

Infraestructura Operacional

Infraestructura como un servicio

Estructura de Base de Datos

TecnologiaTecnologia

MUCHAS GRACIAS

Exposicion big data

Documents

Transcript of Exposicion big data

El estudio “Big Data en salud digital” ha sido elaborado ... ejecutivo Big Data... · Informe Big Data en salud digital 4 1. PRESENTACIÓN Big data se basa en el procesamiento,

Big Data & RRHH

Big Data en Latinoamerica

Social Big Data Games

Big data medellin_seminario_internacional

Innovación en Big Data

Open Big Data Management 11112016openbigdatamanagement.com/.../open-big-data-management-1111201… · Máster en Open Big Data Management / 2 Perﬁl de los alumnos • Profesionales

사례로보는 Big Data 프로젝트의 Success Factor · Big Data 위한최적의플랫폼 Big Data 전용솔루션 BigData를구현하기위한 Converged Infra, Storage, Virtualization

Steelmood: Big Data

PostgreSQL Big Data

Big Data & AI Business - Congreso Big Data Alcoy

Casos big data

Big data, universidad y....

Plan Big Data

Big Data Medios Sociales

Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.

Repensando big data

Big Data AnalyticsforAgrifood

130614 Big Data y Social Big Marketing

Introducció a Open Data / Big Data