Post on 27-Jun-2015
B I G D A T AB I G D A T A
(del inglés… grandes datos ) “conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales”.
En estos momentos hablamos de (aproximadamente):
1 terabyte (TB) = 1.000 gigabytes(GB)1 petabyte (PB) = 1.000.000gigabytes (GB)1 exabyte (EB) = 1.000.000.000 gigabytes (GB)1 zettabyte (ZB) = 1.000.000.000.000 Gigabytes(GB)
Una supercomputadora se habla de FLOPS(“ floating point operations per second”), es decir, la cantidad de operaciones que procesa por segundo…. teras y petas.
El IBM Institute for Business Value y la Saïd Business School de University of Oxford, introducen el concepto de las “4 V del BD” :
Volumen: las empresas están cubiertas de una
cantidad cada vez mayor de datos de todo tipo,
acumulando fácilmente terabytes, incluso
petabytes, de información.
Volumen: las empresas están cubiertas de una
cantidad cada vez mayor de datos de todo tipo,
acumulando fácilmente terabytes, incluso
petabytes, de información.
Velocidad: En ocasiones 2 minutos es
demasiado. Para procesos que dependen
especialmente del tiempo, como son
identificar fraudes, Big data actúa en el sentido
de potencializar la eficacia de los sistemas
que son sensibles en tiempo.
Velocidad: En ocasiones 2 minutos es
demasiado. Para procesos que dependen
especialmente del tiempo, como son
identificar fraudes, Big data actúa en el sentido
de potencializar la eficacia de los sistemas
que son sensibles en tiempo.
Variedad: Big data, es todo tipo de información,
estructurada y no estructurada, como texto,
lecturas de sensores, videos, clicks, archivos,
logs y mucho mas. Y además, nuevos
conceptos aparecen cunado se ponen diferentes tipos de
archivos juntos.
Variedad: Big data, es todo tipo de información,
estructurada y no estructurada, como texto,
lecturas de sensores, videos, clicks, archivos,
logs y mucho mas. Y además, nuevos
conceptos aparecen cunado se ponen diferentes tipos de
archivos juntos.
Veracidad: 1 de cada 3 lideres de negocios no
confían en la información que utilizan para tomar
decisiones. Como puede actuar en base a una
información en la que no confías?. Establecer
confianza en Big data representa un gran
desafío conforme a la variedad y el numero de
fuentes crece.
Veracidad: 1 de cada 3 lideres de negocios no
confían en la información que utilizan para tomar
decisiones. Como puede actuar en base a una
información en la que no confías?. Establecer
confianza en Big data representa un gran
desafío conforme a la variedad y el numero de
fuentes crece.
¿Quién genera esos grandes volúmenes de datos?
Los medios y las redes sociales
(todos nosotros estamos
generando datos)
Los instrumentos científicos
(recogida de todo tipo de datos)
Los dispositivos móviles
(seguimiento de todos los datos todo el tiempo)
Sensor de tecnología y redes
(medición de todo tipo de datos)
Hay que prepararse:
Por qué un evento de Big Data AHORALa explosión de datos no estructurados y las aplicaciones móviles generarán una gran oportunidad para la creación de valor en los negocios, ya que si estos datos se pueden gestionar y acceder de manera eficiente se convertirán en una ventaja competitiva y un apoyo al momento de tomar decisiones. El enorme crecimiento de datos hará que sea imposible replicar o realizar una copia de seguridad por medios tradicionales.
Cinco puntos que debería saber ¿Está ajustando su plan para “Big data”?
1. Haga un balance de sus datos: 1. Haga un balance de sus datos: hacer un inventario de los datos creados internamente
2. Deje que prevalezcan las necesidades del 2. Deje que prevalezcan las necesidades del negocio:negocio: es responsabilidad del área de TI de tomar control sobre cómo los conceptos de “Data Sharing” y “Data Federation” (muchas fuentes sin crear redundancia)
3. Reevalue la infraestructura3. Reevalue la infraestructura: : reunir estos sistemas dispersos y asilados y construir un sistema de sistemas.
4. Estructure sus datos: 4. Estructure sus datos: bases de datos en columnas y equipos para “data warehouses” (almacenes de datos)
5. Prepare a su equipo: 5. Prepare a su equipo: expertos en Hadoop o científicos de datos
HadoopHadoop es probablemente la tecnología para big data más conocida; es un marco de software de código abierto gratuito y ampliamente disponible que nació en el seno de Google y que es utilizado profusamente por Yahoo; desde entonces se ha convertido en el estándar de facto para el almacenamiento, procesamiento y análisis de cientos de terabytes e incluso peta bytes de datos.
El procesamiento masivo en paralelo (MPP) es lo que
ha hecho a Hadoop tan popular; se pueden utilizar
muchos procesadores informáticos funcionando en
paralelo para analizar datos; las empresas pequeñas
pueden utilizar sus redes de ordenadores de oficina
para analizar datos complejos a un coste
relativamente reducido.
Empresas dedicadas al servicio:
es una compañía colombiana de base tecnológica
dedicada a proveer productos y servicios de
Investigación, Desarrollo e Innovación en tecnologías
de la información, que permitan optimizar los
procesos organizacionales de nuestros clientes.
Herramientas:Herramientas:
SAS dio a conocer SAS Visual Analytics, que permite analizar una cantidad masiva de datos, explorar los datos a la velocidad de la vista y compartir nuevos insights (ideas) con cualquiera, en cualquier lugar, por medio de la web o un iPad.
Entre más datos sean utilizados para el análisis, más precisos serán los resultados.
Apache Pig plataforma para el análisis de grandes conjuntos de datos lenguaje de alto nivel para expresar programas de análisis de evaluación.
Tiene un compilador que produce secuencias MapReduce, que los usuarios de Hadoop analizan los datos y menos tiempo en desarrollar aplicaciones; el lenguaje es Pig Latin, crea estructuras tipo SQL (SQL-like), de manera que crea un script el cual es paralelizado y distribuido a través de un clúster.
Yahoo!, fue el creador de Pig, lo usa tanto para los procesos de búsqueda web como al incorporarlo en Hadoop; también están:
LinkedIn: utiliza Hadoop y Pig para ofrecer recomendaciones de conocidos, páginas y empleos de interés.
Twitter: utiliza Pig para procesar estos logs de datos
AOL y WhitePages: Pig para filtrar registros en sus procesos de búsqueda de información.
IBM InfoSphere BigInsights™: análisis de grandes volúmenes de información mediante Hadoop. Facilita la instalación, integración y seguimiento de esta tecnología de código abierto.
Bidoop, basándose en Hadoop, aporta un valor añadido en cuanto a las herramientas que utiliza, Ofrece los siguientes productos:
Software AG se ha basado en tecnología de
Terracotta para lanzar su plataforma in-memory
para la gestión del Big Data, denominada In-Genius,
capaz de trabajar en entornos Oracle, SAP Hana y
Hadoop; el sistema puede trasladar toda la
información desde las tradicionales y lentas
unidades de disco a memoria RAM de forma
extremadamente rápida, permitiendo realizar
análisis de cientos de terabytes de datos en arrays
de memoria.. Todo ello en tiempo real.
Herramientas más punteras y que están jugando un mayor papel en lo referente a Big Data.
Es una interfaz web que permite
implementar y administrar clústers de
Apache Hadoop. Su desarrollo está
siendo dirigido por ingenieros de
Hortonworoks, que incluyen en su
plataforma de datos “Ambari
Hortonworks”.
Es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Es compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).
es una BD distribuida desarrollada por Facebook.
Para manejar grandes cantidades de datos
distribuidos a través de servidores commodity,
tiene como características un arquitectura de tipo
"key/value", el no tener ningún punto único de
fallo (SPOF), un método de replicación de
información basado en "gossip protocol" y la
problemática "eventual consistency".
Chukwa es un subproyecto dedicado a la
carga masiva de varios ficheros texto
dentro de un Clúster Hadoop (ETL). Se
construye bajo el sistema de archivos
distribuido (HDFS) y el marco MapReduce
y hereda la escalabilidad y robustez de
Hadoop. Incluye un conjunto de
herramientas flexible y potente para la
visualización y análisis de los resultados.
Flume es un marco para aportar datos
a Hadoop. Los agentes están poblados
de toda las infraestructura de TI - dentro
de los servidores web, servidores de
aplicaciones y dispositivos móviles, para
recoger esos datos e integrarlos en
Hadoop.
Hama es una plataforma de
computación distribuida basada en
técnicas computación paralela masiva
para, por ejemplo cálculos científicos,
matriz, gráfico y algoritmos de redes.
es una BD NoSQL; se trata de la versión java opensource de Hadoop de la famosa BBDD NoSQL de Google: BigTable.
Principales características :
Datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas, recuperación automática en caso de fallos. Ha sido elegido por Facebook, entre otras cosas, para almacenar todos los correos de los usuarios de la misma plataforma.
(Hadoop Distributed File System), la
capa de almacenamiento de Hadoop, es
un sistema de fichero distribuido escrito
en java, escalable, tolerante a fallos.
HDFS es totalmente compatible con
MapReduce y ofrecer la optimización de
"localidad de los datos", lo cual lo
convierte en la solución "natural" de
Hadoop.
Impala es el nuevo motor de query
desarrollado por Cloudera. Inspirado en
software Dremel de Google, permite
realizar consultas SQL muy parecidas a
la sintaxis HQL de Hive, pero sin pasar
por ningún proceso MapReduce. Esto le
permite ser hasta 50 veces más rápido
que Hive y lo transforma en la
herramienta ideal para acceder a los
datos en tiempo real.
(desarrollado por LinkedIn) Es un sistema
distribuido de publicación-suscripción de
mensajería que ofrece una solución
capaz de manejar toda la actividad del
flujo de datos y procesar estos datos en
un sitio web de gran consumo. Este tipo
de datos (páginas vistas, búsquedas y
otras acciones del usuario) son un
ingrediente clave en la web social actual.
MapReduce es un marco de software que
sirve como capa informática de Hadoop.
Los trabajos se dividen en dos: La función
"Map" divide una consulta en múltiples
partes y procesa los datos a nivel de nodo.
“Reduce", como su nombre indica, reduce
los agregados función de los resultados de
la función "Map" para determinar la
"respuesta" a la consulta.
Hadoop User Experience es proyecto de
código abierto que crea un interfaz web,
el cual facilita el uso de Apache Hadoop.
Cuenta con un explorador de archivos
para HDFS; una aplicación para la
creación de flujos de trabajo en Oozie; un
diseñador de trabajo para MapReduce;
una interfaz de usuario Impala; una
colección de Hadoop API; y mucho más.
R es un lenguaje y un entorno para
computación y gráficos estadísticos. Es
un proyecto GNU, que es similar al
lenguaje S. R ofrece una gran variedad
de estadísticas (modelos lineales y no
lineales, tests estadísticos clásicos,
análisis de series de tiempo,
clasificación, clustering, ...) y las técnicas
gráficas. Además es altamente
extensible.
es un sistema de computación
distribuida en tiempo real, libre y de
código abierto, nacido en el seno de
Twitter. Hace fácil procesar de
manera fiable flujos no estructurados
de datos, haciendo en el ámbito del
procesamiento en tiempo real, lo que
hizo Hadoop para el procesamiento
por lotes.
Ejemplos de empresas que utilizan big data
Big Data, la gran oportunidad para la banca: nadie parece realmente seguro de lo que es. ¿Cómo utilizar el Big Data?, ¿Big Data transformará el futuro del marketing financiero?
utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros de "Fraud Management“ desarrolló un proceso de detección de fraude basados en datasets masivos que son analizados.
Axa adopta Teradata Data Warehouse Appliance para iniciativas de Business Intelligence: AXA Bélgica, para ayudar a los empleados en las líneas del frente de la institución para tomar la mejor decisión posible
“banco de inversiones y agente de bolsa”; Permite manejar petabytes de datos que no son escuchados en el mundo de las bases de datos tradicionales” dice el director ejecutivo de la empresa
hace que la sincronización de datos sea una tarea enorme
Monitorización en tiempo real de los clientes para analizar sus patrones de compra: Con RetailNext, fue capaz de interpretar secuencias de vídeo digital y reconocer los seres humanos moviéndose a través de las tiendas, para medir el comportamiento del comprador en el interior de su entorno
El sector de la salud se "apunta" a la tecnología Big Data: Debido a la prisa en las salas de emergencia y la saturación de las plantas de hospitalización, muchos pacientes sólo reciben una rápida revisión de su salud
Analizando los datos de pacientes para un mejor control médico: proyecta un servicio a empleados y consumidores con una operación de investigación con muchos datos, donde sus consumidores se vuelven pacientes responsables (e-pacientes) que pueden tomar mejores decisiones
San Diego Gas & Electric, intentando conectar clientes a smart grid: La iniciativa incluye un despliegue de 1,4 millones en medidores de electricidad inteligentes objeto de seguimiento en tiempo real
Destaca la importancia del Big Data para su éxito: El presidente de la empresa afirma que sin la tecnología Big Data encontrar y explotar nuevas fuentes de recursos naturales sería casi imposible. El trafico de IT diario de es de1,5 Terabytes
El Big Data ayuda a predecir huracanes: investigadores de la Northwestern University y sus colaboradores han desarrollado un nuevo método basado en la análisis de datos masivos para pronosticarlos.
Big Data - DiseñosBig Data - Diseños
Aplicaciones verticales
Aplicaciones verticales
Medios de Comunicación
Medios de Comunicación Negocios
InteligentesNegocios
InteligentesAnalítica y
VisualizaciónAnalítica y
Visualización
Servicios de DatosServicios de Datos
Aplicación para registro de datosAplicación para
registro de datos
Infraestructura AnaliticaInfraestructura Analitica Infraestructura Operacional
Infraestructura Operacional
Infraestructura como un servicio
Infraestructura como un servicio
Estructura de Base de Datos
Estructura de Base de Datos
TecnologiaTecnologia
MUCHAS GRACIAS