Semana de la Ciencia 2014 (Martínez-Prieto)

65
Big Data & Web 3.0. Linked Data en Tiempo Real Trabajo Futuro as all´ a de la Web... ¿Por qu´ e los datos deben viajar en primera? Miguel A. Mart´ ınez Prieto [email protected] XIV Semana de la Ciencia Universidad Rey Juan Carlos M´ostoles, 13 de Noviembre de 2014 Miguel A. Mart´ ınez Prieto ¿Por qu´ e los datos deben viajar en primera? 1/65

description

Más allá de la Web: ¿Por qué los datos deben viajar en primera? Semana de la Ciencia, URJC, Noviembre 2014 Conferencia de Miguel A. Martínez-Prieto

Transcript of Semana de la Ciencia 2014 (Martínez-Prieto)

Page 1: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Mas alla de la Web...

¿Por que los datos deben viajar en primera?

Miguel A. Martınez [email protected]

XIV Semana de la Ciencia

Universidad Rey Juan Carlos

Mostoles, 13 de Noviembre de 2014

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 1/65

Page 2: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Indice

1 Big Data & Web 3.0.

2 Linked Data en Tiempo Real

3 Trabajo Futuro

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 2/65

Page 3: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

– Big Data –

¿Que es Big Data?

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 3/65

Page 4: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 4/65

Page 5: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Big Data

Big Data

Cualquier coleccion de datos que excede la capacidad de computode un sistema gestor de bases de datos tradicional.

Las colecciones consideradas Big Data acumulan un gran volumen dedatos.

Dentro de estas colecciones se generan y consultan datos a una granvelocidad (en entornos cada vez mas distribuidos).

Existe una gran variedad en la naturaleza de los datos que almacenanestas colecciones (experimentos cientıficos, datos gubernamentales, redessociales...)

La explotacion del Big Data, en diferentes entornos de aplicacion, generaun valor anadido.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 5/65

Page 6: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Volumen

El volumen se refiere a la gran cantidad de datos recopilados yalmacenados en conjuntos creados para diferentes usos y propositos.

Segun la International Data Corporation, el volumen de datos digitales en

el ano 2012 es 10 veces mayor que en 2007:

El volumen de los datos crece mas rapido que los recursos de computo(Ley de Moore).

El almacenamiento es el primer reto de escalabilidad en el ambito del

Big Data:

Compresion de datos, almacenamiento distribuido, cloud computing...La decision de como almacenar los datos repercute directamente en elrendimiento de otros procesos: procesamiento, analisis, consulta...

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 6/65

Page 7: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Velocidad

La velocidad hace referencia a la frecuencia de generacion,

almacenamiento y consulta de los datos:

Segun IBM, cada dıa se producen dos trillones y medio de bytes querepresentan nuevos datos.

Los entornos de generacion y consumo de los datos son inherentemente

distribuidos:

Tanto los datos nuevos, como los resultados a las consultas sobre los BigData, deben transmitirse por la red.Los recursos de red no crecen en proporcion a la cantidad de datos quefluyen por ella.

Cada vez existen mas aplicaciones que necesitan consultar los datos en el

mismo instante en el que se producen:

Gestionar las necesidades de operar en tiempo real aumenta notablementela complejidad de gestionar los Big Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 7/65

Page 8: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Variedad

La variedad refiere los diferentes grados de estructura (o falta de ella)

que pueden encontrarse en el Big Data:

El 80 % de los datos existentes son no estructurados frente al 20 % quepresenta una estructura definida.La cantidad de datos no estructurados crece 15 veces mas deprisa que losestructurados.

Las fuentes de datos (logs, redes sociales, sensores...) generan colecciones

acordes a una semantica particular:

La integracion de datos heterogeneos aumenta el conocimiento potencialque puede extraerse de ellos.Este conocimiento es la clave para la generacion de nuevo valor

La gestion efectiva de la variedad precisa de modelos logicos quepermitan gestionar diferentes tipos de datos en una representacion unicae independiente de la estructura de las colecciones.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 8/65

Page 9: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Valor

El valor suele considerarse la cuarta V delBig Data.

Esta dimension enfoca el beneficio quesupone para una organizacion incorporarla explotacion de Big Data.

La descripcion del valor esta ligada alambito particular en el que se utiliza elBig Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 9/65

Page 10: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Valor Comercial

El valor comercial tiene que ver con el

grado de satisfaccion de los clientes:

El producto o servicio ofrecido se hamejorado aprovechando elconocimiento extraido del Big Data

Este valor comercial se traduce, en lapractica, en beneficios economicos.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 10/65

Page 11: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Valor Comercial

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 11/65

Page 12: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Valor Social

El valor social esta relacionado con la

prestacion de servicios mas eficientes para

los ciudadanos:

Tramites burocraticos, servicioseducativos y de salud...Transparencia polıtica.

Ademas, la reutilizacion de los Big Data

publicos se considera un catalizador

potencial de los sistemas economicos:

Nuevas startups, productos y serviciosmas ajustados a las necesidades de laspersonas...

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 12/65

Page 13: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Valor Cientıfico

La operativa cientıfica con Big Data trae

consigo:

El descubrimiento de nuevos fenomenosfısicos.La prueba de hipotesis.Avances especıficos en diferentesdisciplinas...

El boson de Higgs es un ejemplo clarode valor cientıfico asociado al Big Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 13/65

Page 14: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

En resumen...

Problemas:La tecnologıa relacional no escala (volumen).Informacion altamente distribuida con grandes flujos de transmision(velocidad).La tecnologıa relacional es muy rıgida para adaptarse a la falta deestructura subyacente al Big Data (variedad).

Soluciones:Tecnologıa escalable para el almacenamiento.Infraestructura para la distribucion y comparticion.Modelos flexibles de representacion.

¿A que os “suena” esto? . . . ¿quiza a la WWW?

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 14/65

Page 15: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

– ¿La WWW es Big Data? –

La WWW es una fuente de conocimiento universal que ha transformado

desde las relaciones sociales hasta la forma de hacer negocios:

Acumula un volumen gigantesco de informacion.

Genera grandes traficos de contenido que se mueven a una alta velocidad.

Contiene una amplia variedad de informacion que cubre la practicatotalidad de areas de conocimiento.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 15/65

Page 16: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Algunos numeros de interes...

Volumen:

759 millones de websites, de los que 103 millones se crearon en 2013.14,3 trillones de paginas web.672 Exabytes (672 ∗ 109 GB) de datos accesibles... aunque el total dedatos en la WWW se estima en 1 Yottabyte (1015 GB).

Velocidad:

Se estima que el trafico de la WWW durante 2013 fue 43.639 Petabytes.Esto supone ≈ 119, 56 Petabytes/dıa ≈ 1451 GB/segundo.

Variedad:

Las primeras posiciones de los rankings las ocupan websites como Google,Facebook, Youtube, Yahoo, Wikipedia, Amazon....

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 16/65

Page 17: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estructura (grafo) de la WWW

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 17/65

Page 18: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Informacion vs. Datos

Los numeros validan las 3 Vs en la WWW... pero, ¿podemos considerarla WWW como Big Data?

Informacion vs. Datos:

Las paginas web son las unidades mınimas de contenido con identidadpropia dentro de la WWW.

Cada pagina “cocina” un pequeno conjunto de datos y obtiene unadeterminada informacion que publica bajo la identidad de una URL.

Por lo tanto, la WWW ofrece diferentes interpretaciones de los datos(entendibles por humanos), pero “esconde” el raw data.

Big Data → raw data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 18/65

Page 19: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Informacion vs. Datos

- Clint Eastwood actuo en “El bueno, el feo y el malo”.

- El tıtulo de “El bueno, el feo y el malo” en italiano es “Il buono il brutto, il cattivo”.

- Clint Eastwood gano el Oscar a mejor director por “Million Dollar Baby”.

...

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 19/65

Page 20: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

A pesar de todo...

La irrupcion de las redes sociales ha

roto parcialmente la vision de Web

documental:

Se pueden identificar variasunidades de contenido dentro deuna pagina (URL).

Estamos mas proximos al conceptode raw data.

Cada tweet es una unidad decontenido... y podemos acceder a suraw data mediante la API de Twitter.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 20/65

Page 21: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

– Fundamentos de la Web 3.0. –

El objetivo de la Web 3.0. es el de construir una Web de Datos:

Rompe con la vision documental de la WWW y da identidad propia al rawdata.

Obtiene una estructura de grafo comparable a la de la WWW:

Los nodos representan a cada uno de los datos publicados.Las aristas describen la semantica que caracteriza la relacion entre losdatos.

La Web 3.0. se despliega sobre la infraestructura de la WWW:

El acceso a los datos se realiza mediante HTTP, facilitando lareutilizacion de la experiencia adquirida en la WWW.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 21/65

Page 22: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Principios Basicos

Tim Berners-LeeCreador de la WWW y uno de los

precursores principales de la Web 3.0.

Utilizar URIs para identificar y nombrar los datos.

Por ejemplo, para identificar a Clint Eastwood podrıamos utilizar la URI:

http://dataweb.infor.uva.es/persona/Clint Eastwood

Hacer las URIs “dereferenceables” vıa HTTP.

Al colocar la URI anterior en un “browser semantico”, se deberıan

recuperar (mediante HTTP) todos los datos enlazados con ella.

Utilizacion de estandares.

La descripcion de los datos, los mecanismos de consulta, etc. deben

implementarse utilizando estandares (RDF, SPARQL ...).

Establecer relaciones entre los datos para facilitar su“navegacion”.

Dado que Clint Eastwood fue el director de Mystic River, su URI podrıa

enlazarse con http://dataweb.infor.uva.es/pelicula/Mystic River.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 22/65

Page 23: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: RDF

RDF (W3C Recommendation) es un modelo logico que facilita la

descripcion de recursos en forma de triples:

El sujeto denota el recurso que esta siendo descrito.El predicado representa la propiedad que se esta describiendo.El objeto describe el valor que tiene el recurso para la propiedad descrita.

- El siguiente triple RDF describe que “Clint Eastwood es el directorde Mystic River”: http : //dataweb.infor.uva.es/persona/Clint Eastwood

http : //dataweb.infor.uva.es/propiedad/directorhttp : //dataweb.infor.uva.es/pelicula/Mystic River

RDF permite describir cualquier tipo de datos con independencia de cual

sea su semantica:

Esta propiedad lo convierte en una buena opcion para afrontar la variedaddel Big Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 23/65

Page 24: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: RDF

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 24/65

Page 25: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: SPARQL

SPARQL (W3C Recommendation) es un lenguaje de consulta basado en

patrones de triples:

Estos patrones tienen la misma forma que un triple RDF, pero permiteque cualquiera de sus tres componentes sea una variable.Las variables recuperan los resultados que satisfacen la consulta.

La conjuncion (join) de los patrones es la forma de consulta habitual en

SPARQL:

SPARQL tambien provee otros operadores: UNION, OPTIONAL (left outerjoin) y FILTER (para el establecimiento de condiciones).

SPARQL puede utilizarse para consultar cualquier coleccion RDF:

Su semantica garantiza la expresion de cualquier tipo de consulta,facilitando su uso en entornos Big Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 25/65

Page 26: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: SPARQL

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 26/65

Page 27: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: SPARQL

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 27/65

Page 28: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: SPARQL

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 28/65

Page 29: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Estandares y tecnologıas: Triple Stores

Los triple stores son la tecnologıa central de la Web 3.0:

Desempenan el rol de bases de datos semanticas.Virtuoso, Jena, OWLIM...

Ofrecen diferentes variantes para el almacenamiento de RDF:

El almacenamiento basado en tecnologıa relacional resulta demasiadoestricto para el relaxed schema de RDF.

El almacenamiento basado en tecnologıa no relacional (principalmentesoluciones orientadas a grafos) facilita la representacion de los datos yoptimiza los requisitos de espacio.

Soportan consulta SPARQL:

Para obtener un buen rendimiento en la consulta se suelen utilizarmulti-ındices (por sujeto, predicado y objeto).Se requieren configuraciones computacionales muy potentes para grandescolecciones de RDF.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 29/65

Page 30: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

– Linked Open Data –

Linked Open Data (LOD) es el proyecto mas activo en el ambito de la

Web 3.0:

Promueve la publicacion de Open Data bajo los principios que definen laWeb 3.0.

La “nube” de LOD ha crecido progresivamente desde sus inicios en 2007:

Segun el observatorio LODStats, existen 2122 colecciones RDFdisponibles actualmente.El tamano de la nube se estima en unos 62 billones de triples1.

DBpedia (la adaptacion de Wikipedia a la Web 3.0.) se considera el

nucleo de LOD:

Comprende triples que describen datos de multitud de areas, lo quefacilita su enlazado con otras colecciones.Destaca la existencia de numerosas colecciones en el ambito de lasciencias medicas, entidades de gobierno, multimedia o geografıa.

1Sin contar los 1185 endpoints en los que ha sucedido algun problema durante el estudio.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 30/65

Page 31: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Linked Open Data

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 31/65

Page 32: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Clint Eastwood en LOD

http : //dbpedia.org/resource/Clint Eastwoodhttp : //xmlns.com/foaf /0,1/name′Clint Eastwood′@en

http : //dbpedia.org/resource/Clint Eastwoodhttp : //dbpedia.org/ontology/birthDate′1930 − 05 − 31′

http : //dbpedia.org/resource/Mystic River (film)http : //dbpedia.org/property/directorhttp : //dbpedia.org/resource/Clint Eastwood

http : //dbpedia.org/resource/Mystic River (film)http : //dbpedia.org/ontology/abstract′Mystic River is a 2003 American drama film directed, produced and scored by Clint Eastwood...′@en

Nuestra descripcion podrıa enlazarse facilmente con DBpedia...

http : //dataweb.infor.uva.es/persona/Clint Eastwoodhttp : //www.w3.org/2002/07/owl#sameAshttp : //dbpedia.org/resource/Clint Eastwood

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 32/65

Page 33: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Big Data¿La WWW es Big Data?Fundamentos de la Web 3.0.Linked Open Data

Clint Eastwood en LOD

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 33/65

Page 34: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Indice

1 Big Data & Web 3.0.

2 Linked Data en Tiempo Real

3 Trabajo Futuro

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 34/65

Page 35: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

– Escenario Objetivo –

Publicacion de Linked Data en tiempo real:

Gestion de una gran base de conocimiento RDF en crecimiento progresivo(Big Semantic Data).

Captura y exposicion de nuevos fragmentos de RDF en tiempo real:

- Sensores meterorologicos/estado del trafico/contaminacion.- Transacciones bancarias/transporte/turismo.- Publicaciones en redes sociales...

Exposicion de los datos (“historicos” y “recientes”) para su reutilizacion:

- Dereferenciacion de URIs.- Consulta SPARQL.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 35/65

Page 36: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Escenario Objetivo

¿Donde podrıa ser util una solucion ası?Integracion de diversas fuentes de datos en una base de conocimientocentral.Reutilizacion de los datos por diferentes tipos de aplicaciones.

– Intranets: los diferentes departamentos/unidades de negocio publican sus datos(de acuerdo a su operativa habitual), quedando disponibles para su utilizacionen aplicaciones corporativas de diferente naturaleza.

– Sistemas de toma de decisiones: capturan los datos provistos por las fuentes deinteres y los integran en su almacen para obtener “respuestas” actualizadasutilizando las consultas SPARQL correspondientes.

– Instituciones publicas: implementan sus Open Data de forma que los datosesten accesibles en tiempo real, facilitando su reutilizacion vıa derenferenciacionde URIs o consulta SPARQL.

– Proyectos de Smart-cities, Internet of Things...

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 36/65

Page 37: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

– Problematica General –

La publicacion de Linked Data en tiempo real es un problema complejo:

El volumen de las colecciones RDF crece progresivamente.

La velocidad de generacion de nuevos triples puede ser bastante alta.

Se reciben numerosas consultas SPARQL que deben resolverse a lavelocidad mas alta posible.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 37/65

Page 38: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Los problemas “Big”

Almacenamiento:

RDF fue disenado, en sus orıgenes, para describir individualmente

pequenos recursos:

Los formatos de serializacion utilizados para almacenar RDF estanorientados al “consumo humano”.

RDF se utiliza, actualmente, para describir grandes colecciones de

recursos enlazados entre sı:

Los formatos de serializacion resultan demasiado redundantes para estenuevo proposito.

Incremento innecesario de los costes de almacenamiento... y de loscostes de intercambio en red.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 38/65

Page 39: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Los problemas “Big”

Consulta:

La resolucion eficiente de los patrones SPARQL requiere multi-ındices

(uno o varios para cada uno de los elementos del triple):

Las soluciones mas competitivas suelen utilizar seis tipos diferentes deındices.

El coste de almacenamiento se dispara y el rendimiento de las consultas

esta fuertemente penalizado por las transferencias disco-memoria (E/S):

Las soluciones en cluster tambien pagan importantes costes detransmision.

Las soluciones existentes son poco escalables y eso limita la adopcionde los principios de la Web 3.0. para la resolucion de problemasrelacionados con Big Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 39/65

Page 40: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Los problemas “Real-Time”

Captura:

Los fragmentos de RDF llegan de forma continua en el tiempo (la

velocidad a la que lo hacen depende del escenario de aplicacion):

Hay que garantizar un throughput de escritura que asegure que no sepierde ningun dato.

Consulta:

Los nuevos datos deben exponerse una vez capturados:

Estos datos deben integrarse de forma dinamica en los mecanismosutilizados para la dereferenciacion de URIs y la resolucion de SPARQL.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 40/65

Page 41: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

– Principios Arquitectonicos –

La arquitectura Lambda establece los principios basicos para lagestion de Big Data en tiempo real:

Inmutabilidad de los datos.

Aislamiento de complejidades.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 41/65

Page 42: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Inmutabilidad de los Datos

El almacenamiento del Big Data debe contener exclusivamente raw data:

El raw data describe piezas de informacion que no pueden derivarse deninguna otra.Por lo tanto, cada una de estas piezas de informacion es verdadera por elmero hecho de existir.

Los datos nunca cambian → el almacenamiento del Big Data es

inmutable:

La implementacion del almacenamiento debe permitir la insercion denuevos datos, pero evita las operaciones dinamicas (actualizacion yborrado) sobre ellos.Los datos pueden almacenarse utilizando estructuras basicas de ficheros.Es necesario disponer de mecanismos que permitan realizar computosarbitrarios sobre estos ficheros.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 42/65

Page 43: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Aislamiento de Complejidades

Los problemas “big” y “real-time” deben resolverse de forma

independiente para conseguir soluciones menos complejas:

Lambda plantea una arquitectura en tres capas: batch, serving y speed.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 43/65

Page 44: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Batch Layer

Almacena la copia maestra con todos los datos

originales:

Es la parte inmutable del sistema.Solo se pueden anadir nuevos datos, por lo que sutamano crece constantemente.

Resuelve operaciones arbitrarias sobre el conjunto

completo de los datos:

Operaciones muy costosas en computo, muchalatencia en su resolucion.Utilizan primitivas de bajo nivel para lamanipulacion de los datos (ej: Map-Reduce).

Obtencion de vistas de los datos:

Representaciones orientadas a la consulta.Simplicidad en su implementacion.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 44/65

Page 45: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Serving Layer

Carga las vistas obtenidas en Batch para su consulta:

Las vistas de la capa Batch pueden entender comoficheros que contienen los registros que describen lasvistas.La capa Serving indexa estos ficheros para mejorarel rendimiento de la consulta.Esta decision nos evita tener que procesar el BigData con cada pregunta, mejorando con ello lavelocidad de consulta.

La capa Serving tiene una implementacion sencilla:

Esta centrada en indexacion y resolucion deconsultas.No soporta operaciones dinamicas de escritura (queson las que aumentan la complejidad de la base dedatos).

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 45/65

Page 46: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Speed Layer

El proposito de esta capa es asumir las necesidades de

tiempo real:

Es responsable de gestionar (de forma temporal)aquellos datos que llegan al sistema despues dehaber comenzado la obtencion de una vista.Las vistas de esta capa se actualizan al mismotiempo que llegan los datos (actualizacionincremental).

Speed es una capa compleja:

Debe proveer soporte para lectura y escritura denuevos datos en tiempo real.El impacto de esta complejidad esta controladodado que Speed gestiona pequenos volumenes dedatos (que se descartan una vez se integran en lacapa Batch).

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 46/65

Page 47: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Consulta en Lambda

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 47/65

Page 48: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

– Solid –

Solid es una arquitectura que adapta los principios de Lambda parala publicacion de Linked Data en tiempo real.

Comprende tres componentes principales que asumen diferentes

responsabilidades especıficas dentro de la arquitectura:

Content asume las responsabilidades de organizar y almacenar los datosen tres capas (Data, Index y Online) que diferencian los datos historicos(Big Data) y los recogidos en tiempo de ejecucion (real-time data).

Merge es responsable de integrar conjuntos de datos real-time en elalmacenamiento del Big Data.

Service actua como intermediario entre los almacenes de datos enContent, haciendo transparente al cliente el proceso de consulta.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 48/65

Page 49: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Solid

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 49/65

Page 50: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Content

La capa Data implementa un almacenamiento inmutable del Big

Semantic Data:

Los triples se almacenan en ficheros acordes a una sintaxis valida de RDF.Provee una interfaz de acceso para la resolucion de patrones SPARQL.

La capa Index auto-indexa la capa data:

Construye estructuras de datos especıficas que permiten resolver lasconsultas SPARQL.

La capa Online captura nuevos triples RDF y los almacena en estructuras

dinamicas que soportan acceso indexado a los dados:

Esta capa actua como un buffer temporal de la capa data.Provee resolucion de consultas SPARQL.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 50/65

Page 51: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Implementacion de Content (Data+Index)

Se necesita un nuevo formato de serializacion:

Los humanos no leemos Big Semantic Data: serializacionbinaria.

El acceso al Big Semantic Data se realiza en forma depatrones de triples: serializacion binaria como grafo.

El Big Semantic Data ocupa mucho: serializacioncomprimida como grafo.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 51/65

Page 52: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

W3C Submission (HDT)

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 52/65

Page 53: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

HDT

¿Cuales son los beneficios de HDT?

I. Menor espacio:

Reduccion de los requisitos de almacenamiento y los tiempos deintercambio.

II. Mejor organizacion:

Mejora en el acceso a los datos: navegacion nativa sujeto → objeto .

III. Consulta eficiente:

La compresion reduce sustancialmente los costes (E/S): mas datos enmemoria. ¡¡ HDT se puede convertir en un multi-ındice con unasobrecarga moderada en espacio !!

- Las representaciones HDT no se pueden actualizar en tiempo real:

- Actualizacion diferida (en batch).

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 53/65

Page 54: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

HDT en cifras

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 54/65

Page 55: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Proyecto RDF/HDT

http://www.rdfhdt.org

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 55/65

Page 56: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Implementacion de Content (Online)

Se necesita un triple store con capacidad para capturar los

datos “al vuelo” y hacerlos directamente consultables:

Alto throughput de escritura y capacidad de re-indexaciondinamica.

Estas propiedades se deterioran progresivamente con elvolumen de datos almacenados y, ademas, el rendimientode los triple stores se reduce tambien en grandescolecciones.

Los datos gestionados en tiempo real nunca debenalcanzar un volumen “Big”.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 56/65

Page 57: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Implementacion de Merge

Merge integra los datos “real-time” en el

Big Semantic Data de la capa Data:

Merge es responsable de que la capa Online conservesu rendimiento: cuando el volumen de los datos esgrande, se activa el proceso de integracion.

El proceso se realiza en batch y es potencialmenteparalelizable.

Una vez obtenida la nueva configuracion de la capaData es necesario actualizar la configuracion deestructuras de datos en la capa Index.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 57/65

Page 58: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Escenario ObjetivoProblematica GeneralPrincipios ArquitectonicosSolid

Implementacion de Service

Los datos estan repartidos entre los

almacenes “Big” y “Real-Time”:Se necesita un “intermediario” que haga queesta distribucion sea transparente a la consulta.

La capa Service realiza una arquitectura

filtro-tuberıa orientada al procesamiento/

optimizacion de las consultas SPARQL:Implementa filtros para los operandosSPARQL.Combina estos filtros de acuerdo a lasemantica de la consulta.

Resolver las consultas requiere...Resolucion independiente en cada uno de losalmacenes.Resolucion combinada entre cada uno de losalmacenes: la capa Online se utiliza comoındice para el acceso al Big Semantic Data.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 58/65

Page 59: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Indice

1 Big Data & Web 3.0.

2 Linked Data en Tiempo Real

3 Trabajo Futuro

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 59/65

Page 60: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

– Hacia donde vamos... –

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 60/65

Page 61: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Trabajo Futuro

Triple Store inmutable (capas Data+Index):

Motor de almacenamiento basado en HDT → compresion + velocidad deacceso a los datos.Sistema de consulta basado en Jena/Sesame → resolucion SPARQL dealto rendimiento sobre Big Semantic Data.

Triple Store dinamico (capa Online):

Evaluacion del estado del arte y eleccion de la solucion mas eficiente.

Diseno de un algoritmo Map-Reduce que aproveche el orden interno deHDT (capa Merge).

Implementacion de la capa Service:

Evaluacion de posibles optimizaciones en la consulta combinada de losalmacenes de datos.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 61/65

Page 62: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Trabajo Futuro

El objetivo inicial es obtener una implementacion mono-nodo de Solid y

dar el paso hacia su despliegue en cluster:

Distribucion de las capas Data+Index: particionamiento horizontal deHDT y resolucion distribuida de SPARQL.

Desplegar soluciones basadas en Solid y analizar su viabilidad enescenarios que trasciendan a los “casos de estudio de laboratorio”.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 62/65

Page 63: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Hacia donde vamos...

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 63/65

Page 64: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Direcciones de Interes

Proyecto RDF-HDThttp://www.rdfhdt.org

DataWeb Researchhttp://dataweb.infor.uva.es

@DataWebResearch

∗ Proyecto 4V: Volumen, Velocidad, Variedad y Validez en la Gestion Innovadora de Datos(TIN2013-46238-C4-3-R), Ministerio de Economıa y Competitividad, Espana.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 64/65

Page 65: Semana de la Ciencia 2014 (Martínez-Prieto)

Big Data & Web 3.0.Linked Data en Tiempo Real

Trabajo Futuro

Disclaimer

Esta presentacion se difunde unicamente con fines docentes.Las imagenes utilizadas pueden pertenecer a terceros y, por tanto, son propiedad de sus autores.

Miguel A. Martınez Prieto ¿Por que los datos deben viajar en primera? 65/65