esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es...

Post on 13-Sep-2020

1 views 0 download

Transcript of esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es...

1 © M. Rico 2012

esDBpedia: núcleo de los datos semánticos del español

2 © M. Rico 2012

Contenido

• esDBpedia

• esDBpedia como fuente de datos

semánticos

• Lexicalizaciones y multilingüismo

– Lemonade tools

• Proyectos futuros

3 © M. Rico 2012

ESDBPEDIA

¿Qué es ?

4 © M. Rico 2012

El español en Internet

5 © M. Rico 2012

El español en Wikipedia

Ranking:(Oct. 2015)

1o Inglés (5.0 M)

2o Alemán (1.9 M)

3o Francés (1.7 M)

4o Ruso (1.3M)

5o Italiano (1.2M)

6o Español (1.2M)

7o Polaco (1.1M)

8o Japonés (1.0M)

9o Portugués (0.9M)

10o Chino (0.8M)

6 © M. Rico 2012

¿Qué es esDBpedia?

• Es la DBpedia del idioma español

– No es la DBpedia de un país, sino la de una

lengua

• Almacén de datos semánticos obtenidos

de la Wikipedia del español

7 © M. Rico 2012

Visibilidad esDBpedia

• Sitio web http://es.dbpedia.org

• Redes sociales

– Facebook

– Twitter

– Google+

• Eventos periódicos (Jornadas)

• SPARQL EP

8 © M. Rico 2012

RDF Triple

store

Ren

de

rin

g

9 © M. Rico 2012

Mapeos, mapeos y mapeos

• Jornadas de mapeo (3 ediciones)

• E.g.: Jornadas

de mapeos Nov. 2011

– 15 personas

– 4h + 4h

– 101 clases mapeadas

(80% instancias)

10 © M. Rico 2012

Datos xxDBpedias

• Primicia:

esDBpedia es la

primera después

de la inglesa

11 © M. Rico 2012

esDBpedia para lingüistas

• Linguistic LOD

12 © M. Rico 2012

ESDBPEDIA COMO FUENTE

DE DATOS SEMÁNTICOS

Datos con sentido

13 © M. Rico 2012

Datos con semántica

14 © M. Rico 2012

Datos con semántica

• Semánticos porque

– Datos enlazados a una (o varias) ontologías

• Una ontología es un modelo matemático que

permite

– Razonamiento automático Inferir nuevos datos

– Hacer preguntas (e.g. ¿quién es la esposa de Obama?)

o saber si algo en cierto (e.g. ¿Michelle es la esposa de

Obama?)

– Sin enlaces a las ontologías los datos no

tienen semántica

15 © M. Rico 2012

Datos con semántica

• E.g.: “Cervantes escribió Don Quijote”

“Miguel de Cervantes”@es

http://es.dbpedia.org/resource/Miguel_de_Cervantes

http://dbpedia.org/ontology/Writer

“Cervantes”

dbpedia:alias

rdf:type

rdfs:label

“Don Quijote de la Mancha”@es

http://es.dbpedia.org/resource/Don_Quijote_de_la_Mancha

dbpedia:author

rdfs:label

http://dbpedia.org/ontology/Artist

rdfs:subClassOf

16 © M. Rico 2012

Datos con semántica

• Razonando: “Cervantes es un artista”

“Miguel de Cervantes”@es

http://es.dbpedia.org/resource/Miguel_de_Cervantes

http://dbpedia.org/ontology/Writer

“Cervantes”

dbpedia:alias

rdf:type

rdfs:label

“Don Quijote de la Mancha”@es

http://es.dbpedia.org/resource/Don_Quijote_de_la_Mancha

dbpedia:author

rdfs:label

http://dbpedia.org/ontology/Artist

rdfs:subClassOf

rdf:type

18 © M. Rico 2012

Datos con semántica

• Añade más datos enlazados

21 © M. Rico 2012

Datos con semántica

• Añade más datos enlazados

22 © M. Rico 2012

Datos con semántica

• Dataset

23 © M. Rico 2012

esDBpedia

• Dataset con datos de la Wikipedia del

español

esDBpedia

• 160 millones de datos

de 1 millón de entradas de Wikipedia

del español.

• Enlazados a ontología DBpedia

• Cientos de conceptos

• Miles de relaciones entre conceptos

24 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2007

htt

p:/

/lod

-clo

ud.n

et/

vers

ions/2

007-1

0-0

8/lod-c

loud.p

ng25 datasets

25 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2010

htt

p:/

/lo

d-c

loud

.net/

ve

rsio

ns/2

01

1-0

9-1

9/lo

d-c

loud

_co

lore

d.p

ng

203 datasets

26 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2011

htt

p:/

/lod-c

loud.n

et/

vers

ions/2

011-0

9-1

9/lod-c

loud.p

ng

295 datasets

27 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2014

570 datasets

28 © M. Rico 2012

esDBpedia

• Núcleo de los datos enlazados del

español

29 © M. Rico 2012

esDBpedia

• Crea tu dataset y enlázalo con esDBpedia

• Nosotros ponemos los enlaces inversos

30 © M. Rico 2012

LEXICALIZACIONES Y

MULTILINGÜISMO

De datos a frases

31 © M. Rico 2012

lemon y lemon patterns

Lemonizando DBpedia

32 © M. Rico 2012

lemon y lemon patterns

Lemonizando DBpedia

33 © M. Rico 2012

Lemonade: endulzando lemon

• Lemonade es

– Una librería R

• R es un entorno de desarrollo sencillo de instalar

– Multiplataforma (iOS, Linux, Windows)

– Orientado a análisis de datos (métodos estadísticos)

– Orientado a datos masivos

– Rápido

» Ejecución en paralelo de código C/C++/Java/PHP

» Distribuible (entre máquinas)

– Un servicio (integración sencilla en apps Java/Javascript)

• Diseñado para BIG data

34 © M. Rico 2012

Lemon Assistant

• Creación intuitiva de lemon

patterns

– Guiado por frases en lenguaje natural

• Linked data Lenguaje natural

• Algunos lemon patterns (más,

pronto)

• Multilingual (inglés, español,

alemán)

– Gramáticas de GF (Grammatical

Framework)

• Gramáticas de muchos idiomas

http://lider2.dia.fi.upm.es:3838/lemonAssistant/

35 © M. Rico 2012

Leire

• Apunta a un triple store (Fuseki)

• Bang!

– Listas con información sobre nombres, verbos, preposiciones…

– Informe de inconsistencias

• Información contradictoria

• Información no indicada

36 © M. Rico 2012

PROYECTOS FUTUROS

Usando las lexicalizaciones

37 © M. Rico 2012

interQA (aka LODTrooper)

• Bye, bye, SPARQL

38 © M. Rico 2012

interQA (aka LODTrooper)

• Uso de las

lexicalizaciones

• Consultas en NL

guiado

– Para cada tipo de

consulta SPARQL

• Varias formas de

preguntar en LN

• Multilingüe

• Cualquier dataset

39 © M. Rico 2012

Agradecimientos

• Mapeadores

• Organizaciones– MINECO

• Contrato Juan de la Cierva

• Proyecto INFRA

– MECD

• Programa José Castillejo

– Unión europea

• Proyecto LIDER

– OEG-UPM

41 © M. Rico 2012

Thanks a LOD for your attentionMariano.Rico@upm.es