esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es...

37
1 © M. Rico 2012 es DBpedia: núcleo de los datos semánticos del es pañol

Transcript of esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es...

Page 1: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

1 © M. Rico 2012

esDBpedia: núcleo de los datos semánticos del español

Page 2: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

2 © M. Rico 2012

Contenido

• esDBpedia

• esDBpedia como fuente de datos

semánticos

• Lexicalizaciones y multilingüismo

– Lemonade tools

• Proyectos futuros

Page 3: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

3 © M. Rico 2012

ESDBPEDIA

¿Qué es ?

Page 4: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

4 © M. Rico 2012

El español en Internet

Page 5: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

5 © M. Rico 2012

El español en Wikipedia

Ranking:(Oct. 2015)

1o Inglés (5.0 M)

2o Alemán (1.9 M)

3o Francés (1.7 M)

4o Ruso (1.3M)

5o Italiano (1.2M)

6o Español (1.2M)

7o Polaco (1.1M)

8o Japonés (1.0M)

9o Portugués (0.9M)

10o Chino (0.8M)

Page 6: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

6 © M. Rico 2012

¿Qué es esDBpedia?

• Es la DBpedia del idioma español

– No es la DBpedia de un país, sino la de una

lengua

• Almacén de datos semánticos obtenidos

de la Wikipedia del español

Page 7: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

7 © M. Rico 2012

Visibilidad esDBpedia

• Sitio web http://es.dbpedia.org

• Redes sociales

– Facebook

– Twitter

– Google+

• Eventos periódicos (Jornadas)

• SPARQL EP

Page 8: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

8 © M. Rico 2012

RDF Triple

store

Ren

de

rin

g

Page 9: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

9 © M. Rico 2012

Mapeos, mapeos y mapeos

• Jornadas de mapeo (3 ediciones)

• E.g.: Jornadas

de mapeos Nov. 2011

– 15 personas

– 4h + 4h

– 101 clases mapeadas

(80% instancias)

Page 10: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

10 © M. Rico 2012

Datos xxDBpedias

• Primicia:

esDBpedia es la

primera después

de la inglesa

Page 11: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

11 © M. Rico 2012

esDBpedia para lingüistas

• Linguistic LOD

Page 12: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

12 © M. Rico 2012

ESDBPEDIA COMO FUENTE

DE DATOS SEMÁNTICOS

Datos con sentido

Page 13: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

13 © M. Rico 2012

Datos con semántica

Page 14: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

14 © M. Rico 2012

Datos con semántica

• Semánticos porque

– Datos enlazados a una (o varias) ontologías

• Una ontología es un modelo matemático que

permite

– Razonamiento automático Inferir nuevos datos

– Hacer preguntas (e.g. ¿quién es la esposa de Obama?)

o saber si algo en cierto (e.g. ¿Michelle es la esposa de

Obama?)

– Sin enlaces a las ontologías los datos no

tienen semántica

Page 15: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

15 © M. Rico 2012

Datos con semántica

• E.g.: “Cervantes escribió Don Quijote”

“Miguel de Cervantes”@es

http://es.dbpedia.org/resource/Miguel_de_Cervantes

http://dbpedia.org/ontology/Writer

“Cervantes”

dbpedia:alias

rdf:type

rdfs:label

“Don Quijote de la Mancha”@es

http://es.dbpedia.org/resource/Don_Quijote_de_la_Mancha

dbpedia:author

rdfs:label

http://dbpedia.org/ontology/Artist

rdfs:subClassOf

Page 16: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

16 © M. Rico 2012

Datos con semántica

• Razonando: “Cervantes es un artista”

“Miguel de Cervantes”@es

http://es.dbpedia.org/resource/Miguel_de_Cervantes

http://dbpedia.org/ontology/Writer

“Cervantes”

dbpedia:alias

rdf:type

rdfs:label

“Don Quijote de la Mancha”@es

http://es.dbpedia.org/resource/Don_Quijote_de_la_Mancha

dbpedia:author

rdfs:label

http://dbpedia.org/ontology/Artist

rdfs:subClassOf

rdf:type

Page 17: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

18 © M. Rico 2012

Datos con semántica

• Añade más datos enlazados

Page 18: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

21 © M. Rico 2012

Datos con semántica

• Añade más datos enlazados

Page 19: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

22 © M. Rico 2012

Datos con semántica

• Dataset

Page 20: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

23 © M. Rico 2012

esDBpedia

• Dataset con datos de la Wikipedia del

español

esDBpedia

• 160 millones de datos

de 1 millón de entradas de Wikipedia

del español.

• Enlazados a ontología DBpedia

• Cientos de conceptos

• Miles de relaciones entre conceptos

Page 21: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

24 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2007

htt

p:/

/lod

-clo

ud.n

et/

vers

ions/2

007-1

0-0

8/lod-c

loud.p

ng25 datasets

Page 22: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

25 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2010

htt

p:/

/lo

d-c

loud

.net/

ve

rsio

ns/2

01

1-0

9-1

9/lo

d-c

loud

_co

lore

d.p

ng

203 datasets

Page 23: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

26 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2011

htt

p:/

/lod-c

loud.n

et/

vers

ions/2

011-0

9-1

9/lod-c

loud.p

ng

295 datasets

Page 24: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

27 © M. Rico 2012

DBpedia, núcleo de los

datos enlazados2014

570 datasets

Page 25: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

28 © M. Rico 2012

esDBpedia

• Núcleo de los datos enlazados del

español

Page 26: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

29 © M. Rico 2012

esDBpedia

• Crea tu dataset y enlázalo con esDBpedia

• Nosotros ponemos los enlaces inversos

Page 27: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

30 © M. Rico 2012

LEXICALIZACIONES Y

MULTILINGÜISMO

De datos a frases

Page 28: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

31 © M. Rico 2012

lemon y lemon patterns

Lemonizando DBpedia

Page 29: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

32 © M. Rico 2012

lemon y lemon patterns

Lemonizando DBpedia

Page 30: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

33 © M. Rico 2012

Lemonade: endulzando lemon

• Lemonade es

– Una librería R

• R es un entorno de desarrollo sencillo de instalar

– Multiplataforma (iOS, Linux, Windows)

– Orientado a análisis de datos (métodos estadísticos)

– Orientado a datos masivos

– Rápido

» Ejecución en paralelo de código C/C++/Java/PHP

» Distribuible (entre máquinas)

– Un servicio (integración sencilla en apps Java/Javascript)

• Diseñado para BIG data

Page 31: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

34 © M. Rico 2012

Lemon Assistant

• Creación intuitiva de lemon

patterns

– Guiado por frases en lenguaje natural

• Linked data Lenguaje natural

• Algunos lemon patterns (más,

pronto)

• Multilingual (inglés, español,

alemán)

– Gramáticas de GF (Grammatical

Framework)

• Gramáticas de muchos idiomas

http://lider2.dia.fi.upm.es:3838/lemonAssistant/

Page 32: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

35 © M. Rico 2012

Leire

• Apunta a un triple store (Fuseki)

• Bang!

– Listas con información sobre nombres, verbos, preposiciones…

– Informe de inconsistencias

• Información contradictoria

• Información no indicada

Page 33: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

36 © M. Rico 2012

PROYECTOS FUTUROS

Usando las lexicalizaciones

Page 34: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

37 © M. Rico 2012

interQA (aka LODTrooper)

• Bye, bye, SPARQL

Page 35: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

38 © M. Rico 2012

interQA (aka LODTrooper)

• Uso de las

lexicalizaciones

• Consultas en NL

guiado

– Para cada tipo de

consulta SPARQL

• Varias formas de

preguntar en LN

• Multilingüe

• Cualquier dataset

Page 36: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

39 © M. Rico 2012

Agradecimientos

• Mapeadores

• Organizaciones– MINECO

• Contrato Juan de la Cierva

• Proyecto INFRA

– MECD

• Programa José Castillejo

– Unión europea

• Proyecto LIDER

– OEG-UPM

Page 37: esDBpedia - lider-project.eulider-project.eu/lider-project.eu/workshopMadrid/files/talk-07.pdf•Es la DBpedia del idioma español –No es la DBpedia de un país, sino la de una lengua

41 © M. Rico 2012

Thanks a LOD for your [email protected]