1 © M. Rico 2012
esDBpedia: núcleo de los datos semánticos del español
2 © M. Rico 2012
Contenido
• esDBpedia
• esDBpedia como fuente de datos
semánticos
• Lexicalizaciones y multilingüismo
– Lemonade tools
• Proyectos futuros
3 © M. Rico 2012
ESDBPEDIA
¿Qué es ?
4 © M. Rico 2012
El español en Internet
5 © M. Rico 2012
El español en Wikipedia
Ranking:(Oct. 2015)
1o Inglés (5.0 M)
2o Alemán (1.9 M)
3o Francés (1.7 M)
4o Ruso (1.3M)
5o Italiano (1.2M)
6o Español (1.2M)
7o Polaco (1.1M)
8o Japonés (1.0M)
9o Portugués (0.9M)
10o Chino (0.8M)
6 © M. Rico 2012
¿Qué es esDBpedia?
• Es la DBpedia del idioma español
– No es la DBpedia de un país, sino la de una
lengua
• Almacén de datos semánticos obtenidos
de la Wikipedia del español
7 © M. Rico 2012
Visibilidad esDBpedia
• Sitio web http://es.dbpedia.org
• Redes sociales
– Google+
• Eventos periódicos (Jornadas)
• SPARQL EP
8 © M. Rico 2012
RDF Triple
store
Ren
de
rin
g
9 © M. Rico 2012
Mapeos, mapeos y mapeos
• Jornadas de mapeo (3 ediciones)
• E.g.: Jornadas
de mapeos Nov. 2011
– 15 personas
– 4h + 4h
– 101 clases mapeadas
(80% instancias)
10 © M. Rico 2012
Datos xxDBpedias
• Primicia:
esDBpedia es la
primera después
de la inglesa
11 © M. Rico 2012
esDBpedia para lingüistas
• Linguistic LOD
12 © M. Rico 2012
ESDBPEDIA COMO FUENTE
DE DATOS SEMÁNTICOS
Datos con sentido
13 © M. Rico 2012
Datos con semántica
14 © M. Rico 2012
Datos con semántica
• Semánticos porque
– Datos enlazados a una (o varias) ontologías
• Una ontología es un modelo matemático que
permite
– Razonamiento automático Inferir nuevos datos
– Hacer preguntas (e.g. ¿quién es la esposa de Obama?)
o saber si algo en cierto (e.g. ¿Michelle es la esposa de
Obama?)
– Sin enlaces a las ontologías los datos no
tienen semántica
15 © M. Rico 2012
Datos con semántica
• E.g.: “Cervantes escribió Don Quijote”
“Miguel de Cervantes”@es
http://es.dbpedia.org/resource/Miguel_de_Cervantes
http://dbpedia.org/ontology/Writer
“Cervantes”
dbpedia:alias
rdf:type
rdfs:label
“Don Quijote de la Mancha”@es
http://es.dbpedia.org/resource/Don_Quijote_de_la_Mancha
dbpedia:author
rdfs:label
http://dbpedia.org/ontology/Artist
rdfs:subClassOf
16 © M. Rico 2012
Datos con semántica
• Razonando: “Cervantes es un artista”
“Miguel de Cervantes”@es
http://es.dbpedia.org/resource/Miguel_de_Cervantes
http://dbpedia.org/ontology/Writer
“Cervantes”
dbpedia:alias
rdf:type
rdfs:label
“Don Quijote de la Mancha”@es
http://es.dbpedia.org/resource/Don_Quijote_de_la_Mancha
dbpedia:author
rdfs:label
http://dbpedia.org/ontology/Artist
rdfs:subClassOf
rdf:type
18 © M. Rico 2012
Datos con semántica
• Añade más datos enlazados
21 © M. Rico 2012
Datos con semántica
• Añade más datos enlazados
22 © M. Rico 2012
Datos con semántica
• Dataset
23 © M. Rico 2012
esDBpedia
• Dataset con datos de la Wikipedia del
español
esDBpedia
• 160 millones de datos
de 1 millón de entradas de Wikipedia
del español.
• Enlazados a ontología DBpedia
• Cientos de conceptos
• Miles de relaciones entre conceptos
24 © M. Rico 2012
DBpedia, núcleo de los
datos enlazados2007
htt
p:/
/lod
-clo
ud.n
et/
vers
ions/2
007-1
0-0
8/lod-c
loud.p
ng25 datasets
25 © M. Rico 2012
DBpedia, núcleo de los
datos enlazados2010
htt
p:/
/lo
d-c
loud
.net/
ve
rsio
ns/2
01
1-0
9-1
9/lo
d-c
loud
_co
lore
d.p
ng
203 datasets
26 © M. Rico 2012
DBpedia, núcleo de los
datos enlazados2011
htt
p:/
/lod-c
loud.n
et/
vers
ions/2
011-0
9-1
9/lod-c
loud.p
ng
295 datasets
27 © M. Rico 2012
DBpedia, núcleo de los
datos enlazados2014
570 datasets
28 © M. Rico 2012
esDBpedia
• Núcleo de los datos enlazados del
español
29 © M. Rico 2012
esDBpedia
• Crea tu dataset y enlázalo con esDBpedia
• Nosotros ponemos los enlaces inversos
30 © M. Rico 2012
LEXICALIZACIONES Y
MULTILINGÜISMO
De datos a frases
31 © M. Rico 2012
lemon y lemon patterns
Lemonizando DBpedia
32 © M. Rico 2012
lemon y lemon patterns
Lemonizando DBpedia
33 © M. Rico 2012
Lemonade: endulzando lemon
• Lemonade es
– Una librería R
• R es un entorno de desarrollo sencillo de instalar
– Multiplataforma (iOS, Linux, Windows)
– Orientado a análisis de datos (métodos estadísticos)
– Orientado a datos masivos
– Rápido
» Ejecución en paralelo de código C/C++/Java/PHP
» Distribuible (entre máquinas)
– Un servicio (integración sencilla en apps Java/Javascript)
• Diseñado para BIG data
34 © M. Rico 2012
Lemon Assistant
• Creación intuitiva de lemon
patterns
– Guiado por frases en lenguaje natural
• Linked data Lenguaje natural
• Algunos lemon patterns (más,
pronto)
• Multilingual (inglés, español,
alemán)
– Gramáticas de GF (Grammatical
Framework)
• Gramáticas de muchos idiomas
http://lider2.dia.fi.upm.es:3838/lemonAssistant/
35 © M. Rico 2012
Leire
• Apunta a un triple store (Fuseki)
• Bang!
– Listas con información sobre nombres, verbos, preposiciones…
– Informe de inconsistencias
• Información contradictoria
• Información no indicada
36 © M. Rico 2012
PROYECTOS FUTUROS
Usando las lexicalizaciones
37 © M. Rico 2012
interQA (aka LODTrooper)
• Bye, bye, SPARQL
38 © M. Rico 2012
interQA (aka LODTrooper)
• Uso de las
lexicalizaciones
• Consultas en NL
guiado
– Para cada tipo de
consulta SPARQL
• Varias formas de
preguntar en LN
• Multilingüe
• Cualquier dataset
39 © M. Rico 2012
Agradecimientos
• Mapeadores
• Organizaciones– MINECO
• Contrato Juan de la Cierva
• Proyecto INFRA
– MECD
• Programa José Castillejo
– Unión europea
• Proyecto LIDER
– OEG-UPM
41 © M. Rico 2012
Thanks a LOD for your [email protected]
Top Related