Introducción a a Web Semántica y Ontologías - ldc.usb.veruckhaus/materias/ci7453/clase2.pdf ·...
Transcript of Introducción a a Web Semántica y Ontologías - ldc.usb.veruckhaus/materias/ci7453/clase2.pdf ·...
Introducción a a WebSemántica y Ontologías
Transparencias Ian Horrocks and Alan Rector
Historia de la Web Semántica• Web fue “inventada” por Tim Berners-Lee (entre otros), un físico
que trabaja en CERN• La visión original de la Web era mucho más ambiciosa que la
Web (sintáctica) actual:
• TBL (y otros) han estado trabajando para lograr esta visiónllamada Web Semántics– E.g., artículo del Scientific American 2001…
“... a goal of the Web was that, if the interaction between person andhypertext could be so intuitive that the machine-readable informationspace gave an accurate representation of the state of people'sthoughts, interactions, and work patterns, then machine analysis couldbecome a very powerful management tool, seeing patterns in our workand facilitating our working together through the typical problems whichbeset the management of large organizations.”
Realidad• Más realista pensar que:
– “semántica + web + AI = web más útil”– Lograr la visión completa es muy difícil– El comienzo es añadir anotaciones
semánticas a recursos en la web
Images from Christine Thompson and David Booth
Donde estamos hoy: la Web Sintáctica
[Hendler & Miller 02]
La Web Sintáctica es…• Un hypermedia, una bilioteca digital
– Una bilioteca de documentos llamados páginas web interconectadospor un hypermedia de enlaces
• Una base de datos, una plataforma de aplicaciones– Un portal común de aplicaciones accedidas a partir de páginas web,
que presentan sus resultados como páginas web• Una plataforma multimedia
– Radio, Cortos de Películas, etc.
Un lugar en donde la computadora hace la presentación (fácil) y laspersonas hacen los enlaces y la interpretación (difícil)
Cómo lograr que las computadoras hagan más trabajo difícil?
[Goble 03]
Trabajo difícil utilizando la WebSintáctica…
Encontrar imágenes de Peter Patel-Schneider, Frank vanHarmelen y Alan Rector…
Rev. Alan M. Gates, Associate Rector of theChurch of the Holy Spirit, Lake Forest, Illinois
Imposible (?) usando la Web Sintáctica…
• Consultas complejas que involucran conocimientoprevio– Encontrar información sobre “animales que usan sonar
pero no son delfines”• Localizar información en repositorios de datos
– Consultas para viajeros– Precios de productos y servicios– Resultados de experimentos sobre el genoma humano
• Encontrar y utilizar “web services”– Visualizar la interacción entre dos proteinas
• Delegar tareas complejas a “agentes” Web– Reserva para el próximo fin de semana en una playa, no
muy lejos y que hablen inglés
Cuál es el problema?• Una página Web típica:
• Anotación consistede:– Despliegue de
información(e.g., tamañofont y color)
– Hiper-enlaces alcontenidorelacionado
• El contenidosemántico esaccesible ahumanos pero no(fácilmente) acomputadoras…
Cuál es la información que vemosnosotros…
WWW2002The eleventh international world wide web conferenceSheraton waikiki hotelHonolulu, hawaii, USA7-11 may 20021 location 5 days learn interactRegistered participants coming fromaustralia, canada, chile denmark, france, germany, ghana, hong kong, india,
ireland, italy, japan, malta, new zealand, the netherlands, norway,singapore, switzerland, the united kingdom, the united states, vietnam,zaire
Register nowOn the 7th May Honolulu will provide the backdrop of the eleventh
international world wide web conference. This prestigious event …Speakers confirmedTim berners-leeTim is the well known inventor of the Web, …Ian FosterIan is the pioneer of the Grid, the next generation internet …
Cuál es la información que ve lacomputadora…
…
…
…
Solución: Anotación XML con tags“significativos”?<name>
</name><location>
</location><date> </date><slogan> </slogan><participants>
</participants>
<introduction>
…
</introduction><speaker> </speaker><bio>
</bio>…
O ésto…<conf>
</conf><place>
</place><date> </date>
<slogan> </slogan><participants>
</participants>
<introduction>
…
</introduction><speaker> </speaker><bio> …
La computadora ve…<> </><> </><> </><> </><>
</>
<>
…
</><> </><> </><> </><> </>
Necesario añadir “Semántica”• Acuerdo externo sobre significado de anotaciones
– E.g., Dublin Core• Acuerdo sobre el significado de un conjunto de “tags”
– Problemas con este enfoque• Inflexible• Número limitado de conceptos pueden ser expresados
• Usar Ontologías para especificar el significado deanotaciones– Ontologías proveen un vocabulario de términos– Nuevos términos pueden ser formados combinando los
existentes– El significado (la semántica) de los términos se especifica
formalmente– Se pueden especificar relaciones entre términos en múltiples
ontologías
Características de la Web• Billones de fuentes de datos y más de 200 millones de usuarios.
• Dado un dominio del saber, existen cientos o miles de fuentes dedatos que mantienen datos relacionados con el mismo, algunoscon billones de instancias.
• Cada nodo de la Web es autónomo e independiente. No existe uncontrol central.
• Cada comunidad usa su propio vocabulario.
• No toda la información es correcta y consistente o completa.
• Contenido de las páginas cambia constantemente y nuevaspáginas se añaden constantemente.
• La Web es un mundo abierto
Características de la Web• Fuentes de Datos con Capacidades Limitadas de Procesamiento.
• No existe una Interfaz de Programación para interactuar con ellas.
• La respuesta se presenta en documentos no estructurados enformato HTML o semi-estructurados en XML.
• La interfaz es a través de una planilla que limita el tipo deconsultas que se pueden efectuar y los atributos que deben serinstanciados.
Problemas de interacción con la Web• Buscar información
– Buscadores son imprecisos.• Presentar información
– Es difícil presentar la información de forma consistente eintegrada.
• Buscar los próximos.– Es difícil determinar que enlaces se deben seguir.
• Comercio electrónico– Agentes usan wrappers para extraer información sobre los
productos a vender.– Es difíci determinar los servicios ofrecidos por una
determinada fuentes.
Ejemplo• Consulta: Chequear si hay tickets disponibles para ver una
película que haya sido producida por algún directorespañol, que haya ganado algún premio este año y que suevaluación sea buena.
Fuentes de datos que publican películas, sus actores, directores, etc. evaluaciones. premios durante un año particular. los teatros o en canales que presentan películas. venden los tickets para ver las películas.
Pre-condiciones Web Semántica• Datos puedan intercambiarse.
– XML, XML Schema• Semántica de los datos sea explícita
– RDF, Ontologías• Propiedades de los datos y de los metadatos pueden ser
inferidas.– Lógica-debe ser suficientemente poderosa para describir
propiedades complejas de los objetos pero no lo suficientementecompleja que se vuelva no decidible!
una disciplina de la filosofía - una rama de la filosofía que tieneque ver con la naturaleza y organización del conocimiento
• Science of Being (Aristotle, Metaphysics, IV, 1)
• Trata de contestar la pregunta:
Qué caracteriza al ente?
Eventualmente, qué es el ente?
Ontología: Origen e HistoriaOntología en Filosofía
Ontología en Linguística
“Tanque“
ReferenteFormaEn lugar de
Se relaciona aactiva
Concepto
[Ogden, Richards, 1923]?
• Una ontología es un artefacto de ingeniería que:– Está constituido por un vocabulario específico para describir
cierta realidad, y además..– Un conjunto de suposiciones explícitas en relación al
significado del vocabulario• Luego, una ontología describe una especificación formal de
cierto dominio:– Comprensión compartida de un dominio de interés– Modelo formal y manipulable por una computadora de un
dominio de interés
“Una especificación explícita de una conceptualización”[Gruber93]
Ontología en Ciencias de la Computación
Estructura de una ontologíaEn general, tienen 2 componentes:
• Nombres para los conceptos importantes del dominio– Elefante es un concepto cuyos miembros son un tipo de animal– Herbivoro es un concepto cuyos miembros son exactamente
aquellos que comen plantas o partes de plantas– Elefante_adulto es un concepto cuyos miembros son
exactamente aquellos elefantes que tienen más de 20 años
• Concimiento previo/restricciones sobre el dominio– Elefante_adultos pesan al menos 2,000 kg– Todos los Elefantes son o Elefantes_Africanos o
Elefantes_Indioss– Ningún individuo puede ser ambos, Herbívoro y Carnívoro
La Web Semántica — Primeros Pasos
• Extender marcado para “despliegue” con marcadosemántico– Anotaciones de metadatos que describen el
contenido/función de recursos accesibles por la Web• Usar ontologías para proveer vocabulario para anotaciones
– “La especificación formal” es accesible a las computadoras
• Un requisito es Lenguaje de Ontologías Web estándar– Se debe acordar una sintaxis común antes de que se pueda
compartir la ontología– La Web Sintáctica está basada en estándares tales como
HTTP y HTML
Hacer que los recursos Web sean más accesibles a procesosautomatizados
Diseño de Ontologías y Puesta en“Producción”
• Esencial proveer herramientas y servicios para ayudar a losusuarios a:– Diseñar y mantener ontologías de “alta calidad”, e.g.:
• Significativas — Todas las clases nombradas pueden tenerinstancias
• Correcta — captura la intuición de expertos del dominio• Mínimamente redundante — no hay sinónimos “no deseados”• Axiomatización detallada — (suficientes) descripciones detalladas
– Almacenar (gran cantidad) de instancias de las clases de la ontología,e.g.:
• Instancias: Anotaciones de páginas Web– Contestar consultas clases e instancias de la ontoloía, e.g.:
• Encontrar clases más generales/específicas• Recuperar páginas/anotaciones que coinciden con una
descripción– Integrar y alinear múltiples ontologías
Ejemplo Ontología