Modelo basado en ontologías para la integración semántica de ...

Universidad Politcnica de Madrid

Facultad de Informtica

Modelo de mediacin semnticapara la integracin de fuentes de

datos heterogneas

Tesis doctoral

Autor:Alberto Anguita SnchezIngeniero en Informtica

Madrid, Octubre de 2012

Departamento de Inteligencia Artificial

Facultad de Informtica

Universidad Politcnica de Madrid

Modelo de mediacin semnticapara la integracin de fuentes de

datos heterogneas

Tesis doctoral

Autor:

Alberto Anguita SnchezIngeniero en Informtica

Directores:

Vctor Manuel Maojo GarcaDoctor en Informtica

Miguel Garca RemesalDoctor en Informtica

Madrid, Octubre de 2012

Tribunal nombrado por el Magfco. y Excmo. Sr. Rector de la Universidad Po-

litcnica de Madrid el da de de 2012

Presidente:

Vocal 1o:

Vocal 2o:

Vocal 3o:

Secretario:

Suplente 1o:

Suplente 2o:

Realizado el acto de lectura y defensa de la Tesis el da de de

2012 en Madrid.

Calificacin: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

EL PRESIDENTE LOS VOCALES

EL SECRETARIO

A mis padres

Agradecimientos

No ha sido sencillo alcanzar la meta que me propuse hace ya ms de seis aos(aunque tampoco tendra gracia si no fuese difcil). Sin embargo, puedo decir que,en todo este tiempo, no han faltado personas a mi lado que me han apoyado entodo lo necesario, ya fuese en los buenos o en los malos momentos. En primerlugar debo mencionar a mis padres. Nunca han dudado en dar todo su apoyo acualquier empresa que decidiese iniciar. Si ests leyendo estas lneas, es en granparte gracias a ellos. Asimismo, quiero agradecer el apoyo de toda mi familia ysus continuas muestras de nimo.

Tambin quiero agradecer toda la ayuda de Marga. Gracias por alentarme enlos momentos ms difciles, por aguantarme en las malas rachas, y en definitivapor darme el apoyo necesario durante todos estos meses.

Cabe mencionar aqu a todos mis amigos y compaeros tanto de carrera comoen el Grupo de Informtica Biomdica: Jorge, Alex, Andrs, Daniel, Lili, Eva,Mollejo, Jess, Xandre, Carmen, Rubn, sois los mejores. David, Ral, Guillermo,Ana, Maxi, Alejandro, Miki, Busta, Anita, Sergio, Juanma, Gema, Javier, Damin,Elena, Daniel, Martn, Antonio, Stefano, ha sido genial trabajar a vuestro lado.

Quiero tambin hacer especial mencin a dos personas. En primer lugar, aLuis, con quien tuve la gran fortuna de coincidir durante mi doctorado. A lo largode todo el tiempo que trabajamos juntos, no par de aprender cosas nuevas. Susabidura y su amistad me han ayudado enormemente a completar la tesis. Ensegundo lugar, a Diana, por su gran ayuda y apoyo durante estos aos. Siempreque lo he necesitado, he podido contar con ella y con sus buenos consejos. Sutesn a la hora de afrontar todos los retos que se ha propuesto y su capacidad desuperacin han sido una inspiracin inmejorable.

Tambin deseo agradecer a Vctor, mi director de tesis y jefe en el laboratorio,la confianza depositada en m, as como la oportunidad de realizar esta empresa.Igualmente debo agradecer a Miguel, codirector y compaero, por su ayuda y sustiles consejos.

VII

Finalmente, quiero agradecer al presidente del tribunal, D. Juan Pazos Sierra,las acertadas correcciones y sugerencias proporcionadas de cara a la escritura deesta monografa.

Madrid, Octubre de 2012Alberto Anguita Snchez

Resumen

Los avances logrados en la ltima dcada en los mtodos y tcnicas para laobtencin de informacin mediante secuenciacin gentica de muestras orgnicashan supuesto una revolucin en el rea de la investigacin biomdica. La dispo-nibilidad de nuevas fuentes de datos abre vas novedosas de trabajo para inves-tigadores que ya estn dando sus frutos con tcnicas mejoradas de diagnstico ynuevos tratamientos para enfermedades como el cncer.

El cambio ha sido tan drstico que, por contra, los mtodos empleados paraacceder a la informacin han quedado obsoletos. Para remediar esta situacin seha realizado un gran esfuerzo en el campo de la informtica biomdica con elobjetivo de desarrollar herramientas adecuadas para este reto tecnolgico. As, larevolucin gentica ha ido acompaada de un importante esfuerzo en el desa-rrollo de sistemas de integracin de datos heterogneos cada vez ms sofisticados.Sin embargo, los sistemas construidos han utilizado a menudo soluciones adhoc para cada problema. An cuando existen arquitecturas y estndares bien es-tablecidos en esta rea, cada sistema es diseado y construido desde cero ante cadanueva situacin. Asimismo, los sistemas desarrollados no son, en general, vlidospara problemas diferentes o para un conjunto distinto de requisitos. Ha faltado portanto un verdadero esfuerzo por estandarizar este tipo de sistemas.

En esta tesis doctoral se propone un modelo genrico de sistemas de integra-cin de datos heterogneos que facilite el diseo de los mismos. Se aporta asimis-mo una metodologa basada en dicho modelo y destinada a hacer ms eficienteslos procesos de implementacin y despliegue de estos sistemas. El modelo pre-sentado se basa en un anlisis exhaustivo de las caractersticas inherentes de lossistemas de integracin de datos. La metodologa propuesta, por su parte, haceuso de los estndares y tecnologas ms extendidos hoy en da en el mbito deacceso, gestin y comparticin de informacin de carcter biomdico. Asimismo,dicha metodologia se basa en el uso de modelos ontolgicos como paradigma decaracterizacin de la informacin, dado su uso mayoritario en este campo. Se per-

IX

sigue de esta manera ofrecer un marco estndar de diseo y desarrollo de sistemasde integracin que evite las implementaciones redundantes tan comunes en estarea. Se lograra as un avance importante en el rea del desarrollo de herramien-tas de integracin de datos heterogneos al proporcionar un marco para el diseoe implementacin de estos sistemas.

El trabajo de esta tesis doctoral se ha llevado a cabo en el marco de un pro-yecto europeo de investigacin, que ha servido a su vez de entorno de pruebas yvalidacin del modelo y metodologa propuestos.

ndice general

1. Introduccin y objetivos 11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3. Organizacin de este trabajo . . . . . . . . . . . . . . . . . . . . 9

2. Estado de la cuestin 112.1. Integracin de informacin en biomedicina . . . . . . . . . . . . 112.2. Clasificacin de heterogeneidades . . . . . . . . . . . . . . . . . 13

2.2.1. Heterogeneidades sintcticas . . . . . . . . . . . . . . . . 132.2.2. Heterogeneidades semnticas . . . . . . . . . . . . . . . 14

2.3. Arquitecturas y enfoques existentes para la integracin de BB.DD. 172.3.1. Enlazado de informacin . . . . . . . . . . . . . . . . . . 182.3.2. Traduccin de datos . . . . . . . . . . . . . . . . . . . . 192.3.3. Traduccin de consultas . . . . . . . . . . . . . . . . . . 202.3.4. Tcnicas de integracin de instancias . . . . . . . . . . . 222.3.5. Ontologas . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.6. Tipos de heterogeneidades entre esquemas basados en on-

tologas . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4. Ejemplos de sistemas de integracin . . . . . . . . . . . . . . . . 29

2.4.1. Sistemas de integracin a nivel de instancia . . . . . . . . 37

3. Mtodos 413.1. Modelo genrico de sistemas de integracin de BB.DD. heterog-

neas en biomedicina . . . . . . . . . . . . . . . . . . . . . . . . . 413.1.1. mbito del modelo . . . . . . . . . . . . . . . . . . . . . 413.1.2. Descripcin del modelo . . . . . . . . . . . . . . . . . . 463.1.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2. Marco de trabajo genrico de desarrollo de sistemas de integracin 543.2.1. Motor de traduccin e integracin . . . . . . . . . . . . . 573.2.2. Gestin de inconsistencias a nivel de esquema . . . . . . . 603.2.3. Reduccin del espacio de consultas . . . . . . . . . . . . 743.2.4. Modelo Fundamental de esquemas ontolgicos . . . . . . 763.2.5. Gestin de inconsistencias a nivel de instancia . . . . . . 783.2.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 80

XI

XII ndice general

4. Experimentacin y resultados 834.1. La plataforma ACGT . . . . . . . . . . . . . . . . . . . . . . . . 844.2. La capa de acceso de datos . . . . . . . . . . . . . . . . . . . . . 864.3. Requisitos de la capa de integracin de datos . . . . . . . . . . . 884.4. Aplicacin del modelo y el marco de trabajo propuestos en la

construccin de la capa de integracin de datos de ACGT . . . . . 904.4.1. Interfaces grficas de acceso al sistema de integracin de

datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.5. Pruebas bsicas de rendimiento . . . . . . . . . . . . . . . . . . . 944.6. Escenarios de validacin . . . . . . . . . . . . . . . . . . . . . . 96

4.6.1. Escenario TOP . . . . . . . . . . . . . . . . . . . . . . . 974.6.2. Escenario MCMP . . . . . . . . . . . . . . . . . . . . . . 1004.6.3. Escenario SIOP . . . . . . . . . . . . . . . . . . . . . . . 1024.6.4. Evaluacin final del proyecto ACGT . . . . . . . . . . . . 105

5. Discusin 1075.1. Importancia de la metodologa propuesta . . . . . . . . . . . . . . 1075.2. Modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . 1085.3. Marco de trabajo propuesto . . . . . . . . . . . . . . . . . . . . . 1105.4. Anlisis de los resultados . . . . . . . . . . . . . . . . . . . . . . 1175.5. Comparacin con sistemas relacionados . . . . . . . . . . . . . . 118

5.5.1. GeXpert . . . . . . . . . . . . . . . . . . . . . . . . . . . 1185.5.2. KIND . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.5.3. CoopWARE . . . . . . . . . . . . . . . . . . . . . . . . . 1205.5.4. EnsMart . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.5.5. TSIMMIS . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.5.6. BioMediator . . . . . . . . . . . . . . . . . . . . . . . . 1225.5.7. DebugIT . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.5.8. caBIG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6. Conclusiones y lneas futuras de investigacin 1256.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1256.2. Publicaciones derivadas de este trabajo . . . . . . . . . . . . . . . 1286.3. Futuras lneas de investigacin . . . . . . . . . . . . . . . . . . . 130

A. DTD de los documentos XML de mapping 133

B. Informe final de los evaluadores del proyecto europeo ACGT 135

Bibliografa 137

ndice de figuras

1.1. Progresin del nmero de BB.DD. pblicas en el rea biomdicaen la ultima dcada . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. La investigacin biomdica moderna implica acceder y gestionardatos de distintas fuentes y con formatos diferentes . . . . . . . . 3

1.3. Los sistemas de integracin de datos tienen como objetivo integrarde forma automtica datos dispersos y heterogneos . . . . . . . . 4

1.4. Los tres tipos de sistemas de integracin: a) Enlazado de informa-cin, b) Data Warehouses, y c) Sistemas distribuidos . . . . . . 5

2.1. Clasificacin de enfoques para la implementacin de sistemas deintegracin de BB.DD. heterogneas . . . . . . . . . . . . . . . . 19

2.2. Ejemplos de vistas sobre un esquema ontolgico construidas co-mo conjuntos de caminos. En (a) se muestra una vista compuestapor un nico camino de tres clases. En (b) se puede apreciar unavista compuesta por dos caminos unidos por una misma clase . . . 25

2.3. El camino del esquema fsico (patrn liso) tiene su equivalente enun camino tambin lineal, pero ms largo (patrn rallado) . . . . . 26

2.4. La informacin que representa una nica clase en el esquema glo-bal (patrn rallado) tiene su equivalencia en tres clases del esque-ma fsico (patrn liso) . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5. Un subconjunto del esquema fsico formado por varios caminosparalelos que convergen en su nodo inicial (patrn liso) tiene suequivalente en un nico camino lineal en el esquema global (pa-trn rallado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.6. Caminos paralelos con un nodo inicial convergente en el esquemafsico (patrn liso) equivalen a un camino lineal que se desdoblaen caminos paralelos en el esquema fsico (patrn rallado) . . . . 28

2.7. Una de las clases de la vista fsica debe especificar el valor deuno de sus atributos (patrn liso) para establecer la equivalenciasemntica con la vista del esquema global (patrn rallado) . . . . 29

3.1. Representacin de la entidad Mediador semntico . . . . . . . . 463.2. Representacin de la entidad Modelo semntico . . . . . . . . . 473.3. Representacin de la entidad Correspondencias semnticas . . . 473.4. Representacin de la entidad Gestor de correspondencias semn-

ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

XIII

XIV ndice de figuras

3.5. Representacin de la entidad Punto de entrada de consultas . . . 503.6. Representacin de la entidad Punto de entrada de corresponden-

cias semnticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.7. Diseo generado con el modelo genrico de sistemas de integra-

cin de BB.DD. para el ejemplo 1 . . . . . . . . . . . . . . . . . 533.8. Diseo generado con el modelo genrico de sistemas de integra-

cin de BB.DD. para el ejemplo 2 . . . . . . . . . . . . . . . . . 553.9. Marco de trabajo desarrollado para asistir en la construccin de

sistemas de integracin de BB.DD. heterogneas . . . . . . . . . 553.10. Representacin esquemtica del proceso de traduccin de consul-

tas en subconsultas para las fuentes de datos y posterior integra-cin de los resultados parciales en un resultado integrado . . . . . 59

3.11. Ejemplos varios de vistas. a) vista bsica (atmica), b) vista de uncamino ms largo, c) vista con dos caminos unidos por un enlace . 62

3.12. Ejemplos de varias correspondencias semnticas segn el enfoqueempleado (patrn rallado para la vista global, patrn liso para lafsica): (a) GaV (vista del esquema global atmica), (b) LaV (vistadel esquema local o fsico atmica), (c) hbrido (mezcla de losanteriores, sin restriccin alguna) . . . . . . . . . . . . . . . . . . 63

3.13. Ejemplo de metainformacin de una base de datos integrada en elformato de mapping . . . . . . . . . . . . . . . . . . . . . . . 65

3.14. Ejemplo de vista de una base de datos en el formato de mapping.En este caso, la vista consiste en un nico camino atmico . . . . 66

3.15. Ejemplo de vista de una base de datos en el formato de mapping.La vista representada consta de un nico camino de tres clases . . 67

3.16. Ejemplo de vista de una base de datos en el formato de map-ping. La vista esta formada por dos caminos unidos por la claseHumanBeing . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.17. Esquema de funcionamiento de la MappingAPI. Las tareas de es-ta API van desde la edicin o insercin de documentos de map-ping hasta el anlisis de documentos para su uso en el proceso detraduccin de consultas . . . . . . . . . . . . . . . . . . . . . . . 68

3.18. Para una vista extrada de la consulta original (azul) se buscanvistas en los documentos de correspondencias semnticas. Soloaquellas que coincidan con la vista de la consulta o sean ms es-pecificas (verde claro) se utilizan para construir la subconsulta,descartando el resto (verde oscuro) . . . . . . . . . . . . . . . . . 69

3.19. Varias formas diferentes de representar la misma vista (diferentesvistas semnticamente equivalentes) . . . . . . . . . . . . . . . . 70

3.20. Dos vistas semnticamente equivalentes que utilizan relacionesinversas. Las relaciones genera y revela de la vista superior sonreemplazadas en la vista inferior por esGeneradoPor y esReveladoPor 71

ndice de figuras XV

3.21. Proceso de normalizacin de vistas: a) vista RDF original formadapor dos caminos, b) descomposicin de la vista en ternas simples,c) normalizacin de cada camino (sustitucin de relaciones porrelaciones inversas), d) serializacin de los nombres de las clasesy relaciones de los caminos resultantes . . . . . . . . . . . . . . . 73

3.22. Gestin de accesos a la informacin de correspondencias semn-ticas mediante la API dedicada . . . . . . . . . . . . . . . . . . . 75

3.23. Proceso de anlisis sintctico de documentos OWL llevado a cabopor OWLBasicModel . . . . . . . . . . . . . . . . . . . . . . . . 78

3.24. Proceso de homogeneizacin de instancias en las consultas desti-nadas a las fuentes de datos (izquierda) y en los resultados parcia-les (derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.25. Arquitectura resultante para el ejemplo 1 . . . . . . . . . . . . . . 823.26. Arquitectura resultante para el ejemplo 2 . . . . . . . . . . . . . . 82

4.1. Arquitectura de la plataforma de servicios desarrollada en el pro-yecto ACGT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.2. Arquitectura de la capa dedicada al acceso e integracin de datosheterogneos en la plataforma ACGT . . . . . . . . . . . . . . . 88

4.3. Diseo del sistema de integracin de datos para la plataforma ACGT 914.4. Arquitectura del sistema de integracin de datos para la platafor-

ma ACGT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.5. Reparto del esfuerzo para las distintas tareas llevadas a cabo du-

rante el desarrollo del sistema de integracin de datos de la plata-forma ACGT . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.6. Pantalla principal de la QueryTool, donde el usuario es asistido enel proceso de construccin de consultas SPARQL para el sistemade integracin de ACGT . . . . . . . . . . . . . . . . . . . . . . 94

4.7. Pantalla principal de la MappingTool. Los usuarios construyen deforma grfica vistas de la MO y de la base de datos a integrar,definiendo as las correspondencias semnticas necesarias para laintegracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.8. Tiempo en segundos de carga de la ACGT Master Ontology. Cadauna de las columnas muestra los resultados para un sistema. LaOWLBasicModel API supera en eficiencia al resto de las soluciones 96

4.9. Representacin de los componentes de la plataforma ACGT invo-lucrados en el escenario TOP . . . . . . . . . . . . . . . . . . . . 98

4.10. Fragmento del mapping resultante de la base de datos clnica enel escenario TOP . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.11. Escenario MCMP en la plataforma ACGT . . . . . . . . . . . . . 1024.12. Parte del mapping resultante con la base de datos de Affymetrix

en el escenario MCMP . . . . . . . . . . . . . . . . . . . . . . . 1034.13. Escenario SIOP en la plataforma ACGT. En este caso, uno de los

mappings fue generado automticamente a travs de la Mappin-gAPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

XVI ndice de figuras

4.14. Parte del mapping generado de forma automtica mediante laMappingAPI para la base de datos clnica . . . . . . . . . . . . . 106

ndice de tablas

2.1. Las tres categoras principales de heterogeneidades semnticas,junto a sus respectivas subcategoras . . . . . . . . . . . . . . . . 15

2.2. Ejemplos de los principales proyectos de investigacin realizadoso en curso con el problema de la integracin de BB.DD. hetero-gneas como pilar central . . . . . . . . . . . . . . . . . . . . . . 30

2.3. Cuadro comparativo de los principales sistemas de integracin deBB.DD. biomdicas heterogneas . . . . . . . . . . . . . . . . . 37

2.4. Ejemplos de sistemas de resolucin de heterogeneidades a nivelde instancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1. Medidas del tiempo de respuesta del sistema de integracin dedatos heterogneos de la plataforma ACGT para consultas de di-ferente tamao . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.1. Comparativa de las caractersticas principales del modelo y arqui-tectura propuestos con algunos sistemas relacionados . . . . . . . 119

XVII

Captulo 1Introduccin y objetivos

1.1. Introduccin

En el ao 1990 se inici el proyecto Genoma Humano1 con el objetivo de de-terminar la secuencia de bases qumicas que componen el ADN humano. El pro-yecto, liderado por el Departamento de Energa y los Institutos Nacionales de laSalud de los Estados Unidos, con la colaboracin de diversos institutos cientficosde otros pases, culmin en 2003 con la obtencin de la secuencia completa del ge-noma humano. Se inici as la llamada revolucin mica, que ha transformadoradicalmente el modus operandi de la investigacin biomdica y ha dado lugara nuevas posibilidades de diagnsticos y terapias ms efectivas y seguras basadasen las caractersticas genticas de cada paciente (la llamada medicina persona-lizada) (Maojo y Tsiknakis, 2007; Nature editorial, 2004). La secuenciacin delgenoma humano no solo trajo consigo una gran cantidad de datos de inestimablevalor, sino que adems se lograron enormes avances en tcnicas y procesos parael anlisis de muestras biolgicas y extraccin de expresiones genticas (Joyce yPalsson, 2006). Disponer de informacin sobre la expresin de los genes de unpaciente a un coste razonable fue de pronto factible (Petrik et al., 2006; Ippolitoet al., 2005; Rebbeck, 2006). Esta facilidad para obtener ingentes cantidades dedatos de gran valor para los investigadores biomdicos se ha visto favorecida porla imparable expansin de Internet durante la ltima dcada. El crecimiento debases de datos, en adelante BB.DD., de carcter biomdico disponibles pblica-mente a travs de Internet, del orden del centenar por ao durante la ltima dcada,

1http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml

1

2 1.1. Introduccin

Figura 1.1: Progresin del nmero de BB.DD. pblicas en el rea biomdica en laultima dcada

se traduce a da de hoy en la posibilidad por parte de investigadores de accedera en torno a las mil quinientas fuentes de datos relacionadas con la biomedicina(Galperin y Fernndez-Surez, 2012). La figura 1.1 muestra esta situacin.

Debido a esta revolucin, la forma de trabajar de los investigadores biomdi-cos ha cambiado radicalmente. Mientras que anteriormente su labor implicaba elacceso y la gestin de los datos recogidos en una nica base de datos, hoy en daesta misma labor requiere la utilizacin y el acceso a mltiples BB.DD. (Collins yMcKusick, 2001). Este cambio no resulta en absoluto trivial, pues dichas BB.DD.pueden estar localizadas de forma dispersa, representar la misma informacin deforma dispar, o incluso utilizar tecnologas incompatibles. La figura 1.2 ilustraesta situacin.

Este cambio de paradigma trajo consigo nuevas oportunidades, pero a su vezprodujo nuevos impedimentos y problemas que dificultaban la labor de los in-vestigadores (Lenzerini, 2002). La utilizacin de datos heterogneos requiere unproceso de homogeneizacin para su correcta explotacin y transformacin enconocimiento nuevo. Este proceso, inicialmente llevado a cabo de forma manual,resulta muy lento y costoso debido a las cantidades de datos que se manejan. Losmtodos tradicionales con los que los investigadores biomdicos accedan y ma-nejaban los datos quedaron as obsoletos. De un enfoque de trabajo basado en elacceso y anlisis de los datos de una nica fuente se pas a gestionar datos dedistinta ndole y procedentes de fuentes heterogneas y de diversa procedencia.Eran por tanto precisos nuevos enfoques que permitiesen a los investigadores ac-

Captulo 1. Introduccin y objetivos 3

Figura 1.2: La investigacin biomdica moderna implica acceder y gestionar datosde distintas fuentes y con formatos diferentes

ceder de forma homognea al conjunto de fuentes de datos heterogneas que seponan a su disposicin. Con el objetivo de solventar esta nueva problemtica secomenz a investigar hace ya ms de una dcada en la creacin de sistemas capa-ces de automatizar las tareas de extraccin de datos dispersos y heterogneos y suposterior homogeneizacin. Estos son los denominados sistemas de integracinde BB.DD. heterogneas, o simplemente sistemas de integracin de datos. Su ob-jetivo es asistir al usuario en el proceso de homogeneizacin de datos procedentesde fuentes dispersas y heterogneas, y en ltimo trmino abstraer al mismo delacceso distribuido a los datos. La figura 1.3 representa la labor de los sistemas deintegracin de datos.

Los sistemas de integracin de datos no son propios del dominio de la bio-medicina, sino que son empleados en muchas otras reas (banca, gestin de em-presas, ciencias sociales, estadsticas geopolticas, etc.). Sin embargo, el dominiode la biomedicina ha sido uno de los principales motores que ha impulsado lainvestigacin de sistemas ms sofisticados. Los primeros diseos dieron lugar asistemas capaces de poco ms que ofrecer hipervnculos desde unos datos a otrospara que el propio usuario accediese manualmente a la informacin requerida. Si

4 1.1. Introduccin

Figura 1.3: Los sistemas de integracin de datos tienen como objetivo integrar deforma automtica datos dispersos y heterogneos

bien esto supuso un primer paso importante, resultaba insuficiente a la hora deabstraer al usuario de la tarea de tratar con las heterogeneidades en los datos. Estetipo de sistemas dio paso a diseos ms avanzados, entrando en juego el concep-to de esquema global o virtual. La idea consista en definir un esquema de datosque abarcase todos los esquemas de las BB.DD. a integrar. El usuario del siste-ma de integracin lanzara consultas en este esquema global, sin necesitar tenerconstancia de los esquemas de las BB.DD. subyacentes. El sistema se encargarapues de obtener los datos necesarios de las fuentes para responder a la consultaoriginal, todo de forma transparente para el usuario. Este enfoque tiene la ventajade una mayor usabilidad, pues abstrae totalmente al usuario del proceso de inte-gracin de datos. Por contra, implica diseos e implementaciones ms complejasy sofisticadas. Los primeros sistemas en adoptar esta tcnica fueron los denomi-nados Data Warehouses. Estos sistemas se basan en un enfoque centralizado,en el sentido de que los datos son recolectados y almacenados en un repositoriocentral en un proceso previo al de la resolucin de consultas de los usuarios. Estetipo de soluciones han sido bien acogidas en entornos empresariales, donde lasfuentes de datos a integrar son conocidas a priori y hay pleno control sobre loscambios en los datos. Sin embargo, el entorno biomdico cuenta con BB.DD. delibre acceso sobre las cuales no se tiene control y cuyas actualizaciones son impre-decibles. Asimismo, cada ao surgen cientos de BB.DD. nuevas en el rea de labiomedicina. Por ello, esta rea requiere soluciones ms flexibles frente a cambiosy ms fciles de actualizar ante nuevas fuentes de datos que puedan surgir. Paradar respuesta a estas cuestiones se plantea un tipo de sistemas opuesto a los Da-


Figura 1.4: Los tres tipos de sistemas de integracin: a) Enlazado de informacin, b)Data Warehouses, y c) Sistemas distribuidos

ta Warehouses: los sistemas basados en enfoque federado o distribuido. La ideaconsiste en mantener los datos en todo momento en sus respectivas fuentes, y soloacceder a ellos bajo demanda de consultas de usuarios. De este modo se resuelvela falta de flexibilidad y adaptabilidad requerida en un entorno abierto y dinmicocomo es el biomdico. Por contra, este tipo de sistemas es ms costoso de desarro-llar, y adolece de problemas de eficiencia debido a la complejidad computacionalde las tareas que debe ejecutar. Este enfoque utiliza, al igual que los Data Wa-rehouses, el concepto de esquema global, solo que en este caso no existe ningunabase de datos fsica que implemente dicho esquema. Sin embargo, el usuario noser consciente de este hecho, pues las consultas se siguen realizando en trminosdel esquema global, y los resultados generados son, asimismo, respuestas a esasconsultas. El acceso dinmico a los datos y posterior composicin del resultadofinal mantiene, por tanto, la transparencia respecto al proceso de integracin decara al usuario. La figura 1.4 representa las tres clases de sistemas de integracinde datos existentes.

El objetivo de los sistemas de integracin, sea cual sea el enfoque empleado,es resolver las heterogeneidades presentes en un conjunto de BB.DD. y presentarla informacin en ellas contenida de forma homognea. Las heterogeneidades aresolver, y en general las funcionalidades que debe soportar un sistema, vienendadas por el tipo de datos a integrar y los requisitos especficos impuestos porel entorno o rea para la cual deber servir. La complejidad de los sistemas deintegracin de datos (especialmente en el caso de aquellos que adoptan el enfoquefederado) hace que se requiera emplear gran cantidad de recursos en su desarrolloe implantacin. La importancia de este problema es ampliamente reconocida enel rea de la bioinformtica, hasta el punto de ser el tema central de numerososproyectos de investigacin a escala europea e internacional durante los ltimos

6 1.2. Objetivos

aos.

1.2. Objetivos

El trabajo presentado en esta tesis doctoral va destinado a mejorar la eficienciade los procesos de diseo y desarrollo de sistemas de integracin de datos hete-rogneos. El objetivo es proporcionar un marco ordenado y formal destinado alos desarrolladores de estos sistemas. Se busca de esta manera disminuir las im-plementaciones redundantes en esta rea, y por ende reducir los costes de estosprocesos de desarrollo (por lo general bastante elevados).

El marco que se propondr en esta tesis doctoral pretende servir como guaen las dos fases ms importantes del desarrollo de un sistema de integracin deBB.DD. heterogneas: diseo e implementacin. Para ello, dicho marco estarcompuesto de dos entidades:

Un modelo que represente las diferentes caractersticas funcionales de lossistemas de integracin y que proporcione un esquema sobre el que los desa-rrolladores puedan basar su trabajo una vez que partan de una serie de re-quisitos.

Una metodologa que permita traducir los diseos generados en la fase pre-via mediante el modelo propuesto a implementaciones funcionales. Estametodologa describira de manera formal los formatos, mtodos y defini-ciones necesarias para automatizar el desarrollo de los sistemas de integra-cin.

La labor propuesta se basar en un anlisis exhaustivo de sistemas de integra-cin existentes que permita abordar la posible estandarizacin de los mismos. Sehace as patente la especial importancia que cobra en esta tesis doctoral el anlisisdel estado de la cuestin. El desarrollo satisfactorio del marco formal para el di-seo e implementacin de los sistemas de integracin deber partir de un estudioriguroso de las soluciones empleadas hasta la fecha en este campo. Se espera quelos resultados de este estudio sirvan de base en la construccin del marco formalexpuesto anteriormente. As, la tesis expuesta en este trabajo y que se tratar dedemostrar es:


Es posible optimizar los procesos de diseo, desarrollo e implantacin de sis-

temas de integracin de BB.DD. biomdicas heterogneas mediante el uso de un

modelo y de un marco formal de trabajo genricos.

El trabajo presentado en esta tesis doctoral se ha llevado a cabo en el marcodel proyecto europeo ACGT2, dedicado al desarrollo de mtodos y herramientaspara la gestin telemtica de ensayos clnicos sobre cncer y el anlisis de datos.El objetivo de ACGT era el desarrollo de una plataforma tecnolgica compuestapor una serie de servicios entre los cuales se inclua una capa de integracin deBB.DD. heterogneas. El trabajo realizado en ACGT por el autor de esta tesis,como miembro del Grupo de Informtica Biomdica perteneciente a la Facultadde Informtica de la Universidad Politcnica de Madrid, consisti en disear ydesarrollar dicha capa de integracin de datos. La plataforma ACGT fue ideadapartiendo de una serie de requisitos recolectados a travs de las necesidades ex-puestas por usuarios finales. En concreto, se requiri implementar un sistema deintegracin con enfoque federado capaz de integrar BB.DD. pblicas y privadas,con gran capacidad de adaptabilidad ante cambios en las BB.DD. y la posibilidadde aadir nuevas fuentes de datos de forma dinmica.

La labor llevada a cabo en el proyecto ACGT se inici con un anlisis de so-luciones existentes para la integracin de datos heterogneos en el mbito de labiomedicina. El estudio revel la similitud de los diseos y tecnologas emplea-dos por los sistemas destinados a integrar BB.DD. biomdicas heterogneas. Porcontra, destacaba la falta de estndares o plataformas que facilitasen el desarro-llo de estos. Se observ que, por lo general, cada sistema utilizaba un desarrolload hoc para cada aplicacin especfica, an cuando estas aplicaciones tiendena compartir varias caractersticas o requisitos. De esta forma, este anlisis previoa la labor llevada a cabo en esta tesis doctoral sugerira una respuesta afirmativaa la tesis planteada. La construccin de sistemas de integracin de datos es unproceso de ingeniera de software, y por lo tanto sujeto a ser caracterizado me-diante patrones de diseo y desarrollo. El hecho de poder modelar los sistemas deintegracin en el mbito de la biomedicina no se pone en duda. Cualquier rea deconocimiento cientfico es modelable, siempre y cuando se incluya en el modeloresultante un nmero suficientemente alto de variables. La cuestin reside en sies posible obtener un modelo lo bastante genrico para abarcar un amplio nme-

2http://www.eu-acgt.org/

8 1.2. Objetivos

ro de sistemas de integracin de BB.DD. biomdicas heterogneas, y a la vez lobastante sencillo como para resultar de utilidad.

El proceso de construccin de un modelo de sistemas de integracin de datosnecesita una caracterizacin exhaustiva de este tipo de sistemas. Si la cantidadde caractersticas comunes a todos los sistemas obtenida mediante este procesosupone la amplia mayora con respecto a caractersticas individuales y especficasde cada sistema, ser posible desarrollar un modelo lo suficientemente til y almismo tiempo sencillo.

La obtencin de un modelo de sistemas de integracin de datos permitira sim-plificar la fase de diseo, pero no contribuira al resto de fases (implementacin ydespliegue). Con el objetivo de optimizar el proceso completo de desarrollo de sis-temas de integracin de datos, se pretende, en caso de obtener un modelo vlido,desarrollar una metodologa complementaria destinada a facilitar la construccinde sistemas basados en diseos obtenidos con el modelo.

La consecucin del modelo de sistemas de integracin de datos, junto con lametodologa para el desarrollo de estos, supondra disponer de un proceso guiadoy asistido para el desarrollo de este tipo de sistemas. Los costes en la construc-cin de sistemas de integracin de datos, elevados normalmente, podran versereducidos en gran medida gracias a la utilizacin de estos elementos. Dada la im-portancia presente y futura de ofrecer a investigadores biomdicos mtodos paraacceder de forma sencilla y homognea a mltiples fuentes de datos dispersas yheterogneas, resulta de gran inters resolver la tesis anteriormente expuesta.

La metodologa propuesta para verificar la tesis planteada es la siguiente:

Recopilacin y anlisis exhaustivo del estado de la cuestin de sistemas deintegracin de datos biomdicos: se realizar un estudio sobre los sistemasms relevantes existentes hasta la fecha.

Caracterizacin: se extraern las caractersticas de los sistemas analizados,centrndose en aquellas que sean comunes a todos los sistemas, y se crearun conjunto de propiedades inherentes a este tipo de sistemas.

Elaboracin del modelo: se desarrollar un modelo original que contemplelas propiedades extradas y consideradas inherentes a los sistemas de inte-gracin de datos biomdicos.

Construccin del marco de trabajo: se disear y desarrollar un marco detrabajo capaz de reflejar diseos creados a partir del modelo obtenido.


Validacin: se validar el modelo y el marco de trabajo con ejemplos reales.

El contexto para realizar el proceso de validacin del modelo y el marco detrabajo ser el mismo proyecto ACGT. Como se explic inicialmente, la labor rea-lizada por el autor de este trabajo dentro de este proyecto fue la de desarrollar unacapa de integracin de BB.DD. distribuidas y heterogneas en el contexto de losensayos clnicos sobre cncer. La validacin consisti en realizar el diseo y laposterior implementacin de esta capa de integracin de datos mediante el mode-lo y el marco de trabajo desarrollados en esta tesis. El resultado de la validacinvendra indicado por el esfuerzo requerido, en trminos de horas de trabajo, hastalograr un sistema funcional capaz de ser desplegado en la plataforma tecnolgi-ca de ACGT. Un esfuerzo menor que el que se hubiese dedicado mediante undesarrollo ad hoc confirmara la tesis expuesta. La fase de validacin concluyecon la descripcin detallada de los escenarios utilizados en ACGT para validar laplataforma implementada (y por ende para confirmar que la capa de integracindesarrollada cumple con los requisitos impuestos inicialmente).

1.3. Organizacin de este trabajo

La estructura de esta tesis doctoral se describe a continuacin. El siguientecaptulo contiene un anlisis del estado de la cuestin del rea de integracin deBB.DD. heterogneas en el dominio biomdico. El estudio incluye una descrip-cin detallada de los mtodos y enfoques utilizados por los sistemas de integracinde datos, un anlisis del tipo de heterogeneidades propias del rea biomdica, yuna recopilacin de los sistemas de integracin ms relevantes desarrollados du-rante la ltima dcada en el rea de la biomedicina.

En el tercer captulo se describe el proceso de caracterizacin de los sistemasde integracin de datos biomdicos y se exponen el modelo y el marco de trabajogenricos desarrollados. Las caractersticas del modelo y los componentes delmarco de trabajo son expuestos en detalle junto con ejemplos de uso.

El cuarto captulo est dedicado a los experimentos. Aqu se expone el procesode desarrollo de la capa de integracin de datos mediante el modelo y el marcode trabajo presentados. Asimismo, se explican diferentes escenarios de pruebaempleados para validar el funcionamiento de la capa de integracin de datos.

En el quinto captulo se puede encontrar una discusin de los experimentosdescritos en el captulo anterior. Adems, diversos componentes y mtodos del

10 1.3. Organizacin de este trabajo

marco de trabajo son comparados con otros sistemas relacionados.Por ltimo, el sexto captulo expone las conclusiones del trabajo desarrollado

en esta tesis doctoral, incluyendo posibles lneas futuras de investigacin.

Captulo 2Estado de la cuestin

2.1. Integracin de informacin en biomedicina

Estudios recientes (Grotkjaer y Nielsen, 2004; Gurwitz et al., 2006; Philippiy Kohler, 2006) resaltan la necesidad de integrar datos biomdicos heterogneoscomo paso previo al anlisis de datos genmicos. Hasta la fecha, la integracinde datos biomdicos ha sido empleada como medio para validar experimentos yllevar a cabo ensayos que requieran la gestin de grandes cantidades de datos delgenoma humano (Jansen et al., 2002).

El anlisis de datos integrados (por ejemplo, datos genmicos junto con susfunciones e implicaciones clnicas) resulta cada vez ms importante en biomedi-cina. En investigacin sobre cncer, la bsqueda de biomarcadores que ayuden aidentificar tejido cancergeno o predecir resultados de terapias depende de la capa-cidad de los investigadores de disponer de datos de distintas fuentes. En algunoscasos, la integracin de datos de diferentes fuentes es necesaria simplemente pa-ra solventar la escasez de datos que se puede dar en esta rea. Jansen y colegas(Jansen et al., 2002) integran distintas fuentes para poder analizar con suficientesdatos el germen de la levadura. En experimentos de microarrays es tpico disponerde pocos datos debido a la dificultad en el proceso de extraccin de informacin.Jiang y colegas (Jiang et al., 2004) describen el proceso de integracin de dosconjuntos de datos de sendos estudios sobre cncer de pulmn. En este caso seemplean procesos de transformacin y normalizacin con el fin de generar unnico conjunto de datos. Este trabajo permiti a los investigadores identificar ge-nes especficos con patrones de expresiones que permiten distinguir tejido normal

11

12 2.1. Integracin de informacin en biomedicina

de tejido maligno. La necesidad de llevar a cabo integracin de datos resulta cadavez ms patente en la investigacin biomdica.

La biologa de sistemas (Longtin, 2005) es una disciplina que ha emergido re-cientemente y que se basa en una visin integradora de varios niveles de sistemasbiolgicos como la clave para entender los procesos y mecanismos que gobiernanel comportamiento de los sistemas biolgicos. Segn esta disciplina, las propie-dades inherentes de los sistemas biolgicos no son un producto de componentessimples, sino ms bien propiedades emergentes resultado de la interaccin de lasdiferentes partes de que constan los sistemas examinados. En este sentido, se pue-de concluir que los datos provenientes de una nica fuente, y que describen soloalgunas de las caractersticas de un sistema biolgico a un nivel concreto, resul-tan insuficientes para explicar el comportamiento global de un sistema. Por estemotivo se requiere la adopcin de enfoques de integracin que permitan extraer elconocimiento necesario para comprender estos sistemas.

En este contexto de integracin necesario para el descubrimiento de nuevoconocimiento, el diseo de numerosas BB.DD. no sigue ninguna metodologa es-tndar. En otros casos no se dispone de un esquema que permita estructurar lainformacin disponible. Por otra parte, a menudo resulta complicado identificardatos semnticamente equivalentes. Estas cuestiones hacen que el desarrollo desistemas de integracin no resulte trivial. Wong (Wong, 2002) identifica cuatro re-quisitos que cualquier sistema que pretenda resolver estos impedimentos deberacumplir: 1) La disponibilidad de un esquema de datos no debera ser obligatoria.2) Es aconsejable adoptar un modelo de representacin del conocimiento capazde traducir y enlazar conceptos a recursos externos (por ejemplo, una ontologa).3) Las modificaciones en las fuentes de datos integradas no deberan implicargrandes cambios en el sistema. 4) Siempre que sea posible deberan adoptarseestndares de consultas y de formatos de datos.

Hasta hace relativamente poco tiempo, todos los procesos de integracin dedatos eran realizados de forma manual por los investigadores que necesitaban ac-ceder a dicha informacin. Debido al auge en el nmero y tamao de fuentespblicas de datos en el entorno biomdico (en la actualidad sobre el millar deBB.DD.), hoy en da este proceso resulta inviable. Los esfuerzos llevados a cabodurante la ltima dcada en el desarrollo de sistemas de integracin tienen comoobjetivo dar respuesta a esta situacin. Esta labor ha dado lugar a metodologas yenfoques que han permitido solventar los problemas ms importantes en la inte-gracin de datos biomdicos (Zheng, 2006; Lee et al., 2006; Ameur et al., 2006;

Captulo 2. Estado de la cuestin 13

Mesiti et al., 2009). Anguita y colegas (Anguita et al., 2010) realizan una revisinexhaustiva del estado de la cuestin en esta rea. Las siguientes subsecciones deta-llan los tipos de heterogeneidades que se encuentran a la hora de integrar BB.DD.biomdicas, as como las tcnicas ms habituales para el desarrollo de sistemas deintegracin de datos heterogneos en el mbito de la biomedicina.

2.2. Clasificacin de heterogeneidades

El objetivo de los sistemas de integracin de BB.DD. es ofrecer una vista ho-mognea sobre un conjunto de repositorios de datos independientes entre s. Estatarea conlleva una serie de retos tecnolgicos que han de ser acometidos, especial-mente si se trabaja con BB.DD. biomdicas. Esta rea se caracteriza por un altogrado de heterogeneidad en sus BB.DD. y un rpido ritmo de crecimiento y actua-lizacin. Existen gran cantidad de estndares, formatos y lenguajes para describiry codificar datos de carcter biomdico. Asimismo, decenas de nuevas BB.DD.son creadas y modificadas cada ao, resultando un verdadero quebradero de cabe-za el manejo de tal cantidad de fuentes de informacin. Por poner un ejemplo, lasimple integracin de una versin en XML de una base de datos de protenas conuna base de datos privada de tipo relacional implica tratar las divergencias sintc-ticas entre ambas fuentes. An cuando se manejan fuentes de datos que comparteninterfaz, los esquemas diseados para contener datos semnticamente equivalen-tes son a menudo totalmente incompatibles. A esto se debe sumar la resolucinde las divergencias entre datos debidas a diferentes codificaciones de los mismos.A continuacin se detallan y clasifican los diferentes tipos de heterogeneidades atener en cuenta.

2.2.1. Heterogeneidades sintcticas

Las heterogeneidades sintcticas son producto de los diferentes mtodos yenfoques que se emplean a la hora de gestionar y acceder a los datos en distintasBB.DD. Existen tres fuentes de heterogeneidades sintcticas:

1.- Diferencias en los modelos de representacin del conocimiento: los datospueden estar almacenados en un fichero plano (por tanto, sin una estructuracorrespondiente), en una estructura XML, de acuerdo a un modelo relacio-nal, mediante un modelo jerrquico de datos (por ejemplo, RDF), etc. El uso

14 2.2. Clasificacin de heterogeneidades

de diferentes modelos de organizacin de los datos imposibilita un accesohomogneo a los mismos.

2.- Diferente lenguaje de consulta: an cuando dos fuentes de datos compartanel mismo modelo de representacin del conocimiento, es posible que acep-ten distintos lenguajes de consulta (por ejemplo, SQL, HQL, OQL, LINKpara BB.DD. relacionales).

3.- Tipo de interfaz: la interfaz para acceder a las BB.DD. puede ser de distintanaturaleza (Servicios Web, interfaces programticas, formularios HTML,etc.)

Este tipo de heterogeneidades suelen resolverse mediante el uso de arquitec-turas basadas en wrappers de BB.DD. Los wrappers son mdulos de softwarepensados especficamente para envolver a las BB.DD. implicadas y dotarlas deuna nueva interfaz compatible con todas las dems. Esta arquitectura se detalla enla seccin 2.3.3.

2.2.2. Heterogeneidades semnticas

En contraposicin a las heterogeneidades debidas a diferencias en el acceso alos datos, descritas en la seccin anterior, las heterogeneidades semnticas son elresultado de diferencias en la modelizacin y en la codificacin de informacinsemnticamente equivalente. Estas se dividen en dos categoras:

1.- Heterogeneidades a nivel de esquema: se refieren a diferencias en la formade organizar los datos entre diferentes repositorios; es decir, diferencias enlos esquemas o los metadatos.

2.- Heterogeneidades a nivel de instancia: se refieren a diferencias causadas porel uso de distintas codificaciones para almacenar la informacin.

Las secciones siguientes describen en mayor detalle estas categoras.

Heterogeneidades a nivel de esquema

Las heterogeneidades a nivel de esquema son las debidas a diferencias en losesquemas o los metadatos empleados por las BB.DD. a integrar. Estas diferenciaspueden surgir debido a divergencias lingsticas a la hora de definir conceptos


o atributos equivalentes. Sinonimias, abreviaturas o diferencias en la codificacinpueden ser la causa de este tipo de heterogeneidades. Por ejemplo, donde una basepuede contener un campo denominado IdentificadorPaciente, otra podra definirel concepto equivalente mediante IDPaciente.

Se pueden encontrar diversas clasificaciones de las heterogeneidades a nivelde esquema en la literatura relacionada, tal y como detalla Bergman (Bergman,2006). En forma resumida, existen tres grandes categoras de causas de heteroge-neidades a nivel de esquema: 1) Heterogeneidades de nombrado: el mismo con-cepto se define de formas diferentes. 2) Heterogeneidades de granularidad: distin-tas BB.DD. modelan un dominio a niveles de detalle diferentes. 3) Heterogenei-dades estructurales: la organizacin y estructura de la informacin puede variarde una base de datos a otra, aun cuando traten el mismo dominio. Estas categorascontienen a su vez subclasificaciones, como se puede apreciar en la tabla 2.1.

Categora Subcategoria Descripcin

NombradoSinonimia Diferentes trminos refirindose al mismo con-

ceptoAbreviaturas Un trmino es la forma abreviada de otroCodificacin Diferentes codificaciones usadas para referirse al

mismo concepto

Granularidad Especializacin La informacin contenida en un campo de unafuente est dividida en varios campos de la otrafuente

Generalizacin La informacin contenida en varios campos deuna fuente corresponde a un campo de la otrafuente

Estructura - Diferencias en la estructura interna empleada paraalmacenar las relaciones entre conceptos

Tabla 2.1: Las tres categoras principales de heterogeneidades semnticas, junto asus respectivas subcategoras

Ntese que las heterogeneidades listadas en la tabla 2.1 no son mutuamenteexcluyentes, y que una heterogeneidad puede en muchos casos ser el resultado decombinar dos o ms tipos de heterogeneidades, o bien estas aparecen entremez-cladas.

Existen numerosas propuestas para resolver el problema de las heterogeneida-des a nivel de esquema. No obstante, todas ellas suelen basarse en una estrategiacomn: la definicin de una entidad que acte como esquema global y para lacual se establezcan relaciones de correspondencia o traduccin con cada una delas fuentes a integrar.

16 2.2. Clasificacin de heterogeneidades

Heterogeneidades a nivel de instancia

Las heterogeneidades a nivel de instancia tienen dos grandes causas: erroresen los datos y diferencias en la representacin de datos equivalentes. La existenciade datos errneos es algo inherente a las BB.DD., y no solo al proceso de integra-cin de datos. Existen tcnicas para, hasta cierto punto, resolver dichos errores.Sin embargo, esta seccin se centra en el segundo caso, el cual surge de forma ex-plcita durante el proceso de integracin de BB.DD. Las causas de estas heteroge-neidades van desde el carcter independiente de los diseos de diferentes fuentesde datos hasta la dejacin por parte de administradores de BB.DD. de incorporarestndares, o simplemente debido a la existencia de ms de un estndar que defi-na cmo representar los datos dentro de un dominio. Aparte del uso de distintosestndares, una base de datos puede representar unos datos concretos medianteabreviaturas, o con sinnimos (de forma similar a como se daba en el caso delas heterogeneidades a nivel de esquema). Esta situacin se da con especial rele-vancia en el dominio biolgico (Cimino, 1998). Por poner un ejemplo, el trminoleucemia mieloide aguda se codifica como D015470 en BB.DD. indexadas conMeSH, o como C3171 segn el tesauro del NCI (Burgun y Bodenreider, 2008).

Aparte de valores codificados mediante cadenas de caracteres, las heteroge-neidades de instancia se pueden dar en datos numricos. Esta situacin se da, porejemplo, al usar diferentes unidades de medida para describir entidades fsicasequivalentes. As, el tamao de un tumor puede aparecer en una base de datoscon el valor 17,6 si est representado en milmetros, o con 1,76 si se utilizancentmetros. La edad de un paciente puede estar representada en aos en un lugar,pero en meses en otro. Las diferencias en formatos ms complejos tambin soncausa de heterogeneidades a nivel de instancia. Una fecha puede ser recogida enel formato da-mes-ao en una base de datos, y mes-da-ao en otra.

Los sistemas de integracin tienen la misin de ofrecer una vista nica y ho-mognea sobre los datos que integran. Esto implica resolver las heterogeneidadesanteriormente descritas por medio de las pertinentes transformaciones de datos.El incremento constante de las BB.DD. (tanto en nmero como en tamao) hacenecesaria la adopcin de mtodos automticos de resolucin de los conflictos de-bidos a heterogeneidades de instancia. Rahm y Do describen los pasos que deberaseguir un proceso de homogeneizacin de instancias (Rahm y Do, 2000):

1.- Anlisis de datos: para producir los metadatos que describan las caracters-ticas inherentes de los datos a homogeneizar (rango, distribucin, etc). Esto


permitir posteriormente descubrir las inconsistencias a resolver.

2.- Definicin de reglas de transformacin: las cuales, al ser aplicadas a losdatos en cuestin, producirn valores homogneos entre s.

3.- Verificacin: prueba y evaluacin de las reglas definidas anteriormente.

4.- Transformacin: aplicacin de las reglas definidas sobre los datos a homo-geneizar.

Existen varios sistemas especializados en la resolucin de heterogeneidades anivel de instancia, y que implementan una o varias de las fases aqu expuestas.Estos sistemas son descritos en detalle en la seccin 2.4.1.

2.3. Arquitecturas y enfoques existentes para la in-tegracin de BB.DD.

Con el fin de dar solucin a los problemas originados por las heterogeneidadesentre BB.DD. biomdicas a la hora de acceder a diferentes fuentes, los inform-ticos biomdicos han centrado sus esfuerzos en los denominados Sistemas deBB.DD. heterogneas (HDBS en sus siglas en ingls). Los HDBS se puedendefinir como la construccin de modelos computacionales que ofrecen interfaceshomogneas de consultas de datos sobre datos distribuidos y almacenados en ml-tiples fuentes de datos heterogneas (Sujansky, 2001). Algunos de estos sistemasvan ms all, y son capaces de hacer uso de la semntica de los datos contenidosen las fuentes de datos a integrar para llevar a cabo una integracin ms inteli-gente. Este tipo de sistemas se denominan sistemas de mediacin semntica,y son los que tienen mayor inters en el rea de la informtica biomdica dadasu capacidad de proporcionar respuestas ms sofisticadas a las consultas de losusuarios.

El desarrollo de estos sistemas conlleva numerosas decisiones en cuanto aldiseo, dependiendo de los requisitos especficos y caractersticas deseadas. Laprincipal se refiere a la localizacin de los datos, derivando en dos grandes cla-ses de enfoques de integracin: 1) Centralizado y 2) Distribuido o federado. Enun modelo centralizado, los datos son extrados de las fuentes originales para seralmacenados en un repositorio central, denominado normalmente Data Warehou-se (DW) (Kimball, 1996). En el modelo distribuido, por el contrario, los datos

18 2.3. Arquitecturas y enfoques existentes para la integracin de BB.DD.

se mantienen en las fuentes originales bajo la tutela de sus administradores, y sonaccedidos de forma dinmica segn se requiera.

Las arquitecturas de integracin distribuidas conllevan una serie de inconve-nientes, como por ejemplo disponibilidad no asegurada de los datos, bajo rendi-miento y cuestiones de seguridad o fiabilidad. Por otra parte, presentan caracte-rsticas fundamentales que las convierten en las mejores alternativas en entornosmodernos de colaboracin caractersticos de la investigacin biomdica moderna.Con estos sistemas resulta ms sencillo establecer mecanismos para la comparti-cin de datos entre instituciones independientes sin que estas pierdan el control yla autonoma sobre sus datos. Los enfoques centralizados resultan, por el contra-rio, ms apropiados para situaciones en que los datos a integrar los gestiona unaentidad o institucin nica con pleno control sobre ellos en trminos de especifi-cacin de modelos de representacin del conocimiento, contenidos o seguridad.

Anlisis recientes sobre la situacin de los sistemas de integracin de datos enel campo de la biomedicina sugieren una adopcin mayoritaria de sistemas distri-buidos, particularmente en entornos de investigacin (Maojo et al., 2006). En elrea mica por ejemplo, es habitual que entidades independientes colaboren eintercambien informacin mientras mantienen el control sobre sus propios datos(Lopatenko, 2001). En este contexto, las heterogeneidades existentes en fuentesde datos biomdicas han estimulado en gran medida el desarrollo de nuevas ar-quitecturas para la integracin de datos. De esta forma se pueden considerar tresenfoques principales de integracin: 1) Enlazado de informacin. 2) Traduccinde datos. 3) Traduccin de consultas (Sujansky, 2001). Esta divisin aparece re-presentada en la figura 2.1.

Las siguientes subsecciones describen en detalle estas categoras.

2.3.1. Enlazado de informacin

Uno de los principales retos en la Web 2.0, y ms an en la Web semntica(Web 3.0), es el correcto aprovechamiento de los recursos que ofrece la red a tra-vs de, entre otras, tcnicas de integracin de datos (OReilly, 2005). El enfoquems simple para poner a disposicin de un usuario un conjunto de recursos hete-rogneos es el enlazado de informacin (IL de sus siglas en ingls). En estos ca-sos, los recursos accedidos suelen ser pginas web o BB.DD. con interfaces web.Ejemplos de este tipo de sistemas son BB.DD. web como por ejemplo PubMed1,

1http://www.ncbi.nlm.nih.gov/pubmed/


Figura 2.1: Clasificacin de enfoques para la implementacin de sistemas de integra-cin de BB.DD. heterogneas

MedlinePlus2, PDB3 o PROSITE4.

La principal ventaja del enfoque IL es que la gran mayora de los investiga-dores biomdicos estn acostumbrados a entornos basados en hipervnculos paraacceder a la informacin disponible. Sin embargo, este enfoque adolece de falta deflexibilidad. Los hipervnculos son generalmente unidireccionales, lo que limita laexpresividad de las consultas que pueden aceptar estos sistemas. Este enfoque nopuede ser adoptado si se requiere algn tipo de interaccin con el usuario a la ho-ra de componer las consultas. Esto hace que el IL resulte un enfoque inapropiadopara la mayora de reas de investigacin hoy en da.

2.3.2. Traduccin de datos

En las aplicaciones de mbito empresarial, el enfoque basado en la traduccinde datos ha sido el ms extendido. En este enfoque la informacin de las BB.DD.a integrar se traduce y transfiere a un repositorio central, denominado Data Wa-rehouse, que a su vez ofrece servicios de consulta, visualizacin y anlisis dedatos. Este enfoque se denomina habitualmente enfoque centralizado. Se em-plea a menudo cuando se tiene control sobre las BB.DD. integradas, normalmentedebido a que estas pertenecen todas a una misma organizacin (Jarke et al., 1998;Kimball, 1998; Inmon et al., 1999).

Los sistemas basados en el mtodo de traduccin de datos utilizan para su fun-

2http://www.nlm.nih.gov/medlineplus/3http://www.rcsb.org/pdb/home/home.do4http://prosite.expasy.org/


cionamiento un proceso denominado Extraccin-Transformacin-Carga (ETLde sus siglas en ingls). El proceso ETL se compone de tres pasos: 1) Extraccin:los datos son recuperados de las fuentes. 2) Transformacin: una vez extrados,los datos son traducidos para que se ajusten al esquema empleado en el almacncentral. 3) Carga: los datos transformados son almacenados en el Data Warehou-se.

Los sistemas resultantes empleando este enfoque ofrecen un gran rendimiento,pues los datos permanecen alojados en un repositorio central, y los procesos deconsultas de los usuarios no necesitan preocuparse por el origen de los datos. Elpaso ms importante en este tipo de sistemas radica en la fase de extraccin, ya quela calidad de los datos almacenados en el repositorio central depende directamentede la exhaustividad con que se lleve a cabo este proceso. Es por ello que estatcnica resulta ms adecuada en entornos cerrados donde se tiene total controlsobre las BB.DD. integradas.

2.3.3. Traduccin de consultas

Los sistemas de integracin basados en traduccin de consultas, tambin deno-minados sistemas distribuidos o federados, buscan mejorar la flexibilidad y adap-tabilidad de los sistemas construidos con enfoque centralizado. Este enfoque pres-cinde del repositorio central del caso anterior y, en su lugar, emplea el denominadorepositorio virtual. En este caso las consultas de los usuarios son divididas ensubconsultas dirigidas a las BB.DD. fsicas, para integrar posteriormente los re-sultados obtenidos y devolverlos al usuario de forma unificada. De esta manera elusuario mantiene la percepcin de estar trabajando con una nica base de datosque engloba todos los datos de inters.

La primera tarea en el proceso de resolucin de consultas en sistemas basadosen traduccin de consultas es la reformulacin de la consulta original (Lenzerini,2002). A partir de una consulta se obtiene un conjunto de subconsultas compati-bles con las BB.DD. subyacentes. Para llevar a cabo este proceso de traduccin sedebe disponer de las equivalencias entre elementos del esquema virtual y los ele-mentos de los respectivos esquemas de las fuentes de datos. Esta informacin sedenomina comnmente correspondencias semnticas, o mappings en ingls.

Segn distintos anlisis del dominio, el enfoque de traduccin de consultasse divide a su vez en dos clases diferentes, segn se lleve a cabo el manejo delos metadatos del proceso de integracin: 1) Vistas basadas en esquema global


(Ullman, 1997). 2) Vistas basadas en esquemas locales (Levy et al., 1996). Ladiferencia entre ambas clases radica en la manera de construir la informacin decorrespondencias. Los siguientes prrafos describen en detalle ambas clases.

Los sistemas con enfoque de traduccin de consultas por lo general utilizanla arquitectura denominada mediador-wrapper (Wiederhold, 1992), donde uncomponente (mediador semntico) est dedicado a resolver las heterogeneidadesa nivel semntico, mientras que otra capa de componentes (wrappers) se centranen resolver las heterogeneidades sintcticas, proporcionando vistas con formatounificado de las fuentes integradas.

Vistas basadas en esquema global (GaV)

En los sistemas distribuidos con vistas basadas en esquema global, la infor-macin de correspondencias semnticas se construye mediante la definicin decada elemento del esquema global en trminos de vistas de los esquemas locales.Este enfoque tiene la ventaja de permitir un proceso de traduccin muy rpido.Sin embargo, resulta muy costoso adaptar el sistema a los cambios en alguna delas BB.DD. integradas, pues esto implica revisitar la totalidad del contenido delos mappings. Este enfoque se emplea cuando no se prev que haya cambiosfrecuentes en las BB.DD. integradas, o no se planee aadir nuevas BB.DD. conasiduidad.

Vistas basadas en esquemas locales (LaV)

En este tipo de sistemas, el contenido de los mappings se construye defi-niendo cada elemento de los esquemas locales en funcin de vistas del esquemaglobal. En este caso, el proceso de traduccin ser mucho ms complejo (se hademostrado que el problema es NP-completo (Levy et al., 1995)), a cambio deresultar mucho ms sencillo actualizar la informacin de correspondencias antecambios en las BB.DD., logrando as sistemas que se adaptan mejor a los cambiosexternos. Existen diferentes propuestas de algoritmos para tratar de solventar lacomplejidad implcita en el problema de traduccin, tales como Minicon (Pottin-ger y Halevy, 2001) y el algoritmo Bucket (Halevy, 2001).

Enfoques hbridos

Los enfoques hbridos son aquellos que no adoptan un enfoque puramenteGaV ni LaV, sino una mezcla de ambos. En estos casos no existe ninguna restric-


cin a la hora de definir las correspondencias semnticas.

2.3.4. Tcnicas de integracin de instancias

Los sistemas de integracin basados en traduccin de consultas constan tam-bin de un proceso de integracin de resultados parciales. En su implementacinms sencilla, este proceso es simplemente la unin de resultados parciales (Ull-man, 1997; Lehti y Fankhauser, 2004). Sin embargo, se pueden encontrar en laliteratura soluciones ms avanzadas que llevan a cabo diferentes tipos de opera-ciones join sobre los resultados parciales (Pottinger y Halevy, 2001; Halevy, 2001;Cal et al., 2003). Este tipo de soluciones requiere definir qu campos actan comoidentificadores en cada base de datos. Para ms informacin sobre esta cuestin,consultar (Lin y Mendelzon, 1998; Lembo et al., 2002; Amann et al., 2002; Jiany Beihong, 2006; Prez-Rey, 2007a; Martin et al., 2008a).

La unin de resultados parciales mediante operaciones de tipo join no es, sinembargo, suficiente para obtener un resultado final coherente y libre de inconsis-tencias. Tambin se deben considerar las heterogeneidades a nivel de instancia.Este es un proceso dividido en dos pasos: la identificacin de las heterogeneida-des y su posterior erradicacin. Esto se logra por norma general mediante tcnicasestadsticas.

2.3.5. Ontologas

La integracin de fuentes heterogneas de datos biomdicos implica siempreuna definicin formal de las entidades que representen los diferentes dominios den fuentes a integrar. Esto se aplica sea cual sea el planteamiento utilizado, tantoen enfoques basados en traduccin de datos, como aquellos en que se realiza latraduccin de consultas. Para definir dichas entidades de forma correcta se sueleacudir a expertos en el rea de datos a integrar. Asimismo, debe ser descrita en unlenguaje formal que permita el anlisis automtico desde computadoras. Muchosde los sistemas de integracin recientes han empleado ontologas en este apartado,lo cual ha hecho que este sea el modelo de representacin del conocimiento msusado para definir esquemas globales en sistemas de integracin (Prez-Rey et al.,2004). Una ontologa puede ser definida como la especificacin formal de unaconceptualizacin (Gruber, 1993). Esto implica ms que un simple vocabulariounificado, ya que se pueden utilizar para resolver las diferentes heterogeneidadespresentes en los repositorios de datos biomdicos. Jakoniene y Lambrix (Jakonien


y Lambrix, 2005) detallan los pasos en la integracin de datos en los que lasontologas pueden suponer una ventaja:

1.- Formulacin de consultas: una ontologa puede servir de gua en el procesode construccin de consultas integradas.

2.- Seleccin de fuentes y reescritura de consultas: la informacin aportada poruna ontologa puede ser utilizada para resolver heterogeneidades semnti-cas, al proporcionar una descripcin uniforme del dominio de inters.

3.- Integracin de datos: una ontologa puede ayudar a identificar valores se-mnticamente equivalentes que no pueden ser integrados directamente porcuestiones de sinonimia o granularidad.

Algunos de los ms importantes esfuerzos dentro del desarrollo de ontologasbiomdicas incluyen, por ejemplo, la Gene Ontology (GO) o el FoundationalModel of Anatomy (FMA). GO (Gene Ontology Consortium, 2006) describeprocesos biolgicos, componentes celulares y funciones moleculares, proporcio-nando una referencia comn para los investigadores biolgicos. El FMA (Rosse yMejino, 2003) se centra en la representacin simblica de la estructura fenotpicadel cuerpo humano, incluyendo informacin desde nivel molecular hasta el ma-croscpico. Otras ontologas han sido fruto del desarrollo especfico para soportede sistemas de integracin de fuentes biolgicas. Es el caso de la ontologa TAM-BIS (Baker et al., 1999), que almacena gran cantidad de conceptos de la biologageneral. La ACGT Master Ontology, desarrollada en el contexto del proyecto eu-ropeo ACGT y en cuya implementacin el ponente de esta tesis doctoral trabaj deforma activa, se centra en modelar todo lo concerniente a ensayos clnicos sobrecncer (Brochhausen et al., 2011). Ms an, se pueden encontrar esfuerzos por es-tandarizar el desarrollo de ontologas biomdicas. Es el caso del OBO Foundry,una iniciativa para acoger y agrupar ontologas de carcter biomdico que cum-plan con una serie de principios de correcto desarrollo de ontologas (Smith et al.,2007). El OBO Foundry incluye algunas de las ontologas ms referenciadas yempleadas dentro de la biomedicina (como por ejemplo las arriba mencionadasGO y FMA).

La actividad de desarrollo de ontologas no est nicamente centrada en la des-cripcin de dominios (ya sea el dominio biomdico u otros). MeSH5, por ejemplo,

5http://www.ncbi.nlm.nih.gov/mesh


es un vocabulario controlado de trminos biolgicos desarrollado por el US Na-tional Library of Medicine para ayudar a catalogar documentos relacionados conla salud de diferentes BB.DD.

Existe una serie de tecnologas y estndares para el desarrollo de ontologas,entre cuyos principales promotores se encuentra el W3C6. El W3C es responsabledel desarrollo de RDF7, un lenguaje para la descripcin de recursos semnticosen la Web. Sin embargo, su uso ha trascendido el dominio de Internet y en la ac-tualidad se ha establecido como el lenguaje de facto para modelar informacinen el rea biomdica. RDF permite describir jerarquas de entidades y las relacio-nes que existen entre ellas, as como sus atributos. Gracias a su versatilidad y asu capacidad de actuar como paradigma genrico de modelizacin de datos, unaimportante variedad de recursos biomdicos ofrece acceso a sus datos en formatoRDF. En cuanto al desarrollo de ontologas, el lenguaje ms empleado es una evo-lucin de RDF tambin diseado y mantenido por el W3C, OWL8. Este lenguajeaade la capacidad de definir restricciones y cardinalidades a la descripcin de undominio.

2.3.6. Tipos de heterogeneidades entre esquemas basados enontologas

Una ontologa se define como la representacin formal de un dominio o reade conocimiento. Aunque esta descripcin no especifica la forma que tiene unaontologa, los diversos lenguajes existentes para escribir ontologas se basan enla definicin de una jerarqua de clases y relaciones que unan dichas clases. Unavista o subconjunto sobre una ontologa estar siempre formada por uno o ms ca-minos enlazados entre s por clases comunes. Se define camino como "la sucesinalterna de clases y relaciones, comenzando y acabando por una clase". Asimismo,la clase que precede a una relacin en un camino debe pertenecer al dominio deesa relacin, y la clase que aparece detrs de una relacin debe pertenecer al ran-go de esa relacin. La figura 2.2 muestra dos ejemplos de vistas de una ontologaformadas por conjuntos de caminos.

Las vistas sobre esquemas ontolgicos son las estructuras que se deben em-plear a la hora de especificar correspondencias semnticas entre esquemas basadosen ontologas (como hacen la mayora de los sistemas modernos de integracin).

6http://www.w3c.es/7www.w3.org/RDF/8http://www.w3.org/TR/owl-features/


Figura 2.2: Ejemplos de vistas sobre un esquema ontolgico construidas como con-juntos de caminos. En (a) se muestra una vista compuesta por un nico camino detres clases. En (b) se puede apreciar una vista compuesta por dos caminos unidospor una misma clase

Las diferentes formas de representar informacin equivalente (utilizando estruc-turas de vistas diferentes) hacen que en este proceso de creacin de correspon-dencias semnticas surjan casos complejos que han de ser tratados debidamente.En las siguientes subsecciones se identifican los casos ms comunes de hetero-geneidades entre esquemas basados en ontologas que se dan en el mbito de labiomedicina.

Insercin de un nodo intermedio

Este caso aparece cuando un camino en la base de datos fsica tiene su equiva-lente en el esquema global en un camino ms largo. Los extremos de los caminoscontendrn nodos equivalentes, pero el camino del esquema global incluye msnodos que no tienen representacin directa en el esquema fsico. La figura 2.3representa esta situacin.

Este caso se suele dar debido a que los esquemas fsicos tienden a describir unrea ms especfica de conocimiento que los esquemas virtuales, y a menudo danpor hecha parte de la informacin en vez de tener que especificarla.


Figura 2.3: El camino del esquema fsico (patrn liso) tiene su equivalente en uncamino tambin lineal, pero ms largo (patrn rallado)

Contraccin compuesta

El caso de contraccin compuesta se da a menudo en elementos de informa-cin relacionados entre s (como puede ser un nombre de calle con un nombrede ciudad y a su vez con un cdigo postal, o un da con un mes y un ao). Lamisma informacin se ve reflejada mediante varios elementos independientes enun esquema. La figura 2.4 representa este caso.

Este caso proviene de las heterogeneidades de granularidad. La situacin pue-de darse tambin en el sentido opuesto: una clase del esquema fsico se corres-ponde con varias clases del esquema global. La informacin de correspondenciassemnticas debe ser por tanto capaz de reflejar la equivalencia semntica de variasclases con una sola.

Paralelo a lineal

Este caso aparece cuando la informacin recogida en el esquema fsico envarios caminos que convergen en un mismo nodo inicial tiene su equivalente en elesquema global en un solo camino lineal. La figura 2.5 ilustra esta situacin.

De nuevo, este caso suele darse debido a que el esquema fsico representa unrea de conocimiento ms restringida que el esquema global, en la que puedendarse por hechas algunas situaciones, permitiendo asociar a una entidad atributosque en realidad debieran estar ligados a otras entidades.


Figura 2.4: La informacin que representa una nica clase en el esquema global(patrn rallado) tiene su equivalencia en tres clases del esquema fsico (patrn liso)

Figura 2.5: Un subconjunto del esquema fsico formado por varios caminos parale-los que convergen en su nodo inicial (patrn liso) tiene su equivalente en un nicocamino lineal en el esquema global (patrn rallado)


Figura 2.6: Caminos paralelos con un nodo inicial convergente en el esquema fsico(patrn liso) equivalen a un camino lineal que se desdobla en caminos paralelos enel esquema fsico (patrn rallado)

Paralelo a paralelo intermedio

En este caso se repite el patrn de caminos paralelos que convergen en unnodo inicial en el esquema fsico. En el esquema global se tiene un camino linealque se desdobla en caminos paralelos. Esta situacin aparece representada en lafigura 2.6.

Como los anteriores, este caso surge como resultado del mayor nivel de detalleproporcionado por el esquema global.

Condiciones

En ocasiones, para acceder a un concepto o un elemento de informacin en unabase de datos se han de filtrar los valores de una clase concreta a una constante.Esta clase acta a modo de atributo tipo de datos. Esta situacin se da, por logeneral, por un proceso incorrecto de modelado del esquema de datos en la basede datos fsica. La figura 2.7 ilustra este caso.

La correspondencia semntica con el esquema global deber tener en cuentaesta situacin, permitiendo especificar condiciones sobre la vista del esquema f-sico del tipo atributo = constante para que la equivalencia semntica sea efectivaen el proceso de traduccin.


Figura 2.7: Una de las clases de la vista fsica debe especificar el valor de uno desus atributos (patrn liso) para establecer la equivalencia semntica con la vista delesquema global (patrn rallado)

2.4. Ejemplos de sistemas de integracin

El esfuerzo acometido durante la ltima decada para proporcionar solucio-nes de integracin de datos heterogneos en el mbito de la biomedicina ha dadolugar a numerosos sistemas, cada cual con sus caractersticas y su dominio deaplicacin. Cada sistema desarrollado posee cualidades diferentes, basadas en losrequisitos especficos que se pretenden cubrir. As, en entornos cerrados dondese trabaja con un conjunto predefinido de BB.DD., los data warehouses sonadoptados mayoritariamente debido a su elevado rendimiento y a su menor com-plejidad en el desarrollo. Las plataformas de traduccin dinmica de consultas,por otra parte, se emplean en entornos abiertos, donde no se conoce a priori elconjunto de fuentes al que se habr de acceder, o bien se prev que este conjuntocrezca con el tiempo. Asimismo, el desarrollo de numerosos proyectos de investi-gacin con la integracin de datos como pilar central da una idea de la importanciade esta cuestin. La tabla 2.2 lista los proyectos ms importantes en este campo.

Los prrafos siguientes enumeran los sistemas de integracin ms importantesimplementados hasta la fecha. Esta informacin aparece resumida en la tabla 2.3.

30 2.4. Ejemplos de sistemas de integracin

Proyecto Dominio Duracin Estado Partici-pantes

Nacionalidad

Birn Biomdico Desde 2001 En curso 35 InternacionalACGT Ensayos

clnicos post-genmicos

2006-2010 Finalizado 25 Europeo

caBIG Cncer Desde 2003 En curso Ms de80

EEUU

HeC Pediatra 2006-2009 En curso 14 EuropeoInfogen-med

Medicina, ge-ntica

2001-2004 Finalizado 5 Europeo

p-medicine

Ensayos clni-cos

2011-2015 En curso 20 Europeo

INTE-GRATE

Asistencia cl-nica


EURECA Asistencia cl-nica


Tabla 2.2: Ejemplos de los principales proyectos de investigacin realizados o encurso con el problema de la integracin de BB.DD. heterogneas como pilar central

JXP4BIGI

JXP4BIGI (Huang et al., 2003) se desarroll como un sistema independientedel entorno con capacidad de integracin de datos y enfocado a la construccinde data warehouses de carcter biolgico. El sistema est pensado para inte-gradores de datos, ms que para usuarios finales. La funcionalidad de JXP4BIGIse distribuye en cuatro componentes principales; a saber: 1) Plantillas XML parabioentidades que permiten representar entidades biolgicas empleadas en la bio-loga p. ej. genes o protenas. 2) Un mdulo con lgica de consulta y extraccinbasado en SQL, capaz de definir los elementos y atributos que deben extraersede los repositorios integrados. 3) Wrappers genricos, que proporcionan accesouniforme a fuentes de datos sintcticamente heterogneas. 4) Un procesador JXP9,que organiza y ejecuta las tareas de extraccin de datos.

GeneMapper

GeneMapper (Do y Rahm, 2004) es un data warehouse que integra fsi-camente BB.DD. biolgicas en un repositorio central. En contraposicin a otrosdata warehouse, este sistema obvia el uso de un esquema de datos global. Porel contrario, GeneMapper adopta un modelo de representacin del conocimientogenrico denominado GAM, creado a partir del modelo Entidad-Atributo-Valor.

9http://jxp.sourceforge.net/


GeneMapper se ha utilidado con perfiles genticos funcionales de gran escala ycon fuentes de datos biolgicas, tales como LocusLink y Unigene.

Atlas

Atlas (Shah et al., 2005) es un data warehouse de datos biolgicos enfocadoa la investigacin y desarrollo bioinformticos. En este sistema, cada fuente dedatos almacenada lleva asociada un modelo de representacin del conocimientorelacional, permitiendo as el acceso mediante consultas SQL a todas ellas. La in-tegracin de datos en s se consigue mediante la referencia cruzada de secuenciasde protenas e identificadores de genes.

iProClass

iProClass (Huang et al., 2007) es una infraestructura de datos diseada pararealizar integracin de datos de protenas. Usa un enfoque basado en el modelo dedata warehouse para ofrecer un acceso rpido a datos integrados, almacenandopara ello en un repositorio central datos de UniProtKB y iProClass. Para facilitarsu uso incorpora capacidades de navegacin de datos por medio de hipervnculosa las fuentes de datos. Una interfaz de usuario construida sobre la infraestructurade datos permite el manejo sencillo y eficaz del sistema, ofreciendo servicios debsqueda, recuperacin y anlisis de los datos integrados.

DataFoundry

DataFoundry (Critchlow et al., 2000) es un sistema de integracin hbrido des-tinado a ofrecer acceso homogneo a datos cientficos. Con el fin de optimizar elacceso a los datos, DataFoundry mantiene un almacn de datos local donde losregistros ms importantes y los consultados con mayor frecuencia son alojadosen una cach local. Asimismo, el sistema ofrece acceso federado a datos. La inte-gracin de datos se logra mediante consultas SQL a un esquema relacional globalque representa una vista consistente de las fuentes integradas.

TINet

El sistema TINet (Eckman et al., 2001) adopta un enfoque hbrido para re-solver el problema de integracin de fuentes heterogneas de carcter biolgico.Mientras que a la mayora de las fuentes en este sistema se accede por medio


de un modelo federado de acceso a datos maximizando as la flexibilidad delsistema, el sistema tambin mantiene un repositorio centralizado que almacenadatos de un pequeo conjunto de fuentes GenBank10 y SwissProt11 principal-mente. Dicho almacn se actualiza peridicamente. Este enfoque pretende optimi-zar tanto la flexibilidad del sistema a la hora de incorporar nuevas fuentes comoel rendimiento del mismo a la hora de resolver consultas. TINet se centra en re-solver heterogeneidades sintcticas, antes que semnticas. No emplea ningn tipode vista global sobre los datos integrados, puesto que el sistema ofrece poco msque hipervnculos entre las fuentes de datos.

BioDataServer

BioDataServer (Freier et al., 2002) es un sistema basado en el enfoque de me-diacin que proporciona acceso homogneo a fuentes de datos de carcter biol-gico (aunque se centra en BB.DD. genmicas). BioDataServer adopta un modelode representacin del conocimiento global de tipo relacional para ofrecer acceso alas fuentes integradas de forma transparente al usuario, permitiendo a este lanzarconsultas SQL contra el modelo global. BioDataServer adopta as el modelo fe-derado de acceso a datos, incluyendo un mdulo de cach para acelerar el accesoa datos consultados con frecuencia.

BioBench

BioBench (Hding et al., 1998) es un sistema para la integracin de BB.DD.heterogneas de carcter biomdico y semiestructuradas. Emplea un enfoque fe-derado, para maximizar la flexibilidad del sistema ante el rpido crecimiento derepositorios biomdicos. Los desarrolladores del sistema pusieron especial nfa-sis en permitir el acceso a fuentes de datos carentes de estructura (por ejemplo,ficheros planos de datos). El usuario final puede acceder a los datos integradosmediante consultas sobre un modelo orientado a objetos.

Kleisli

Kleisli (Chung y Wong, 1999; Wong, 2001) es un sistema para realizar consul-tas integradas sobre una serie de BB.DD. distribuidas y heterogneas. El sistemautiliza el enfoque federado e integra tanto BB.DD. biolgicas como herramientas

10http://www.ncbi.nlm.nih.gov/genbank/11http://web.expasy.org/docs/swiss-prot_guideline.html


de anlisis de datos biolgicos (por ejemplo, BLAST (Kent, 2002)). El sistemaincorpora un mdulo de inferencia de tipos capaz de analizar las consultas de losusuarios y determinar la estructura de los datos de entrada y salida. Este mdulohace innecesaria la utilizacin de un modelo global de datos que represente losesquemas integrados, maximizando la flexibilidad del sistema ante nuevas fuentesa integrar.

KIND

KIND (Gupta et al., 2000) es un sistema basado en la arquitectura mediador-wrapper para la integracin de datos biolgicos. Utiliza un esquema de F-logic(Kifer et al., 1995) para cada una de las fuentes. Las correspondencias semn-ticas se construyen con reglas de F-logic, que posteriormente se emplean en elproceso de traduccin de consultas. KIND tambin da nombre a una arquitecturade mediacin destinada a la integracin de diversos estudios en el campo de labiomedicina. En el captulo 5 se ofrece una discusin sobre las diferencias entreKIND y el marco de trabajo propuesto.

TAMBIS

TAMBIS (Goble et al., 2001) es un sistema para el acceso transparente a datosdistribuidos y heterogneos del rea de la biologa molecular y la bioinformtica.Los desarrolladores de TAMBIS se centraron en dotar al sistema de las siguien-tes caractersticas: 1) Alto grado de transparencia: los usuarios tan solo ven unesquema global que cubre las fuentes de datos integradas. 2) Acceso en modolectura nicamente, puesto que la autonoma de las fuentes deba ser preservada.3) Capacidad de realizar consultas complejas. 4) Gestin de heterogeneidades (ensu mayora sintcticas). 4) Interfaz grfica de consulta para mayor facilidad deuso. TAMBIS adopta el modelo federado para acceder a los datos, usando unaontologa denominada TAO (Baker et al., 1999) como esquema global. Esta on-tologa cubre ms de mil ochocientos conceptos y relaciones de la biologa, y fueespecficamente desarrollada para el sistema TAMBIS.

P/FDM

P/FDM (Kemp et al., 2000; Kemp et al., 2002) es un sistema de gestin deBB.DD. orientadas a objetos basado en el modelo de representacin del cono-cimiento funcional (FDM en sus siglas en ingls) (Shipman, 1981). P/FDM usa


un modelo federado para ofrecer acceso integrado a fuentes de datos de carcterbiolgico distribuidas y heterogneas. FDM es empleado para describir el esque-ma global y los esquemas de las fuentes subyacentes de datos. El sistema aceptaconsultas en el lenguaje Daplex (Shipman, 1981).

SEMEDA

SEMEDA (Khler et al., 2003) es un sistema para la integracin semnticade BB.DD. biolgicas basado en el enfoque federado. La estructura interna de lasfuentes integradas es ocultada al usuario final, haciendo as su manejo ms sim-ple. Para resolver las heterogeneidades semnticas, SEMEDA utiliza una ontolo-ga que contiene un pequeo conjunto de los conceptos biolgicos ms generales.Otras ontologas del rea biolgica, como Gene Ontology, pueden ser importadaspara servir como vocabularios adicionales, complementando as la propia ontolo-ga de SEMEDA.

DiscoveryLink

DiscoveryLink (Haas et al., 2001) es un sistema basado en el modelo federadode integracin semntica de fuentes de datos del dominio biolgico desarrolladopor IBM, y es el resultado de la fusin de los sistemas Garlic (Carey et al., 1995) yDataJoiner (Gupta y Lin, 1994). DiscoveryLink utiliza una arquitectura basada enwrappers para gestionar las comunicaciones con las fuentes mismas de datos.Los usuarios finales acceden al sistema mediante consultas SQL.

BioBroker

BioBroker (Aldana et al., 2004) es un sistema de integracin basado en unentorno para el desarrollo de sistemas de integracin de BB.DD. del dominio bio-lgico. Este entorno incluye una arquitectura basada en XML para la construccinde mediadores. Asimismo se ofrecen mdulos de generacin de wrappers paraBB.DD. relacionales, basadas en XML, o basadas en HTML. Aparte de fuentes dedatos el entorno permite integrar herramientas y entornos de software. Medianteeste entorno se ha generado BioBroker, un sistema de integracin de fuentes dedatos como por ejemplo EMBL, SWISS-PROT, PDB, MICADO, DIP y BIND,resolviendo de forma automtica las heterogeneidades de estructura y formato.


BioMediator

BioMediator (Donelson et al., 2004; Wang, 2005) es un sistema para realizarconsultas de carcter biolgico sobre un conjunto de BB.DD. heterogneas. Estesistema adopta un enfoque federado para ofrecer acceso transparente a las fuentesde datos, y emplea ontologas para la representacin del esquema global. BioMe-diator ha sido probado con BB.DD. del Human Brain Project, as como condatos moleculares y genmicos dentro del contexto de diversas investigacionesgenticas.

INDUS

INDUS (Caragea et al., 2005) es un sistema de integracin de datos biolgicosheterogneos. Este sistema utiliza ontologas como marco semntico para mante-ner una vista homognea sobre los datos a integrar. Un rasgo distintivo de INDUSes la disponibilidad de ontologas definidas por los usuarios: cada usuario disponede su propia versin de la ontologa base, de forma que refleje su conocimientosobre los datos subyacentes.

GeXpert

En (Arredondo et al., 2006) los autores describen una arquitectura para el desa-rrollo de sistemas de integracin de datos. Esta pretende pues ser una herramientadestinada a desarrolladores de aplicaciones de integracin de BB.DD. biomdicas.La arquitectura incluye fu

Modelo basado en ontologías para la integración semántica de ...

Documents

Transcript of Modelo basado en ontologías para la integración semántica de ...