capitulo3 integracion
-
Upload
carlosandres-villarreal-del-aguila -
Category
Documents
-
view
227 -
download
1
description
Transcript of capitulo3 integracion
-
Coleccin de Tesis Digitales
Universidad de las Amricas PueblaAlvarez Carrin, Guillermo
3.1 Conflictos de Esquema
Para que el usuario de un MDBMS pueda accesar de manera transparente
y uniforme la informacin almacenada en diferentes componentes de
bases de datos, se necesita resolver los conflictos de heterogeneidad
semntica y de datos. La idea de resolver los conflictos es lograr una
integracin de esquemas, que permita a los usuarios de MDBMS formular
solo una consulta para n Bases de Datos en lugar de n consultas, una para
cada Base de Datos.
El presente captulo presenta la clasificacin de los conflictos de esquema
y de datos; adems describe de manera detallada, como es que se
presentan los conflictos al integrar las Bases de Datos Componentes
(BDCs). Se revisa y discute la metodologa propuesta para lograr la
integracin de esquemas. La metodologa de integracin se describe,
considerando los conflictos y casos particulares para el integrador de
esquemas propuesto en este trabajo de investigacin.
Debido a que las BDCs operan independientemente (sin un control
centralizado o coordinador distribuido), stas pueden presentar
discrepancia estructural y de representacin. Estas diferencias permiten
identificar y clasificar los conflictos de esquema manejados durante el
proceso de integracin. El conjunto de conflictos identificados por [Kim y
Seo, 1991] para la integracin de esquemas se describen en los prrafos
siguientes.
3.1.1 Conflictos en tablas
Conflictos de nombrado de tablas
Nombres diferentes para tablas equivalentes.- Ocurre cuando se
asignan nombres diferentes a tablas semnticamente equivalentes
(sinnimos).
a.
Nombres iguales para tablas no equivalentes.- Cuando se asigna el
mismo nombre a tablas semnticamente diferentes (homnimos).
b.
1
-
3.2 Conflictos de datos
Conflictos en la estructura de las tablas
Atributos faltantes.- La conceptualizacin del diseo de un
esquema de BD puede llevar a la omisin de atributos que no se
consideren representativos.
a.
Atributos implcitos.- En ocasiones los atributos existentes pueden
ser suficientes para deducir algn otro atributo requerido para la
integracin.
b.
Conflictos en restricciones de integridad.- En esta categora se incluyen
las deferencias que pueden surgir con respecto a la seleccin de llaves
primarias, secundarias, extranjeras y conflictos en medida de la integridad
referencial.
Conflictos en la organizacin de la informacin.- El nmero de tablas
requeridas para modelar la BD en cada componente puede diferir de
acuerdo a la conceptualizacin de solucin de cada diseador.
3.1.2 Conflictos en atributos
Conflictos de nombrado de atributos.- El concepto de sinnimo y
homonimia aplicado a los conflictos de nombrado de tablas son
aplicables a stos tipos de conflictos.
Conflictos en valores por ausencia.- La definicin implcita de algunos
valores por ausencia asignados por DBMS, podra llevar a contradicciones
en la semntica de los datos.
Conflictos por restricciones de asignacin de valores a los atributos
Conflictos en los tipos de datos.- Los tipos de datos pueden diferir
en cuanto al criterio de diseo de cada aplicacin.
a.
Conflictos en restricciones de dominio .- Reglas impuestas para a
asignacin de valores o consideracin en los criterios de unicidad.
b.
Conflictos por la cardinalidad y grado de atomicidad.- El grado de detalle
de cada atributo puede ser distinto en cada aplicacin. Adems, cada
modelo de informacin establece restricciones y posibilidades de
estructuracin muy diferentes.
Conflictos en la representacin de la informacin.- Puede presentarse el
caso de que el mismo concepto se presente como una entidad en una
aplicacin y en otra como un solo atributo.
2
-
3.3 Modelado de datos en los esquemas locales y
federados
An a pesar de tener esquemas de BDCs equivalentes en cuanto a la
estructura de sus tablas y atributos, es posible presentar otra serie de
problemas identificados como conflictos de datos, dichos conflictos
presentados por [Kim y Seo 1990], se describen a continuacin:
Conflictos entre los valores.- Cuando se espera que instancias
equivalentes tengan los mismos valores, pero muestran inconsistencia
debido a que los datos son capturados incorrectamente o los datos son
obsoletos.
Diferencias en la representacin.- Situaciones de contexto y cultura
organizacional, entre otros factores pueden llevar a que cada BDC
seleccione una representacin distinta en la informacin. Dichas
inconsistencias pueden presentarse por:
Notaciones diferentes.- Cuando existen diferentes
formas para representar un mismo dato. (p.e.
calificaciones numricas o con escalas de letras)
a.
Unidades distintas.- La diversidad de unidades, sobre
todo para valores numricos, trae consigo problemas
de interpretacin. (p.e. la diferencia en el sistema de
medicin ingles y el internacional)
b.
Diferencias en las representaciones.- Cuando existen
diferentes formas para representar un valor de un
atributo. (p.e. para el atributo Estado se puede tener:
Tlaxcala, Tlax., Tx, etc.)
c.
El modelado de datos es el proceso de crear una representacin
consistente de los datos del usuarios. Existen diferentes propuestas de
modelado, tales como el de red, jerrquico, relacional y orientado a
objetos, cada uno con caractersticas particulares de diseo y
representacin.
Para la propuesta de integracin de este proyecto se considera
exclusivamente el modelo relacional, como requerimiento tanto para los
esquemas locales como para los esquemas globales generados. La
justificacin de la utilizacin de este modelo, es que sigue siendo uno de
los estndares de modelado ms utilizado en la industria de las Bases de
Datos.
El modelo relacional, basado en la teora de conjuntos usa como primitiva
bsica de construccin la relacin. Una relacin es una tabla
3
-
3.4 Metodologa de integracin de esquemas
bidimensional. Cada hilera de la tabla contiene datos que pertenecen a
alguna cosa o porcin de una cosa. Cada columna de la tabla contiene
datos sobre atributos. Las hileras son tambin llamadas tuplas y las
columnas atributos
Para que una tabla sea una relacin, esta debe cumplir ciertas
restricciones. Primero, los atributos deben ser atmicos. Todos los valores
en algn atributo deben ser de la misma clase. Cada columna debe tener
un nombre nico y el orden de las columnas en la tabla es insignificante.
Finalmente, dos tuplas en la tabla no pueden se idnticas.
Es importante tomar en cuenta estas consideraciones para la seleccin
apropiada de las BDCs y para garantizar una consistencia con la
metodologa de integracin propuesta.
La necesidad de integrar diversas BDCs trae consigo la necesidad de
utilizacin de metodologas formales que permitan un proceso de
integracin confiable y seguro.
Una metodologa descompone la integracin de esquemas en un nmero
de tareas que pueden ligarse en un proceso interactivo que ofrezca como
resultado un esquema global para DBMS federados fuertemente acoplado.
Con la idea de mantener un balance entre simplicidad y rentabilidad se
describe la metodologa de integracin propuesta por [Batini y Lenzerini
1986], la cual consiste de cuatro fases: preintegracin, comparacin de
esquemas, adecuacin de esquemas y unin de esquemas.
Figura 3.1 Entradas y salidas en la integracin de esquemas
3.5.2 Comparticin de informacin
4
-
3.5 Preintegracin
3.6 Comparacin de esquemas
Otro aspecto importante de esta fase es definir qu informacin se
compartir y con qu restricciones de acceso. Este proceso podra
entenderse como un anlogo a la definicin de vistas en el modelo
relacional. En el contexto de Bases de Datos Federadas, esto puede verse
como la determinacin de las entidades que cada Base de Datos
Componente compartir con la Federacin y su definicin en un esquema
de componentes.
Figura 3.2 Estrategias para el proceso de integracin
Figura 3.3 Estrategia binaria de escalera para el proceso de integracin.
En este ejemplo existe la descripcin del mismo nmero de objetos en
cada base de datos local, pero a diferente nivel de detalle por lo que es
posible establecer la relacin lgica a travs de un atributo comn y
ofrecer un acceso global a la informacin sin redundancias. Ambos tipos
de integracin consideran informacin espacial (modelo basado en
fragmentos) e informacin descriptiva.
5
-
3.7 Adecuacin de esquemas
La operacin inversa, partiendo de la cadena UBICACION 1 , puede ser, en
algunos casos ms difcil. Esto es debido a que en ocasiones es casi
imposible proponer los criterios para decidir qu parte de la cadena
original corresponde a cada uno de los atributos propuestos para la otra
representacin. Esto, sin embargo, puede llevar a conflictos con el orden
que se usa para cada representacin. Debe considerarse , que lo anterior
es posible si el sistema soporta solamente consultas, ya que para las
operaciones de modificaciones y alta de informacin, dada la ubicacin
como un solo atributo, plantea la necesidad de decidir que parte
pertenece a cada atributo de la segunda representacin.
3.7.4 Claves primarias
El uso de llaves primarias en el modelo relacional permite, en la
integracin heterognea establecer la operacin de join para integrar los
componentes locales. Entonces, ser de suma importancia definir cuales
son los atributos considerados como claves primarias de cada BDC.
3.7.5 Nivel de precisin
El modelado de datos espaciales a travs de la tcnica de Quadtree (Ver
Apndice A para detalle de esta tcnica) permite representar objetos
espaciales a diferentes niveles de precisin. A mayor nivel de precisin,
mayor el detalle de representacin obtenido del objeto.
Las BDCs que representan informacin espacial, pueden manejar niveles
6
-
3.8 Unin y reestructuracin
de precisin diferentes, lo que implicara una manipulacin a nivel de
implementacin para homogeneizar la representacin de los objetos
espaciales a un mismo nivel de resolucin.
Al considerar el nivel de precisin como un conflicto es posible lograr
dicha homogeneizacin a nivel de integracin de esquemas.
Una vez solucionados los conflictos en la fase anterior, es posible la
integracin de los esquemas. Despus de la integracin sigue una fase de
reestructuracin interactiva hasta que se llegue al esquema global
deseado. La evaluacin de esquema final, es a travs de los siguientes
criterios:
Completitud y Validez. El esquema integrado debe contener todos los
conceptos presentes en los esquemas componentes. El esquema
integrado debe ser una representacin de la unin de los dominios de las
aplicaciones asociadas a los esquemas [Batini y Col 1986].
Representacin mnima.- Si el mismo concepto se encuentra en ms de
un concepto componente, este se debe representar slo una vez en el
esquema integrado.
Comprensibilidad.- El esquema global final debe ser fcil de entender
tanto por el diseador como por el usuario final.
La comprensin detallada de los conflictos de esquema y de datos que se
7
-
presentan en este captulo, permitir plantear una mecanismo de
solucin que ofrezca un acceso transparente a las Bases de Datos
Componentes. Los conceptos de equivalencia y tipo de integracin
requieren de atencin especial para garantizar una seleccin apropiada de
los componentes a integrar.
La metodologa de integracin que se discute, establece un patrn de
referencia para llevar a cabo la integracin de manera semiautomtica
con la propuesta que se plantea en los captulos siguientes.
Alvarez Carrin, G. 1999. Integracin de esquemas en bases de datos
heterogneas fuertemente acopladas. Tesis Maestra. Ciencias con
Especialidad en Ingeniera en Sistemas Computacionales. Departamento
de Ingeniera en Sistemas Computacionales, Escuela de Ingeniera,
Universidad de las Amricas Puebla. Mayo. Derechos Reservados 1999.
8