Almacen de Datos(Data Warehouse)
-
Upload
juniors-cordova-grone-tlv -
Category
Documents
-
view
32 -
download
3
description
Transcript of Almacen de Datos(Data Warehouse)
“AÑO DE LA DIVERSIFICACION PRODUCTIVA Y DEL FORTALICIMIENTO DE
LA EDUCACION”
USP
TEMA : ALMACEN DE DATOS
PROFESOR : FREDDY RIVERA MONTERO
INTEGRANTES : CORDOVA FEBRE JUNIR
ROJAS OJEDA ANTHONY
AGURTO MARTINEZ JUAN
MORALES MONTERO LUIS
CURSO : BASE DE DATOS II
CICLO : V
SULLANA, 29 ABRIL DEL 2015
Índice
Introducción
Presentación
I. Almacén de Datos
I.I Definiciones de almacén de datos
I.I.I Definición de Bill Inmon
I.I.II Definición de Ralph Kimball
II. Arquitectura
II.I Nivel operacional
II.II Almacén de datos o DW
II.III Nivel departamental (Data Mart)
II.IV Nivel individual
III. Función de un Almacén de Datos
IV. Procesos
V. Cubos de Información
V.I Dimensiones
V.II Variables
V.III Ejemplos
VI. Limpieza de Datos
VII. ¿Cómo está integrado un almacén de datos?
VII.I Metadatos
VII.II Funciones ETL (extracción, transformación y carga)
VII.III Middleware
VIII. Almacén de datos especial
IX. Los elementos básicos de un Almacén de Datos (Data WareHouse)
X. Objetivos de Un Almacén de Datos
XI. Características
XI.I No Volátil
XI.II De tiempo variante
XI.III Temático
XI.IV Integrado
XII. Ventajas e Inconvenientes
XII.I Ventajas
XII.II Inconvenientes
XIII. Conclusiones
XIV. Bibliografía
Introducción
Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de
control y manejo de las operaciones comerciales. Fue así como en unos pocos años en
grandes empresas y negocios existía un considerable número de información almacenada
en diferentes fuentes de datos y estas ya habían alcanzado un tamaño considerablemente
grande.
Con esta gran acumulación de información, los directivos de tales empresas y negocios
se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría de sus
operaciones comerciales durante los llamados ciclos de negocios propios del mercado.
A su vez, los mercados empresariales han experimentado una transformación radical. Las
empresas demandan mayor rapidez y eficiencia en la entrega de productos, y mejora en
todos los servicios existentes, por lo que se hace imprescindible encontrar formas más
eficaces de distribuir los productos, más facilidades para hacer estudios de mercado
basados en la información de las operaciones comerciales de las empresas y de sus
clientes y, en definitiva, mayor rapidez a la hora de tomar decisiones.
Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información de
las cuales disponían, en un único lugar, al que sólo se le incorporaría información
relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de
fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data Warehouse
(DW).
Sin embargo, para hacer un uso eficiente de la información histórica almacenada en un
DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos fueran
fáciles de obtener, estandarizados y confiables.
Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas
empresas, al no considerar adecuadamente el impacto para el negocio de tener
almacenada información deficiente.
Presentación
A continuación presentamos todo lo referente a lo que es un almacén de datos o un data
warehouse y todo lo más importante de este tema, veremos información como algunas de
sus definiciones, características, como es su arquitectura, ventajas, desventajas y una
amplia información que espero les pueda servir para que se informen y aclaren sus
dudas acerca de este tema.
Almacén de Datos
Un Almacén de Datos o Data Warehouse (DW) es un almacén de información temática
orientado a cubrir las necesidades de aplicaciones de los sistemas de Soporte de
Decisiones (DSS) y de la Información de Ejecutivos (EIS), que permite acceder a la
información corporativa para la gestión, control y apoyo a la toma de decisiones.
Dicha información es construida a partir de bases de datos que registran las
transacciones de los negocios de las organizaciones (bases de datos operacionales), y su
importancia reside en elementos como los siguientes:
Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un
sentido automatizado para identificar información clave desde volúmenes de datos
generados por procesos tradicionales o elementos de software.
Posibilita medir las acciones y los resultados de una mejor forma.
Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando
por información que finalmente es incorrecta o no encontrada, es eliminada.
Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, a qué
segmentos de clientes deben ir dirigidas las siguientes acciones de marketing.
Definiciones de almacén de datos
Definición de Bill Inmon
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de
datos, define un data warehouse (almacén de datos) en términos de las características del
repositorio de datos:
Orientado a temas.- Los datos en la base de datos están organizados de manera
que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre sí.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
No volátil.- La información no se modifica ni se elimina, una vez almacenado un
dato, éste se convierte en información de sólo lectura, y se mantiene para futuras
consultas.
Integrado.- La base de datos contiene los datos de todos los sistemas
operacionales de la organización, y dichos datos deben ser consistentes.
Inmon defiende una metodología descendente (top-down) a la hora de diseñar un
almacén de datos, ya que de esta forma se considerarán mejor todos los datos
corporativos. En esta metodología los Data marts se crearán después de haber terminado
el data warehouse completo de la organización.
Definición de Ralph Kimball
Ralph Kimball2 es otro conocido autor en el tema de los data warehouse, define un
almacén de datos como: "una copia de las transacciones de datos específicamente
estructurada para la consulta y el análisis". También fue Kimball quien determinó que un
data warehouse no era más que: "la unión de todos los Data marts de una entidad".
Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un
almacén de datos.
Una definición más amplia de almacén de datos
Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los
medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas
para analizarlos y generar información, así como las diferentes formas para realizar la
gestión de datos son componentes esenciales de un almacén de datos. Muchas
referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en
esta definición se incluyen herramientas para extraer, transformar y cargar datos,
herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y
recuperar los metadatos.
Arquitectura
Los bloques funcionales que se corresponden con un sistema de información completo
que utiliza un DW se muestran gráficamente en la Figura:
Arquitectura de un Data Warehouse
Nivel operacional
Contiene datos primitivos (operacionales) que están siendo permanentemente
actualizados, usados por los sistemas operacionales tradicionales que realizan
operaciones transaccionales.
Almacén de datos o DW
Contiene datos primitivos correspondientes a sucesivas cargas del DW y algunos datos
derivados. Los datos derivados son datos generados a partir de los datos primitivos al
aplicarles algún tipo de procesamiento (resúmenes).
Nivel departamental (Data Mart)
Contiene casi exclusivamente datos derivados. Cada departamento de la empresa
determina su nivel departamental con información de interés a dicho nivel. Va a ser el
blanco de salida sobre el cual los datos en el almacén son organizados y almacenados
para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras
aplicaciones.
Entre las características de una data mart destacan:
Usuarios limitados.
Área específica.
Tiene un propósito específico.
Tiene una función de apoyo.
Nivel individual
Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los
datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un DW.
Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así
como navegar a través de los datos contenidos en el DW.
Función de un Almacén de Datos
En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles
para una organización, es decir, que se utiliza como un repositorio de datos para
posteriormente transformarlos en información útil para el usuario. Un almacén de datos
debe entregar la información correcta a la gente indicada en el momento óptimo y en el
formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios
expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información
ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales
pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la
operación del sistema.
En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:
Integración de los datos provenientes de bases de datos distribuidas por las
diferentes unidades de la organización y que con frecuencia tendrán diferentes
estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un
análisis comprensivo de toda la organización en el almacén de datos.
Separación de los datos usados en operaciones diarias de los datos usados en el
almacén de datos para los propósitos de divulgación, de ayuda en la toma de
decisiones, para el análisis y para operaciones de control. Ambos tipos de datos
no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy
distintos y podrían entorpecerse entre sí.
Periódicamente, se importan datos al almacén de datos de los distintos sistemas de
planeamiento de recursos de la entidad (ERP) y de otros sistemas de software
relacionados con el negocio para la transformación posterior. Es práctica común
normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas
de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios
(a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al
almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el
almacén.
Procesos
Existen un conjunto básico de procesos detrás de una arquitectura de un DW de suma
importancia para el mismo.
Primeramente se realiza el proceso de extracción, que consiste en estudiar y entender los
datos fuente, tomando aquellos que son de utilidad para el almacén. Una vez que los
datos son extraídos, éstos se transforman a una forma presentable y de valor para los
usuarios. Este proceso incluye corrección de errores, resolución de problemas de
dominio, borrado de campos que no son de interés, generación de claves, agregación de
información, etc.
Al terminar el proceso de transformación, se hace la carga de los datos en el DW y
seguido se realizan controles de calidad para asegurar que la misma sea correcta.
Cuando la información se encuentra disponible, se le informa al usuario. Es importante
publicar todos los cambios que se hayan realizado. En este momento ya el usuario final
puede realizar consultas. Este debe disponer de herramientas de consulta y
procesamiento de datos.
A veces es aconsejable seguir el camino inverso de carga. Por ejemplo, pueden
alimentarse los sistemas con información depurada del DW o almacenar en el mismo
alguna consulta generada por el usuario que sea de interés, por eso se realiza la
retroalimentación de datos o feedback.
También se realiza el proceso de auditoría, que permite conocer de dónde proviene la
información así como qué cálculos la generaron.
Ya construido el DW, es de interés para la empresa que llegue la información a la mayor
cantidad de usuarios pero, por otro lado, se tiene sumo cuidado de protegerla contra
posibles 'hackers', 'snoopers' o espías (seguridad).
Además, se deben realizar actividades de backup y restauración de la información, tanto
de la almacenada en el DW como de la que circula desde los sistemas fuente al almacén.
Cubos de Información
Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en
los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de
organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones,
los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también
reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada
variable que se desea analizar, proporcionando una vista lógica de los datos provistos por
el sistema de información hacia el data warehouse, esta vista estará dispuesta según
unas dimensiones y podrá contener información calculada. El análisis de los datos está
basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis
multidimensional.
A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en
una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le
permiten manipular las vistas (cruces, filtrados, organización, totales) de la información
con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de
información se producen con mucha rapidez. Llevando estos conceptos a un data
warehouse, éste es una colección de datos que está formada por «dimensiones» y
«variables», entendiendo como dimensiones a aquellos elementos que participan en el
análisis y variables a los valores que se desean analizar.
Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas
de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de
información complementaria necesaria para la presentación de los datos a los usuarios,
como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la
información general complementaria a cada uno de los registros de la tabla de hechos.
Variables
También llamadas “indicadores de gestión”, son los datos que están siendo analizados.
Forman parte de la tabla de hechos. Más formalmente, las variables representan algún
aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las
variables son representadas por valores detallados y numéricos para cada instancia del
objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las
variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las
mismas. Las dimensiones poseen una granularidad menor, tomando como valores un
conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían
ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas,
etc.)
Ejemplos de dimensiones podrían ser:
producto (diferentes tipos o denominaciones de productos)
localidades (o provincia, o regiones, o zonas geográficas)
tiempo (medido de diferentes maneras, por horas, por días, por meses, por años,
...)
tipo de cliente (casado/soltero, joven/adulto/anciano, ...)
etc.
Según lo anterior, podríamos construir un cubo de información sobre el índice de ventas
(variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el
cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones.
Limpieza de Datos
Generalmente las empresas no cuentan con aplicaciones únicas para cada parte de la
operativa del negocio, sino que pueden tener replicaciones y distintos sistemas para
atender un mismo conjunto de operaciones, y en esos casos es probable que las bases
de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos,
superfluos o incompletos. A esto se le suman los posibles errores a la hora de la entrada
de datos a los sistemas de datos operacionales. Estas, y otras mostradas en la Figura,
son algunas de las cuestiones que contribuyen a la suciedad de los datos.
Algunos errores que provocan suciedad en los datos
La limpieza de datos se encuentra dentro del proceso de transformación de datos. Esta,
es mucho más que simplemente actualizar registros con datos buenos. Una limpieza de
datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos se
puede dividir en seis pasos: separar en elementos, estandarizar, verificar, machear,
agrupar y documentar.
Por ejemplo, si tenemos direcciones de clientes las cuales queremos limpiar, lo primero
sería separar este campo en los elementos principales de la dirección (Calle, No., Entre
Calles, Código Postal, etc.). Lo segundo sería estandarizar los elementos, o sea lograr
que estos queden de forma normalizada. Luego se verificaría si los elementos
estandarizados contienen errores en su contenido, y ya estaríamos listos para machear
(hacer parejas o correspondencias) y agrupar, que consiste en reconocer que algunas de
las partes de la dirección constituyen una agrupación, por ejemplo, si se tienen dos
direcciones iguales de diferentes clientes que están relacionados de alguna forma (son
hermanos o están casados), estos forman un grupo. Por último se documentarían los
resultados de los pasos anteriores en metadatos.
Esto ayuda a que las siguientes limpiezas sean más capaces de reconocer direcciones y
a que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones
de un DW.
Como se puede apreciar, sería bastante tedioso llevar manualmente este proceso, y para
hacerlo automatizado se necesitaría de aplicaciones sofisticadas que contengan
algoritmos de análisis gramatical (parsing) de direcciones, algoritmos de macheo, e
inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes
partes de las direcciones.
En algunos casos es posible crear programas de limpieza efectivos. Pero en el caso de
bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas
comerciales, ya existentes, puede ser casi obligatorio.
¿QUE ES ESTANDARIZACION? IMPORTANCIA DE LA
ESTANDARIZACION DE DIRECCIONES PARA LAS EMPRESAS DE
HOY EN DIA?
La estandarización forma parte de los seis pasos necesarios para llevar a cabo la limpieza
de datos. Esta consiste en separar la información en diferentes campos, así como unificar
ciertos criterios para un mejor manejo y manipulación de los datos.
Tener datos estandarizados, consistentes y con calidad, resulta muy útil y a veces de vital
importancia para las empresas que utilizan almacenes de datos. Un ejemplo de ello son
aquellas organizaciones cuyos datos referentes a sus clientes son de gran valor. El
manejo de los nombres y direcciones de los clientes no es tarea fácil. Más del 50% de las
compañías en Internet no pueden responder a las necesidades de todos sus clientes y no
se pueden relacionar con ellos a causa de la falta de calidad en sus datos.
Para comunicarse efectivamente con sus clientes, por teléfono, por correo o por cualquier
otra vía, una empresa debe mantener una lista de sus clientes extraordinariamente limpia.
Esto no solo provoca que existan menos correos devueltos y más envíos precisos, sino
que además, mejora la descripción y análisis de los clientes, que se traduce en un servicio
más rápido y profesional.
Hay muchos ejemplos de aplicaciones basadas en la información del cliente que
necesitan que sus datos, y principalmente sus direcciones tengan integridad, algunos de
ellos son:
Sistemas CRM (Customer Relationship Management, Gestión de las Relaciones
con el Cliente)
E-Business (Negocios electrónicos)
Call Centers (Oficina o compañía centralizada que responde llamadas telefónicas
de clientes o que hacen llamadas a clientes (telemarketing))
Sistemas de Marketing
Del mismo modo, podemos mencionar algunas de las organizaciones que mayormente
son beneficiadas por la limpieza de los datos de sus clientes.
Bancos y Finanzas
Gobierno
Salud
Telecomunicaciones
¿Cómo está integrado un almacén de datos?
Metadatos
Uno de los componentes más importantes de la arquitectura de un almacén de datos son
los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de
que se trata de datos que describen cuál es la estructura de los datos que se van a
almacenar y cómo se relacionan.
El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los
datos son de interés para el usuario final, el metadato es de interés para los programas
que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un
entorno de almacén de datos es muy diferente al rol que cumple en los ambientes
operacionales. En el ámbito de los data warehouse el metadato juega un papel
fundamental, su función consiste en recoger todas las definiciones de la organización y el
concepto de los datos en el almacén de datos, debe contener toda la información
concerniente a:
Tablas
Columnas de tablas
Relaciones entre tablas
Jerarquías y Dimensiones de datos
Entidades y Relaciones
Funciones ETL (extracción, transformación y carga)
Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la
forma en que los datos se guardan en un almacén de datos (o en cualquier base de
datos). Implican las siguientes operaciones:
Extracción. Acción de obtener la información deseada a partir de los datos
almacenados en fuentes externas.
Transformación. Cualquier operación realizada sobre los datos para que puedan
ser cargados en el data warehouse o se puedan migrar de éste a otra base de
datos.
Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el
almacén de datos objetivo normal.
Middleware
Middleware es un término genérico que se utiliza para referirse a todo tipo de software de
conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de
aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como
una capa de abstracción de software distribuida, que se sitúa entre las capas de
aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse
como una capa API, que sirve como base a los programadores para que puedan
desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los
protocolos de red y comunicaciones en que se ejecutarán. De esta manera se ofrece una
mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más
complejas, en menos tiempo.
La función del middleware en el contexto de los data warehouse es la de asegurar la
conectividad entre todos los componentes de la arquitectura de un almacén de datos.
Diseño de un almacén de datos
Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración
y a la transformación de los datos hacia el almacén. Una vez construido, se requieren
medios para manejar grandes volúmenes de información. Se diseña su arquitectura
dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de
consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos
data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio
de algunos temas generales de la organización o empresa, los cuales se describen a
continuación:
Situación actual de partida.- Cualquier solución propuesta de data warehouse
debe estar muy orientada por las necesidades del negocio y debe ser compatible
con la arquitectura técnica existente y planeada de la compañía.
Tipo y características del negocio.- Es indispensable tener el conocimiento
exacto sobre el tipo de negocios de la organización y el soporte que representa la
información dentro de todo su proceso de toma de decisiones.
Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes,
servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los
Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan,
etc.
Expectativas de los usuarios.- Un proyecto de data warehouse no es
únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y
como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento
sobre su bondad.
Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de
un modelo conceptual para la construcción del data warehouse.
Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea
posible el producto final que será entregado a los usuarios.
Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros
resultados generados de forma iterativa que se harán para llegar a la construcción
del producto final deseado.
Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar
para determinar si la arquitectura especificada del data warehouse funcionará
finalmente como se espera.
Almacén de datos especial
Almacén de datos especial es una colección de datos orientados al tema, integrados, no
volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de
decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que es
una dimensión o variable en la tecnología de la información, de tal manera que permita
modelar todo el negocio como un ente holístico, y que a través de herramientas de
procesamiento analítico en línea (OLAP), no solamente se posea un alto desempeño en
consultas multidimensionales sino que adicionalmente se puedan visualizar
espacialmente los resultados.
El almacén de datos especial forma parte de un extensivo Sistema de Información
Geográfica para la toma de decisiones, éste al igual que los SIG, permiten que un gran
número de usuarios accedan a información integrada, a diferencia de un simple almacén
de datos que está orientado al tema, el Data warehouse especial adicionalmente es Geo-
Relacional, es decir que en estructuras relacionales combina e integra los datos
espaciales con los datos descriptivos.
Actualmente es geo-objetos, esto es que los elementos geográficos se manifiestan como
objetos con todas sus propiedades y comportamientos, y que adicionalmente están
almacenados en una única base de datos Objeto-Relacional.
Los Data Warehouse Especiales son aplicaciones basadas en un alto desempeño de las
bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en
tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de
datos, muchos de los cuales no referencian ubicación especial, a pesar de poseerla
intrínsecamente, y sabiendo que un 80% de los datos poseen representación y ubicación
en el espacio, en los Data warehouse especiales, la variable geográfica desempeña un
papel importante en la base de información para la construcción del análisis, y de igual
manera que para un Data warehouse, la variable tiempo es imprescindible en los análisis,
para los Data warehouse especiales la variable geográfica debe ser almacenada
directamente en ella.
Los elementos básicos de un Almacén de Datos (Data
WareHouse)
Sistema fuente: sistemas operacionales de registros donde sus funciones son
capturar las transacciones del negocio. A los sistemas fuentes también se le conoce
como Legacy System.
Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que
limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan
los datos fuente para ser usados en el Data WareHouse.
Servidor de presentación: la maquina física objetivo en donde los datos del Data
WareHouse son organizados y almacenados para queries directos por los usuarios
finales, reportes y otras aplicaciones.
Modelo dimensional: una disciplina especifica para el modelado de datos que es
una alternativa para los modelos de entidad – relación.
Procesos de negocios: un coherente grupo de actividades de negocio que hacen
sentido a los usuarios del negocio del Data WareHouse.
Data Mart: un subgrupo lógico del Data WareHouse completo.
Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos
los data marts que la constituyen.
Almacenamiento operacional de datos: es el punto de integración por los sistemas
operacionales. Es el acceso al soporte de decisiones por los ejecutivos.
OLAP: actividad general de búsquedas para presentación de texto y números del
Data WareHouse, también un estilo dimensional especifico de búsquedas y
presentación de información y que es ejemplificada por vendedores de OLAP.
ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de
datos relacional un estilo dimensional.
MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de
tecnología de bases de datos que tienen un fuerte estilo dimensional.
Aplicaciones para usuarios finales: una colección de herramientas que hacen los
queries, analizan y presentan la información objetivo para el soporte de las
necesidades del negocio.
Herramientas de acceso a datos por usuarios finales: un cliente de Data
WareHouse.
Ad Hoc Query Tool: un tipo específico de herramientas de acceso a datos por
usuarios finales que invita al usuario a formas sus propios queries manipulando
directamente las tablas relacionales y sus uniones.
Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con
capacidades analíticas que transforma o digiere las salidas del Data WareHouse.
Meta Data: toda la información en el ambiente del Data WareHouse que no son así
mismo los datos actuales.
Objetivos de Un Almacén de Datos
Los objetivos fundamentales de un Almacén de Datos o Data WareHouse son:
Hace que la información de la organización sea accesible: los contenidos del Data
WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado
por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco
limites fijos. Cuando hablamos de entendible significa, que los niveles de la
información sean correctos y obvios. Y Navegables significa el reconocer el
destino en la pantalla y llegar a donde queramos con solo un clic. Rápido
desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
Hacer que la información de la organización sea consistente: la información de una
parte de la organización puede hacerse coincidir con la información de la otra
parte de la organización. Si dos medidas de la organización tienen el mismo
nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas
no significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la información
es contabilizada y completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.
Es información adaptable y elástica: el Data WareHouse esta diseñado para
cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los
datos existentes y las tecnologías no cambian ni se corrompen. Cuando se
agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías
tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen
al Data WareHouse, deben ser distribuidos e incrementados. Todo lo demás es un
compromiso y por consiguiente algo que queremos mejorar.
Es un seguro baluarte que protege los valores de la información: el Data
WareHouse no solamente controla el acceso efectivo a los datos, si no que da a
los dueños de la información gran visibilidad en el uso y abusos de los datos, aún
después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos
correctos para soportar la toma de decisiones. Solo hay una salida verdadera del
Data WareHouse: las decisiones que son hechas después de que el Data
WareHouse haya presentado las evidencias. La original etiqueta que preside el
Data WareHouse sigue siendo la mejor descripción de lo que queremos construir:
un sistema de soporte a las decisiones.
Características
Un DW es un conjunto de datos con las siguientes características:
Integrado
Los datos almacenados en el datawarehouse deben integrarse en una estructura
consistente, por lo que las inconsistencias existentes entre los diversos sistemas
operacionales deben ser eliminadas. La información suele estructurarse también en
distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
En la siguiente imagen podemos ver cómo se maneja la información en distintas
aplicaciones y lo que buscamos con la integración seria escoger de todas un estándar de
información para que uniformice los datos y se introduzcan al repositorio
Temático
Sólo los datos necesarios para el proceso de generación del conocimiento del negocio se
integran desde el entorno operacional. Los datos se organizan por temas para facilitar su
acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos
sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta
forma, las peticiones de información sobre clientes serán más fáciles de responder dado
que toda la información reside en el mismo lugar.
En la siguiente imagen se muestra cómo se maneja un sistema de información orientada
a sus aplicaciones y otra temática una diferencia importante entre estas está en la
interrelación de la información. Los datos operacionales (aplicaciones) mantienen una
relación continua entre dos o más tablas basadas en una regla comercial. Las del data
warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse
(podremos indagar en toda la información pasada relacionada entre todas las
aplicaciones).
De tiempo variante
El tiempo es parte implícita de la información contenida en un datawarehouse. En los
sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio
en el momento presente. Por el contrario, la información almacenada en el
datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto,
el datawarehouse se carga con los distintos valores que toma una variable en el tiempo
para permitir comparaciones.
Los datos históricos son de poco uso en el procedimiento operacional. La información del
depósito por el contrario, debe incluir los datos históricos para usarse en la identificación y
evaluación de tendencias.
No Volátil
El almacén de información de un datawarehouse existe para ser leído, pero no
modificado. La información es por tanto permanente, significando la actualización del
datawarehouse la incorporación de los últimos valores que tomaron las distintas variables
contenidas en él sin ningún tipo de acción sobre lo que ya existía.
Como se puede observar en la imagen en la base de datos operacional la actualización
(actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea
una sola actualización esto hace que cuando tengamos que tomar una decisión con esta
información tengamos seguridad de esta.
Ventajas e Inconvenientes
Ventajas
Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de
ellas son:
Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a
los usuarios finales
Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la
decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la
mayoría de las ventas en un área en particular dentro de los últimos dos años;
informes de excepción, informes que muestran los resultados reales frente a los
objetivos planteados a priori.
Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el
valor operacional de las aplicaciones empresariales, en especial la gestión de
relaciones con clientes.
Inconvenientes
Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos
son:
A lo largo de su vida los almacenes de datos pueden suponer altos costos. El
almacén de datos no suele ser estático. Los costos de mantenimiento son
elevados.
Los almacenes de datos se pueden quedar obsoletos relativamente pronto
A veces, ante una petición de información estos devuelven una información
subóptima, que también supone una pérdida para la organización.
A menudo existe una delgada línea entre los almacenes de datos y los sistemas
operacionales. Hay que determinar qué funcionalidades de estos se pueden
aprovechar y cuáles se deben implementar en el data warehouse, resultaría
costoso implementar operaciones no necesarias o dejar de implementar alguna
que sí vaya a necesitarse.
Conclusiones
Los almacenes de datos son el centro de atención de las grandes empresas
actuales, porque son una colección de datos donde se encuentra integrada la
información de estas, proporcionando una herramienta para que puedan hacer un
mejor uso de la información y para el soporte al proceso de toma de decisiones
gerenciales.
Existen numerosas causas que provocan suciedad en los registros de los sistemas
operacionales, lo que trae como consecuencia que haya gran cantidad de datos
almacenados en las empresas que carece de la calidad adecuada para ser
utilizada de forma confiable.
El problema de la limpieza de datos es uno de los tres problemas fundamentales
de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya
que no consideran adecuadamente el impacto negativo que puede ocasionar para
el negocio el tener almacenada información deficiente.
En algunos casos es posible crear programas de limpieza a la medida para la
empresa en cuestión, pero en el caso de bases de datos con grandes números de
registros puede ser casi obligatorio el uso de las herramientas comerciales ya
existentes.
Para las organizaciones actuales, la estandarización de las direcciones de sus
listas de clientes es un punto fundamental a tener en cuenta, ya que direcciones
de un DW que no tengan esta característica pueden provocar pérdida de
credibilidad de las organizaciones, que a su vez, lleva a la pérdida de clientes
como consecuencia de un servicio poco eficaz.
Bibliografía
Casares C. (Nov/2005) - Data
Warehousing, http://www.programacion.com/bbdd/tutorial/warehouse/15/#wareho
using_desarrollo_confi
Hussain S.; Beg J. (Oct/2005). - Data Quality: A Problem and an
Approach, http://doc.advisor.com/doc/13060
Kimball R. (Oct/2005) -Dealing with Dirty
Data, http://www.dbmsmag.com/9609d14.html
Martín J.; Morrás C.; García M. L.; Tello L. I.;Vivancos A. J. (Oct/2005) - Sistemas
de soporte a la gestión del
negocio, http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol812/so
porte/soporte.html
Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005). -
Bases de datos y data warehouse: Herramientas estratégicas para
la eficacia comercial, http://www-lsi.ugr.es/~rosana/ investigacion/bd_efsi04.pdf
Laudon Keneth C., Laudon Jane P., Sistemas de Información Gerencial (8ª ed.)
México, Pearson Educación, (2004)
http://www.dwinfocenter.org/casefor.html
http://datawarehouse.ittoolbox.com/
http://dwhucv.blogspot.com/p/caracteristicas-de-un-datawarehouse.html
http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos
http://es.wikipedia.org/wiki/Cubos_OLAP
http://es.wikipedia.org/wiki/OLAP