Análisis de las soluciones y herramientas tecnológicas disponibles parte 2

Post on 22-Jun-2015

271 views 0 download

description

ANÁLISIS DE LAS SOLUCIONES Y HERRAMIENTAS TECNOLÓGICAS DISPONIBLES parte 1

Transcript of Análisis de las soluciones y herramientas tecnológicas disponibles parte 2

Etapas de construcción de un datawarehouse

Captura o exhibición de los datos de las fuentes seleccionadas Se utilizan herramientas de extracción que soportan múltiples formatos de almacenamiento, para luego incorporarlos en el datawarehouse.

Tratamiento, conversión y transformación de los datosDetectar y corregir errores

Eliminar duplicadosDetectar y eliminar datos sin sentidos

Analizar la consistencia en el uso de los valoresCodificar sexoUtilizar mismas unidades de medidasFormatos de fechasDirecciones

Añadir la referencia temporal a los datos capturados

Tratamiento de la ausencia de los valoresAsignar valores por defecto a determinados campos

Eliminar campos no significativosReestructurar y añadir nuevos campos

Enriquecer los datos con mas información fundamental

Incorporar datos estadísticos de institucionesCualificar la base de datos por variables socio-

demográficos o información adicional sobre empresas.

Normalizar determinados camposNormalización de nombre de clientesNormalización de nombre de ciudades,

países, etc.Codificar campos para facilitar su

tratamiento estadísticoConvertir direcciones en códigos de areaTraducir fechas de nacimiento en intervalos

de edadesCodificar al actividad empresarial o

profesional de los clientes

Calculo de campos derivadosCalculo de subtotales y datos contables

Filtrado y depuración de registrosDepurar a clientes y clientes potenciales de

acuerdo con la relación que tienen ante la empresa

Carga en el sistema gestor de datos del Datawarehouse

Administración

- Código de pedido.- Código de cliente.- Fecha.- referencias de productos, cantidades y precios.- Importe total.

Marketing

- Identificador del cliente.- Perfil del cliente.- Historial de quejas y reclamaciones. - Solicitudes de información.

Producción

-Referencia de producto.- Stock.- Unidades producidas.- Unidades demandadas.- Coste.- Precio de venta.

Data Warehouse

Clientes. Productos. Ventas. Inventarios. Precio.

Extracción, transformació

n y carga

Sistema Gestor de Datos en un Datawarehouse

Capacidad para recibir o enviar datos.Capacidad para gestionar varios

volúmenes de datos.Registro de metadatos que faciliten la

explotación del sistema.Registro de datos con varios niveles de

detalle.

Utilización eficaz de gran cantidad de índices.

Optimización del espacio de almacenamiento disponible.

Interfaz con multitud de herramientas y lenguajes de consulta.

Tipos de sistemas de gestión de base de datos.

Base de datos relacional tradicional.

Base de datos relacional con un diseño en estrella.

Base de datos multidimensional.

Base de Datos Relacional tradicional.

Se usa para construir Datawarehouse de tamaño relativamente pequeño.

Limitación al numero de índices creados en la base de datos.

Datos no volátiles. No es posible optimizar el

almacenamiento físico de los datos.

Base de datos relacional con un diseño en estrella.

Consiste básicamente en utilizar estructuras de datos no normalizadas.

Esto ayuda a agilizar consultas y operaciones.

Base de Datos MultidimensionalSe almacenan los datos en cubos

multidimensionales.Ocupan gran espacio.

Explotación del DatawarehouseHerramientas de generación de consultas

(“Queries and Reporting”)

Análisis Multidimensional (OLAP: On Line Analytical Processing)

Herramientas de Datamining

Herramientas de generación de consultas (“Queries and Reporting”)

Son las clásicas herramientas de generación de consultas e informes de los sistemas de base de datos.

Análisis Multidimensional (OLAP: On Line Analytical Processing)

Son herramientas que facilitan el análisis de los datos a través de dimensiones y de jerarquías.

Herramientas de Datamining

Son técnicas avanzadas que permiten detectar y modelizar relaciones entre datos y obtener información no evidente.

Tecnología necesarias para los sistemas de Datawarehousing

Requieren equipos de altas prestaciones para poder manejar grandes volúmenes de datos con rapidez y eficacia.

Existen 2 tipos de arquitecturas de servidores:

SMP (Symmetric Multiprocessing)MPP (Massively Parallel)

Arquitectura SMP ( Symmetric Multiprocessing)

Arquitectura MPP (Massively Parallel)

Herramientas de análisis de datos OLAP

Dimensiones: grupos conceptuales que permiten analizar o consolidad datos.

Medidas o indicadores: valores numéricos que se guardan en la base da datos.

Jerarquía de dimensiones: distintos niveles de agregación.

Herramientas de DataminingConstituyen métodos avanzados para

explorar y modelizar relaciones en grandes volúmenes de datos.

Muestreo.Exploración.Modificación.Modelización del comportamiento.Evaluación.Presentación grafica de los resultados.

Herramientas estadisticas Calculo de distintos parámetros

estadísticos. Técnicas bayesianas.Hipótesis. Técnicas de regresión lineal.Análisis multivariante.

Análisis cluster: agrupación de datos para poder llevar a cabo la segmentación de clientes.

Técnicas de inteligencia artificial Algoritmos genéticos.

Redes neuronales.

Herramientas simbólicasArboles de decisión.Reglas de asociación.Identificación de patrones secuenciales.