UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

40
REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 1 Especialidad Redes Y Sistemas Distribuidos Materia Base De Datos Distribuidas A N T O L O G Í A UNIDAD VI “Bases De Datos Para El Soporte En La Toma De Decisiones” Instituto Tecnológico Superior De Xalapa Ingeniería En Sistemas Computacionales

Transcript of UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

Page 1: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 1

EspecialidadRedes Y Sistemas Distribuidos

MateriaBase De Datos Distribuidas

A N T O L O G Í AUNIDAD VI

“Bases De Datos Para El Soporte En La Toma De Decisiones”

Profesor:

I. S. C. Juan Manuel Olguín

Instituto Tecnológico Superior

De Xalapa

Ingeniería En Sistemas Computacionales

Page 2: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

UNIDAD IV

BASES DE DATOS PARA EL SOPORTE EN LA TOMA DE DECISIONES

6.1 Bodegas de datos (Datawarehouse). 6.1.1 Definición y objetivo. 6.1.2 Funcionamiento. 6.1.3 Consideraciones de diseño. 6.1.4 Herramientas para extraer, transformar y cargar fuentes de datos.

6.2 Procesamiento y análisis en línea (OLAP). 6.2.1 Definiciones y conceptos. 6.2.2 Requerimientos funcionales de los sistemas OLAP. 6.2.3 Operadores para manejo de cubos de datos del estándar SQL3. 6.2.4 Diseño de consultas a bases de datos multidimensionales. 6.2.5 Utilización de herramientas para OLAP.

6.3 Mercados de datos (Data Mart). 6.3.1 Definiciones y conceptos. 6.3.2 Fases de construcción.

6.3.2.1 Análisis. 6.3.2.2 Construcción. 6.3.2.3 Post-producción.

6.4 Minería de datos (Data mining). 6.4.1 Definiciones y conceptos. 6.4.2 Aplicaciones de la minería de datos. 6.4.3 Diseño de mineros de datos. 6.4.4 Obtención de información a través de patrones de búsqueda 6.4.5 Técnicas y herramientas de la minería de datos. 6.4.6 Tendencias en minería de datos.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 2

Page 3: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

6.1 BODEGAS DE DATOS (DATAWAREHOUSE)

Es un conjunto de datos integrados u orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y está orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.

Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información está orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.

Datawarehousing es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora, consolidar datos desde una variedad de fuentes, manejar grandes volúmenes de datos de una forma que no era posible, o no era costo efectiva. A estos medios los agruparemos en Procesamiento y Administración de Datos. Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías que serán explicadas más adelante: Acceso a los Datos y Descubrimiento o Data Mining.

6.1.1 DEFINICIÓN Y OBJETIVO

Es un conjunto de datos integrados u orientados a un objetivo específico, que varían con el tiempo (datos históricos) y que no son transitorios. Soportan el proceso de toma de decisiones de la administración y está orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.

Una Bodega de Datos es una base de datos que organiza y almacena una colección de información derivada directamente de los sistemas operacionales y de algunos datos externos.

El objetivo de construir una bodega es centralizar y resumir (agregación) la gran variedad de datos e información.

Arquitectura particular para almacenar datos cuyo diseño no está preparado para soportar el proceso transaccional.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 3

Page 4: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Contiene información histórica de la empresa para permitir análisis de su evoluciónEstructurada para optimizar consultas, y las actualizaciones se hacen fuera de línea.

Los sistemas de Data Warehousing son el centro de la arquitectura de los Sistemas de Información de los 90’s. Han surgido como respuesta a la problemática de extraer información sintética a partir de datos atómicos almacenadosen bases de datos de producción. Uno de los objetivos principales de este tipo de sistemas es servir como base de información para la toma de decisiones.

Los beneficios obtenidos por la utilización de este tipo de sistemas se basan en el acceso interactivo e inmediato a información estratégica de un área de negocios.

6.1.2 FUNCIONAMIENTO

Una Bodega de Datos debe entregar la información correcta a la gente indicada en el momento adecuado en el formato correcto.

Da respuesta a las necesidades de usuarios conocedores, utilizando Sistemas de Soporte en la decisión (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas y reportes.

Los usuarios finales pueden hacer consultas sobre sus Bodegas de Datos sin tocar o afectar la operación del sistema.

EXISTEN MUCHAS FORMAS DE CONSIDERAR UN DATA WAREHOUSE.

Los siguientes puntos son algunos ejemplos del funcionamiento del Data WareHouse:

El Data Warehouse ofrece una serie de características y funciones para implementar procesos empresariales y enlazarlos con otros procesos fuera del ámbito del Data Warehouse. En forma muy similar a otros sistemas de aplicaciones empresariales, se requiere que el Data Warehouse proporcione al usuario final estos conjuntos prescritos de características y funciones del modo más eficiente posible.

Un Data Warehouse. Almacena información resumida que se organiza de acuerdo con temas empresariales, para analizar la información con más facilidad. La carga de mostrar, organizar y reportar la información que guarda el Data Warehouse corresponde a las herramientas que deben incorporarse en el Data Warehouse. En esta visión, un Data Warehouse tiene una capacidad latente que sólo se vuelve útil cuando las herramientas de análisis y reporte se aplican con inteligencia a los datos que conserva el Data Warehouse.

Es necesario que el Data Warehouse organice grandes cantidades de información de manera compacta y eficiente. También se requiere que

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 4

Page 5: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

proporcione técnicas para resumir, a fin de que los usuarios finales comprendan las lecciones de los antecedentes con más facilidad.

En ocasiones. Entrega información operacional copiando información de los sistemas operacionales de bases de datos.

En este caso, se requiere que el Data Warehouse distribuya información operacional de manera eficiente.

Es evidente que los requerimientos de un Data Warehouse son tan variados y diversos como las clases de usuario que lo utilizan para obtener beneficios empresariales. Por lo tanto, es necesario clasificar los requerimientos del Data

6.1.3 CONSIDERACIONES DE DISEÑO

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia el almacén.

Una vez construido, se requieren medios para manejar grandes volúmenes de información. Se diseña su arquitectura dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de consultas a realizar.

Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organización o empresa, los cuales se describen a continuación:

Situación Actual De Partida: Cualquier solución propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.

Tipo Y Características Del Negocio: Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.

Entorno Técnico: Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan, etc.

Expectativas De Los Usuarios: Un proyecto de data warehouse no es únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.

Etapas De Desarrollo: Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construcción del data warehouse.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 5

Page 6: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Prototipo: Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que será entregado a los usuarios.

Piloto: El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harán para llegar a la construcción del producto final deseado.

Prueba Del Concepto Tecnológico: Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionará finalmente como se espera.

6.1.4 HERRAMIENTAS PARA EXTRAER, TRANSFORMAR Y CARGAR FUENTES DE DATOS

Sistema ETL (Extracción, Transformación, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, …) y la carga del AD, realizando:

Extracción de los datos. Filtrado de los datos: limpieza, consolidación, etc Carga inicial del almacén: ordenación, agregaciones, etc. Refresco del almacén: operación periódica que propaga los cambios de las

fuentes externas al almacén de datos Repositorio Propio de Datos: información relevante, metadatos Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos

se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global,

copias de seguridad. Físico DW: Herramientas que proveen acceso a los datos.

FUNCIONES ETL (EXTRACCIÓN, TRANSFORMACIÓN Y CARGA)

Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las siguientes operaciones:

Extracción: Acción de obtener la información deseada a partir de los datos almacenados en fuentes externas.

Transformación: Cualquier operación realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de éste a otra base de datos.

Carga: Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de datos objetivo normal.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 6

Page 7: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

6.2 PROCESAMIENTO Y ANÁLISIS EN LÍNEA (OLAP)

OLAP

Es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing).

Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP).

Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.

La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas.

Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional.

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para operaciones de tipo INSERT, UPDATE Y DELETE.

6.2.1 DEFINICIONES Y CONCEPTOS

OLAP es un estándar para ”On-Line Analytical Processing”. En contraste al más familiar OLTP (”On-line Transaction Processing”), OLAP describe la tecnología asociada al acceso y análisis de datos en línea, OLAP se ha convertido en un sinónimo de bases de datos multidimensionales mediante las cuales se provee de una tecnología para el cálculo y análisis requerido por las aplicaciones analíticas para el ”Business Intelligence”.

El OLAP describe la tecnología asociada al acceso y análisis de datos en líneas.

Podemos decir que Los servidores OLAP son una tecnología superior para las aplicaciones

”Business Intelligence”. Las aplicaciones OLAP permiten realizar consultas a un nivel agregado de la

información. Como totales de ventas por línea de producto, regióny vendedor. Las bases de datos OLAP son optimizadas para el análisis.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 7

Page 8: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Consultas rápidas y consistentes a cualquier nivel de sumarización de la información.

Las bases de datos OLAP son alimentadas de distintas fuentes de información.

6.2.2 REQUERIMIENTOS FUNCIONALES DE LOS SISTEMAS OLAP

Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construcción de la bodega presenta redimensionamiento a medida que se avanza en la implementación. La capacidad inicial de almacenamiento estará determinada por los requerimientos de información histórica presentados por la empresa y por la perspectiva de crecimiento que se tenga.

HERRAMIENTAS DE SOFTWARE

Las herramientas se clasifican en cuatro categorías básicas: Herramientas de Almacenamiento (bases de datos, multidimensionales), Herramientas de Extracción y Colección, Herramientas para Reportes de Usuario Final y Herramientas para Análisis Inteligentes.

Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irán a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administración de bases de datos, como Oracle, DB2, Informix, Tera Data?, Sybase, etc, tienen una facilidad de Data Warehouse.

Herramientas de Extracción y Colección: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayoría de esas herramientas son desarrolladas por el personal interno de la compañía dado el gran conocimiento que tienen de los sistemas transaccionales.

Herramientas para Elaboración de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solución a preguntas específicas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, Show Case? Strategy etc.

Herramientas de Análisis Inteligente: Entre ellas están las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una técnica conocida como Data Minning o Minería de datos.

Para el funcionamiento de un sistema OLAP se requiere:

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 8

Page 9: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Funcionan sobre un sistema de información (transaccional o almacén de datos).

Permiten realizar agregaciones y combinaciones de los datos de maneras mucho más complejas y ambiciosas, con objetivos de análisis más estratégicos.

Están basadas, generalmente, en sistemas o interfaces multidimensionales, Utilizando operadores específicos (además de los clásicos): drill, roll, pivot, slice.

El resultado se presenta de una manera matricial o híbrida. Construir un datawarehouse y/o datamart. Uso de herramientas de almacenamiento (bases de datos

multidimensionales), herramientas de extracción y colección, herramientas para reportes de usuario final y herramientas para análisi inteligentes.

Un servidor que sea altamente escalable. Un segundo servidor para las herramientas de consulta de datos.

6.2.3 OPERADORES PARA MANEJO DE CUBOS DE DATOS DEL ESTÁNDAR SQL3

El SQL3 es una extensión del estándar de bd SQL92 que incluye soporte para la administración de bd orientadas a objetos.

SQL3 es un estándar para productos y no un producto en sí.

Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos.

Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada.

El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.

A la información de un cubo puede acceder el ejecutivo mediante “tablas dinámicas” en una hoja de cálculo o a través de programas personalizados.

Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez.Llevando estos conceptos a un data warehouse, éste es una colección de datos que

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 9

Page 10: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.

OTROS OPERADORES Cube Rollup Drilldown Groupping sets Slice (rebanada) Pivot Dado Ascenso Descenso

OPERACIONES CON CUBOS

Una vez que se han creado los cubos se pueden realizar diferentes operaciones sobre ellos para poder visualizar y analizar la información de dichas operaciones, las cuales son las siguientes:

Generalizar y especializar Corte y corte de cubos Filtrar Pivotear

Estas operaciones se realizan sobre los cubos y generan como resultados subcubos llamados cuboides.

La especialización y la generalización son operaciones que sirvan para navegar un cubo sobre sus dimensiones.

En general las operaciones de especificar y generalizar realizan el siguiente proceso:

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 10

Page 11: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

6.2.4 DISEÑO DE CONSULTAS A BASES DE DATOS MULTIDIMENSIONALES

EL MODELO UDM PROPORCIONA LAS SIGUIENTES VENTAJAS:

Mejora notablemente el modelo del usuario. Proporciona consultas de alto rendimiento que admiten un análisis interactivo,

incluso con grandes volúmenes de datos. Captura las reglas de negocio del modelo para proporcionar un análisis

mejorado. Admite “cerrar el ciclo”, lo que permite que los usuarios actúen según los

datos que ven.

MODELO BÁSICO DE USUARO FINAL

Imagine un ejemplo en el que un usuario desee comparar las ventas con las cuotas de distintos períodos.

Los datos de ventas se almacenan en la base de datos principal Sales and Inventory, que también contiene otras tablas. Incluso después de identificar las tablas relevantes, puede que el usuario observe que los datos de una entidad única, como Product, se reparten en distintas tablas. Dado que la integridad referencial se aplica en la lógica de la aplicación, no se definen relaciones entre las tablas. Las cuotas de venta se almacenan en la base de datos de otra aplicación. Ninguna base de datos captura las reglas de negocio, como el hecho de que al comparar las cuotas con las ventas reales, debe utilizarse la fecha de envío del pedido, en lugar de las otras fechas para pedidos (fecha de pedido, fecha de entrega, fecha programada, etc.). Obtener acceso directo a los orígenes de datos.

En primer lugar, imagine que el usuario obtuviese acceso directo a los orígenes de datos. En la siguiente ilustración se muestra un ejemplo de una consulta que se genera con una herramienta de ejemplo.

Hasta el momento, el usuario ha progresado considerablemente. Este progreso incluye:

Buscar tablas de su interés entre una gran cantidad de tablas con nombres cifrados.Identificar las columnas que se deben utilizar para combinar las tablas.Seleccionar las columnas que contienen los detalles de interés, de muchas tablas con gran cantidad de detalles orientados al sistema.

Por ejemplo, de las 11 columnas de las tablas que almacenan detalles sobre categorías de producto, sólo dos columnas con nombre son relevantes para el usuario.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 11

Page 12: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

6.2.5 UTILIZACIÓN DE HERRAMIENTAS PARA OLAP

Sistemas Técnico - Operativos, que cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, costos, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de censores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y datawarehousing.

Lo más importante de la propuesta OLAP es que parte de un redimensionamiento de la importancia del análisis de la información y plantea un conjunto de técnicas y sistemas que rompen con la subordinación de esta área al de las operaciones. Esa ruptura se expresa en los siguientes elementos que la caracterizan:

Un nuevo Modelo de Datos.Desarrollo de Técnicas para el Análisis de Datos.Extremadamente bajos tiempos de respuesta.Alta accesibilidad a la información por parte de personas, sitios y medios.

Capacidad de Análisis: Para que los usuarios sean capaces de explotar el potencial de la información en forma efectiva es necesario brindarles una buena combinación de facilidades avanzadas para la manipulación y presentación de datos.Entre las características de OLAP dirigidas en este sentido se destacan la utilización de avanzadas interfaces gráficas, capaces de presentar la información en forma numérica o gráfica y de permitir el diálogo con el usuario directamente sobre la información que es visualizada.

USO DE HERRAMIENTAS OLAP (DATA WAREHOUSE)

Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos para convertirlos en información importante para la organización.

Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas pueden ser:

Herramientas de consultas / reportes, con interfaz gráfica, sin usar sentencias SQL, realizar queries o peticiones complejas.Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 12

Page 13: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

MODELO MULTIDIMENSIONAL: MODELO ESTILO HOJA DE CÁLCULO.

Elementos Medidas: Valores de interés Dimensiones, Atributos, Propiedades Visión de Cubos, Datos representados

en forma de arreglos multidimensionales.

Visión de Relaciones Tablas de hechos (Fact Table): Ejemplo: ventas. Tablas de dimensiones: Ejemplo: tiempo, producto, geografía.

Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son más claras. La actualización se hace por periodos, no en línea.

6.3 MERCADOS DE DATOS (DATA MART)

Un Data Mart es una version especial almacén de datos (data warehouse). Como los almacenes de datos, los data marts contienen una visión de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el análisis de tendencias y experiencias pasadas. La diferencia principal es que la creación de un data mart es específica para una necesidad de datos seleccionados, enfatizando el fácil acceso a una información relevante.

Los productos Data Warehouse han nacido para resolver problemas de análisis de grandes masas de información, en empresas donde una pequeña diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dólares.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 13

Page 14: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Data Mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, así como su duración. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicación que integre todas ellas y proporciona las funciones de un EIS (Executive Information System).

El conocimiento de los meta datos es tan esencial como el conocimiento de los datos del Data Warehouse. Deben incluir dominio, reglas de validación, derivación y transformación de los datos extraídos.

También describen las bases de datos del Warehouse, incluyendo reglas de distribución y control de la migración hacia los Data Marts. Los procesos que monitorean los procesos del Warehouse (como extracción, carga, y uso) crean meta datos que son usados para determinar que tan bien se comporta el sistema.

Los meta datos, deberían estar disponibles para los usuarios, para ser usados en sus análisis. Los administradores pueden manejar y proveer el acceso a través de los servicios del repositorio.

El uso efectivo de los Data Marts en un ambiente de Data Warehousing, es un factor importante para la efectividad del Warehouse. Los Data Marts son diseñados para satisfacer las necesidades específicas de grupos comunes de usuarios (divisiones geográficas, divisiones organizacionales, etc.).

Los Data Marts son generalmente, subconjuntos del Data Warehouse, pero pueden también integrar un número de fuentes heterogéneas, e inclusive ser más grandes, en volumen de datos, que el propio Warehouse central.

El concepto DataMart es una extensión natural del Data Warehouse, y está enfocado a un departamento o área específica, como por ejemplo los departamentos de Finanzas o Marketing. Permitiendo así un mejor control dela información que se está abarcando.

Es un pequeños Data Warehouse, para un determinado número de usuarios, para un area funcional, especifica de la compañía. También podemos definir que un Data Marts es un subconjunto de una bodega de datos para unpropósito específico.Su función es apoyar a otros sistemas para la toma de decisiones.

Los procesos que conforma el datawarehouse son: Extracción. Elaboración. Carga. Explotación.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 14

Page 15: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

RAZONES PARA CREAR UN DATA MART

Fácil acceso a los datos que se necesitan frecuentemente. Crea vista colectiva para grupo de usuarios. Mejora el tiempo de respuesta del usuario final. Facilidad de creación. Costo inferior al de la aplicación de un completo almacén de datos. Los usuarios potenciales son más claramente identificables que en un

almacén de datos completo.

6.3.1 DEFINICIONES Y CONCEPTOS

DEFINICIONES DE DATA MART

Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica.

Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

Datamart es un almacén de datos históricos relativos a un departamento de una organización, así que puede ser simplemente una copia de parte de un Data Warehouse? para uso departamental.

Por lo tanto para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información.

DIFERENCIAS ENTRE DATA MART Y DATAWAREHOUSE

El Data Mart se centra solamente en los requerimientos de usuarios asociados con un departamento o función de negocio.

Los Data Marts normalmente no contienen datos operacionales detallados a diferencia de datawarehouse.

Debido a que los data marts contienen menos información comparados con los datawarehouse, los data marts son más fácilmente entendibles y navegables.

RAZONES PARA CREAR UN DATA MART

Dar a los usuarios acceso a los datos que ellos necesitan para analizarlos más a menudo.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 15

Page 16: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Proveer los datos en una forma que concuerda la vista colectiva de los datos por un grupo de usuarios en un departamento o función de negocio.

Mejorar el tiempo de respuesta al usuario final debido a la reducción en el volumen de información a ser accedido.

Proveer datos apropiadamente estructurados para satisfacer los requerimientos de las herramientas de acceso de usuario final.

BENEFICIOS DE UN DATA MART

Pueden fácilmente extenderse a la toma de decisiones estratégicas, que pueden brindar beneficios grandes y tangibles.

Permite entender y administrar simultáneamente macro y microperspectivas del área de comercio exterior, lo que puede ahorrar incontables horas de trabajo y ayudar a evitar errores que pueden ser el resultado de suposiciones que se hicieron con base en datos incompletos o incorrectos.

6.3.2 FASES DE CONSTRUCCIÓN

1.- CONSTRUCCIÓN DEL DATA MART:Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotación y La Arquitectura del Modelo Multidimensional en la herramienta de explotación.

2.- CONSTRUCCIÓN DE LOS PROCESOS DE CARGAS:En ésta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc.

3.- CONSTRUCCIÓN DE LOS REPORTES ANALÍTICOS:Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc .

4.- CONSTRUCCIÓN DE LOS PROCESOS DE PRUEBA:Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.

6.3.2.1 ANÁLISIS

Un data mart es un almacén de datos limitado a un área concreta de la organización. Muchos expertos definen el data warehouse como un almacén centralizado que alimenta una serie de data marts.

El enfoque de un data mart es el cumplimento de los requerimientos específicos de

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 16

Page 17: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

un determinado grupo de usuarios en términos de análisis, contenido, presentación y facilidad de uso. Los usuarios de un data mart pueden tener datos que se presentan en términos que le son familiares.

Los data marts se pueden generar obteniendo datos de un data warehouse corporativo central o pueden ser creados independientemente de fuentes de datos independientes.

Los data marts independientes no son lo más adecuado, ni son recomendables, ya que originan islas de información, siendo esto precisamente lo que los almacenes de datos intentan evitar.

Existen también data marts personales, que son subconjuntos de datos extraídos de data marts departamentales o de unidades de negocio o pueden ser un data warehouse que responde a los requerimientos de un único usuario o pequeño grupo de usuarios.

Los usuarios individuales se suelen suscribir a centros de distribución que periódicamente actualizan sus data marts a medida que también se actualiza el almacén de datos.

Data mart es específica para una necesidad de datos seleccionados, enfatizando el fácil acceso a una información relevante.

Data mart se destaca por una definición de requerimientos más fácil y rápida. También se simplifica el desarrollo de todo el mecanismo de su BD y con ello baja substncialmente todo el coste del proyecto, así como su duración.

Para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP.

La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts:

Datamart OLAP: Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.

Datamart OLTP: Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 17

Page 18: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

características particulares de cada área de la empresa.

Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:

Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validación directa de la información Facilidad para la historización de los datos

6.3.2.2 CONSTRUCCIÓN

MODELO TOP DOWNEstá basado en la estructura de la Data warehouse, la cual se construye a partir de los datos que se puedan obtener de los diferentes sistemas operacionales o externos (datos aislados) a través de un proceso de extracción, transformación y transportación (ETT). Top Down: tiene como base un sistema de Data warehouse para toda la empresa y a partir de este se desarrollan los Data marts para las divisiones o departamentos.

MODELO BOTTOM UPEn este modelo los Data marts se construy en a partir de los datos dispersos y la Data warehouse se construye a partir de los Data marts existentes, esta construcción se realiza a través de dos procesos diferentes de extracción, transformación y transportación.

En el primer proceso cada Data mart se construye con los datos aislados que son necesarios para satisfacer las funciones del departamento por medio de los procesos de extracción, transformación y transportación.

Un segundo proceso de tratamiento de datos (ETT) ocurre en el sentido de los Data marts hacia la Data warehouse.

EL MODELO PARALELOEl diseño del modelo paralelo se basa en dos alternativas, en la primera se tratan los Data marts con entidades independientes de los Data waehouse y en la segunda, esta independencia se trata de forma temporal.

En el primer caso se enfoca la construcción de los Data marts como entidades independientes de la Data warehouse, utilizando el modelo de construcción de esta.Consiste en llevar una construcción paralela entre ambas estructuras, sin definir como padre la Data warehouse sobre el Datamart, ni viceversa.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 18

Page 19: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

MODELO TOP DOWN CON RETROALIMENTACIÓN.Este modelo incluye la posibilidad de agregar datos que no estén presentes en la Data warehouse y que se requieran para cumplir con los requerimientos de un análisis específico.

El uso de la retroalimentación consiste en incluir nuevos datos a los Data marts de la empresa, como una primera fase y consecuentemente estos cambios ocurridos en el Data mart sean integrados a la Data warehouse como la segunda fase.

MODELO BOTTOM UP CON RETROALIMENTACIÓNPermitir que la integración de los datos e información dada en los Data marts se pueda implementar durante la construcción de la Data warehouse.

MODELO PARALELO CON RETROALIMENTACIÓNEl desarrollo principalmente trabaja con la retroalimentación que tenga el Data mart, ya que su inicio depende de un período de ajuste entre éste y el modelo de datos de la Data warehouse. Mientras las entradas y salidas se estén dando en los Data marts, en la Data warehouse estos mismos se están realizando, dado a las características de paralelismo que existe entre ellos.

6.4 MINERÍA DE DATOS (DATA MINING)

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

El datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra toma de decisiones.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 19

Page 20: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

PROCESO

Un proceso típico de minería de datos consta de los siguientes pasos generales:Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.

Análisis De Las Propiedades De Los Datos: En especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).

Transformación Del Conjunto De Datos De Entrada: Se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preprocesamiento de los datos.

Seleccionar Y Aplicar La Técnica De Minería De Datos: Se construye el modelo predictivo, de clasificación o segmentación.

Extracción De Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

Interpretación Y Evaluación De Datos: Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

PROTOCOLO DE UN PROYECTO DE MINERÍA DE DATOS

Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:

Comprensión del negocio y del problema que se quiere resolver. Determinación, obtención y limpieza de los datos necesarios. Creación de modelos matemáticos. Validación, comunicación, de los resultados obtenidos.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 20

Page 21: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Integración, si procede, de los resultados en un sistema transaccional o similar.

La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme.

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

Determinación de los objetivos: Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.

Preprocesamiento de los datos: Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

Determinación del modelo: Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

Análisis de los resultados: Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 21

Page 22: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

6.4.1 DEFINICIONES Y CONCEPTOS

Según Fallad y sus coautores (1996): “La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos”.

Según Molina y sus colaboradores (2001): “Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión”.

El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperación y extracción de información, presentación, resumen de multidocumentos, minería de datos aplicada a textos.

El datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.

En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.

Consiste en la búsqueda de regularidades o patrones que se encuentran en un texto, a partir de técnicas de aprendizaje automático; por tanto, se considera como una de

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 22

Page 23: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

las muchas ramas de la lingüística computacional.Como proceso se ocupa del descubrimiento del conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos y se divide en varias etapas.

6.4.2 APLICACIONES DE LA MINERÍA DE DATOS

En la actualidad existe una gran cantidad de aplicaciones, en áreas tales como:

NEGOCIOSLa minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.

Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente.

En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar que clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, …) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.

HÁBITOS DE COMPRA EN SUPERMERCADOSEl ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

PATRONES DE FUGAUn ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 23

Page 24: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

FRAUDESUn caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.

RECURSOS HUMANOSLa minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos.

COMPORTAMIENTO EN INTERNETTambién es un área en boga el del análisis del comportamiento de los visitantes sobre todo, cuando son clientes potencialesen una página de internet.

CIENCIA E INGENIERÍAEn los últimos años la minería de datos se está utilizando ampliamente en diversas áreas relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son:

Genética Ingeniería eléctrica Análisis de gases

6.4.3 DISEÑO DE MINEROS DE DATOS

Un diseño típico de minería de datos consta de los siguientes pasos generales:

1. Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.

2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).

3. Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 24

Page 25: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.

5. Evaluar los resultados contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de análisis de la información hacen uso de este estándar.

Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que centralizan información potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está cobrando una importancia cada vez mayor la minería de datos desestructuradoscomo información contenida en ficheros de texto, en Internet, etc.

6.4.4 OBTENCIÓN DE INFORMACIÓN A TRAVÉS DE PATRONES DE BÚSQUEDA

Reconocimiento de patrones llamado también lectura de patrones, identificación de figuras y reconocimiento de formas1 consiste en el reconocimiento de patrones de señales. Los patrones se obtienen a partir de los procesos de segmentación, extracción de características y descripción dónde cada objeto queda representado por una colección de descriptores. El sistema de reconocimiento debe asignar a cada objeto su categoría o clase (conjunto de entidades que comparten alguna característica que las diferencia del resto). Para poder reconocer los patrones se siguen los siguientes procesos:

Adquisición de datos Extracción de características Toma de decisiones

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 25

Page 26: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

El punto esencial del reconocimiento de patrones es la clasificación: se quiere clasificar una señal dependiendo de sus características. Señales, características y clases pueden ser de cualquiera forma, por ejemplo se puede clasificar imágenes digitales de letras en las clases «A» a «Z» dependiendo de sus píxeles o se puede clasificar ruidos de cantos de los pájaros en clases de órdenes aviares dependiendo de las frecuencias.

MODELO O PATRÓNUn modelo es una descripción global del conjunto de datos. Toma una perspectiva completa y total. En contraste un patrón es una propiedad local de los datos, tal vez sólo la tienen ciertas instancias o atributos.

RECONOCIMIENTO DE PATRONESEl reconocimiento de patrones, también llamado lectura de patrones, identificación de figuras y reconocimiento de formas es el reconocimiento de patrones en señales. No sólo es un campo de la informática sino un proceso fundamental que se encuentra en casi todas las acciones humanas.

Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la clasificación de documentos (por ejemplo spam/no spam), el reconocimiento de escrituray el reconocimiento de caras humanas.

6.4.5 TÉCNICAS Y HERRAMIENTAS DE LA MINERÍA DE DATOS

Las técnicas de la mínería de datos provienen de la inteligencia artificial y de la estadística.

Dichas técnicas, no son más que algoritmos, más o menor sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

Redes Neuronales: Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida.

Algunos ejemplos de red neuronal son: El Perceptrón. El Perceptrón Multicapa. Los Mapas AutoOrganizados, también conocidos como redes de Johonen.

Regresión Lineal: Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 26

Page 27: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Árboles De Decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.

Ejemplos: Algoritmo ID3. Algoritmo C4.5.

Modelos Estadísticos: Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento O Clustering: Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:

Algoritmo K-means. Algoritmo K-medoids.

Reglas De Asociación: Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados.

Algoritmos Supervisados (O Predictivos): Predicen un dato (o conjunto de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos No Pervisados (O Del Descubrimiento Del Conocimiento): Se descubren patrones y tendencias en los datos.

6.4.6 TENDENCIAS EN MINERÍA DE DATOS

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de compra en línea.

Los más importantes de ellos son: La importancia que han cobrado los datos no estructurados (texto, páginas de

Internet). La necesidad de integrar los algoritmos y resultados obtenidos en sistemas

operacionales, portales de Internet. La exigencia de que los procesos funcionen prácticamente en línea (por

ejemplo, que frente a un fraude con una tarjeta de crédito).

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 27

Page 28: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo válido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

El interés que despierta la Minería de Datos para el análisis de la información especialmente en el área comercial hace que se busquen nuevas aplicaciones basadas en esta tecnología. Algunas de las principales nuevas aplicaciones basadas en la Minería de Datos se presentan a continuación.

MINERÍA DE TEXTOSLa minería de textos (Text Mining) surge ante el problema cada vez más apremiante de extraer información automáticamente a partir de masas de textos.Se trata así de extraer información de datos no estructurales: texto plano.

Existen varias aproximaciones a la representación de la información no estructurada:

Bag of words: Cada palabra constituye una posición de un vector y el valor corresponde con el número de veces que ha aparecido.

N-gramas o frases: Permite tener en cuenta el orden de las palabras. Trata mejor frases negativas, que tomarían en otro caso las palabras que le siguen como relevantes.

Representación relacional (primer orden): Permite detectar patrones más complejos (si la palabra X está a la izquierda de la palabra Y en la misma frase).

MINERÍA DE DATOS WEBLa minería de datos web (web mining) es una tecnología usada para descubrir conocimiento interesante en todos los aspectos relacionados a la web. Es uno de los mayores retos. El enorme volumen de datos en la web generado por la explosión de usuarios y el desarrollo de librerías digitales hace que la extracción de la información útil sea un gran problema. 

Cuando el usuario navega por la web se encuentra frecuentemente saturado por los datos. La integración de herramientas de minería de datos puede ayudar a la extracción de la información útil.

La minería de datos web se puede clasificar en tres grupos distintos no disjuntos, dependiendo del tipo de información que se quiera extraer, ode los objetivos:

Minería Del Contenido De La WebMinería del contenido de la web (web content mining): extraer información del contenido de los documentos en la web. Se puede clasificar a su vez en:

Text Mining: Si los documentos son textuales (planos).

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 28

Page 29: UNIDAD 6 Bases De Datos Para El Soporte En La Toma De Desiciones ANTOLOGIA.docx

REDES Y SISTEMAS DISTRIBUIDOS / Bases De Datos Distribuidas

Hypertext Mining: Si los documentos contienen enlaces a sí mismos o a otros documentos.

Markup Mining: Si los documentos son semiestructurados (con marcas). Multimedia Mining: para imágenes, audio, video.

Minería de la estructura de la web: Minería de la estructura de la web (web structure mining): se intenta descubrir un modelo a partir de la tipología de enlaces de la red. Este modelo puede ser útil para clasificar o agrupar documentos.

Minería del uso de la web: Minería del uso de la web (web usage mining):se intenta extraer información (hábitos, preferencias, de los usuarios o contenidos y relevancia de documentos) a partir de las sesiones y comportamiento de los usuarios navegantes.

INGENIERÍA EN SISTEMAS COMPUTACIONALES PÁGINA 29