CAPITULO 4. ADMINISTRACION DE DATOS: WAREHOUSING (ALMACEN), ACCESO Y VISUALIZACION.

of 37/37
CAPITULO 4. ADMINISTRACION DE DATOS: WAREHOUSING (ALMACEN), ACCESO Y VISUALIZACION
  • date post

    22-Jan-2016
  • Category

    Documents

  • view

    215
  • download

    0

Embed Size (px)

Transcript of CAPITULO 4. ADMINISTRACION DE DATOS: WAREHOUSING (ALMACEN), ACCESO Y VISUALIZACION.

  • CAPITULO 4.

    ADMINISTRACION DE DATOS: WAREHOUSING (ALMACEN), ACCESO Y VISUALIZACION

  • Contenido del Captulo 44.1 Caso de estudio: El Almacenaje de los datos y DSS en la Cooperativa de Salud De grupo 4.2 Warehousing (almacen), Acceso, Anlisis y Visualizacin 4.3 La Naturaleza y Fuentes de Datos 4.4 Colecciones de datos y Problemas de los Datos 4.5 El Internet y los Servicios de bases de datos Comerciales 4.6 Sistemas de Administracin de datos en DSS 4.7 Estructura y organizacin de Bases de Datos 4.8 Warehousing4.9 OLAP: Acceso y Minera de datos, Consulta, y Anlisis 4.10 Visualizacin y Multidimensionamiento de datos 4.11 Bases de datos inteligentes y Minera de datos 4.12 El esquema completo

  • 4.1 CASO DE ESTUDIO: EL ALMACEN DE DATOS (WAREHOUSING) Y DSS EN LA COOPERATIVA DE SALUD DE GRUPO La Cooperativa de Salud de grupo es un HMO no lucrativo grande radicado en Seattle, Washington.Tiene hospitales, contratos con instituciones, y actua como aseguradoraMensualmente se procesa un flujo de 2 a 3 millones de registros. Antes del uso de DSS, los costos estaban en aumento, los servicios eran ineficaces, y el uso de recursos y la calidad de los servicios eran malos. El desarrollo de un DSS permitira que la toma de decisiones en base a datos sea efectiva y eficiente. La idea central fue crear un Warehouse (almacn de datos) que apoyara al DSS.

  • Este almacn de datos relaciona datos de costos, eficiencia en el uso de recursos, gastos, y estado de los servicios de salud en un extenso sistema de informacin corporativo.La informacin provino de aplicacionesexistentes (TPS) como registros clnicos, laboratorio y farmacia.El sistema fue iniciado en 1989 y constantemente es actualizado y mejorado.

  • Algunos reportes que genera el DSS:Reportes de poblacin organizados por clnica y por prctica Reportes de productividad Reportes de administracin del aprovechamiento Reportes organizados por grupos consumidores y grupos que aportan recursos Reportes estadsticos, por grupos de edad ognero

  • El almacn de los datos tambin se usa por muchas aplicaciones DSS, EIS, y MIS para:Bajar costos de los servicios a los pacientes Anlisis de costos para contestar preguntas como en qu forma afecta la reduccin de costos en un rea afecta los costos en otras? Comparaciones de costos para negociar precios con socios de negocios. Contar con un extenso sistema de consulta Creacin de un EIS para monitorear indicadores clave como costo por paciente diario en un hospital

  • Algunos beneficios importantes:El nmero de das de hospitalizacin fue reducido en 7 porciento al enviar pacientes a servicios ambulato- rios, resultando en millones de dlares de ahorro.Se cerr un contrato militar valorado en 1 billn de dlares, en un perodo de 5 aos. La base de datos para este cliente se cre en 2 das debido a que se extrajo del almacn de datos existente.Cada Grupo de Clientes obtiene reportes a la medida.

  • 4.2 ALMACENAMIENTO de DATOS (WAREHOUSING), ACCESO, ANALISIS, Y VISUALlZACION En el caso de estudio la informacin necesaria era dificil de accesar debido a que estaba en diferentes configuraciones de software y hardware.Con una base de datos centralizada que recolectaba informacin de las diferentes fuentes y la organizaba, se facilit su acceso por las aplicaciones DSS y EIS.La actualizacin, recuperacin, uso, y borrado de esta informacin llega a ser muy complicado mientras la cantidad aumenta.La carga excesiva de informacin est amenazando con ahogar a las organizaciones. Una solucin al problema se encuentra en el concepto de almacenaje de datos (Warehousing) y los temas relacionados de acceso de los datos y minera de datos, procesamiento analtico en lnea (OLAP), y visualizacin de datos.

  • Relacin entre los conceptos de Almacenaje de Datos (Warehousing) y Procesamiento Analtico en Lnea (OLAP)

    Fuentes de Datos

    Comunicacin del Negocio

    Consulta

    Fuentes Internas de Datos

    Generacin de Reportes

    Adquisicin, Extraccin y entrega y transformacin

    de datos

    Almacenaje (warehousing)

    Hojas de clculo, Pronsticos, Anlisis y Modelado

    Presentacin y Visualizacin

    De los datos

    Bases de Datos Externos

    Multimedia

    EIS, Otros

    On line Alanytical Processing

  • 4.3 LA NATURALEZA Y FUENTES DE LOS DATOSTodos los sistemas para la toma de decisiones usan:Datos. Elementos de datos acerca de cosas, eventos, actividades, y transacciones no organizados para comunicar algo especfico.Informacin. Son datos que han sido organizados de manera que tiene un significado para el que la recibe. El receptor interpreta el significado y saca deducciones y conclusiones.Conocimiento. Elementos de datos que son organizados y procesados para llevar a un entendimiento, experiencia, aprendizaje acumulado, y especializacin aplicados a un problema o actividad.

  • Los datos DSS pueden incluir documentos, imgenes, mapas, sonido, animaciones, conceptos, pensamientos, opiniones.DSS usan informacin resumida o extrada que proviene de tres fuentes principales: Interna. Propia de la organizacin (personas, productos, servicios y procesos, disponible a travs de su sistema de red.Externa.Cmaras de comercio, internet, gobierno, bancos, instituciones de investigacin. Hay una sobrecarga de informacin externa. Debe ser tomada en cuenta para asegurar que no se omiti informacin importante.Personal. Empleados pueden contribuir con su experiencia aportando estimaciones subjetivas de ventas, opiniones acerca de lo que los competidores.

  • 4.4 RECOLECCION Y PROBLEMAS CON LOS DATOS

    Mtodos para Coleccionar Datos Crudos (Raw Data)

    ManualmenteObservaciones,Encuestas, Entrevistas a expertos

    Por instrumentos y sensores. El uso de sensores y escneres ha ido en aumento

  • Problemas con los DatosProblemaDatos Incorrectos

    Causa TpicaInfo. bruta no se captur apropiadamente.

    Los datos fueron genera-dos con negligenciaEl mtodo para generar informacin no es lo suficientemente rpidoPosible SolucinDesarrollar un mtodos sistem- tico para asegurar la exactitud de los datos.Cada vez que la informacin es entregada, monitorear cuidado- samente sus valores y como fue generada.Informacin tarda

    Modificar el sistema que genera los datos.Los datos brutos son acu-mulados de acuerdo a una lgica o periodicidad que no es consistente a los propsitos del anlisisInformacin no limitada o sin indexar adecuada-mente

    Modificar el sistema que genera los datos.Un modelo contiene tantos coheficientes que es dificil de desarrollar y mantener.

  • Problemas con los DatosProblemaLos datos necesarios no existen

    Causa TpicaNadie registr la informacin que se necesita ahora

    La informacin requerida nunca existiPosible SolucinSea o no sea til, registrar informacin para uso futuro. Esto puede considerar-se poco prctico por el costo de guardar y mantener datos. Pero facilitar encontrar datos cuando se necesite.

    Hacer un esfuerzo para generar datos o estimarlos por si son necesarios en el futuro.

  • Por aos la IT se concentraban en construcciones de sistemas de misin crtica (sistemas transaccionales), deban de ser virtualmente tolerante a fallas y de respuesta rpida (OLTP) desarrollados sobre ambientes de bases de datos relacionadas distribudas. Sobre una arquitectura CLIENTE/SERVIDOR, un ejemplo INFORMIX-OnLIne

    4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISOLAP (online analytical processing) refiere al DSS y EIS hacerlo sobre sistemas online de end-users, aqu los datos voluminosos son procesados tan pronto como son introducidos.OLAP es ejecutado por usuarios finales, y el OLTP es hecho por IS prefesionales,OLAP incluye actividades de generacin de queries, respuesta de reportes AD HOC , estadsticas, anlisis y construyen aplicaciones multimedia

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISPara facilitar OLAP se requiere trabajar con data warehouse o warehouse multidimensionales con un set de herramientas con capacidades multidimensionales como:Query toolHojas de clculoData miningVisualizacin de datosCompaias: Lotus Development Corp, CA, Cognos, Arbor Software, Information Resources, Comshare, SAS Institute Inc, etc

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISUsando SQL:SQL es el lenguaje de manejo de datos que esta llegando a ser el estndar para mltiples Sistemas Manejadores de Bases de Datos RelacionalesSQL es usado para bases de datos de acceso online, operaciones DBMS de programas, funciones administrativas de bases de datos (algunos productos son ORACLE, DB2, Ingres, y Supra)SQL es no procedural y muy amigable, usuarios finales pueden usarlo para construr sus propios queries. Puede ser usado en todos los lenguajes de programacin estndar.

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISData Mining:Es un tmino utilizado para describir una poderosa tecnologa con gran potencial para ayudar a las compaas a concentrarse en la informacin ms importante de su data warehouse. La extraccin de informacin oculta y predecible de grandes bases de datos Todas estas actividades son conducidas automticamente y permiten descubrir los datos rpidamente incluso por no programadores

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISData Mining Caractersticas y Objetivos:Los datos se encuentran en algunas ocasiones enterrados en bases de datos grandes, los cuales pueden ser de muchos aos atrs. Los datos estn en data warehouseEl ambiente de minera de datos se encuentra normalmente en arquitecturas cliente/servidorNuevas y sofisticadas herramientas- incluyen avanzadas herramientas de visualizacin, las cuales ayudan a obtener informacin en grandes archivos de la empresa (por ejemplo archivos de texto almacenados en Lotus Notes o archivos de internet)

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISData Mining Caractersticas y Objetivos:La minera de datos ofrece a los usuarios finales, poder de obtencin de datos con preguntas fciles y simples y sin habilidades de programacin.Las herramientas de data mining son fcilmente combinadas con otras, como hojas de clculo En grandes cantidades de datos es necesario algunas veces utilizar procesamientos paralelos de data mining

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISPROFUNDIDAD DE DATOS: DE MICRO A MAINFRAME Y BACKUSER QUERY

    SHOW REVENUES FOR MARTH 1991 BY SALASPERSONSQL QUERYSELECT * FROM SALES WHERENETWORKDB2RESULTSMARIA $2,000BETO $1,000NETWORKDB2REPORT123456

  • 4.9 OLAP : ACCESO A DATOS Y MINERIA, QUERYING Y ANALISISEJEMPLO DE APLICACIONES DE MINERIA DE DATOSMarketingBankingRetaling and salesManufacturing and productionBrokerage and securities tradingInsuranceComputer hardware and softwareGoverment and defenseAirlanesHealth careBroadcastingPolice

  • 4.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDADOLAP implica no solo obtener y analizar datos e informacin, tambin la presentacin al usuarioVisualizacin de datos:Se refiere a la tecnologa que soporta la visualizacin de la informacin: imgenes digitales, GPS, GUI, multidimensiones, tablas y grficos, realidad virtual, tercera dimensin y animaciones.Estas tecnologas pueden ser integradas para crear diferentes presentaciones de la informacin.La visualizacin de datos es fcil de implementar cuando los datos se encuentran en un data warehouse, o mejor aun en servidores de multimedia.

  • 4.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDADMultidimensionalidad:Las tablas de hojas de clculo se encuentran en 2 dimensiones. Si uno necesita presentar informacin con 3 o ms dimensiones se deben usar 2 tablas, o una tabla complejaPresentaciones multidimensionales:La totalizacin de datos puede se organizado de diferentes formas para anlisis y presentaciones. Esto es llanado multidimensionalidad. Y los datos pueden ser vistos como se desee, los datos en un futuro pueden arreglarse fcil y rapidamente, se consideran tres factores:Dimensiones (productos, vendedores, unidades de negocio, etc.)Medidas (pesos, volmenes de venta, contadores, etc)Tiempo (diario, semanal, mensual)

  • 4.10 VISUALIZACION DE DATOS Y MUNTIDIMENSIONALIDADLimitaciones de presentaciones multidimensionales:La base de datos multidimensionales pueden tomar 40% ms de espacio que la bases de datos relaciones totalizadasLos productos multidimensionales cuestan 50% mas que los productos estndar relacionalesEl tiempo y consumo de recursos del sistema es mayor, dependiendo del volmen de datos y nmero de dimensionesLas interfaces y mantenimiento son ms complejas que las base de datos relacionales

    La multidimensionalidad se encuentra en diferentes niveles de sofisticacin, existen varios tipos de software y es muy popular sobre todo en sistemas de suporte de informacin ejecutiva.

  • 4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOSLas aplicaciones MSS requieres de acceso a datosES (Sistemas Expertos)ANN (Redes Neuronales Artificiales)Pueden hacer la manipulacin de complejas bases de datos de una forma simple.A estas se le llama base de datos inteligentes.Su contribucin consiste en hacerlo de acorde con el lenguaje natural

  • 4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOSDataModelDatabaseAnd DBMSReglas BaseAlmacenamientoEngine de InterfaceUsuario-finalDialogo de entradaBase de datosLgicaPrograma deAplicacinReportPantallaBase de datosTransaccionalesMuestra base de datos inteligentes, un significado, BD de integracin en un ES

  • 4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOSMinera de base de datos inteligentes:Algunas herramientas de minera de datos incluye sistemas inteligentes que soporta bsqueda inteligenteEstas aplicaciones estn llegando a ser el fundamento en las organizaciones para estrategias de negocioLas herramientas de minera de datos encuentran los patrones de los datos y sus reglas y pueden ser usados para guiar decisiones y pronosticar la efectividad de la decisin.El Data mining puede rpidamente analizar las variables ms importantesExisten 5 tipos de informacin que puede ser obtenida por el data mining:AsociacinSecuenciaClasificacinAgrupamientopronstico

  • 4.11 BASE DE DATOS INTELIGENTES Y MINERIA DE DATOSMinera de base de datos inteligentes:Los principales tipos de herramientas utilizan la minera de datos inteligentes en:Razonamientos basados sobre casosComputacin neuronalAgentes inteligentesOtras herramientas (rboles de decisin, roles de induccin y visualizacin de datos)

  • 4.12 ESQUEMA GENERAL Los datos para hacer decisiones vienen en una gran variedad de fuentes, internos y externos, debido a que los sistemas manejadores de bases de datos es uno de los mas fuertes componentes de la mayora de los MSS, es importante familiarizarse con los novedosos desarrollos en este campo. Las organizaciones estn ya reconociendo que sus datos son oro molido. Consecuentemente ellos estn almacenando y minando datos de sus usuarios para obtener informacin sobre ellos (a travs de variadas herramientas de anlisis multidimensionales y nuevas arquitecturas de sistemas empresariales) y para estabilizar relaciones que ellos desconocen previamente (a travs de minera de datos). Las herramientas OLAP proveen la forma de analizar los datos para identificar problemas y oportunidades.

  • 4.12 ESQUEMA GENERAL El apropiado uso de orientacin de objetos para anlisis de sistemas, diseo e implementacin puede proveer una increble oportunidad para simplificar representaciones de sistemas, solo con reutilizacin de cdigo. A travs de una gran variedad de formato de datos, estos estn siendo disponibles en sistemas de bases de datos multimedia. La web proporciona informacin universal incluyendo ms capacidades de seleccin. Finalmente la construccin de mtodos de inteligencia artificial puede ser usada para realzar la capacidad de anlisis de datos en las organizaciones

  • 4.12 ESQUEMA GENERAL El apropiado uso de orientacin de objetos para anlisis de sistemas, diseo e implementacin puede proveer una increble oportunidad para simplificar representaciones de sistemas, solo con reutilizacin de cdigo. A travs de una gran variedad de formato de datos, estos estn siendo disponibles en sistemas de bases de datos multimedia. La web proporciona informacin universal incluyendo ms capacidades de seleccin. Finalmente la construccin de mtodos de inteligencia artificial puede ser usada para realzar la capacidad de anlisis de datos en las organizaciones

  • 4.12 ESQUEMA GENERAL Puntos importantes de este captulo:Los datos existen de forma interna, externa y personalLos datos externos estn disponibles en miles de bases de datos online comerciales, diccionarios, directorios y msLos datos para el MSS deben ser coleccionados frecuentemente en campos usando uno o varios mtodosEl MSS puede tener problemas de datos, tales como datos incorrectos, datos fuera de tiempo, mediciones pobres e indexacin de datos, tambin demasiados o ningn dato.Las grandes bases de datos online como CompuServe y Dow Jones Information Server pueden ser las mejores fuentes de datos para los MSS

  • 4.12 ESQUEMA GENERAL Puntos importantes de este captulo:El internet esta llegando a ser la mayor fuente de datos externos para los MSSLas intranet proveen datos internos para los MSSLas mejores base de datos tienen Web hook para habilitar seleccin directa via browser de la web sobre las estaciones de trabajo de los clientes.Los datos estn organizados sobre arquitecturas relacionales, jerrquicas y de red. Muchos MSS prefieren el tipo relacionalEl SQL es un estndar significativo para bases de datos relacionales

  • 4.12 ESQUEMA GENERAL Puntos importantes de este captulo:Las bases de datos multimedia estn llegando a ser con mucho, ms importantes para las decisiones de toma de decisionesHay una tendencia sobre MSS distribuidas va red, especialmente sobre la WWWLos MSS distribuidos dan beneficios para PC y mainframesMuchos MSS se proveen sobre arquitecturas cliente/servidosEn una arquitectura cliente/servidor , varias PCs o clientes estan conectadas a una misma base de datos, telecomunicaciones y otros proveedores de servicios.

  • 4.12 ESQUEMA GENERAL Puntos importantes de este captulo:Las bases de datos orientada a objeto son de fcil uso y de muy rpido acceso. Ellas son de gran ayuda con MSS distribuidos y complejas DSS.Los datos para los MSS son frecuentemente procesados y almacenados sobre data warehouse para dar accesibilidadOLAP (On Line Analitics Processing) tienen un set de herramientas para analizar datos rpidamente y se esta convirtiendo rpidamente en un factor importante para las aplicaciones de DSSLa mineria de datos es el descubridor del conocimiento en las bases de datos. Esto es relacionado con el data warehouse y ayuda a dar ms potencial de informacin a los administradores y explotar oportunidades de negocio.

  • 4.12 ESQUEMA GENERAL Puntos importantes de este captulo:Una enterprise-wide information system es un sistema de provee de comunicacin a los empleados de la organizacin. Y da accesibilidad a cualquier dato o necesidad de informacin para cualquier empleado en cualquier parte del mundo.Las base de datos multidimensionales permiten a los usuarios ver datos rpidamente en diferentes dimensiones, an si los datos se encuentran en diferentes campos o bases de datos.Uno de los objetivos ms crticos para hacer decisiones inteligentes es que los usuarios puedan encontrar informacin ms rpidamente y por ellos mismos.