Post on 19-Mar-2016
description
Comp. Científica aplic. a la caract. del aire urbano, téc. GIS…
Trazabilidady
Visualización no estructuradaen DW 2.0
Mg. Guillermo FriedrichUTN-FRBB
9/10/2007 2
Trazabilidad
• Es de importancia porque:– existen datos en diferentes formas a lo largo del entorno, y– los datos fluyen de un estado a otro.
• Los datos fluyen:– Dentro del sistema de origen– Del sistema de origen al almacén de datos– Del almacén de datos al entorno de análisis del usuario final
• A lo largo de ese flujo los datos son constantemente transformados y recalculados
9/10/2007 3
Trazabilidad
• El flujo de datos es representativo del proceso de transformación.
9/10/2007 4
Trazabilidad
• En el momento del análisis puede ser necesario o al menos de utilidad disponer de la traza del flujo y transformaciones sufridas por los datos a través del sistema.
– Para saber si los datos que se están usando en el análisis son correctos.
• El usuario final puede tener interés en examinar la traza de los datos.
9/10/2007 5
Trazabilidad
• Un ejemplo (sobre un tema de actualidad) podría ser el siguiente:
– A fin de hacer ciertas estimaciones y/o tomar ciertas decisiones, el usuario final necesita conocer el dato de la inflación real en el mes de septiembre.
– Dispone de dos valores:• La inflación calculada por el IndeK -20%
• La inflación informada por economistas de la oposición +300%
– ¿cuál es el valor correcto? – ¿alguno de los dos?– ¿ninguno?
9/10/2007 6
Trazabilidad
• Al disponer de la traza correspondiente a ambos índices, el incluso el acceso a los datos de origen, se pudo saber que:
– El IndeK calculó la inflación (deflación) en base al precio de los blazers de invierno.
• En septiembre salieron a liquidación con un 20% de descuento.
– Los economistas de la oposición calcularon la inflación en base al precio del tomate.
• Aumentó de $5 a $15 en un mes.
• La trazabilidad permite evaluar la calidad de la información final.
9/10/2007 7
Trazabilidad
• Tres aspectos importantes:
– Los datos que fueron usados para conformar los datos que han arribado al entorno de análisis del usuario final.
– El linaje (o los ancestros) de los datos que arriban.
– Los algoritmos y transformaciones que por los que han pasado los datos hasta llegar al entorno analítico del usuario.
9/10/2007 8
Trazabilidad Linaje
• Camino que han recorrido los datos hasta llegar al entorno analítico del usuario final.
• Implica hacer un seguimiento de los distintos nombres asignados a el o los datos de interés, en distintas etapas del camino.
9/10/2007 9
Trazabilidad Conocer los valores en el origen
9/10/2007 10
Trazabilidad Algoritmos y transformaciones
• A medida que los datos pasan de una etapa a otra del DW, los mismos pueden ser recalculados o afectados por la lógica.• Este aspecto de la trazabilidad implica conocer las operaciones o transformaciones realizadas en cada etapa.
9/10/2007 11
Trazabilidad Evolución temporal de los algoritmos
• Es normal y natural que los algoritmos vayan cambiando con el tiempo.• Es importante llevar un registro del período de tiempo en que se aplicó cada forma de cálculo.
9/10/2007 12
Trazabilidad Velocidad de recuperación de los datos
• Otro aspecto importante de la trazabilidad es la velocidad (o la demora admisible) con que los datos de origen deben estar disponibles para el análisis.
– ¿Tiempo “real”? aproximadamente en 3 o 4 segundos
– ¿Es admisible una cierta relajación? 30 min, 2 hs, ....
• Puede haber ciertos casos en que se requiera disponer de los datos en tiempo real
hay que justificar el mayor costo y complejidad del sistema.
9/10/2007 13
Trazabilidad Elementos sujetos a trazabilidad
• Implementar la trazabilidad implica dedicar una importante cantidad de recursos a tal fin.• Cuantos más elementos de información estén sujetos a trazabilidad mayores serán el costo y esfuerzo requeridos.• Hay que determinar que variables realmente presentan requisitos de trazabilidad.
9/10/2007 14
Visualización no estructurada
• La visualización es un componente de la Inteligencia de Negocios (BI: Business Intelligence).
• Business Intelligence:– estrategias y herramientas …– enfocadas a la administración y creación de conocimiento …– mediante el análisis de datos existentes en la organización.
• Características de la BI:– Accesibilidad a la información independientemente del origen– Apoyo en la toma de decisiones herramientas de análisis – Orientación al usuario final sin grandes conocimientos técnicos
9/10/2007 15
Visualización no estructurada
• Algunos componentes de la BI:
– Multidimensionalidad La información se encuentra en:
• hojas de cálculo• bases de datos• documentos de texto• archivos de powerpoint, pdf, etc.• e-mails• etc.
es necesario poder reunir esta información dispersa (incluso en distintos sectores de la organización) a fin de extraer datos útiles para el análisis.
9/10/2007 16
Visualización no estructurada
• Algunos componentes de la BI:
– Minería de datos (Data Mining):
• Extraer información y descubrir las relaciones en bases de datos que revelen comportamientos poco evidentes.
• Identificar tendencias y comportamientos.
• Favorecer la visión para intuir cambios o nuevas tendencias.
9/10/2007 17
Visualización no estructurada
• Algunas operaciones típicas de la BI:
– Analizar la información en sentido vertical
– Analizar la información en sentido transversal
– Resumir la información
•Los listados son una forma de mostrar resultados, aunque no suelen ser la mejor forma para que el usuario tenga una visión general.
– Puede haber datos importantes que queden escondidos.
9/10/2007 18
Visualización no estructurada
• A diferencia de los listados, los gráficos permiten identificar una situación y/o una relación de importancia de un golpe de vista.
9/10/2007 19
Visualización no estructurada
• Un problema con la visualización es que ésta se aplica básicamente a datos numéricos.
– Pero hay una importante cantidad de datos “no estructurados”, en general textuales, que no se pueden introducir directamente a un sistema BI tradicional.
9/10/2007 20
Visualización no estructurada
• Los datos estructurados corresponden a la parte formal de la organización.
• Los datos no estructurados corresponden a la parte informal de la organización.
– Sin embargo, pueden contener mucha información valiosa que es necesario:
• recuperar y• aprovechar.
9/10/2007 21
Visualización no estructurada
Un par de ejemplos que pueden clarificar esta idea:
• En la industria farmacéutica puede ser necesario reunir información de miles de pruebas clínicas y procesarlas inteligentemente, para evaluar el resultado de un medicamento.
• En la industria automotriz, miles de e-mails de usuarios deben ser organizados a fin de conocer que parte de un cierto modelo de automóvil requiere atención.
9/10/2007 22
Visualización no estructurada
Desafíos que se presentan:• Procesar enormes volúmenes de información
• Velocidad de procesamiento
• Exactitud• Si una persona procesa un documento lo hará detalladamente. Si tiene que
procesar un gran volumen de documentos, el grado de exactitud en el conocimiento de cada uno se diluye.
• Encontrar relaciones entre documentos• Por ejemplo: que tienen en común los reclamos de vecinos de un sector de la
ciudad con actividades reportadas por las plantas industriales.
• Necesidad de encontrar muchos elementos• El procesamiento es heurístico. El resultado de una etapa conduce la
búsqueda en la siguiente, y así sucesivamente.
9/10/2007 23
Visualización no estructurada ETAPAS
1. Encontrar y preparar los datos textuales a ser visualizados.
9/10/2007 24
Visualización no estructurada ETAPAS
La preparación de los datos consiste en:
• Leer los datos no estructurados desde distintos orígenes (.txt, .doc, .xls, e-mail, etc.)
• Buscar los ítems de datos que se necesita visualizar.
• En un área de trabajo se disponen palabras e índices– Las palabras son los que se debe visualizar– Los índices contienen el lugar de origen de las palabras
9/10/2007 25
Visualización no estructurada ETAPAS
2. Una vez que las palabras han sido reunidas y procesadas, están listas para ser tratadas por el motor de visualización.
9/10/2007 26
Visualización no estructurada ETAPAS
Dependiendo de sus necesidades, el analista puede:- eliminar palabras- editar palabras- retroceder hasta la raíz de la palabra- contar palabras- establecer un ranking de palabras
9/10/2007 27
Visualización no estructurada ETAPAS
• Las palabras e índices son pasados a un SOM (Self Organizing Map) .
• Las palabras son presentadas en un ranking, de acuerdo a la cantidad de ocurrencias e importancia de cada una.
• El mapa puede ser recorrido y visualizado de diferentes maneras.- los datos son organizados de acuerdo a los contenidos contenidos dentro de los documentos.- el SOM establece y muestra las relaciones entre documentos.
9/10/2007 28
Visualización no estructurada ETAPAS
• Ejemplo de visualización SOM
9/10/2007 29
Visualización no estructurada ETAPAS
• SOM permite efectuar tareas diversas con agilidad:
- correlacionar por ejemplo: historias clínicas
- analizar en distintos grados de profundidad:
- Por ejemplo:- buscar registros de empleados- luego buscar por mujeres empleadas- luego buscar por mujeres empleadas graduadas- luego buscar por mujeres graduadas mayores de 50 años, etc.