Base de Datos

89
MAESTRÍA EN AUDITORÍA DE TECNOLOGÍAS DE LA INFORMACIÓN 1 Módulo: Tópicos Avanzados de Bases de Datos Profesor: Ing. Oiner Gómez Baryolo (PhD) Fecha: Noviembre de 2015

description

Base de datos Big Data

Transcript of Base de Datos

Page 1: Base de Datos

MAESTRÍA EN AUDITORÍA DE TECNOLOGÍAS DE LA INFORMACIÓN

1

Módulo: Tópicos Avanzados de Bases de Datos

Profesor: Ing. Oiner Gómez Baryolo (PhD)

Fecha: Noviembre de 2015

Page 2: Base de Datos

PRESENTACIÓN DEL MÓDULO

2

• UNIDAD 1: INTRODUCCIÓN AL BIG DATA

• UNIDAD 2: EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS

• UNIDAD 3: FRAMEWORKS PARA MANEJO DE VOLÚMENES DE DATOS (HADOOP)

• UNIDAD 4: MODELO MAP-REDUCE DE GOOGLE

• UNIDAD 5: LENGUAJE DE CONSULTAS NO SQL HIVE

• UNIDAD 6: FRAMEWORK R

• UNIDAD 7: NUEVAS TENDENCIAS EN BIG DATA

Page 3: Base de Datos

METODOLOGÍA Y EVALUACIÓN

3

METODOLOGÍA

• Conferencias teórico prácticas

• Revisión bibliográfica

• Desarrollo de casos

EVALUACIÓN

Tipo de actividad Porcentaje de evaluaciones

Asistencia y puntualidad 10%

Trabajo investigativo 10%

Participación en clase 20%

Desarrollo de casos 20%

Evaluación final 40%

100%

Page 4: Base de Datos

SUMARIO

4

• UNIDAD 1: INTRODUCCIÓN AL BIG DATA

• Importancia del Big Data:

• Presentación del Módulo.

• Presentación de la Metodología de Trabajo y evaluación.

• Revisión de la importancia del Big Data

• Principales tecnologías utilizadas en Big Data.

OBJETIVO

CONOCER LA IMPORTANCIA DEL BIG DATA Y LAS PRINCIPALES

TECNOLOGÍAS UTILIZADAS IMPLEMENTAR ESTE TIPO DE

SOLUCIONES

Page 5: Base de Datos

INTRODUCCIÓN A BIG DATA

5

Page 6: Base de Datos

INTRODUCCIÓN A BIG DATA

6

byte1 byte = 8 bits

256 combinaciones

Es posible expresar cualquier carácter alfabético en un byte.

Hagan la prueba guardando un archivo de texto con una solaletra. Pesará 1 byte.

ASCII, UTF-8

Page 7: Base de Datos

INTRODUCCIÓN A BIG DATA

7

Más allá del kilo, mega, giga, tera ...

kilo 1x103

mega 1x106

giga 1x109

tera 1x1012

¿Cuáles siguen?

Claro que hay más allá del Tera, y es importante que alguien quetrabaje con Big Data no se asuste de escuchar unidadesestratosféricas ...

Page 8: Base de Datos

INTRODUCCIÓN A BIG DATA

8

peta 1x1015

exa 1x1018

zetta 1x1021

yotta 1x1024

xona 1x1027

weka 1x1030

Vunda 1x1033

uda 1x1036

treda 1x1039

Más allá del kilo, mega, giga, tera ...sorta 1x1042

rinta 1x1045

quexa 1x1048

pepta 1x1051

ocha 1x1054

nena 1x1057

minga 1x1060

luma 1x1063

se acabaron los nombres pero ...

Page 9: Base de Datos

INTRODUCCIÓN A BIG DATA

9

¡ El GRAN acelerador de Hadrones !

Genera ya por todos sus sensores 500 exabytes diarios de información = 500,000,000,000,000,000,000 bytes

Por muchos considerado el mayor invento de la humanidad, “el

que podría ocasionar que el universo se colapse” ….

Page 10: Base de Datos

INTRODUCCIÓN A BIG DATA

10

¿Y los gobiernos ? ….

= 5,000,000,000,000,000,000,000 bytes

El gobierno de Estados Unidos almacena la información de todos sus ciudadanos en el NSA (National Security Agency) de Utah en un data center con una capacidad de 5 Zettabytes

y.... ¿Qué hacemos con tanta información?

Page 11: Base de Datos

INTRODUCCIÓN A BIG DATA

11

y.... ¿Qué hacemos con tanta información?

Minarla ….

Así como los mineros encuentran piedras preciosas entre taaantatierra, en el caso de los datos es lo mismo, intentar encontrarpatrones que ayuden a tomar decisiones es un arte….

Page 12: Base de Datos

INTRODUCCIÓN A BIG DATA

12

y…. ¿Qué hay para los simples mortales?

Precisamente clase de hoy es para iniciar a los simples mortales en el Big Data, para darnos cuenta del poder que tiene en la actualidad y ganará mayor criticidad en el futuro.

y…. ¿Cómo empezamos?

Page 13: Base de Datos

INTRODUCCIÓN A BIG DATA

13

y…. ¿Cómo empezamos?• Bueno primero es importante tener espacio de almacenamiento.

Recuerda que no todas las computadoras soportan discos duros de más de 2TB.

• El MBR (Master Boot Record) tiene un límite de 2TB y se necesita usar GPT (GUID Partition Table) y debe soportar un tipo de BIOS llamado UEFI (Unified Extensible Firmware Interface).

Límite Valor

Máximo tamaño base de dato Ilimitado (Depende de tu sistema de almacenamiento)

Máximo tamaño de tabla 32 TB

Máximo tamaño de fila 1.6 TB

Máximo tamaño de campo 1 GB

Máximo numero de filas por tabla Ilimitado

Máximo numero de columnas por tabla 250 - 1600 (dependiendo del tipo)

Máximo numero de indices por tabla Ilimitado

PostgreSQL

Page 14: Base de Datos

INTRODUCCIÓN A BIG DATA

14

Bases de datos que usan las grandes empresas

Facebook: RocksDB

Amazon: Dynamo

Google: BigTable

Foursquare: MongoDB

Twitter: Cassandra

Wikipedia: MariaDB

Ebay: BerkeleyDB

Yahoo: Oracle

Microsoft: SQL Server

Page 15: Base de Datos

INTRODUCCIÓN A BIG DATA

15

Tecnologías de Big Data

Page 16: Base de Datos

INTRODUCCIÓN A BIG DATA

16

Bases de datos relacionales

Permiten establecer interconexiones (relaciones) entre los datos(que están guardados en tablas), y a través de dichas conexionesrelacionar los datos de ambas tablas

Page 17: Base de Datos

INTRODUCCIÓN A BIG DATA

17

Tecnologías de Big Data

Page 18: Base de Datos

INTRODUCCIÓN A BIG DATA

18

Bases de datos no relacionales

Los datos almacenados no requieren estructuras fijas como tablas,no garantizan completamente ACID (atomicidad, coherencia,aislamiento y durabilidad), y habitualmente escalan bienhorizontalmente.

Page 19: Base de Datos

INTRODUCCIÓN A BIG DATA

19

Tecnologías de Big Data

Page 20: Base de Datos

INTRODUCCIÓN A BIG DATA

20

NewSQL

Nace en el 2011 y trata de conseguir el mismo rendimiento escalablede sistemas no relacionales para el procesamiento de transaccionesen línea y garantiza el ACID(Atomicity, Consistency, Isolation and

Durability) de un sistema de base de datos tradicional

Page 21: Base de Datos

INTRODUCCIÓN A BIG DATA

21

Tecnologías de Big Data

Page 22: Base de Datos

INTRODUCCIÓN A BIG DATA

22

NoSQL

No usan SQL como el principal lenguaje de consultas. Las principales compañías de Internet se dieron cuenta que el rendimiento era más importantes que cuidar la coherencia.

Page 23: Base de Datos

INTRODUCCIÓN A BIG DATA

23

BigTable

• Como mencionamos, las grandes empresas como Googlenecesitan velocidad en sus búsquedas y no podían perder tiempobuscando en miles de tablas, por lo que todo lo pusieron en unasola, con miles y miles de columnas, de ahí nació BigTable.

• Esta tablota no tiene porque estar en una sola computadora,puede estar distribuida en una granja de servidores.

Page 24: Base de Datos

INTRODUCCIÓN A BIG DATA

24

Uff ¿Todo en una tabla?

• Muchos profesores de Bases de datos tradicionales estaríanasombrados porque rompe con los conceptos de normalización yaque la misma información se repite muuuuuuchas veces.

• Pero recuerden que en BigData no importa que tanto espacioocupan las tablas, lo importante es que sea instantáneo.

Page 25: Base de Datos

INTRODUCCIÓN A BIG DATA

25

Desafíos: La revolución ya inició

Page 26: Base de Datos

INTRODUCCIÓN A BIG DATA

26

Big Data es como el sexo adolescente:

Todo los jóvenes hablan de ello,

Nadie realmente sabe cómo hacerlo,

todo el mundo piensa que los demás saben hacerlo,

.. Pero finalmente todos dicen que

lo están haciendo mucho y bien.

Page 27: Base de Datos

INTRODUCCIÓN A BIG DATA

27

¿QUÉ ES BIG DATA?

• El término inglés Big Data hace referencia a todos aquellosconjuntos de datos cuyo tamaño supera la capacidad debúsqueda, captura, almacenamiento, gestión, análisis,transferencia, visualización o protección legal de las herramientasinformáticas convencionales.

• Bajo esa denominación se incluye, asimismo, a lasinfraestructuras, soluciones y modelos necesarios para extraervalor de dichos grupos de información de la manera máseconómica, rápida y flexible posible para una toma de decisionesinteligente.

Page 28: Base de Datos

INTRODUCCIÓN A BIG DATA

28

¿QUÉ ES BIG DATA?

Page 29: Base de Datos

INTRODUCCIÓN A BIG DATA

29

¿QUÉ ES BIG DATA?

¿QUÉ ES BIG DATA PARA LA EMPRESA?

Page 30: Base de Datos

INTRODUCCIÓN A BIG DATA

30

Capacidades de manejo, transformación y visualización de GRANDESVOLÚMENES de datos• Capacidades de captar DIVERSAS fuentes de informaciónestructurada y no estructurada• Capacidades de manejo en TIEMPO REAL de la información.• Capacidades de ESCUCHAR más a nuestros CLIENTES• Capacidad de desarrollar NUEVOS ROLES en la empresa• Capacidades y elementos de juicio para las DECISIONES de la mejoraoperativa.

BIG DATA para la empresa

Page 31: Base de Datos

INTRODUCCIÓN A BIG DATA

31

BIG DATA para la empresa

Page 32: Base de Datos

INTRODUCCIÓN A BIG DATA

32

Retos y oportunidades en banca

Page 33: Base de Datos

INTRODUCCIÓN A BIG DATA

33

Retos y oportunidades en retail

Page 34: Base de Datos

34

INTRODUCCIÓN A BIG DATA

Page 35: Base de Datos

35

INTRODUCCIÓN A BIG DATA

Consultora GARTNER, 2014

• Según Gartner –similar a otras consultoras como OBS, Forrester,estima que la inversión en servicios de Big Data será de 132.000millones de dólares ( 96.000 millones de euros) en 2015, lo quegenerará unos 4,4 millones de empleos en todo el mundo. Gracias alBig Data el Producto Interno Bruto (PIB) de la Unión Europeacrecerá un 1,9% adicional para 2020.

Page 36: Base de Datos

36

INTRODUCCIÓN A BIG DATA

Consultora GARTNER, 2014

• Por sectores, las mayores inversiones en soluciones de Big Data seharán en Comercio, Industria, Salud, Información yComunicaciones, Banca y Finanzas, Seguros y AdministraciónPública.

Page 37: Base de Datos

37

INTRODUCCIÓN A BIG DATA

Consultora GARTNER, 2014

• A nivel global, el 79% de las empresas creen que Big Data mejorará su toma de decisiones, el 58% cree que será un factor determinante en el éxito y el 36% obtiene ya ventajas competitivas.

• El 29% de las empresas no cuentan con iniciativas alrededor de Big Data, principalmente por temas presupuestarios, conocimientos técnicos sobre la tecnología, no identificación de su ROI y falta de preparación cultural por parte de la empresa.

Page 38: Base de Datos

38

INTRODUCCIÓN A BIG DATA

UNIÓN EUROPEA, 2014

• A cada minuto se genera en el mundo datos por el equivalente a360.000 DVD. Como consecuencia de ello, el sector de datos creceun 40% al año, siete veces más rápido que el mercado global de lainformación y de las comunicaciones: aumentará 16.900 millones dedólares USA en el 2015 y los datos crearán cientos de miles denuevos puestos de trabajo en Europa.

• Por todo ello, la apuesta por el Big Data por parte del sector públicoes un fenómeno en aumento… hasta tal punto que la ComisiónEuropea ha solicitado a los gobiernos nacionales que“abran los ojos ante la revolución del Big Data“.

Page 39: Base de Datos

39

INTRODUCCIÓN A BIG DATA

UNIÓN EUROPEA, 2014

• Neelie Kroes, vicepresidenta de la Comisión y responsable de laAgencia Digital Europea, declaró al respecto que:

• “ya es hora de que nos centremos en los aspectos positivos de losmacrodatos (big data). Estos suenan negativos y alarmantes, perola mayoría de las veces no lo son. Los líderes necesitanaprovecharlos”.

• “Para manejar los conjuntos de datos muy variables y en tiemporeal de hoy en día, se necesitan nuevas herramientas y métodos,como software, algoritmos y procesadores de gran potencia”.

Page 40: Base de Datos

40

INTRODUCCIÓN A BIG DATA

¿De dónde proceden los datos?

• De las transacciones que se hacen enempresas y ciudadanos.

• Web y Social Media. Imagen, vídeo, datos de texto(minería de textos, sentiment analysis)

• De M2M e Internet de la s cosas. Datos desensores

• Datos de geolocalización.• Datos RFID y NFC (tecnologías de identificación

por radiofrecuencia).• Datos biométricos.• Datos de las redes sociales (Análisis de Redes

Sociales, ARS-SNA).• Datos de las operadoras de telecomunicaciones (y

lo que se ocultan).• Datos de las ciudades inteligentes.• Datos de las redes inteligentes de energía

(smartgrids)

¿Científicos de datos?

Page 41: Base de Datos

41

INTRODUCCIÓN A BIG DATA

Científicos de datos

Lo que podemos decir es que es un área emergente que se ocupa dela recolección, preparación, análisis, visualización, gestión yconservación de grandes colecciones de información. Se requieremuchas habilidades disciplinares más allá de lo estadístico ymatemático.• Deben interconectar con estas cuatro áreas:• arquitectura de datos, adquisición de datos, análisis de datos y

archivado de datos.• Deben tener también habilidades de comunicación, habilidades de

análisis de datos (insights) y la capacidad de razonamiento ético.

Page 42: Base de Datos

42

INTRODUCCIÓN A BIG DATA

Científicos de datos

La ciencia de los datos es la transformación de los datos eninformación valiosa (insights)/decisiones o productos a través deestadísticas inferenciales.

Page 43: Base de Datos

43

INTRODUCCIÓN A BIG DATA

Científicos de datos

Experto en

computación y

desarrollo

avanzados

Experto en

estadística

matemática

Experto en

el dominio de

datos

CIENCIA

DE

DATOS

Zona

peligrosa!

Investigación

tradicional

Machine

learning

¿Ingeniero de datos?

Page 44: Base de Datos

44

INTRODUCCIÓN A BIG DATA

Científico de Datos

Ingeniero de Datos

Productos

de Datos

Manejar

las 4 v’s

vs

Visualización

Modelado

Contar

Historias

Científico de Datos

Administración

de Sistemas

Programación

Matemáticas

Estadística

Ingeniero de Datos

Administración de

Bases de Datos

Almacenamiento de

Datos

Page 45: Base de Datos

45

INTRODUCCIÓN A BIG DATA

El universo digital de datos

Page 46: Base de Datos

46

INTRODUCCIÓN A BIG DATA

El universo digital de datos

Page 47: Base de Datos

47

INTRODUCCIÓN A BIG DATA

El universo digital de datos

El 90% de los datos acumulados en todo el mundo se han creado enlos dos últimos años. Cada día se escriben 400 millones de tuits,cada minuto se crean 600 nuevos blogs y cada segundo se registran10.000 transacciones de pagos con tarjetas. Objetos cotidianoscomo los carros, los relojes o las gafas están comenzando aconectarse a Internet para alimentar nuevos servicios que requierenun constante intercambio de información.

Page 48: Base de Datos

INTRODUCCIÓN A BIG DATA

48

Escenario Big Data

Page 49: Base de Datos

INTRODUCCIÓN A BIG DATA

49

Arquitectura de nueva generación

Page 50: Base de Datos

INTRODUCCIÓN A BIG DATA

50

Internet de las cosas

Internet de las personas

Internet de las ideas

Internet del todo

Datos

Crudoshdfs://

Información

(Significado)

Tomar

Decisiones

Actuar

¿quién?¿cuántos?

¿por qué?

¿qué?¿Dónde?

Análisis de DatosEstadística Machine Learning

Estratificaciones

Análisis de Regresión

MuestreoMucho más…

Análisis de Redes (Grafos)

Minería de Datos

Volumen

Ciencia de Datos

(Transforma/Modela)Cómputo Concurrente y Paralelo

@abxda@hbcolectivo

Arquitectura de nueva generación

Page 51: Base de Datos

51

Internet de las Personas

Internet de las Cosas

Senso

res

{ json }

< xml >

c,s,v

Redes

Sociales

Internet de las Ideas

Crowdsourcing

Sistemas de Archivos

Distribuidos

Computo Paralelo y

Concurrente

Programación Funcional

Estadística

Análisis Multivariado

Machine Learning

Análisis de Interacción

Espacial

Bases de Datos

NoSQL

Visualización

Panorama Tecnológico

Infraestructura de Cómputo

INTRODUCCIÓN A BIG DATA

Page 52: Base de Datos

52

INTRODUCCIÓN A BIG DATA

Integración con Big Data. FUENTE: datalytics.com

Page 53: Base de Datos

53

INTRODUCCIÓN A BIG DATA

Integración con Big Data. FUENTE: datalytics.com

Page 54: Base de Datos

54

INTRODUCCIÓN A BIG DATA

Page 55: Base de Datos

55

INTRODUCCIÓN A BIG DATA

Nuestra huella en las redes sociales

Page 56: Base de Datos

56

INTRODUCCIÓN A BIG DATA

Ejemplos de caso de uso

Page 57: Base de Datos

57

INTRODUCCIÓN A BIG DATA

Predicción y planificación de carga en utilities

Page 58: Base de Datos

58

INTRODUCCIÓN A BIG DATA

Optimización de carga en retail

Page 59: Base de Datos

59

INTRODUCCIÓN A BIG DATA

Experiencias

Page 60: Base de Datos

60

INTRODUCCIÓN A BIG DATA

Experiencias

Page 61: Base de Datos

61

INTRODUCCIÓN A BIG DATA

Actividad extraclase

Page 62: Base de Datos

SUMARIO

62

• UNIDAD 2: EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS• Introducción a la migración de datos• Importancia del proceso de Extracción, Transformación y

Carga de datos (ETL)• Principales herramientas para las ETL y sus características• Introducción al ETL y al Pentaho Data Integration (PDI)• Instalación y configuración del PDI

OBJETIVOS

• IDENTIFICAR LAS TÉCNICAS Y HERRAMIENTAS MÁS FACTIBLES

PARA IMPLEMENTAR SOLUCIONES DE MIGRACIÓN DE DATOS

• INSTALAR Y CONFIGURAR PENTAHO DATA INTEGRATION

Page 63: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

63

El proceso de Migración de Datos es cada vez más utilizado ydemandado, debido a la necesidad de tomar los datos de unosrepositorios y trasladarlos a otros más eficientes, con mayorescapacidades de almacenamiento, con mejores mecanismos deseguridad y provistos de mejores posibilidades de explotación de ladata.

Page 64: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

64

Algunas de las razones por las cuales se aborda este proceso son: - Cambio de plataforma tecnológica. - Cambio y actualización de aplicativos informáticos. - Mejoramiento en tiempos de respuesta. - Mejores Políticas de seguridad. - Compatibilidad con otros aplicativos. - Facilitar el intercambio de información. - Optimización de ambientes de TI. - Aplicación de nuevas reglas del negocio. - Adaptabilidad a exigencias del mercado.

Nunca se migra algo a menos que de Valor a la Organización

Page 65: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

65

El problema se agrava debido a que se cuenta con: - Entornos heterogéneos y no estandarizados. - Imposibilidad de interrumpir la continuidad del negocio. - Repositorios de datos físicamente distantes. - Hardware obsoleto o caduco. - Incompatibilidad de formatos de datos.

Page 66: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

66

Razones más frecuentes por retrasar una migración

• La s organizaciones mantienen un gran número de sistemasde BD operando en varias versiones

• La migración parece ser tan riesgosa, de alto costo y depoco valor agregado

• Aversión al cambio• Alta tasa de cambios compite con el proyecto de migración

que requieren cierta estabilidad• Ventanas de tiempo escasas• Medio ambiente complejo• Cambios de HW o SO aumentan el costo del proyecto

Page 67: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

67

Tipos de ambiente en un proceso de migración

• Ambiente de migración• Ambiente nuevo dedicado a las pruebas

funcionales/desempeño• Debe tener similares al futuro ambiente de producción. Al

menos de usar el mismo volumen de datos que producción• Los datos se obtienen del ambiente de producción• Normalmente se transformará en el futuro ambiente de

producción• La seguridad debe ser manejada igual que el ambiente de

producción

Page 68: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

68

Tipos de ambiente en un proceso de migración

• Ambientes de desarrollo y testing• Normalmente se mantienen inalterados durante el desarrollo

del proyecto de migración y son migrados después de lamigración de producción

• Ambientes de contingencia• Normalmente son migrados a continuación de la migración de

producción• Futuro ambiente de producción

• Distinto al antiguo ambiente de producción• Normalmente son los mismos servidores utilizados para

ambiente de migración

Page 69: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

69

Metodología - Plan de Trabajo

Etapa 1: Preparación inicialEtapa 2: Instalación de ambiente de migración: instalación, migraciónde datos desde producción y pruebas de verificaciónEtapa 3: Realización de ciclos de pruebas funcionales/desempeñoEtapa 4: Puesta en vivo: instalación y configuración, migración dedatos desde producción antiguo y pruebas de verificaciónEtapa 5: Soporte post-producciónEtapa 6: Instalación, configuración y migración de ambiente decontingenciaEtapa 7: Instalación, configuración y migración de ambientes dedesarrollo y testingEtapa 8: Cierre del proyecto

Page 70: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

70

Recomendaciones acerca de las pruebas

• Pruebas v/s corrección de errores• El esfuerzo de planificación y ejecución de pruebas es mucho

mayor que el de corrección de errores y problemas producto dela migración

• Cantidad de errores• La cantidad de errores o problemas esperados producto de la

migración es baja, pero esto no descarta la necesidad derealizar pruebas

Page 71: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

71

Recomendaciones acerca de las pruebas

• No recomendamos hacer búsqueda en fuentes• No es práctico hacer recorridos en la aplicación buscando

posibles errores repetitivos, ya que, en cada migración tiendena ocurrir problemas diferentes. Esta práctica no evita tener querealizar las pruebas y es un proceso bastante caro de realizar

• Planes de ejecución• La mayor fuente de problemas producto de una migración son

sentencias SQL que, empeoran su desempeño. Éstos puedenser resueltos agregando hints en las aplicaciones, mediantecambios de parámetros (en ciertas ocasiones) o usando planesestables

Page 72: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

72

¿Qué es ETL?

EXTRACCION TRANSFORMACION CARGA

Page 73: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

73

¿Qué es ETL?

Extracción

• Consiste en obtener los datos del sistema origen.

Transformación

• Los datos de diferentes repositorios no suelen coincidir enformato. Para integrarlos se deben realizar operaciones detransformación. El objetivo es evitar duplicidades. Lastransformaciones aplican unas reglas sobre los datos extraídospara convertirlos en datos destino

Page 74: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

74

¿Qué es ETL?

Carga

• Los datos transformados se adaptan al formatodeseado, y llegan al destino. En algunos casos sesobreescribe la información antigua con la nueva,mientras que en otros se guarda un historial decambios que permite consultas retrospectivas en eltiempo, así como revertir modificaciones.

Page 75: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

75

Page 76: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

76

¿Para que se utilizan herramientas ETL?

• Extraer data de varias fuentes de información (Legacy DB).• Enviar data a:

• Un sistema optimizado de manejo de transacciones (nuevogestor BD).

• Un sistema optimizado de reporte.• Un sistema de análisis.• Sincronizar información de distintas bases de datos.• Depurado de información para remover errores

• Cargar información a un Data Warehouse

Page 77: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

77

¿Por qué utilizar herramientas ETL?

Las herramientas ETL ahorran tiempo y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la cantidad de Sistemas de Conversión personalizados a desarrollar para migrar o concentrar al información.Ahorra la dificultad para el DBA de conectar entre distintas marcas y tecnologías de Bases de Datos entre si.

“Permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de

datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.”

Page 78: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

78

Herramientas ETL

• Pentaho Kettle

• Talend

• Informatica PowerCenter

• Inabplex Inaport

• IBM Cognos Data Manager

• Oracle Warehouse Builder

• Microsoft Integration Services

Page 79: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

79

Pentaho Kettle

• Se utiliza a través de un acercamiento basado en meta datos, y tiene posee una GUI para acelerar los procesos.

• La compañía Pentaho empezó operaciones en el año 2001.

• Tiene una comunidad activa de usuarios grande, alrededor de 13,500 usuarios.

• Funciona utilizando Java, presentando como ventaja el ser una solución multiplataforma.

Page 80: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

80

• Talend es una herramienta OpenSource para la integración deinformación.

• Usa un enfoque hacia la generación de código para lamanipulación de información y posee una GUI implementada enEclipse RC.

• Lanzó su primera versión en el año 2006.

• Genera código en Java o Scripts en Pearl que pueden serimplementados en servidores que lo soporten.

• Cuenta con una gran variedad de testimonios por parte decompañías importantes.

Talend

Page 81: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

81

Informatica PowerCenter

• Informatica tiene una muy buena suite empresarial de integración de datos.

• Fue fundada en el año de 1993.

• Líder actual del sector Data Integration (Gartner Dataquest).

• Tiene alrededor de 2600 clientes, entre los cuales figuran Bancos como Grupo BBVA, organizaciones Gubernamentales, etc.

• La compañía se enfoca meramente en soluciones para la integración de datos.

Page 82: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

82

• Fundado en Reino Unido desde el año 2004 para satisfacerla migración de información hacia distintas soluciones CRMy software contable como Sage y Goldmine.

• Microsoft Dynamics CRM

• Sage CRM Solutions Family

• SalesLogix

• SageCRM

• ACT! by Sage

• GoldMine from FrontRange

• GoldMine Corporate and Premium

Inaplex Inaport

Page 83: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

83

• IBM® Cognos Data Manager proporciona funciones dimensionalesde extracción, transformación y carga (ETL) para conseguir unainteligencia empresarial de alto rendimiento.

• Se puede integrar con la GUI de IBM Data Manager Designer paradiseñar y crear prototipos

• Se pueden ejecutar compilaciones y secuencias de trabajos ensistemas remotos desde un sistema de entorno de diseño de DataManager.

• Data Manager Engine se tiene que instalar en un sistema UNIX oLinux.

IBM Cognos Data Manager

Page 84: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

84

ORACLE DATABASE 11G, ORACLE WAREHOUSE BUILDER ENTERPRISE ETL OPTION

• La opción empresarial ETL (Enterprise ETL Option) paraWarehouse Builder es una opción que puede ser adquirida conOracle Warehouse Builder como parte de la edición empresarialdel motor de base de datos.

• Permite ejecutar cargas de datos usando métodos rápidos yeficientes tales como el Oracle Data Pump y transportabletablespaces.

• Permite prever el efecto que puedan tener los cambios que sehagan en cualquier lugar de los metadatos del sistema ETL

• Es posible generar un modelo para configurar los ambientes dedesarrollo, pruebas y producción a niveles separados

Page 85: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

85

Microsoft SQL Server Integration Services

• Puede extraer y transformar datos de diversos orígenes comoarchivos de datos XML, archivos planos y orígenes de datosrelacionales y, después, cargar los datos en uno o varios destinos.

• Se pueden realizar tareas de migración fácilmente usando tareasvisuales.

• Si se desea crear nueva funcionalidad, se pueden crear scripts en c#o VB

• Puede conseguir conectividad mediante CLI vía DLLs tipoensamblador.

Page 86: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

86

Comparación

• Tabla comparativa

• Costo total de dominio

• Riesgos

• Facilidad de Uso

• Soporte

• Implementación

• Velocidad

• Calidad de la data

• Monitoreo

• Conectividad

Page 87: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

87

Comparación

TALEND KETTLE POWERCENTER INAPORT DATA MANAGER

ORACLEWAREHOUSE

SERVER INTEGRATION

COSTO

RIESGO

FACILIDAD

SOPORTE

IMPLEMENTACIÓN

VELOCIDAD

CALIDAD DATA

MONITOREO

CONECTIVIDAD

Page 88: Base de Datos

INTRODUCCIÓN A LA MIGRACIÓN DE DATOS

88

Implementación

TALEND KETTLE POWERCENTER

INAPORT DATA MANAGER

ORACLEWAREHOUS

E

SERVER INTEGRATIO

N

PLATAFORMA

Cualquiercompatible con Java o Perl

Cualquiera compatible con Java.

SERVIDORWINDOWS, HP-UX, IBM-UX, REDHAT, SOLARIS

WINDOWS WINDOWS SERVER, SOLARIS, HP-UX, IBM-UX, REDHAT

ORACLE LINUX,REDHAT, SUSE ENTERPRISE

WINDOWS SERVER

RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB

CPU 1 GHZ 1 GHZ 4 + CORES2GHZ

1GHZ 2GHZ x 2 cores

Varía 2.2GHZ 2 CORES

EXTRA Se puede conectar a Schedulerspara automatizar cargas

Puede utilizar Slave Servers

REQUIERE .NET

Parte de CognosBusiness Intelligence

Más información

Page 89: Base de Datos

MAESTRÍA EN AUDITORÍA DE TECNOLOGÍAS DE LA INFORMACIÓN

89

Módulo: Tópicos Avanzados de Bases de Datos

Profesor: Ing. Oiner Gómez Baryolo (PhD)

Fecha: Noviembre de 2015