EBOOK PROCESOS ETL

22
Procesos ETL EBOOK La Base de la Inteligencia de Negocio

Transcript of EBOOK PROCESOS ETL

Page 1: EBOOK PROCESOS ETL

Procesos ETL EBOOK

La Base de la Inteligencia de Negocio

Page 2: EBOOK PROCESOS ETL

ÍndiceDefinición Proceso ETL 03

Proceso de extracción, proceso de transformación y proceso de carga 04

Procesamiento en herramientas ETL 07

Evolución de los procesos ETL 08

¿Porqué se usan herramientas ETL? 09

Desafíos para los procesos y herramientas de ETL 10

La integración inteligente de datos facilita la agilidad del negocio 12

Características herramientas ETL 14

Evaluar herramientas ETL 16

Pros y contras del desarrollo personalizado vs herramienta ETL 17

¿ETL O ELT? 19

Page 3: EBOOK PROCESOS ETL

3

Un reciente informe de Grupo Aberdeen, "The

executive's guide to e�ective analytics", reveló

que las organizaciones impulsadas por datos

experimentan un aumento anual del 27% en los

ingresos, frente al 7% de otras organizaciones.

Por otra parte, el 83% percibió mejoras en sus

tiempos de ciclo, mientras que sólo el 39% de las

data driven lo lograron. Además el 12% de las

empresas con una cultura impulsada por los

datos redujeron sus gastos de operación del año

anterior, en comparación con el 1% de otras orga -

nizaciones.

Usar los datos de manera efectiva no es una

simple cuestión de escoger qué base de datos se

incorporar en plantilla. En realidad se trata de una

compleja interacción entre los datos disponibles, los

medios y modos de almacenamiento y la forma de

trabajar con ellos. Y, mientras que la mayoría de las

organizaciones se centran en la tecnología, las

empresas líderes en sus sectores reconocen que las

personas se sitúan en el centro de esta complejidad.

Por eso, aunque información y tecnología son muy

relevantes, no hay que perder de vista la variable

humana, que es la que permite responder a

preguntas como las que tienen que ver con quién

controla los datos que se reportan o cómo se

deciden las prioridades, que son las cuestiones

verdaderamente críticas.

Y es que, la explotación de los datos y su análisis a

pleno rendimiento requiere de tres capacidades:

Llegar a este estadio es posible, siempre que se

cuente con una estrategia clara para el uso de datos

y análisis y se preste la atención necesaria al

despliegue de la arquitectura, tecnología y capaci -

dades adecuadas.

Capacidad de identificar, combinar y administrar

múltiples fuentes de datos.

Habilidad para construir modelos avanzados de

analytics que sirvan para predecir tendencias y

optimizar los resultados de negocio.

Conocimiento a nivel de organización para trans -

formar los datos y modelos en mejores decisiones.

"Data driven = tecnología + organización + cultura"

Definición Proceso ETL 03

Proceso de extracción, proceso de transformación y proceso de carga 04

Procesamiento en herramientas ETL 07

Evolución de los procesos ETL 08

¿Porqué se usan herramientas ETL? 09

Desafíos para los procesos y herramientas de ETL 10

La integración inteligente de datos facilita la agilidad del negocio 12

Características herramientas ETL 14

Evaluar herramientas ETL 16

Pros y contras del desarrollo personalizado vs herramienta ETL 17

¿ETL O ELT? 19

El proceso ETL es una parte de todo proceso de integración de datos. Su función tiene gran relevancia, ya que completa el resultado del desarrollo de aplicaciones y sistemas imprimiendo la cohesión necesaria.

La palabra ETL corresponde a las siglas en inglés de:

• Extraer: extract.• Transformar: transform. • Y Cargar: load.

Aplicaciones de los procesos ETL

Gracias a los procesos ETL es posible que cualquier organización:

• Mueva datos desde una o múltiples fuentes.• Reformatee esos datos y los limpie, cuando

sea necesario.• Proceda a su carga en otro lugar, como

puede ser una base de datos, un data mart o un data ware-house.

• Analice esos datos una vez alojados en destino.

• O los emplee en otro sistema operacional para apoyar un proceso de negocio, cuando ya están cargados en su ubicación definitiva.

Otros usos de los procesos ETL

Los procesos ETL no sólo se utilizan cuando sobreviene la aparición de nuevas aplicaciones que se han de incorporar a las rutinas de la organización, sino que también es frecuente emplearlos para la integración con sistemas heredados.

Cuando se habla de sistemas heredados se está haciendo referencia a las aplicaciones antiguas que existen en el entorno de la empresa. Muchas veces, estos sistemas se deben integrar con nuevos aplicativos, por ejemplo con ERPs.

La principal dificultad que puede presentarse en este tipo de situaciones es que la tecnología utilizada en estas aplicaciones antiguas complique la integración con los nuevos programas.

Definición de Proceso ETL

Page 4: EBOOK PROCESOS ETL

Esta calidad se apoya en siete atributos, que no

pueden faltar en ningún fragmento de información:

• Completitud

• Conformidad

• Consistencia

• Precisión

• Unicidad

• Integridad

Además de las cuestiones relacionadas con data

quality, muchas empresas quieren aprovechar los

datos para tomar decisiones, pero no saben cómo

abordar el proceso. Hacerlo es sencillo, si se tiene

en cuenta que la clave está en conocer:

Cómo llegar a la información, de qué modo

recoger los datos.

Cuáles son los datos que se desea utilizar.

Cómo se emplearán los datos para alimentar

decisiones de negocio.

Con qué frecuencia se necesita la información

para tomar decisiones accionables.

De qué manera hay que presentar los datos para

que puedan ser digeridos fácilmente, se analicen y

lleven a la toma de acción.

4

Cualquier proceso ETL consta de tres fases: extracción, transformación y carga. Es necesario conocer el funcionamiento y claves de cada una de estas etapas, sin embargo, aún es más decisivo comprender las medidas de seguridad y cautelas que se deben tener en cuenta a la hora de llevarlas a cabo. Conocer estas mesuras es la única forma de prevenir situaciones cuyas consecuencias pudieran afectar al sistema y a su normal funcionamiento.

A continuación se resumen los aspectos más importantes de cada uno de estos procesos.

Proceso de extracción

Para llevar a cabo de manera correcta el proceso de extracción, primera fase de ETL, hay que seguir los siguientes pasos:

Extraer los datos desde los sistemas de origen.

• Analizar los datos extraídos obteniendo un chequeo.

• Interpretar este chequeo para verificar que los datos extraídos cumplen la pauta o estructura que se espaba. Si no fuese así, los datos deberían ser rechazados.

• Convertir los datos a un formato preparado para iniciar el proceso de transformación.

Qué hay que tener en cuenta durante el proceso de extracción

Es necesario extremar la cautela en esta fase del proceso de ETL que es la extracción, por lo que se debe tener en cuenta que:

• En el momento de la extracción, análisis e interpretación: los formatos en que se presenten los datos o los modos como éstos estén organizados pueden ser distintos en cada sistema separado, ya que la mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen.

• En el momento de la conversión de datos: conviene recordar que los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes.

Sin embargo, la mesura más importante a considerar sería el exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema de origen. Este requisito se basa en la práctica ya que, si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que no pudiera volver a ser utilizado con normalidad para su uso cotidiano.

Proceso de Extracción, Proceso de Transformación y Proceso de Carga

Page 5: EBOOK PROCESOS ETL

5

Para evitar este impacto y sus consecuencias, en sistemas grandes, las operaciones de extracción suelen programarse en horarios o días donde la interferencia con el sistema y su uso sea nula o mínima.

Proceso de transformación

La fase de transformación de un proceso de ETL aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Estas directrices pueden ser declarativas, pueden basarse en excepciones o restricciones, pero, para potenciar su pragmatismo y eficacia, hay que asegurarse de que sean:

• Declarativas.• Independientes.• Claras.• Inteligibles.• Con una finalidad útil para el negocio.

El lado más práctico del proceso de transformación

En ocasiones será necesario realizar alguna pequeña manipulación de los datos, sin embargo, y dependiendo siempre de las fuentes de datos, a veces lo que hará falta será aplicar algunas de las siguientes transformaciones:

• Seleccionar sólo ciertas columnas para su carga (estableciendo que, por ejemplo, las columnas con valores nulos no se carguen).

• Traducir códigos (puede suceder que la fuente almacene una “H” para hombre y “M” para mujer pero el destino tenga que guardar los registros como “1” para hombre y “2” para mujer).

• Codificar valores libres (en la práctica y siguiendo el caso anterior, consistiría en convertir “Hombre” en “H” o “Sr” en “1”.

• Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio).

• Unir datos de múltiples fuentes (que pueden ser búsquedas, combinaciones, etc.).

• Calcular totales de múltiples filas de datos (como las ventas totales de cada región).

• Generar campos clave en el destino.• Transponer o pivotar (girando múltiples

columnas en filas o viceversa).• Dividir una columna en varias (esta acción

permitiría transformar la columna “Nombre: García, Miguel” en dos columnas “Nombre: Miguel” y “Apellido: García”).

• Aplicar para formas simples o complejas, la acción que en cada caso se requiera, como por ejemplo:

Datos OK: entregar datos a la siguiente etapa (fase de carga).Datos erróneos: ejecutar políticas de tratamiento de excepciones.

Un reciente informe de Grupo Aberdeen, "The

executive's guide to e�ective analytics", reveló

que las organizaciones impulsadas por datos

experimentan un aumento anual del 27% en los

ingresos, frente al 7% de otras organizaciones.

Por otra parte, el 83% percibió mejoras en sus

tiempos de ciclo, mientras que sólo el 39% de las

data driven lo lograron. Además el 12% de las

empresas con una cultura impulsada por los

datos redujeron sus gastos de operación del año

anterior, en comparación con el 1% de otras orga -

nizaciones.

Usar los datos de manera efectiva no es una

simple cuestión de escoger qué base de datos se

incorporar en plantilla. En realidad se trata de una

compleja interacción entre los datos disponibles, los

medios y modos de almacenamiento y la forma de

trabajar con ellos. Y, mientras que la mayoría de las

organizaciones se centran en la tecnología, las

empresas líderes en sus sectores reconocen que las

personas se sitúan en el centro de esta complejidad.

Por eso, aunque información y tecnología son muy

relevantes, no hay que perder de vista la variable

humana, que es la que permite responder a

preguntas como las que tienen que ver con quién

controla los datos que se reportan o cómo se

deciden las prioridades, que son las cuestiones

verdaderamente críticas.

Y es que, la explotación de los datos y su análisis a

pleno rendimiento requiere de tres capacidades:

Llegar a este estadio es posible, siempre que se

cuente con una estrategia clara para el uso de datos

y análisis y se preste la atención necesaria al

despliegue de la arquitectura, tecnología y capaci -

dades adecuadas.

Capacidad de identificar, combinar y administrar

múltiples fuentes de datos.

Habilidad para construir modelos avanzados de

analytics que sirvan para predecir tendencias y

optimizar los resultados de negocio.

Conocimiento a nivel de organización para trans -

formar los datos y modelos en mejores decisiones.

"Data driven = tecnología + organización + cultura"

Page 6: EBOOK PROCESOS ETL

No es fácil conocer y servir mejor a los clientes, a

pesar de los esfuerzos, la retención se logra con

dificultad y los niveles de satisfacción van en

continuo descenso.

La alineación entre la eficacia operativa interna y la

experiencia del cliente externo parece una utopía,

en un entorno de trabajo en el que compartir

información no es posible y nadie disfruta de una

visión única ni de una sola versión de la verdad.

Cuando una empresa está en este punto ni sabe lo

que quiere, ni lo que necesita, ni mucho menos lo

que el cliente espera. Está condenada al fracaso.

6

Proceso de carga

En esta fase, los datos procedentes de la fase anterior (fase de transformación) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una amplia variedad de acciones diferentes. Por ejemplo, en algunas bases de datos será necesario sobreescribir la información antigua con nuevos datos mientras que en otras, bastará con resumir las transacciones y almacenar un promedio de la magnitud considerada.

Los data warehouse mantienen un historial de los registros, de manera que es posible en todo momento hacer una auditoría de los mismos. Esto permite disponer de un rastro de toda la historia de un valor a lo largo del tiempo.

Desarrollo del proceso de carga de datos

Existen dos formas básicas de desarrollar el proceso de carga:

• Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de todas las transciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el data warehouse, almacenando un valor calculado que consiste típicamente en un sumatorio o un promedio de la magnitud

considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.

• Rolling: este proceso sería el más recomendable en los casos en que se busque mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

Sea cual sea la manera elegida para desarrollar el proceso, hay que tener en cuenta que esta fase interactúa directamente con la base de datos de destino y, por eso, al realizar esta operación se aplicarán todas las restricciones que se hayan establecido. Si están bien definidas, la calidad de los datos en el proceso ETL quedará garantizada.

Ejemplos de estas restricciones pueden ser:

• Valores únicos.• Integridad referencial.• Campos obligatorios. • Rangos de valores.

Cultura data driven es la que se apoya en los

datos para tomar mejores decisiones y escoger

las alternativas óptimas. Buen ejemplo de ello son

cualquiera de los gigantes de internet, como

Google, Amazon o Facebook, pero también los es

Walmart, que lleva ya cerca de cinco décadas impul -

sada por datos.

La cultura data driven se apoya en tres pilares:

Tecnología: escalable, flexible, híbrida y orientada a

la movilidad.

Gobierno de los datos.

Principios y valores que conforman la cultura empre -

sarial la definen como abierta, colaborativa e inquie -

ta.

Además, las organizaciones que enfocan su gestión

de esta forma entienden que el 80% del esfuerzo de

cualquier iniciativa se debe destinar al aseguramien -

to y mantenimiento de la calidad de datos (un

problema generalizado y que el 52,3% de los científi -

cos de datos califican de "el mayor obstáculo en su

día a día", según un estudio reciente de

CrowdFlower).

Esta calidad se apoya en siete atributos, que no

pueden faltar en ningún fragmento de información:

• Completitud

• Conformidad

• Consistencia

• Precisión

• Unicidad

• Integridad

Además de las cuestiones relacionadas con data

quality, muchas empresas quieren aprovechar los

datos para tomar decisiones, pero no saben cómo

abordar el proceso. Hacerlo es sencillo, si se tiene

en cuenta que la clave está en conocer:

Cómo llegar a la información, de qué modo

recoger los datos.

Cuáles son los datos que se desea utilizar.

Cómo se emplearán los datos para alimentar

decisiones de negocio.

Con qué frecuencia se necesita la información

para tomar decisiones accionables.

De qué manera hay que presentar los datos para

que puedan ser digeridos fácilmente, se analicen y

lleven a la toma de acción.

Un reciente informe de Grupo Aberdeen, "The

executive's guide to e�ective analytics", reveló

que las organizaciones impulsadas por datos

experimentan un aumento anual del 27% en los

ingresos, frente al 7% de otras organizaciones.

Por otra parte, el 83% percibió mejoras en sus

tiempos de ciclo, mientras que sólo el 39% de las

data driven lo lograron. Además el 12% de las

empresas con una cultura impulsada por los

datos redujeron sus gastos de operación del año

anterior, en comparación con el 1% de otras orga -

nizaciones.

Usar los datos de manera efectiva no es una

simple cuestión de escoger qué base de datos se

incorporar en plantilla. En realidad se trata de una

compleja interacción entre los datos disponibles, los

medios y modos de almacenamiento y la forma de

trabajar con ellos. Y, mientras que la mayoría de las

organizaciones se centran en la tecnología, las

empresas líderes en sus sectores reconocen que las

personas se sitúan en el centro de esta complejidad.

Por eso, aunque información y tecnología son muy

relevantes, no hay que perder de vista la variable

humana, que es la que permite responder a

preguntas como las que tienen que ver con quién

controla los datos que se reportan o cómo se

deciden las prioridades, que son las cuestiones

verdaderamente críticas.

Y es que, la explotación de los datos y su análisis a

pleno rendimiento requiere de tres capacidades:

Llegar a este estadio es posible, siempre que se

cuente con una estrategia clara para el uso de datos

y análisis y se preste la atención necesaria al

despliegue de la arquitectura, tecnología y capaci -

dades adecuadas.

Capacidad de identificar, combinar y administrar

múltiples fuentes de datos.

Habilidad para construir modelos avanzados de

analytics que sirvan para predecir tendencias y

optimizar los resultados de negocio.

Conocimiento a nivel de organización para trans -

formar los datos y modelos en mejores decisiones.

"Data driven = tecnología + organización + cultura"

Page 7: EBOOK PROCESOS ETL

7

Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo. Este avance ha permitido desarolllar una serie de métodos que mejoran el rendimiento general de los procesos ETL cuando se trata de grandes volúmenes de datos.

Existen principalmente tres tipos de paralelismo que se pueden implementar en las aplicaciones ETL. No sólo no son excluyentes, sino que además pueden combinarse para llevar a cabo una misma operación ETL:

a. Paralelismo de datos: consiste en dividir un único archivo secuencial en pequeños archivos de datos para proporcionar acceso paralelo.

b. Paralelismo de segmentación (pipeline): se basa en permitir el funcionamiento simultáneo de varios componentes en el mismo flujo de datos. Un ejemplo de ello sería buscar un valor en el registro número 1 a la vez que se suman dos campos en el registro número 2.

c. Paralelismo de componente: este tipo de procesamiento consiste en el funcionamiento simultáneo de múltiples procesos en diferentes flujos de datos para el mismo puesto de trabajo.

Dificultades en el procesamiento en herramientas ETL

Actualización y sincronización son los caballos de batalla de esta fase del proceso. La convivencia de distintos tipos de datos que provienen de orígenes diferentes plantea esta dificultad y para superarla es necesario:

Que los datos que se carguen sean relativamente consistentes, o lo que es lo mismo:

• Que tengan sentido.• Que su contenido esté acorde a las reglas de

negocio. • Que estén actualizados.

Que las fuentes estén sincronizadas, por lo que hay que tener en cuenta los ciclos de actualización de las bases de datos de origen, para lo cual puede ser necesario:

• Detener ciertos datos momentáneamente.• Establecer puntos de sincronización y de

actualización, cuando un almacén de datos necesite actualizarse con los contenidos en un sistema de origen.

Procesamiento en Herramientas ETL

Cultura data driven es la que se apoya en los

datos para tomar mejores decisiones y escoger

las alternativas óptimas. Buen ejemplo de ello son

cualquiera de los gigantes de internet, como

Google, Amazon o Facebook, pero también los es

Walmart, que lleva ya cerca de cinco décadas impul -

sada por datos.

La cultura data driven se apoya en tres pilares:

Tecnología: escalable, flexible, híbrida y orientada a

la movilidad.

Gobierno de los datos.

Principios y valores que conforman la cultura empre -

sarial la definen como abierta, colaborativa e inquie -

ta.

Además, las organizaciones que enfocan su gestión

de esta forma entienden que el 80% del esfuerzo de

cualquier iniciativa se debe destinar al aseguramien -

to y mantenimiento de la calidad de datos (un

problema generalizado y que el 52,3% de los científi -

cos de datos califican de "el mayor obstáculo en su

día a día", según un estudio reciente de

CrowdFlower).

Esta calidad se apoya en siete atributos, que no

pueden faltar en ningún fragmento de información:

• Completitud

• Conformidad

• Consistencia

• Precisión

• Unicidad

• Integridad

Además de las cuestiones relacionadas con data

quality, muchas empresas quieren aprovechar los

datos para tomar decisiones, pero no saben cómo

abordar el proceso. Hacerlo es sencillo, si se tiene

en cuenta que la clave está en conocer:

Cómo llegar a la información, de qué modo

recoger los datos.

Cuáles son los datos que se desea utilizar.

Cómo se emplearán los datos para alimentar

decisiones de negocio.

Con qué frecuencia se necesita la información

para tomar decisiones accionables.

De qué manera hay que presentar los datos para

que puedan ser digeridos fácilmente, se analicen y

lleven a la toma de acción.

Un reciente informe de Grupo Aberdeen, "The

executive's guide to e�ective analytics", reveló

que las organizaciones impulsadas por datos

experimentan un aumento anual del 27% en los

ingresos, frente al 7% de otras organizaciones.

Por otra parte, el 83% percibió mejoras en sus

tiempos de ciclo, mientras que sólo el 39% de las

data driven lo lograron. Además el 12% de las

empresas con una cultura impulsada por los

datos redujeron sus gastos de operación del año

anterior, en comparación con el 1% de otras orga -

nizaciones.

Usar los datos de manera efectiva no es una

simple cuestión de escoger qué base de datos se

incorporar en plantilla. En realidad se trata de una

compleja interacción entre los datos disponibles, los

medios y modos de almacenamiento y la forma de

trabajar con ellos. Y, mientras que la mayoría de las

organizaciones se centran en la tecnología, las

empresas líderes en sus sectores reconocen que las

personas se sitúan en el centro de esta complejidad.

Por eso, aunque información y tecnología son muy

relevantes, no hay que perder de vista la variable

humana, que es la que permite responder a

preguntas como las que tienen que ver con quién

controla los datos que se reportan o cómo se

deciden las prioridades, que son las cuestiones

verdaderamente críticas.

Y es que, la explotación de los datos y su análisis a

pleno rendimiento requiere de tres capacidades:

Llegar a este estadio es posible, siempre que se

cuente con una estrategia clara para el uso de datos

y análisis y se preste la atención necesaria al

despliegue de la arquitectura, tecnología y capaci -

dades adecuadas.

Capacidad de identificar, combinar y administrar

múltiples fuentes de datos.

Habilidad para construir modelos avanzados de

analytics que sirvan para predecir tendencias y

optimizar los resultados de negocio.

Conocimiento a nivel de organización para trans -

formar los datos y modelos en mejores decisiones.

"Data driven = tecnología + organización + cultura"

Page 8: EBOOK PROCESOS ETL

Una cultura basada en los datos permite a todos en

la organización, independientemente de su experi -

encia o posición, presentar sus ideas, lanzar sus

propuestas y colaborar con el proceso creativo,

siempre que se apoyen en datos para hacerlo. Al

alentar a todo el mundo en la empresa a compartir

sus puntos de vista, se está ampliando la

perspectiva, que ya no se limita a los actores princi -

pales, sino que se enriquece con la voz y el voto de

todos los participantes en el proyecto. Enfocar la

toma de decisiones de esta forma impulsa la inno -

vación y, al mismo tiempo, también mejora la

motivación de la plantilla porque los empleados se

sienten mejor valorados por sus superiores.

La democratización de los datos es una de las ideas

con mayor potencial de todas las que la ciencia de

los datos ha permitido llevar a la práctica y es

posible en cualquier tipo de empresa si:

Los empleados ya no tienen que lanzar una

consulta, esperar a que se determine su prioridad

y, finalmente, recibir datos que podrían estar

peligrosamente desactualizados fuera de fecha.

Hoy un usuario de negocio sabe cómo nutrirse de

información de calidad en autoservicio y se le dan

los medios y herramientas necesarios para conse -

guirlo.

Los empleados reciben formación que les dota de

nuevas capacidades para ampliar sus habilidades

de trabajo con datos, logrando, por ejemplo

acceder a los datos a través de SQL.

Los datos que, sin contravenir políticas de seguri -

dad y privacidad, se pueden publicar, se abren al

público. Una práctica cada vez más frecuente, al

darse cuenta las organizaciones que, expertos del

exterior pueden hacer descubrimientos impor -

tantes que, de otra forma, se habrían perdido.

También los gobiernos han comenzado a

reconocer el valor de la democratización del

acceso a los datos, tanto a nivel local, como nacio -

nal. Ya no es sólo un área reservada a la empresa

privada.

“Tomar los costes en consideración es importante, pero el conductor real del cambio haciauna cultura de datos es la capaci -dad de soportar el número de

usuarios más amplio posibleconectados directamente a la

información”

8

Uno de los desafíos de la democratización es el

encontrar los conjuntos de datos adecuados y

asegurar que están limpios.

se conoce que

de datos se consume con asuntos relativos a la

preparación de los datos

CrowdFlower), ya que los usuarios sin experiencia

en el análisis de datos no están capacitados para

llevarla a cabo de forma autónoma. Precisamente, la

inversión en las herramientas adecuadas puede

liberar a estos expertos de esta carga que, aunque

necesaria, les roba una excesiva proporción de la

jornada laboral.

Imagina un agente comercial sin Salesforce. Necesi

taría horas y horas cada día sólo para buscar la

información de cada cliente y preparar una visita.

Este ejemplo se puede extrapolar al caso de un data

science, perdiendo el tiempo en limpiezas, perfilado

de datos y data matching en vez de en hacer análisis

y descubrimiento de datos; y, por eso, hace falta

democratizar los datos, permitir el análisis avanzado

y autoservicio de información, algo que puede

hacerse en cuatro pasos:

Apoyando la integración de datos y preparación

de datos en la nube.

Implementando software para el autoservicio avan

zado y el análisis predictivo a nivel de usuario de

negocio.

Asegurando que todo el conocimiento que se

extrae de Big Data y del reporting está disponible

donde se necesita.

Hasta hace unos años, al hablar de ETL sólo se hacía referencia a lo siguiente:

• Procesos de extracción de datos.• Procesos de transformación de datos.• Procesos de carga de datos.• Gestión de metadatos.• Servicios de administración y operacionales.

Actualmente, es necesario hablar de integración de datos (Data Integration) como evolución de los procesos ETL. Aspectos tan importantes y decisivos para un buen resultado a nivel de sistema como la calidad o el perfil del dato, se han incorporado a la definición de ETL y por eso hoy día en ella se encuentran incluidos todos los siguientes puntos:

• Servicios de acceso a datos.• Data profiling.• Data quality.• Procesado de datos operacionales.• Servicios de transformación: CDC, SCD, validación, agregación.

• Acceso en tiempo real. • ETL• Transporte de datos. • Gestión de metadatos. • Servicios de entrega.

Evolución de los procesos ETL

Cultura data driven es la que se apoya en los

datos para tomar mejores decisiones y escoger

las alternativas óptimas. Buen ejemplo de ello son

cualquiera de los gigantes de internet, como

Google, Amazon o Facebook, pero también los es

Walmart, que lleva ya cerca de cinco décadas impul -

sada por datos.

La cultura data driven se apoya en tres pilares:

Tecnología: escalable, flexible, híbrida y orientada a

la movilidad.

Gobierno de los datos.

Principios y valores que conforman la cultura empre -

sarial la definen como abierta, colaborativa e inquie -

ta.

Además, las organizaciones que enfocan su gestión

de esta forma entienden que el 80% del esfuerzo de

cualquier iniciativa se debe destinar al aseguramien -

to y mantenimiento de la calidad de datos (un

problema generalizado y que el 52,3% de los científi -

cos de datos califican de "el mayor obstáculo en su

día a día", según un estudio reciente de

CrowdFlower).

Esta calidad se apoya en siete atributos, que no

pueden faltar en ningún fragmento de información:

• Completitud

• Conformidad

• Consistencia

• Precisión

• Unicidad

• Integridad

Además de las cuestiones relacionadas con data

quality, muchas empresas quieren aprovechar los

datos para tomar decisiones, pero no saben cómo

abordar el proceso. Hacerlo es sencillo, si se tiene

en cuenta que la clave está en conocer:

Cómo llegar a la información, de qué modo

recoger los datos.

Cuáles son los datos que se desea utilizar.

Cómo se emplearán los datos para alimentar

decisiones de negocio.

Con qué frecuencia se necesita la información

para tomar decisiones accionables.

De qué manera hay que presentar los datos para

que puedan ser digeridos fácilmente, se analicen y

lleven a la toma de acción.

Page 9: EBOOK PROCESOS ETL

“Tomar los costes en

9

Uno de los desafíos de la democratización es el

encontrar los conjuntos de datos adecuados y

asegurar que están limpios. No es sorprendente si

se conoce que

de datos se consume con asuntos relativos a la

preparación de los datos (según un estudio de

CrowdFlower), ya que los usuarios sin experiencia

en el análisis de datos no están capacitados para

llevarla a cabo de forma autónoma. Precisamente, la

inversión en las herramientas adecuadas puede

liberar a estos expertos de esta carga que, aunque

necesaria, les roba una excesiva proporción de la

jornada laboral.

Imagina un agente comercial sin Salesforce. Necesi -

taría horas y horas cada día sólo para buscar la

información de cada cliente y preparar una visita.

Este ejemplo se puede extrapolar al caso de un data

science, perdiendo el tiempo en limpiezas, perfilado

de datos y data matching en vez de en hacer análisis

y descubrimiento de datos; y, por eso, hace falta

democratizar los datos, permitir el análisis avanzado

y autoservicio de información, algo que puede

hacerse en cuatro pasos:

Apoyando la integración de datos y preparación

de datos en la nube.

Implementando software para el autoservicio avan -

zado y el análisis predictivo a nivel de usuario de

negocio.

Asegurando que todo el conocimiento que se

extrae de Big Data y del reporting está disponible

donde se necesita.

Aumentando la inversión en formación y

capacitación del personal, para lograr un equipo

más fuerte y mejor preparado (una idea que

secundan el 47,7% de los científicos de datos

encuestados para el citado estudio de

CrowdFlower).

Además, cuando el conocimiento no es

exportable a todos los niveles de la organización ,

cuando los usuarios de negocio no pueden acceder

a tiempo a los datos que necesitan, se está derro -

chando la inversión en tecnología que segura -

mente se ha hecho ya. Eso sin contar el riesgo de

que un error lleve a tomar una mala decisión que

cause pérdidas, abandono de clientes o mala

reputación.

Big Data depende del grado de democratización

de la inteligencia de negocio procedente de la

analítica avanzada y predictiva. El proceso requiere

de tiempo y recursos. Hay que hacer el esfuerzo,

pero puede reducir los costos operativos y

aumentar las ganancias, dos aspectos que unáni -

memente se identifican como expresiones del retor -

no de la inversión. Un beneficio al que hay que

sumarle el que se logra cuando son directamente

los usuarios de negocio, y no sólo IT, quienes

impulsan el análisis y consiguen que las perso -

nas adecuadas reciban la visión correcta; las dos

claves para la mejora de las acciones futuras.

Uno de los desafíos de la democratización es el

encontrar los conjuntos de datos adecuados y

asegurar que están limpios. No es sorprendente si

se conoce que

de datos se consume con asuntos relativos a la

preparación de los datos (según un estudio de

CrowdFlower), ya que los usuarios sin experiencia

en el análisis de datos no están capacitados para

llevarla a cabo de forma autónoma. Precisamente, la

inversión en las herramientas adecuadas puede

liberar a estos expertos de esta carga que, aunque

necesaria, les roba una excesiva proporción de la

jornada laboral.

Imagina un agente comercial sin Salesforce. Necesi -

taría horas y horas cada día sólo para buscar la

información de cada cliente y preparar una visita.

Este ejemplo se puede extrapolar al caso de un data

science, perdiendo el tiempo en limpiezas, perfilado

de datos y data matching en vez de en hacer análisis

y descubrimiento de datos; y, por eso, hace falta

democratizar los datos, permitir el análisis avanzado

y autoservicio de información, algo que puede

hacerse en cuatro pasos:

Apoyando la integración de datos y preparación

de datos en la nube.

Implementando software para el autoservicio avan -

zado y el análisis predictivo a nivel de usuario de

negocio.

Asegurando que todo el conocimiento que se

extrae de Big Data y del reporting está disponible

donde se necesita.

Aumentando la inversión en formación y

capacitación del personal, para lograr un equipo

más fuerte y mejor preparado (una idea que

secundan el 47,7% de los científicos de datos

encuestados para el citado estudio de

CrowdFlower).

Además, cuando el conocimiento no es

exportable a todos los niveles de la organización ,

cuando los usuarios de negocio no pueden acceder

a tiempo a los datos que necesitan, se está derro -

chando la inversión en tecnología que segura -

mente se ha hecho ya. Eso sin contar el riesgo de

que un error lleve a tomar una mala decisión que

cause pérdidas, abandono de clientes o mala

reputación.

Big Data depende del grado de democratización

de la inteligencia de negocio procedente de la

analítica avanzada y predictiva. El proceso requiere

de tiempo y recursos. Hay que hacer el esfuerzo,

pero puede reducir los costos operativos y

aumentar las ganancias, dos aspectos que unáni -

memente se identifican como expresiones del retor -

no de la inversión. Un beneficio al que hay que

sumarle el que se logra cuando son directamente

los usuarios de negocio, y no sólo IT, quienes

impulsan el análisis y consiguen que las perso -

nas adecuadas reciban la visión correcta; las dos

claves para la mejora de las acciones futuras.

Uno de los desafíos de la democratización es el

encontrar los conjuntos de datos adecuados y

asegurar que están limpios. No es sorprendente si

se conoce que

de datos se consume con asuntos relativos a la

preparación de los datos (según un estudio de

CrowdFlower), ya que los usuarios sin experiencia

en el análisis de datos no están capacitados para

llevarla a cabo de forma autónoma. Precisamente, la

inversión en las herramientas adecuadas puede

liberar a estos expertos de esta carga que, aunque

necesaria, les roba una excesiva proporción de la

jornada laboral.

Imagina un agente comercial sin Salesforce. Necesi -

taría horas y horas cada día sólo para buscar la

información de cada cliente y preparar una visita.

Este ejemplo se puede extrapolar al caso de un data

science, perdiendo el tiempo en limpiezas, perfilado

de datos y data matching en vez de en hacer análisis

y descubrimiento de datos; y, por eso, hace falta

democratizar los datos, permitir el análisis avanzado

y autoservicio de información, algo que puede

hacerse en cuatro pasos:

Apoyando la integración de datos y preparación

de datos en la nube.

Implementando software para el autoservicio avan -

zado y el análisis predictivo a nivel de usuario de

negocio.

Asegurando que todo el conocimiento que se

extrae de Big Data y del reporting está disponible

donde se necesita.

Aumentando la inversión en formación y

capacitación del personal, para lograr un equipo

más fuerte y mejor preparado (una idea que

secundan el 47,7% de los científicos de datos

encuestados para el citado estudio de

CrowdFlower).

Además, cuando el conocimiento no es

exportable a todos los niveles de la organización ,

cuando los usuarios de negocio no pueden acceder

a tiempo a los datos que necesitan, se está derro -

chando la inversión en tecnología que segura -

mente se ha hecho ya. Eso sin contar el riesgo de

que un error lleve a tomar una mala decisión que

cause pérdidas, abandono de clientes o mala

reputación.

Big Data depende del grado de democratización

de la inteligencia de negocio procedente de la

analítica avanzada y predictiva. El proceso requiere

de tiempo y recursos. Hay que hacer el esfuerzo,

pero puede reducir los costos operativos y

aumentar las ganancias, dos aspectos que unáni -

memente se identifican como expresiones del retor -

no de la inversión. Un beneficio al que hay que

sumarle el que se logra cuando son directamente

los usuarios de negocio, y no sólo IT, quienes

impulsan el análisis y consiguen que las perso -

nas adecuadas reciban la visión correcta; las dos

claves para la mejora de las acciones futuras.

Uno de los desafíos de la democratización es el

encontrar los conjuntos de datos adecuados y

asegurar que están limpios. No es sorprendente si

se conoce que

de datos se consume con asuntos relativos a la

preparación de los datos (según un estudio de

CrowdFlower), ya que los usuarios sin experiencia

en el análisis de datos no están capacitados para

llevarla a cabo de forma autónoma. Precisamente, la

inversión en las herramientas adecuadas puede

liberar a estos expertos de esta carga que, aunque

necesaria, les roba una excesiva proporción de la

jornada laboral.

Imagina un agente comercial sin Salesforce. Necesi -

taría horas y horas cada día sólo para buscar la

información de cada cliente y preparar una visita.

Este ejemplo se puede extrapolar al caso de un data

science, perdiendo el tiempo en limpiezas, perfilado

de datos y data matching en vez de en hacer análisis

y descubrimiento de datos; y, por eso, hace falta

democratizar los datos, permitir el análisis avanzado

y autoservicio de información, algo que puede

hacerse en cuatro pasos:

Apoyando la integración de datos y preparación

de datos en la nube.

Implementando software para el autoservicio avan -

zado y el análisis predictivo a nivel de usuario de

negocio.

Asegurando que todo el conocimiento que se

extrae de Big Data y del reporting está disponible

donde se necesita.

Aumentando la inversión en formación y

capacitación del personal, para lograr un equipo

más fuerte y mejor preparado (una idea que

secundan el 47,7% de los científicos de datos

encuestados para el citado estudio de

CrowdFlower).

Además, cuando el conocimiento no es

exportable a todos los niveles de la organización ,

cuando los usuarios de negocio no pueden acceder

a tiempo a los datos que necesitan, se está derro -

chando la inversión en tecnología que segura -

mente se ha hecho ya. Eso sin contar el riesgo de

que un error lleve a tomar una mala decisión que

cause pérdidas, abandono de clientes o mala

reputación.

Big Data depende del grado de democratización

de la inteligencia de negocio procedente de la

analítica avanzada y predictiva. El proceso requiere

de tiempo y recursos. Hay que hacer el esfuerzo,

pero puede reducir los costos operativos y

aumentar las ganancias, dos aspectos que unáni -

memente se identifican como expresiones del retor -

no de la inversión. Un beneficio al que hay que

sumarle el que se logra cuando son directamente

los usuarios de negocio, y no sólo IT, quienes

impulsan el análisis y consiguen que las perso -

nas adecuadas reciban la visión correcta; las dos

claves para la mejora de las acciones futuras.

El uso de herramientas ETL responde a criterios de sincronización, conectividad, actualización, idoneidad y detalle. Sin embargo, puede que el motivo más importante que impulsa a una organización a optar por esta alternativa sea el económico.

Para ahorrar tiempo y dinero en el desarrollo de un data warehouse, la mejor solución es eliminar la necesidad de codificación manual. Las razones de esta decisión son múltiples, pero pueden resumirse en tres circunstancias (bastante frecuentes en la práctica) y que se describen a continuación:

• Dificultades a la hora de conectar sistemas: es muy difícil para los administradores de bases de datos la conexión entre diferentes sistemas de bases de datos sin el uso de una herramienta externa.

• Actualizaciones: en el caso de que la base de datos se altere o sean integrados nuevos datos, una gran cantidad de código manual tiene que ser completamente rehecho.

• Rendimiento: la codificación manual sigue siendo la forma más común de la integración de los datos de hoy, a pesar de que requiere horas de desarrollo y experiencia para crear un sistema realmente eficiente.

¿Por qué se usan herramientas ETL?

Page 10: EBOOK PROCESOS ETL

“Las organizaciones con una cultura data

driven son 56 por ciento más propensas que

otras a tener políticas formales de gobierno de

datos”

Además de la importancia del apoyo de la Alta

Dirección, y su compromiso con dar el paso e

iniciar la transformación cultural, para una instau -

rar una cultura basada en datos en la organi -

zación es necesario dar los siguientes cinco

pasos, que ayudarán a liberar el potencial de los

datos, eliminando barreras y todo lo que dificulta el

objetivo de cambio hacia la eficiencia:

Difundir la importancia de la necesidad de usar los

datos como soporte de cualquier proceso. Crear una

mentalidad orientadas a los datos y las métricas de

apoyo a la infraestructura es el primer paso a tomar

y, seguramente, el último en el que los resultados se

perciben consistentes. Es una cuestión de hábitos y

éstos deben entrenarse en nuevas costumbres. Los

procesos ya no se abordarán como antaño, sino que

indicadores y métricas apoyarán cada idea. Es

esencial que cunda el ejemplo desde los niveles

ejecutivos. Las comunicaciones se deben volver

objetivas y, para eso, hay que fomentar la recopi -

lación de información y análisis.

Centralizar los datos y mejorar su organización. Para

asegurar que los datos son relevantes y están

actualizados, evitando la obsolescencia, los errores

y los fallos de calidad, pero también la sobrecarga

de información, que es costosa y fomenta la

ineficiencia. Se necesitan simplificación y enfoque

para asegurar que se cuenta con la información

correcta.

Definir políticas que rijan el acceso a los datos.

Dentro de las organizaciones basadas en datos, las

políticas formales de control de acceso de los

usuarios a la información es crucial. El gobierno es

importante para asegurar la consistencia cuando se

trabaja con más fuentes de información y más varia -

das. Determinar diferentes tipos de autorización y

establecer una cadena de trazabilidad de la custo -

dia para mitigar el riesgo, es tan importante como

especificar los niveles de acceso y determinar

cómo, cuándo y por quién puede ser utilizada la

información. Es, en definitiva una cuestión que atañe

a la tecnología, la arquitectura de los sistemas y, por

supuesto, a los distintos.

Establecer indicadores para realizar un seguimiento

de la calidad de los datos. No sólo para confirmar

que la información es correcta, sino para ir más allá

y asegurarse de que los datos presentan los forma -

tos que se precisan, tienen sentido en su contexto,

son precisos, que su unicidad está bien gestionada,

10

“Las organizaciones con una cultura data

driven son 56 por ciento más propensas que

otras a tener políticas formales de gobierno de

datos”

Además de la importancia del apoyo de la Alta

Dirección, y su compromiso con dar el paso e

iniciar la transformación cultural, para una instau -

rar una cultura basada en datos en la organi -

zación es necesario dar los siguientes cinco

pasos, que ayudarán a liberar el potencial de los

datos, eliminando barreras y todo lo que dificulta el

objetivo de cambio hacia la eficiencia:

Difundir la importancia de la necesidad de usar los

datos como soporte de cualquier proceso. Crear una

mentalidad orientadas a los datos y las métricas de

apoyo a la infraestructura es el primer paso a tomar

y, seguramente, el último en el que los resultados se

perciben consistentes. Es una cuestión de hábitos y

éstos deben entrenarse en nuevas costumbres. Los

procesos ya no se abordarán como antaño, sino que

indicadores y métricas apoyarán cada idea. Es

esencial que cunda el ejemplo desde los niveles

ejecutivos. Las comunicaciones se deben volver

objetivas y, para eso, hay que fomentar la recopi -

lación de información y análisis.

Centralizar los datos y mejorar su organización. Para

asegurar que los datos son relevantes y están

actualizados, evitando la obsolescencia, los errores

y los fallos de calidad, pero también la sobrecarga

de información, que es costosa y fomenta la

ineficiencia. Se necesitan simplificación y enfoque

para asegurar que se cuenta con la información

correcta.

Definir políticas que rijan el acceso a los datos.

Dentro de las organizaciones basadas en datos, las

políticas formales de control de acceso de los

usuarios a la información es crucial. El gobierno es

importante para asegurar la consistencia cuando se

trabaja con más fuentes de información y más varia -

das. Determinar diferentes tipos de autorización y

establecer una cadena de trazabilidad de la custo -

dia para mitigar el riesgo, es tan importante como

especificar los niveles de acceso y determinar

cómo, cuándo y por quién puede ser utilizada la

información. Es, en definitiva una cuestión que atañe

a la tecnología, la arquitectura de los sistemas y, por

supuesto, a los distintos.

Establecer indicadores para realizar un seguimiento

de la calidad de los datos. No sólo para confirmar

que la información es correcta, sino para ir más allá

y asegurarse de que los datos presentan los forma -

tos que se precisan, tienen sentido en su contexto,

son precisos, que su unicidad está bien gestionada,

“Las organizaciones con una cultura data

driven son 56 por ciento más propensas que

otras a tener políticas formales de gobierno de

datos”

Además de la importancia del apoyo de la Alta

Dirección, y su compromiso con dar el paso e

iniciar la transformación cultural, para una instau -

rar una cultura basada en datos en la organi -

zación es necesario dar los siguientes cinco

pasos, que ayudarán a liberar el potencial de los

datos, eliminando barreras y todo lo que dificulta el

objetivo de cambio hacia la eficiencia:

Difundir la importancia de la necesidad de usar los

datos como soporte de cualquier proceso. Crear una

mentalidad orientadas a los datos y las métricas de

apoyo a la infraestructura es el primer paso a tomar

y, seguramente, el último en el que los resultados se

perciben consistentes. Es una cuestión de hábitos y

éstos deben entrenarse en nuevas costumbres. Los

procesos ya no se abordarán como antaño, sino que

indicadores y métricas apoyarán cada idea. Es

esencial que cunda el ejemplo desde los niveles

ejecutivos. Las comunicaciones se deben volver

objetivas y, para eso, hay que fomentar la recopi -

lación de información y análisis.

Centralizar los datos y mejorar su organización. Para

asegurar que los datos son relevantes y están

actualizados, evitando la obsolescencia, los errores

y los fallos de calidad, pero también la sobrecarga

de información, que es costosa y fomenta la

ineficiencia. Se necesitan simplificación y enfoque

para asegurar que se cuenta con la información

correcta.

Definir políticas que rijan el acceso a los datos.

Dentro de las organizaciones basadas en datos, las

políticas formales de control de acceso de los

usuarios a la información es crucial. El gobierno es

importante para asegurar la consistencia cuando se

trabaja con más fuentes de información y más varia -

das. Determinar diferentes tipos de autorización y

establecer una cadena de trazabilidad de la custo -

dia para mitigar el riesgo, es tan importante como

especificar los niveles de acceso y determinar

cómo, cuándo y por quién puede ser utilizada la

información. Es, en definitiva una cuestión que atañe

a la tecnología, la arquitectura de los sistemas y, por

supuesto, a los distintos.

Establecer indicadores para realizar un seguimiento

de la calidad de los datos. No sólo para confirmar

que la información es correcta, sino para ir más allá

y asegurarse de que los datos presentan los forma -

tos que se precisan, tienen sentido en su contexto,

son precisos, que su unicidad está bien gestionada,

“Las organizaciones con una cultura data

driven son 56 por ciento más propensas que

otras a tener políticas formales de gobierno de

datos”

Además de la importancia del apoyo de la Alta

Dirección, y su compromiso con dar el paso e

iniciar la transformación cultural, para una instau -

rar una cultura basada en datos en la organi -

zación es necesario dar los siguientes cinco

pasos, que ayudarán a liberar el potencial de los

datos, eliminando barr eras y todo lo que dificulta el

objetivo de cambio hacia la eficiencia:

Difundir la importancia de la necesidad de usar los

datos como soporte de cualquier proceso. Crear una

mentalidad orientadas a los datos y las métricas de

apoyo a la infraestructura es el primer paso a tomar

y, seguramente, el último en el que los resultados se

perciben consistentes. Es una cuestión de hábitos y

éstos deben entrenarse en nuevas costumbres. Los

procesos ya no se abordarán como antaño, sino que

indicadores y métricas apoyarán cada idea. Es

esencial que cunda el ejemplo desde los niveles

ejecutivos. Las comunicaciones se deben volver

objetivas y, para eso, hay que fomentar la recopi -

lación de información y análisis.

Centralizar los datos y mejorar su organización. Para

asegurar que los datos son relevantes y están

actualizados, evitando la obsolescencia, los errores

y los fallos de calidad, pero también la sobrecarga

de información, que es costosa y fomenta la

ineficiencia. Se necesitan simplificación y enfoque

para asegurar que se cuenta con la información

correcta.

Definir políticas que rijan el acceso a los datos.

Dentro de las organizaciones basadas en datos, las

políticas formales de control de acceso de los

usuarios a la información es crucial. El gobierno es

importante para asegurar la consistencia cuando se

trabaja con más fuentes de información y más varia -

das. Determinar diferentes tipos de autorización y

establecer una cadena de trazabilidad de la custo -

dia para mitigar el riesgo, es tan importante como

especificar los niveles de acceso y determinar

cómo, cuándo y por quién puede ser utilizada la

información. Es, en definitiva una cuestión que atañe

a la tecnología, la arquitectura de los sistemas y, por

supuesto, a los distintos.

Establecer indicadores para realizar un seguimiento

de la calidad de los datos. No sólo para confirmar

que la información es correcta, sino para ir más allá

y asegurarse de que los datos presentan los forma -

tos que se precisan, tienen sentido en su contexto,

son precisos, que su unicidad está bien gestionada,

Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado puede causar importantes problemas operativos. Puede suceder que, en un sistema operacional, el rango de valores de los datos o la calidad de éstos no coincidan con las expectativas de los diseñadores a la hora de especificarse las reglas de validación o transformación.

Para evitar este tipo de situaciones, es recomendable realizar durante el análisis un examen completo de la validez de los datos (Data Profiling) del sistema de origen, para identificar las condiciones necesarias para que los datos puedan ser tratados adecuadamente por las reglas de transformación especificadas. Esto conducirá a una modificación de las reglas de validación implementadas en el proceso ETL.

Normalmente los Data Warehouse son alimentados de manera asíncrona desde distintas fuentes, que obedecen a propósitos muy diferentes. El proceso ETL es clave para lograr que los datos extraídos asíncronamente de orígenes heterogéneos se integren finalmente en un entorno homogéneo, todo ello sin perder la fluidez y agilidad que se desea.

La escalabilidad de los sistemas y los procesos ETL

La escalabilidad de un sistema de ETL durante su vida útil tiene que ser establecida durante el análisis. En concreto, el término escalabilidad hace referencia a la capacidad del sistema para reaccionar y adaptarse, para crecer y para manejar con fluidez el crecimiento continuo de trabajo sin que ello suponga un menoscabo en su calidad. Estas capacidades incluyen la comprensión de los volúmenes de datos, que tendrán que ser procesados según los acuerdos de nivel de servicio (SLA: Service Level Agreement).

El tiempo disponible para realizar la extracción de los sistemas de origen podría cambiar, lo que implicaría que la misma cantidad de datos tendría que ser procesada en menos tiempo. Algunos sistemas ETL son escalados para procesar varios terabytes de dato, siendo capaces de actualizar un Data Warehouse que puede contener decenas de terabytes de datos.

El aumento de los volúmenes de datos que pueden requerir estos sistemas pueden hacer que los lotes que se procesaban a diario

Desafíos para los procesos y herramientas ETL

Page 11: EBOOK PROCESOS ETL

que son íntegros y su consistencia está garantizada.

Las métricas que se obtengan de cada indicador,

deben estar vinculadas a la función organizativa y al

resultado deseado, medirse con la frecuencia

establecida y comunicarse claramente a la fuerza de

trabajo.

Integrar analytics en las herramientas de negocio.

De esta forma, los procesos análisis se vuelven más

intuitivos y tienen más probabilidades de ser utiliza -

dos. La capacidad usuaria se maximiza cuando el

acceso a las opciones de analítica avanzada se

puede llevar a cabo incluso traspasando la frontera

del firewall de la empresa, a través de la nube y

mediante dispositivos móviles.

Las organizaciones basadas en datos pueden

aprovechar mejor su estructura, sus entornos analíti -

cos y su talento para producir información relevante

y transformarla en conocimiento accionable en el

momento y lugar que se necesita.

Además de seguir estos pasos, para establecer una

cultura basada en los datos pueden seguirse las tres

recomendaciones los analistas de Gartner, Alan

Duncan y Frank Buytendijk:

Predicar con el ejemplo: los CIO deben hacer un

esfuerzo consciente para comunicar a los emplea -

dos cómo usan los datos para tomar decisiones.

En las reuniones, en las presentaciones y en todas

las interacciones diarias, los ejecutivos tienen que

demostrar que han basado sus decisiones en los

datos correctos tras un proceso de búsqueda,

investigación y análisis.

Contratar a personas con una mentalidad orienta

da a los datos: ya desde el proceso de recluta

miento se debe priorizar a los perfiles que ya

entienden la importancia de apoyarse en datos

para actuar y decidir. Lo mismo ha de suceder a la

hora de evaluar el desempeño de la plantilla o fijar

objetivos. Es el fin de las intuiciones y las subjetivi

dades.

Fomentar la transparencia: hay que intentar que

sea más fácil acceder a los datos y, al mismo

tiempo, hacer las políticas de gestión de

información más transparente.

11

que son íntegros y su consistencia está garantizada.

Las métricas que se obtengan de cada indicador,

deben estar vinculadas a la función organizativa y al

resultado deseado, medirse con la frecuencia

establecida y comunicarse claramente a la fuerza de

trabajo.

Integrar analytics en las herramientas de negocio.

De esta forma, los procesos análisis se vuelven más

intuitivos y tienen más probabilidades de ser utiliza -

dos. La capacidad usuaria se maximiza cuando el

acceso a las opciones de analítica avanzada se

puede llevar a cabo incluso traspasando la frontera

del firewall de la empresa, a través de la nube y

mediante dispositivos móviles.

Las organizaciones basadas en datos pueden

aprovechar mejor su estructura, sus entornos analíti -

cos y su talento para producir información relevante

y transformarla en conocimiento accionable en el

momento y lugar que se necesita.

Además de seguir estos pasos, para establecer una

cultura basada en los datos pueden seguirse las tres

recomendaciones los analistas de Gartner, Alan

Duncan y Frank Buytendijk:

Predicar con el ejemplo: los CIO deben hacer un

esfuerzo consciente para comunicar a los emplea -

dos cómo usan los datos para tomar decisiones.

En las reuniones, en las presentaciones y en todas

las interacciones diarias, los ejecutivos tienen que

demostrar que han basado sus decisiones en los

datos correctos tras un proceso de búsqueda,

investigación y análisis.

Contratar a personas con una mentalidad orienta -

da a los datos: ya desde el proceso de recluta -

miento se debe priorizar a los perfiles que ya

entienden la importancia de apoyarse en datos

para actuar y decidir. Lo mismo ha de suceder a la

hora de evaluar el desempeño de la plantilla o fijar

objetivos. Es el fin de las intuiciones y las subjetivi -

dades.

Fomentar la transparencia: hay que intentar que

sea más fácil acceder a los datos y, al mismo

tiempo, hacer las políticas de gestión de

información más transparente.

que son íntegros y su consistencia está garantizada.

Las métricas que se obtengan de cada indicador,

deben estar vinculadas a la función organizativa y al

resultado deseado, medirse con la frecuencia

establecida y comunicarse claramente a la fuerza de

trabajo.

Integrar analytics en las herramientas de negocio.

De esta forma, los procesos análisis se vuelven más

intuitivos y tienen más probabilidades de ser utiliza -

dos. La capacidad usuaria se maximiza cuando el

acceso a las opciones de analítica avanzada se

puede llevar a cabo incluso traspasando la frontera

del firewall de la empresa, a través de la nube y

mediante dispositivos móviles.

Las organizaciones basadas en datos pueden

aprovechar mejor su estructura, sus entornos analíti -

cos y su talento para producir información relevante

y transformarla en conocimiento accionable en el

momento y lugar que se necesita.

Además de seguir estos pasos, para establecer una

cultura basada en los datos pueden seguirse las tres

recomendaciones los analistas de Gartner, Alan

Duncan y Frank Buytendijk:

Predicar con el ejemplo: los CIO deben hacer un

esfuerzo consciente para comunicar a los emplea -

dos cómo usan los datos para tomar decisiones.

En las reuniones, en las presentaciones y en todas

las interacciones diarias, los ejecutivos tienen que

demostrar que han basado sus decisiones en los

datos correctos tras un proceso de búsqueda,

investigación y análisis.

Contratar a personas con una mentalidad orienta -

da a los datos: ya desde el proceso de recluta -

miento se debe priorizar a los perfiles que ya

entienden la importancia de apoyarse en datos

para actuar y decidir. Lo mismo ha de suceder a la

hora de evaluar el desempeño de la plantilla o fijar

objetivos. Es el fin de las intuiciones y las subjetivi -

dades.

Fomentar la transparencia: hay que intentar que

sea más fácil acceder a los datos y, al mismo

tiempo, hacer las políticas de gestión de

información más transparente.

pasen a procesarse en micro-lotes (varios al día) o incluso a la integración con colas de mensajes o a la captura de datos modificados (CDC: Change Data Capture) en tiempo real para una transformación y actualización continua.

La funcionalidad de las herramientas ETL

Las herramientas ETL no tienen por qué utilizarse sólo en entornos de Data Warehousing o construcción de un Data Warehouse, sino que pueden ser útiles para multitud de propósitos, como por ejemplo:

• Tareas de Bases de datos: que también se utilizan para consolidar, migrar y sincronizar bases de datos operativas.

• Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de aplicativos.

• Sincronización entre diferentes sistemas operacionales (por ejemplo, entre nuestro entorno ERP y la web de ventas).

• Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados en siste- mas paralelos, ya sea para mantener históricos o para llevar a cabo procesos de borrado en los sistemas originales.

• Interfases de datos con sistemas externos: como el envío de información a clientes o proveedores. También servirían para la

recepción, proceso e integración de la información recibida.

• Interfases con sistemas Fronto�ce: serían interfases de subida/bajada con sistemas de venta. Otros cometidos: como la actualización de usuarios a sistemas paralelos o la preparación de procesos masivos (tipo mailings o newsletter).

En referencia a este tema, el informe de Gartner hace una comparativa de las productos más importantes del mercado, posicionándolos en su cuadrante según diferentes criterios, y exponiendo las ventajas y factores de riesgo de cada fabricante; por lo que resulta muy útil a la hora de tener acceso a las herramientas ETL más importantes.

Page 12: EBOOK PROCESOS ETL

-

-

-

Los ejecutivos de negocios y líderes de análisis

juegan un papel clave en el proceso de imple -

mentación de una cultura data driven . Desde su

posición, deben:

Identificar las características de una cultura

basada en datos y detectar cada oportunidad de

introducir comportamientos alineados con sus

principios. La toma de decisiones basada en la

evidencia tiene que convertirse en una parte

habitual, y fundamental, del trabajo.

Fomentar la adopción de una cultura basada en

los datos a través de la incorporación de políticas

y mejores prácticas de gestión de la información.

Reconocer las limitaciones potenciales de una

cultura basada en datos y establecer estrategias

de mitigación adecuadas para superar los impac -

tos de negocio asociados.

Los ejecutivos de negocios y líderes de análisis

juegan un papel clave en el proceso de imple -

mentación de una cultura data driven . Desde su

posición, deben:

Identificar las características de una cultura

basada en datos y detectar cada oportunidad de

introducir comportamientos alineados con sus

principios. La toma de decisiones basada en la

evidencia tiene que convertirse en una parte

habitual, y fundamental, del trabajo.

Fomentar la adopción de una cultura basada en

los datos a través de la incorporación de políticas

y mejores prácticas de gestión de la información.

Reconocer las limitaciones potenciales de una

cultura basada en datos y establecer estrategias

de mitigación adecuadas para superar los impac -

tos de negocio asociados.

12

Los ejecutivos de negocios y líderes de análisis

juegan un papel clave en el proceso de imple -

mentación de una cultura data driven . Desde su

posición, deben:

Identificar las características de una cultura

basada en datos y detectar cada oportunidad de

introducir comportamientos alineados con sus

principios. La toma de decisiones basada en la

evidencia tiene que convertirse en una parte

habitual, y fundamental, del trabajo.

Fomentar la adopción de una cultura basada en

los datos a través de la incorporación de políticas

y mejores prácticas de gestión de la información.

Reconocer las limitaciones potenciales de una

cultura basada en datos y establecer estrategias

de mitigación adecuadas para superar los impac -

tos de negocio asociados.

Todos los integrantes de una organización necesitan datos para desarrollar su trabajo. Brindar los datos correctos a las personas adecuadas en el instante en que lo necesitan supone satisfacer una necesidad básica en la empresa. Pero, en esta búsqueda por la precisión, la agilidad es una variable importante a tener en cuenta, como así lo son los costes. La integración inteligente de datos es la respuesta a todas estas cuestiones.

La inteligencia empresarial se apoya en datos. Pero no son un elemento aislado, ya que en su camino confluyen también:

• Las relaciones con los clientes y su administración (CRM).

• El cumplimiento de la normativa vigente.• La eficiencia a la hora de ser capaz de combinar todos los datos participantes en esta dinámica.

No es sencillo alcanzar la excelencia en la integración porque hoy día, las empresas se mueven en un entorno complejo y cambiante, donde la flexibilidad, un valor en alza, también puede jugar en contra. Concretamente, en lo referente a herramientas.

Los problemas de la integración y cómo solucionarlos mediante herramientas ETL

Muchas veces se busca que la integración cumpla un propósito específico y se crean herramientas ad hoc. Hasta aquí ningún problema. Pero los inconvenientes comienzan a la hora de flexibilizar, cuando se intenta dar un uso más amplio a esas herramientas, ya que esta decisión suele generar resultados poco satisfactorios debido a las siguientes razones:

• La coexistencia de herramienta disímiles.• La compleja infraestructura en la que se apoyan.

• La fragilidad de la combinación de factores que resulta de la flexibilización (improvisación, en algunoscasos).

• La falta de agilidad del sistema. • Los elevados costes.

Las empresas alcanzan un punto crítico cuando se dan cuenta de que, cambiar la infraestructura de datos lo suficientemente rápido como para mantenerse a la par de las actividades del sector, es prácticamente misión imposible.

La integración inteligente de datos facilita la agilidad del negocio.

Page 13: EBOOK PROCESOS ETL

“La construcción de una cultura de datos no es fácil, se requiere persisten -cia y paciencia. Es más probable al -canzar el éxito si se comienza con pequeños proyectos y se va construyendo poco a poco que si se

trata de abarcar todo de una vez.”

La cultura data driven es promotora de eficiencia,

impulsora de la generación de valor y apoyo del

crecimiento empresarial, sin embargo, tal y como

Alan Duncan y Frank Buytendijk expresan en su

informe para Gartner, tampoco es saludable obse -

sionarse por los datos, ya que ello puede entumecer

la receptividad de la organización o actuar en contra

de ella en las ocasiones en que:

No existen suficientes datos disponibles: hay veces

que la información es inaccesible y otras en que aún

no existe, como por ejemplo al entrar en un nuevo

mercado. En estos casos, en vez de bloquearse hay

que recurrir al uso de técnicas alternativas, tales

como la planificación de escenarios o modelado

what if.

Se presenta un dilema de tipo ético: una decisión

basada en datos no permite discernir entre algo

correcto o incorrecto desde el punto de vista de la

moral o la ética. Ésta es una limitación importante

porque, si no se tiene en cuenta, la empresa se

estaría aislando de su entorno y, a pesar de tomar

acciones muy precisas en base a información de

calidad, podría terminar viéndose dañado el negocio

debido a la falta de compromiso con la comunidad.

El hecho de que se puedan aprovechar los datos no

siempre significa que se deba hacer hasta las

últimas consecuencias.

Excesivo foco en las métricas . Esta obsesión por

medir, si se lleva hasta el extremo, puede causar la

"parálisis de análisis" que impide avanzar hacia la

innovación. Para crecer es preciso asumir cierto

nivel de riesgo y si se invierte demasiado tiempo y

recursos en el análisis, al final puede suceder que no

se llegue a tomar ninguna decisión, ya que nunca se

terminará de ver la solución clara al 100%.

Ser una empresa data driven es tecnología, es orga

nización pero, sobre todo es aceptar la necesidad

de un cambio cultural que hay que llevar a cabo, sin

prisa, pero sin pausa. En el camino hay que saber

vencer las resistencias y superar las limitaciones,

hay que replantear los valores y remodelar algunos

principios. Sólo así se eliminan barreras y se libera el

potencial de los datos.

“La construcción de una cultura de datos no es fácil, se requiere persisten -cia y paciencia. Es más probable al -canzar el éxito si se comienza con pequeños proyectos y se va construyendo poco a poco que si se

trata de abarcar todo de una vez.”

La cultura data driven es promotora de eficiencia,

impulsora de la generación de valor y apoyo del

crecimiento empresarial, sin embargo, tal y como

Alan Duncan y Frank Buytendijk expresan en su

informe para Gartner, tampoco es saludable obse -

sionarse por los datos, ya que ello puede entumecer

la receptividad de la organización o actuar en contra

de ella en las ocasiones en que:

No existen suficientes datos disponibles: hay veces

que la información es inaccesible y otras en que aún

no existe, como por ejemplo al entrar en un nuevo

mercado. En estos casos, en vez de bloquearse hay

que recurrir al uso de técnicas alternativas, tales

como la planificación de escenarios o modelado

what if.

Se presenta un dilema de tipo ético: una decisión

basada en datos no permite discernir entre algo

correcto o incorrecto desde el punto de vista de la

moral o la ética. Ésta es una limitación importante

porque, si no se tiene en cuenta, la empresa se

estaría aislando de su entorno y, a pesar de tomar

acciones muy precisas en base a información de

calidad, podría terminar viéndose dañado el negocio

debido a la falta de compromiso con la comunidad.

El hecho de que se puedan aprovechar los datos no

siempre significa que se deba hacer hasta las

últimas consecuencias.

Excesivo foco en las métricas . Esta obsesión por

medir, si se lleva hasta el extremo, puede causar la

"parálisis de análisis" que impide avanzar hacia la

innovación. Para crecer es preciso asumir cierto

nivel de riesgo y si se invierte demasiado tiempo y

recursos en el análisis, al final puede suceder que no

se llegue a tomar ninguna decisión, ya que nunca se

terminará de ver la solución clara al 100%.

Ser una empresa data driven es tecnología, es orga -

nización pero, sobre todo es aceptar la necesidad

de un cambio cultural que hay que llevar a cabo, sin

prisa, pero sin pausa. En el camino hay que saber

vencer las resistencias y superar las limitaciones,

hay que replantear los valores y remodelar algunos

principios. Sólo así se eliminan barreras y se libera el

potencial de los datos.

“La construcción de una cultura de datos no es fácil, se requiere persisten -cia y paciencia. Es más probable al -canzar el éxito si se comienza con pequeños proyectos y se va construyendo poco a poco que si se

trata de abarcar todo de una vez.”

La cultura data driven es promotora de eficiencia,

impulsora de la generación de valor y apoyo del

crecimiento empresarial, sin embargo, tal y como

Alan Duncan y Frank Buytendijk expresan en su

informe para Gartner, tampoco es saludable obse -

sionarse por los datos, ya que ello puede entumecer

la receptividad de la organización o actuar en contra

de ella en las ocasiones en que:

No existen suficientes datos disponibles: hay veces

que la información es inaccesible y otras en que aún

no existe, como por ejemplo al entrar en un nuevo

mercado. En estos casos, en vez de bloquearse hay

que recurrir al uso de técnicas alternativas, tales

como la planificación de escenarios o modelado

what if.

Se presenta un dilema de tipo ético: una decisión

basada en datos no permite discernir entre algo

correcto o incorrecto desde el punto de vista de la

moral o la ética. Ésta es una limitación importante

porque, si no se tiene en cuenta, la empresa se

estaría aislando de su entorno y, a pesar de tomar

acciones muy precisas en base a información de

calidad, podría terminar viéndose dañado el negocio

debido a la falta de compromiso con la comunidad.

El hecho de que se puedan aprovechar los datos no

siempre significa que se deba hacer hasta las

últimas consecuencias.

Excesivo foco en las métricas . Esta obsesión por

medir, si se lleva hasta el extremo, puede causar la

"parálisis de análisis" que impide avanzar hacia la

innovación. Para crecer es preciso asumir cierto

nivel de riesgo y si se invierte demasiado tiempo y

recursos en el análisis, al final puede suceder que no

se llegue a tomar ninguna decisión, ya que nunca se

terminará de ver la solución clara al 100%.

Ser una empresa data driven es tecnología, es orga -

nización pero, sobre todo es aceptar la necesidad

de un cambio cultural que hay que llevar a cabo, sin

prisa, pero sin pausa. En el camino hay que saber

vencer las resistencias y superar las limitaciones,

hay que replantear los valores y remodelar algunos

principios. Sólo así se eliminan barreras y se libera el

potencial de los datos.

13

Beneficios de las herramientas ETL

La solución más inteligente y eficiente para resolver este complicado problema de diversidad de requisitos para la integración de datos de las empresas, si se quiere lograr la agilidad del negocio pasa por usar alguna de las herramientas ETL. Éstas ofrecen a sus clientes:

• Técnicas de integración de datos en una solución única y lista para usar.

• La posibilidad de elegir la técnica que más convenga (ETL, replicación, federación, búsqueda o integración basada en eventos)

• La seguridad de que se lograrán elaborar flujos de datos flexibles y heterogéneos.

• Unos costes operativos mucho más reducidos que con cualquier otra solución.

• La disminución también de la complejidad, al contar con un marco uniforme para todas las técnicas y al brindar compatibilidad con una gran variedad de fuentes de datos.

Page 14: EBOOK PROCESOS ETL

14

Un reciente informe de Grupo Aberdeen, "The

executive's guide to e�ective analytics", reveló

que las organizaciones impulsadas por datos

experimentan un aumento anual del 27% en los

ingresos, frente al 7% de otras organizaciones.

Por otra parte, el 83% percibió mejoras en sus

tiempos de ciclo, mientras que sólo el 39% de las

data driven lo lograron. Además el 12% de las

empresas con una cultura impulsada por los

datos redujeron sus gastos de operación del año

anterior, en comparación con el 1% de otras orga -

nizaciones.

Usar los datos de manera efectiva no es una

simple cuestión de escoger qué base de datos se

incorporar en plantilla. En realidad se trata de una

compleja interacción entre los datos disponibles, los

medios y modos de almacenamiento y la forma de

trabajar con ellos. Y, mientras que la mayoría de las

organizaciones se centran en la tecnología, las

empresas líderes en sus sectores reconocen que las

personas se sitúan en el centro de esta complejidad.

Por eso, aunque información y tecnología son muy

relevantes, no hay que perder de vista la variable

humana, que es la que permite responder a

preguntas como las que tienen que ver con quién

controla los datos que se reportan o cómo se

deciden las prioridades, que son las cuestiones

verdaderamente críticas.

Y es que, la explotación de los datos y su análisis a

pleno rendimiento requiere de tres capacidades:

Llegar a este estadio es posible, siempre que se

cuente con una estrategia clara para el uso de datos

y análisis y se preste la atención necesaria al

despliegue de la arquitectura, tecnología y capaci -

dades adecuadas.

Capacidad de identificar, combinar y administrar

múltiples fuentes de datos.

Habilidad para construir modelos avanzados de

analytics que sirvan para predecir tendencias y

optimizar los resultados de negocio.

Conocimiento a nivel de organización para trans -

formar los datos y modelos en mejores decisiones.

"Data driven = tecnología + organización + cultura"

En un proceso ETL no todo vale, por eso hay que saber elegir. Para hacerlo con conocimiento de causa es necesario conocer las características más importantesque debe incluir un software ETL. Según Gartner, son las siguientes:

• Conectividad / capacidades de adaptación (con soporte a orígenes y destinos de datos): se refiere a la habilidad para conectar con un amplio rango de tipos de estructura de datos, entre los que podrían incluirse: bases de datos relacionales y no relacionales, variados formatos de ficheros, XML, aplicaciones ERP (sistema de planificación de recursos empresariales), CRM (sistema de gestión de clientes) o SCM (supply chain management - gestión de proveedores), formatos de mensajes estándar (EDI, SWIFT o HL7), colas de mensajes, emails, websites, repositorios de contenido o herramientas de ofimática.

• Capacidades de entrega de datos: suponen la habilidad para proporcionar datos a otras aplicaciones, procesos o bases de datos en varias formas, con capacidades para programación de procesos batch, en - tiempo real o mediante lanzamiento de eventos.

• Capacidades de transformación de datos: habilidad para la transformación de los datos, desde transformaciones básicas

(conversión de tipos, manipulación de cadenas o cálculos simples) o transformaciones intermedias (agreciones, sumarizaciones, lookups) hasta transformaciones complejas, como análisis de texto en formato libre o texto enriquecido.

• Capacidades de Metadatos y Modelado de Datos: recuperación de los modelos de datos desde los orígenes de datos o aplicaciones, creación y mantenimiento de modelos de datos, mapeo de modelo físico a lógico, repositorio de metadatos abierto (con posibilidad de interactuar con otras herramientas), sincronización de los cambios en los metadatos en los distintos componentes de la herramienta, documentación, etc.

• Capacidades de diseño y entorno de desarrollo: representación gráfica de los objetos del repositorio, modelos de datos y flujos de datos, soporte para test y, capacidades para trabajo en equipo, gestión de workflows de los procesos de desarrollo, etc.

• Capacidades de gestión de datos (calidad de datos, perfiles y minería)

• Adaptación a las diferentes plataformas hardware y sistemas operativos existentes: mainframes (IBM Z/OS), AS/400, HP Tandem, Unix, Wintel, Linux, Servidores Virtualizados, etc.

Características de lasherramientas ETL

Page 15: EBOOK PROCESOS ETL

Los ejecutivos de negocios y líderes de análisis

juegan un papel clave en el proceso de imple -

mentación de una cultura data driven . Desde su

posición, deben:

Identificar las características de una cultura

basada en datos y detectar cada oportunidad de

introducir comportamientos alineados con sus

principios. La toma de decisiones basada en la

evidencia tiene que convertirse en una parte

habitual, y fundamental, del trabajo.

Fomentar la adopción de una cultura basada en

los datos a través de la incorporación de políticas

y mejores prácticas de gestión de la información.

Reconocer las limitaciones potenciales de una

cultura basada en datos y establecer estrategias

de mitigación adecuadas para superar los impac -

tos de negocio asociados.

15

• Operaciones y capacidades de administración: habilidades para gestión, monitorización y control de los procesos de integración de datos, como gestión de errores, recolección de estadísticas de ejecución, controles de seguridad, etc.

• Arquitectura e integración: grado de compactación, consistencia e interoperabilidad de los diferentes componentes que forman la herramienta de integración de datos (con un deseable mínimo número de productos, un único repositorio, un entorno de desarrollo común, interoperabilidad con otras herramientas o vía API), etc.

• Capacidades SOA.

Está claro que la elección de un software de ETL puede ser una tarea compleja y, debido a la repercusión que ello tendrá en el desarrollo posterior de un proyecto, es una decisión que no puede tomarse a la ligera. Una elección correcta garantiza:

• Un aumento en la velocidad de desarrollo del proceso.

• La descentralizacióon del control de la ejecución y de todos los procesos.

• Una mayor agilidad en el negocio.

Page 16: EBOOK PROCESOS ETL

“Para tener éxito con datos nobasta con incluir un poco de Hadoop

en los equipos o contratar a unoscuantos estadísticos con habilidades

matemáticas fuera de lo común.”

Las empresas cuya cultura no está impulsada por

sus datos suelen tener una visión limitada, contar

con procesos menos efectivos y no ser tan competiti -

vas como el resto. A este tipo de organizaciones se

las reconoce por algunos de los siguientes rasgos:

Los datos son inaccesibles, ya sea debido a la

tecnología o las aplicaciones, bien por motivos

relacionados con las autorizaciones o el

establecimiento de prioridades, bien por causa de

la configuración de los procesos o los departa -

mentos.

No se provee al usuario de los datos que necesita

(falta autonomía) o no se hace a tiempo.

Los usuarios perciben problemas relacionados

con el procesamiento de datos o su calidad (no

existen responsables designados).

Las opiniones y discusiones no se basan siempre

en datos objetivos.

Las herramientas a disposición del personal no

son colaborativas, ni siquiera en lo que respecta la

preparación y análisis de datos.

Las nuevas tecnologías se consideran como una

barrera o un problema.

La cultura organizacional no es abierta, carece de

la suficiente transparencia y no resulta democráti -

ca.

Tampoco es una empresa data driven la que contra -

ta un científico de datos e implementa una selección

de nuevas tecnologías, donde no faltan Hadoop,

Hive o Spark. Y se queda ahí, creyendo que los

cambios llegarán solos, sin hacer ningún esfuerzo,

sin alinearse con los principios de un nuevo modelo

de negocio y una forma diferente de trabajar.

Cuando en una empresa la cultura no está impulsa -

da por los datos, el riesgo comienza a formar un

cerco que la rodea y aísla. Los primeros indicios son:

La identificación de los residuos y procesos innec -

esarios se complica, lo que significa que los

costos aumentan injustificadamente.

Al tomar decisiones basadas en opiniones,

intuiciones o corazonadas, en vez de en datos

objetivos, el riesgo se dispara.

El nivel de conocimiento acerca de los procesos y

sus resultados más probables se difumina , lo que

dificulta la toma de decisiones.

“Para tener éxito con datos nobasta con incluir un poco de Hadoop

en los equipos o contratar a unoscuantos estadísticos con habilidades

matemáticas fuera de lo común.”

Las empresas cuya cultura no está impulsada por

sus datos suelen tener una visión limitada, contar

con procesos menos efectivos y no ser tan competiti -

vas como el resto. A este tipo de organizaciones se

las reconoce por algunos de los siguientes rasgos:

Los datos son inaccesibles, ya sea debido a la

tecnología o las aplicaciones, bien por motivos

relacionados con las autorizaciones o el

establecimiento de prioridades, bien por causa de

la configuración de los procesos o los departa -

mentos.

No se provee al usuario de los datos que necesita

(falta autonomía) o no se hace a tiempo.

Los usuarios perciben problemas relacionados

con el procesamiento de datos o su calidad (no

existen responsables designados).

Las opiniones y discusiones no se basan siempre

en datos objetivos.

Las herramientas a disposición del personal no

son colaborativas, ni siquiera en lo que respecta la

preparación y análisis de datos.

Las nuevas tecnologías se consideran como una

barrera o un problema.

La cultura organizacional no es abierta, carece de

la suficiente transparencia y no resulta democráti -

ca.

Tampoco es una empresa data driven la que contra -

ta un científico de datos e implementa una selección

de nuevas tecnologías, donde no faltan Hadoop,

Hive o Spark. Y se queda ahí, creyendo que los

cambios llegarán solos, sin hacer ningún esfuerzo,

sin alinearse con los principios de un nuevo modelo

de negocio y una forma diferente de trabajar.

Cuando en una empresa la cultura no está impulsa -

da por los datos, el riesgo comienza a formar un

cerco que la rodea y aísla. Los primeros indicios son:

La identificación de los residuos y procesos innec -

esarios se complica, lo que significa que los

costos aumentan injustificadamente.

Al tomar decisiones basadas en opiniones,

intuiciones o corazonadas, en vez de en datos

objetivos, el riesgo se dispara.

El nivel de conocimiento acerca de los procesos y

sus resultados más probables se difumina , lo que

dificulta la toma de decisiones.

“La construcción de una cultura de datos no es fácil, se requiere persisten -cia y paciencia. Es más probable al -canzar el éxito si se comienza con pequeños proyectos y se va construyendo poco a poco que si se

trata de abarcar todo de una vez.”

La cultura data driven es promotora de eficiencia,

impulsora de la generación de valor y apoyo del

crecimiento empresarial, sin embargo, tal y como

Alan Duncan y Frank Buytendijk expresan en su

informe para Gartner, tampoco es saludable obse -

sionarse por los datos, ya que ello puede entumecer

la receptividad de la organización o actuar en contra

de ella en las ocasiones en que:

No existen suficientes datos disponibles: hay veces

que la información es inaccesible y otras en que aún

no existe, como por ejemplo al entrar en un nuevo

mercado. En estos casos, en vez de bloquearse hay

que recurrir al uso de técnicas alternativas, tales

como la planificación de escenarios o modelado

what if.

Se presenta un dilema de tipo ético: una decisión

basada en datos no permite discernir entre algo

correcto o incorrecto desde el punto de vista de la

moral o la ética. Ésta es una limitación importante

porque, si no se tiene en cuenta, la empresa se

estaría aislando de su entorno y, a pesar de tomar

acciones muy precisas en base a información de

calidad, podría terminar viéndose dañado el negocio

debido a la falta de compromiso con la comunidad.

El hecho de que se puedan aprovechar los datos no

siempre significa que se deba hacer hasta las

últimas consecuencias.

Excesivo foco en las métricas . Esta obsesión por

medir, si se lleva hasta el extremo, puede causar la

"parálisis de análisis" que impide avanzar hacia la

innovación. Para crecer es preciso asumir cierto

nivel de riesgo y si se invierte demasiado tiempo y

recursos en el análisis, al final puede suceder que no

se llegue a tomar ninguna decisión, ya que nunca se

terminará de ver la solución clara al 100%.

Ser una empresa data driven es tecnología, es orga -

nización pero, sobre todo es aceptar la necesidad

de un cambio cultural que hay que llevar a cabo, sin

prisa, pero sin pausa. En el camino hay que saber

vencer las resistencias y superar las limitaciones,

hay que replantear los valores y remodelar algunos

principios. Sólo así se eliminan barreras y se libera el

potencial de los datos.

16

Un reciente informe de Grupo Aberdeen, "The

executive's guide to e�ective analytics", reveló

que las organizaciones impulsadas por datos

experimentan un aumento anual del 27% en los

ingresos, frente al 7% de otras organizaciones.

Por otra parte, el 83% percibió mejoras en sus

tiempos de ciclo, mientras que sólo el 39% de las

data driven lo lograron. Además el 12% de las

empresas con una cultura impulsada por los

datos redujeron sus gastos de operación del año

anterior, en comparación con el 1% de otras orga -

nizaciones.

Usar los datos de manera efectiva no es una

simple cuestión de escoger qué base de datos se

incorporar en plantilla. En realidad se trata de una

compleja interacción entre los datos disponibles, los

medios y modos de almacenamiento y la forma de

trabajar con ellos. Y, mientras que la mayoría de las

organizaciones se centran en la tecnología, las

empresas líderes en sus sectores reconocen que las

personas se sitúan en el centro de esta complejidad.

Por eso, aunque información y tecnología son muy

relevantes, no hay que perder de vista la variable

humana, que es la que permite responder a

preguntas como las que tienen que ver con quién

controla los datos que se reportan o cómo se

deciden las prioridades, que son las cuestiones

verdaderamente críticas.

Y es que, la explotación de los datos y su análisis a

pleno rendimiento requiere de tres capacidades:

Llegar a este estadio es posible, siempre que se

cuente con una estrategia clara para el uso de datos

y análisis y se preste la atención necesaria al

despliegue de la arquitectura, tecnología y capaci -

dades adecuadas.

Capacidad de identificar, combinar y administrar

múltiples fuentes de datos.

Habilidad para construir modelos avanzados de

analytics que sirvan para predecir tendencias y

optimizar los resultados de negocio.

Conocimiento a nivel de organización para trans -

formar los datos y modelos en mejores decisiones.

"Data driven = tecnología + organización + cultura"

Una vez se tienen claras las características que debe reunir la herramienta ETL que se desea adquirir y se ha descartado ya la posibilidad de emplear algún otro proceso de gestión de datos, es el momento de evaluar las distintas opciones disponibles en el mercado, para poder tomar la decisión de compra. Hay que tener en cuenta que esta elección:

• Tiene que centrarse en una herramienta ser capaz de adaptarse a las necesidades de desarrollo actuales y futuras de los usuarios de negocio, independientemente del índice de crecimiento.

• Tiene ser tomada (y utilizada, una vez adquirida la herramienta) de manera eficiente para ganar en eficacia y ser capaz, incluso, de compensar la necesidad de plantilla adicional.

Pasos a seguir para comprar una herramienta ETL

Conviene considerar algunos pasos que es recomendable seguir antes de comprar herramientas ETL. Los más importantes son los siguientes:

• Preguntarse por la cantidad de datos (en GB) para un cierto período de procesamiento de la herramienta.

• Comprobar la conectividad con el tipo de fuentes de datos en la herramienta ETL.

• Comprobar el formato de datos que solicitado, ya sea texto o CSV, XML, las bases

de datos (como Oracle,MySQL, SQL Suite, DB2, Sybase ), EDI, HIPAA, dseACORD AL3, cualquier longitud fija formato o cualquier otro formato.

• Hacer cumplir las reglas de validación de datos mediante la especificación de las mismas en los procesos.

• Documentar y formalizar los flujos de datos y reglas de asignación.

• Preguntarse cuáles son las funciones de registro y control de las cargas y la forma de manejar condiciones de error.

Una vez concluidas estas reflexiones y para proceder con la compra, como cliente, es importante:

• Centrarse en las necesidades técnicas clave, para asegurarse de que la referencia que se obtiene es apropiada y útil para el proceso de evaluación.

• Llevar a cabo un proceso de prueba de concepto, que es el punto de partida de una evaluación general a cada uno de los proveedores elegidos.

• A la vista de los datos obtenidos, comparar los productos en el propio entorno, con los propios datos y aplicados al negocio.

• Tomar la decisión final en base al hallazgo de acuerdo con el ejercicio, tras seleccionar el producto que mejor se ajusta a las necesidades de la organización.

Evaluar herramientas ETL

Page 17: EBOOK PROCESOS ETL

No es fácil conocer y servir mejor a los clientes, a

pesar de los esfuerzos, la retención se logra con

dificultad y los niveles de satisfacción van en

continuo descenso.

La alineación entre la eficacia operativa interna y la

experiencia del cliente externo parece una utopía,

en un entorno de trabajo en el que compartir

información no es posible y nadie disfruta de una

visión única ni de una sola versión de la verdad.

Cuando una empresa está en este punto ni sabe lo

que quiere, ni lo que necesita, ni mucho menos lo

que el cliente espera. Está condenada al fracaso.

No es fácil conocer y servir mejor a los clientes, a

pesar de los esfuerzos, la retención se logra con

dificultad y los niveles de satisfacción van en

continuo descenso.

La alineación entre la eficacia operativa interna y la

experiencia del cliente externo parece una utopía,

en un entorno de trabajo en el que compartir

información no es posible y nadie disfruta de una

visión única ni de una sola versión de la verdad.

Cuando una empresa está en este punto ni sabe lo

que quiere, ni lo que necesita, ni mucho menos lo

que el cliente espera. Está condenada al fracaso.Una cultura basada en los datos permite a todos en

la organización, independientemente de su experi -

encia o posición, presentar sus ideas, lanzar sus

propuestas y colaborar con el proceso creativo,

siempre que se apoyen en datos para hacerlo. Al

alentar a todo el mundo en la empresa a compartir

sus puntos de vista, se está ampliando la

perspectiva, que ya no se limita a los actores princi -

pales, sino que se enriquece con la voz y el voto de

todos los participantes en el proyecto. Enfocar la

toma de decisiones de esta forma impulsa la inno -

vación y, al mismo tiempo, también mejora la

motivación de la plantilla porque los empleados se

sienten mejor valorados por sus superiores.

La democratización de los datos es una de las ideas

con mayor potencial de todas las que la ciencia de

los datos ha permitido llevar a la práctica y es

posible en cualquier tipo de empresa si:

Los empleados ya no tienen que lanzar una

consulta, esperar a que se determine su prioridad

y, finalmente, recibir datos que podrían estar

peligrosamente desactualizados fuera de fecha.

Hoy un usuario de negocio sabe cómo nutrirse de

información de calidad en autoservicio y se le dan

los medios y herramientas necesarios para conse -

guirlo.

Los empleados reciben formación que les dota de

nuevas capacidades para ampliar sus habilidades

de trabajo con datos, logrando, por ejemplo

acceder a los datos a través de SQL.

Los datos que, sin contravenir políticas de seguri -

dad y privacidad, se pueden publicar, se abren al

público. Una práctica cada vez más frecuente, al

darse cuenta las organizaciones que, expertos del

exterior pueden hacer descubrimientos impor -

tantes que, de otra forma, se habrían perdido.

También los gobiernos han comenzado a

reconocer el valor de la democratización del

acceso a los datos, tanto a nivel local, como nacio -

nal. Ya no es sólo un área reservada a la empresa

privada.

“Tomar los costes en consideración es importante, pero el conductor real del cambio haciauna cultura de datos es la capaci -dad de soportar el número de

usuarios más amplio posibleconectados directamente a la

información”

17

La cuestión de la elección de un código personalizado (también conocido como código custom o código manual) en comparación con el uso de una herramienta ETL es a la que hay que enfrentarse cada vez que es necesario crear un Data Warehouse (DWH). Cada uno tiene sus ventajas y desventajas.

El código manual en la creación de un data WarehouseLa alternativa del código personalizado es una buena solución a la hora de crear un Data Warehouse, ya que esta opción proporciona a las organizaciones la capacidad de codificar exactamente lo que quieren, expresado en el modo cómo les gustaría que sus programas de transformación quedasen estructurados.

Entre las principales ventajas de la utilización de código personalizado, se encuentran las siguientes:

• Bajo coste (por lo general usan el lenguaje de la casa, por ejemplo: C + +, PL / SQL, Java). Idoneidad, ya que el código está construido sólo para sus necesidades.

• Optimización de los programas.• Disponibilidad, porque esta opción permite

construir lo que se quiera, en el momento en que sea necesario.

Sin embargo, este sistema no está exento de desventajas. Además de ser necesaria una amplia base de conocimientos de los programadores, optar por la codificación

manual puede presentar los siguientes inconvenientes:

• Es difícil alcanzar la eficacia en cuanto a la gestión y mantenimiento de los programas.

• Si se produce algún cambio en el Data Warehouse, muchos programas podrían verse afectados.

• Esta opción trabaja sin repositorio centralizado de código.

• La codificación manual implica que las capacidades de metadatos sean limitadas.

• Su ciclo de desarrollo es más largo.• La depuración es más difícil.• La capacidad de auditoría queda limitada.

Creación de un Data Warehouse mediante una herramienta ETLEl uso de una herramienta ETL representa el otro lado de la ecuación de carga. Una herramienta ETL, por lo general, proporciona una interfaz agradable para los usuarios a la hora de crear y gestionar las transformaciones.

Al igual que la solución anterior, este método cuenta con sus pros y sus contras, aunque las ventajas superan a los inconvenientes. Las más importantes serían:

• La obtención de una interfaz visual agradable para crear y mantener programas.

• El almacenamiento centralizado de los programas.

• El control de versiones de los programas.

Pros y contras del desarrollo personalizado vs herramienta ETL

Page 18: EBOOK PROCESOS ETL

Para distinguir a una empresa data driven de otras,

basta con conocer el método que se emplea para

la toma de decisiones. Si se trata de alguna variante

de las metodologías científicas, sus mecanismos de

decisión tendrán mucho que ver con los siguientes:

Los procesos se inician con datos.

A la vista de la información, se desarrollan las

hipótesis y se lanzan las preguntas que necesitan

ser respondidas.

La formulación de cada cuestión es relevante, y se

conoce su impacto en la calidad del resultado.

Se aprovechan los datos de que se dispone para

comprender mejor si se están haciendo las

preguntas correctas y, caso de descubrirse que no

es así, se vuelve al inicio del proceso hasta obtener

una hipótesis comprobable.

La realización de pruebas es importante y, por eso,

se crea el marco en adecuado para esta clase de

tests.

Todos los resultados obtenidos son analizados y

utilizados para la elaboración de inteligencia de

negocio que disipe dudas y arroje luz sobre el

curso de acción óptimo.

En una empresa impulsada por los datos las

preguntas cobran protagonismo:

Es importante lanzar cada cuestión en un lenguaje

que todos los usuario de la organización puedan

entender. En la práctica no es tan sencillo ya que la

heterogeneidad de los equipos y sus diversas

procedencias complican la misión, por lo que es

importante articular con claridad la cuestión que

se está dirigiendo para que todos comprendan por

qué podría ser relevante y útil.

Una vez definida la cuestión, hace falta establecer

los indicadores que aportarán las métricas (cuanti -

tativas y cualitativas) mediante las que se evaluará

la respuesta.

Hay que saber priorizar y, para ello, evaluar el

impacto potencial de la solución para el negocio.

Se trata de un paso vital para asegurarse de que

los recursos de datos se invierten en proyectos

verdaderamente relevantes.

Por último, se pueden terminar de perfilar las ideas

obtenidas y asegurarse de que las acciones que

se quieren poner en práctica son éticas y lícitas.

“Tomar los costes en

5

• La simplicidad relativa de la personalización de transformaciones.

• El adecuado soporte de metadatos que proporciona.

• La rápida implementación de transformaciones.

• El sistema de depuración integrado en la mayoría de los productos.

• La posibilidad de transformar la programación.

• La posibilidad de transformar la auditoría.

Frente a los numerosos beneficios de esta opción, aparecen algunas desventajas como por ejemplo:

• El alto coste inicial que implica.• El conocimiento de usuario limitado de la

mayoría de los productos.• La optimización, que a veces está limitada

debido a los métodos de programación genéricos.

A la vista de las características principales de ambas opciones y de las ventajas que conllevan, y teniendo también en cuenta sus aspectos negativos, parece obvio que la balanza se inclina hacia las herramientasETL que, más que una alternativa, son en realidad una necesidad en cualquier organización, si no siempre, al menos en algún momento del ciclo de vida de su sistema de almacenamiento de datos.

Page 19: EBOOK PROCESOS ETL

Una cultura basada en los datos permite a todos en

la organización, independientemente de su experi -

encia o posición, presentar sus ideas, lanzar sus

propuestas y colaborar con el proceso creativo,

siempre que se apoyen en datos para hacerlo. Al

alentar a todo el mundo en la empresa a compartir

sus puntos de vista, se está ampliando la

perspectiva, que ya no se limita a los actores princi -

pales, sino que se enriquece con la voz y el voto de

todos los participantes en el proyecto. Enfocar la

toma de decisiones de esta forma impulsa la inno -

vación y, al mismo tiempo, también mejora la

motivación de la plantilla porque los empleados se

sienten mejor valorados por sus superiores.

La democratización de los datos es una de las ideas

con mayor potencial de todas las que la ciencia de

los datos ha permitido llevar a la práctica y es

posible en cualquier tipo de empresa si:

Los empleados ya no tienen que lanzar una

consulta, esperar a que se determine su prioridad

y, finalmente, recibir datos que podrían estar

peligrosamente desactualizados fuera de fecha.

Hoy un usuario de negocio sabe cómo nutrirse de

información de calidad en autoservicio y se le dan

los medios y herramientas necesarios para conse -

guirlo.

Los empleados reciben formación que les dota de

nuevas capacidades para ampliar sus habilidades

de trabajo con datos, logrando, por ejemplo

acceder a los datos a través de SQL.

Los datos que, sin contravenir políticas de seguri -

dad y privacidad, se pueden publicar, se abren al

público. Una práctica cada vez más frecuente, al

darse cuenta las organizaciones que, expertos del

exterior pueden hacer descubrimientos impor -

tantes que, de otra forma, se habrían perdido.

También los gobiernos han comenzado a

reconocer el valor de la democratización del

acceso a los datos, tanto a nivel local, como nacio -

nal. Ya no es sólo un área reservada a la empresa

privada.

“Tomar los costes en consideración es importante, pero el conductor real del cambio haciauna cultura de datos es la capaci -dad de soportar el número de

usuarios más amplio posibleconectados directamente a la

información”

No es fácil conocer y servir mejor a los clientes, a

pesar de los esfuerzos, la retención se logra con

dificultad y los niveles de satisfacción van en

continuo descenso.

La alineación entre la eficacia operativa interna y la

experiencia del cliente externo parece una utopía,

en un entorno de trabajo en el que compartir

información no es posible y nadie disfruta de una

visión única ni de una sola versión de la verdad.

Cuando una empresa está en este punto ni sabe lo

que quiere, ni lo que necesita, ni mucho menos lo

que el cliente espera. Está condenada al fracaso.

19

Entendemos ETL como el proceso extracción, transformación y carga de los datos, que es parte del ciclo de vida de una implementación de Business Intelligence. Partiendo de esta premisa, nos damos cuenta que existen ciertas variaciones conceptuales relativas al mismo proceso de ETL, de las que dependerá el rendimiento de los procesos de manejo de los datos. Por ello es necesario considerar las tecnologías aplicadas en cada parte del proceso, de principio a fin.

A modo de resumen, podría decirse que un proceso cualquiera daría comienzo en el origen de los datos (Base de datos, archivos de texto, etc.), continuaría con la intervención de la herramienta de ETL, para concluir en el destino de los Datos (Base de datos) que se disponga.

La herramienta de ETL permitiría:

• Conectarse a la fuente de los datos.• Hacer la transformación dentro de la misma

herramienta.• Cargar los datos a la base de datos destino.

Entendiendo el concepto E-LT

E-LT podría definirse siguiendo el orden de las iniciales que lo denominan. Así se puede decir que consiste en la extracción, carga y transformación de datos, y se resume en los siguientes tres pasos:

1. Primero: habrá que extraer y cargar los datos

de manera “BULK” directamente a una Base de Datos o a unas tablas especialmente creadas para los datos de paso (conocidas también como staging). Esto supone que este medio servirá solo temporalmente, por lo que podrá ser limpiado en cada proceso de carga. Por ello se recomienda hacer transformaciones simples y impieza básica de información.

2. Segundo: cuando la información se halla contenida en staging habrá que proseguir con la elaboración del proceso de transformación de los datos, que posteriormente pasará a la base de datos del Data Warehouse. Esta transformación se hará con el lenguaje propio de la base de datos, por ejemplo T-SQL, PL/SQL.

3. Tercero: una vez que se tienen los datos transformados en los procesos propios de la base de datos, se insertarían en el Data Warehouse. Terminada esta acción, se pueden limpiar los datos de paso, si se cree conveniente.

De esta manera el proceso de transformación queda integrado en el motor de la Base de Datos.

¿ETL o ELT?

Page 20: EBOOK PROCESOS ETL

Uno de los desafíos de la democratización es el

encontrar los conjuntos de datos adecuados y

asegurar que están limpios. No es sorprendente si

se conoce que

de datos se consume con asuntos relativos a la

preparación de los datos (según un estudio de

CrowdFlower), ya que los usuarios sin experiencia

en el análisis de datos no están capacitados para

llevarla a cabo de forma autónoma. Precisamente, la

inversión en las herramientas adecuadas puede

liberar a estos expertos de esta carga que, aunque

necesaria, les roba una excesiva proporción de la

jornada laboral.

Imagina un agente comercial sin Salesforce. Necesi -

taría horas y horas cada día sólo para buscar la

información de cada cliente y preparar una visita.

Este ejemplo se puede extrapolar al caso de un data

science, perdiendo el tiempo en limpiezas, perfilado

de datos y data matching en vez de en hacer análisis

y descubrimiento de datos; y, por eso, hace falta

democratizar los datos, permitir el análisis avanzado

y autoservicio de información, algo que puede

hacerse en cuatro pasos:

Apoyando la integración de datos y preparación

de datos en la nube.

Implementando software para el autoservicio avan -

zado y el análisis predictivo a nivel de usuario de

negocio.

Asegurando que todo el conocimiento que se

extrae de Big Data y del reporting está disponible

donde se necesita.

Aumentando la inversión en formación y

capacitación del personal, para lograr un equipo

más fuerte y mejor preparado (una idea que

secundan el 47,7% de los científicos de datos

encuestados para el citado estudio de

CrowdFlower).

Además, cuando el conocimiento no es

exportable a todos los niveles de la organización ,

cuando los usuarios de negocio no pueden acceder

a tiempo a los datos que necesitan, se está derro -

chando la inversión en tecnología que segura -

mente se ha hecho ya. Eso sin contar el riesgo de

que un error lleve a tomar una mala decisión que

cause pérdidas, abandono de clientes o mala

reputación.

Big Data depende del grado de democratización

de la inteligencia de negocio procedente de la

analítica avanzada y predictiva. El proceso requiere

de tiempo y recursos. Hay que hacer el esfuerzo,

pero puede reducir los costos operativos y

aumentar las ganancias, dos aspectos que unáni -

memente se identifican como expresiones del retor -

no de la inversión. Un beneficio al que hay que

sumarle el que se logra cuando son directamente

los usuarios de negocio, y no sólo IT, quienes

impulsan el análisis y consiguen que las perso -

nas adecuadas reciban la visión correcta; las dos

claves para la mejora de las acciones futuras.

No es fácil conocer y servir mejor a los clientes, a

pesar de los esfuerzos, la retención se logra con

dificultad y los niveles de satisfacción van en

continuo descenso.

La alineación entre la eficacia operativa interna y la

experiencia del cliente externo parece una utopía,

en un entorno de trabajo en el que compartir

información no es posible y nadie disfruta de una

visión única ni de una sola versión de la verdad.

Cuando una empresa está en este punto ni sabe lo

que quiere, ni lo que necesita, ni mucho menos lo

que el cliente espera. Está condenada al fracaso.

20

Ventajas de E-LT sobre ETL

Aunque ambos conceptos, E- LT y ETL conducen a un mismo resultado, la diferencia está en el rendimiento y la velocidad de proceso del proceso de carga en cada caso. Las principales ventajas de usar E-LT en vez de ETL serían las relativas a:

• Velocidad de proceso y transformación. La principal ventaja de E-LT es la forma en que trabaja cada herramienta implicada. En el caso de ETL las herra mientas de transformación evalúan registro por registro, mientras que en E-LT la transformación se hace en la base de datos que evalúa los registros en lotes.

• Uso de recursos. Otra ventaja de E-LT, es que una base de datos está preparada para la optimización de recursos ya sean de disco,

memoria o proceso y esto hace que el rendimiento del proceso sea administrado por la configuración de la base de datos. Sin embargo, las herramientas de ETL no toman ventaja de la configuración del disco (RAID) ni de la distribución de la memoria y procesador, ya que hacen transformaciones temporales y en muchos casos redundantes.

Cada herramienta nos provee de unas ventajas diferentes. Algunas nos dan mayor facilidad para desarrollar una transformación, aunque no el mejor rendimiento; mientras que en ocasiones

sucede al contrario. En la práctica, puede suceder que un cliente que tiene una herramienta E-LT utilice ETL al no saber usar sus ventajas. Por eso, es importante estar informado y conocer el alcance de los recursos de que se dispone, para poder tomar decisiones correctas, obteniendo el mejor rendimiento.

Page 21: EBOOK PROCESOS ETL

“Las organizaciones con una cultura data

driven son 56 por ciento más propensas que

otras a tener políticas formales de gobierno de

datos”

Además de la importancia del apoyo de la Alta

Dirección, y su compromiso con dar el paso e

iniciar la transformación cultural, para una instau -

rar una cultura basada en datos en la organi -

zación es necesario dar los siguientes cinco

pasos, que ayudarán a liberar el potencial de los

datos, eliminando barreras y todo lo que dificulta el

objetivo de cambio hacia la eficiencia:

Difundir la importancia de la necesidad de usar los

datos como soporte de cualquier proceso. Crear una

mentalidad orientadas a los datos y las métricas de

apoyo a la infraestructura es el primer paso a tomar

y, seguramente, el último en el que los resultados se

perciben consistentes. Es una cuestión de hábitos y

éstos deben entrenarse en nuevas costumbres. Los

procesos ya no se abordarán como antaño, sino que

indicadores y métricas apoyarán cada idea. Es

esencial que cunda el ejemplo desde los niveles

ejecutivos. Las comunicaciones se deben volver

objetivas y, para eso, hay que fomentar la recopi -

lación de información y análisis.

Centralizar los datos y mejorar su organización. Para

asegurar que los datos son relevantes y están

actualizados, evitando la obsolescencia, los errores

y los fallos de calidad, pero también la sobrecarga

de información, que es costosa y fomenta la

ineficiencia. Se necesitan simplificación y enfoque

para asegurar que se cuenta con la información

correcta.

Definir políticas que rijan el acceso a los datos.

Dentro de las organizaciones basadas en datos, las

políticas formales de control de acceso de los

usuarios a la información es crucial. El gobierno es

importante para asegurar la consistencia cuando se

trabaja con más fuentes de información y más varia -

das. Determinar diferentes tipos de autorización y

establecer una cadena de trazabilidad de la custo -

dia para mitigar el riesgo, es tan importante como

especificar los niveles de acceso y determinar

cómo, cuándo y por quién puede ser utilizada la

información. Es, en definitiva una cuestión que atañe

a la tecnología, la arquitectura de los sistemas y, por

supuesto, a los distintos.

Establecer indicadores para realizar un seguimiento

de la calidad de los datos. No sólo para confirmar

que la información es correcta, sino para ir más allá

y asegurarse de que los datos presentan los forma -

tos que se precisan, tienen sentido en su contexto,

son precisos, que su unicidad está bien gestionada,

PowerData, es una compañía multinacional de origen español con gran presencia regional, está enfocada en todo lo relacionado con la Gestión y Gobierno de Datos, tiene una trayectoria de más de 20

años impulsado una cultura Data-Driven en las empresas de la mano de sus aliados tecnológicos.

Te invitamos a explorar los proyectos donde aportamos valor con la gestión de datos. powerdata.eshttps://www.powerdata.es/

https://pe.linkedin.com/company/powerdata https://twitter.com/powerdatagrupo?lang=eshttps://es-la.facebook.com/PowerDataAmericas/

No es fácil conocer y servir mejor a los clientes, a

pesar de los esfuerzos, la retención se logra con

dificultad y los niveles de satisfacción van en

continuo descenso.

La alineación entre la eficacia operativa interna y la

experiencia del cliente externo parece una utopía,

en un entorno de trabajo en el que compartir

información no es posible y nadie disfruta de una

visión única ni de una sola versión de la verdad.

Cuando una empresa está en este punto ni sabe lo

que quiere, ni lo que necesita, ni mucho menos lo

que el cliente espera. Está condenada al fracaso.

Page 22: EBOOK PROCESOS ETL

que son íntegros y su consistencia está garantizada.

Las métricas que se obtengan de cada indicador,

deben estar vinculadas a la función organizativa y al

resultado deseado, medirse con la frecuencia

establecida y comunicarse claramente a la fuerza de

trabajo.

Integrar analytics en las herramientas de negocio.

De esta forma, los procesos análisis se vuelven más

intuitivos y tienen más probabilidades de ser utiliza -

dos. La capacidad usuaria se maximiza cuando el

acceso a las opciones de analítica avanzada se

puede llevar a cabo incluso traspasando la frontera

del firewall de la empresa, a través de la nube y

mediante dispositivos móviles.

Las organizaciones basadas en datos pueden

aprovechar mejor su estructura, sus entornos analíti -

cos y su talento para producir información relevante

y transformarla en conocimiento accionable en el

momento y lugar que se necesita.

Además de seguir estos pasos, para establecer una

cultura basada en los datos pueden seguirse las tres

recomendaciones los analistas de Gartner, Alan

Duncan y Frank Buytendijk:

Predicar con el ejemplo: los CIO deben hacer un

esfuerzo consciente para comunicar a los emplea -

dos cómo usan los datos para tomar decisiones.

En las reuniones, en las presentaciones y en todas

las interacciones diarias, los ejecutivos tienen que

demostrar que han basado sus decisiones en los

datos correctos tras un proceso de búsqueda,

investigación y análisis.

Contratar a personas con una mentalidad orienta

da a los datos: ya desde el proceso de recluta

miento se debe priorizar a los perfiles que ya

entienden la importancia de apoyarse en datos

para actuar y decidir. Lo mismo ha de suceder a la

hora de evaluar el desempeño de la plantilla o fijar

objetivos. Es el fin de las intuiciones y las subjetivi

dades.

Fomentar la transparencia: hay que intentar que

sea más fácil acceder a los datos y, al mismo

tiempo, hacer las políticas de gestión de

información más transparente.