Plan Big Data

65
El gran cuaderno del Big Data Una guía práctica para emprender su primer proyecto de Big Data.

description

Plan Big Data

Transcript of Plan Big Data

  • El gran cuaderno del Big DataUna gua prctica para emprender su primer proyecto de Big Data.

  • ndiceIntroduccin

    Informacin imprescindible Motivos por los que casi todas las empresas implementan proyectos de Big DataMotivos por los que fracasan algunos proyectos de Big Data Consejos para conseguir que su proyecto de Big Data funcione

    Seleccin del proyecto adecuadoAspecto del proyecto adecuado Consideracin de las repercusiones Proyectos tcticos de Big Data: algunos ejemplos Transicin bsica al Big Data

    Definicin de sus objetivosObjetivos de negocioObjetivos de TI

    Definicin de sus necesidades de datosDatos necesariosCinco consideraciones clave en torno a los datos

    Nota: haga clic para ir directamente a la seccin oportuna.

    ParteB. Su estrategia

    ParteC. Su eficaz cadena desuministro de datos

    3

    4

    5 6 7 10

    1213151719

    23

    242527

    293033

    Su equipoCinco lecciones bsicas para formar equiposEstablecimiento de la gobernanza de datos Competencias que necesita y competencias que posee

    Sus herramientasExamen de las herramientas del Big Data

    Sus procesosLos ocho pasos del Big Data

    Su arquitecturaPrimeros pasos: zona de pruebasArquitectura idnea del Big Data

    Plan de su proyectoPlan de su proyecto

    En marcha

    Siguientes pasos

    Acerca de Informatica

    36

    373842

    45

    4748

    5253

    565759

    6061

    63

    64

    65

    ParteA. Preparacin

    2 | Informatica: El gran cuaderno del Big Data

  • Pocas tendencias tecnolgicas han logrado la fama que ha alcanzado el Big Data.

    Claro que pocas tendencias tecnolgicas han ofrecido a las empresas tanto potencial de transformacin. Desde que, a finales de siglo, el software empez a envolver por completo los procesos de negocio, ha estado claro: los datos cambian nuestra forma de trabajar.

    Cmo no, una gran fama conlleva una gran decepcin. En el caso del Big Data, no cabe duda de que hemos presenciado tanto buenos consejos como desinformacin repartidos a partes iguales. Por desgracia, debido

    a que este reciente y desafiante mundo de datos infinitos sigue siendo tan nuevo, tanto ruido ha confundido a mucha gente. Este cuaderno pretende disipar tal confusin.

    Trata sobre la manera de blindar su estrategia y ejecutarla con pragmatismo. Tanto si empieza una iniciativa tctica localizada como si planea una iniciativa de cimentacin que abarque toda la empresa, este cuaderno le servir como gua prctica para la transicin.

    Vamos al asunto.

    Algo grande

    3 | Informatica: El gran cuaderno del Big Data

  • Informacin imprescindibleAntes de abordar los aspectos concretos de su propio proyecto, presentamos algunas lecciones que la mayora de los profesionales del Big Data habra deseado conocer antes de iniciar sus proyectos.

    2

    4

    6

    8

    10

    12

    14

  • Cuando las empresas se deciden a abordar el Big Data, suele ser por uno de estos motivos.

    Intentan llevar a cabo mejores anlisis y se dan cuenta de que, para conseguirlo, hace falta una cantidad bastante superior de datos de anlisis. Por lo general, es alguna unidad de negocio (como marketing) la que empieza estas iniciativas. Se dan cuenta de que pueden envolver sus productos con una capa de servicios ofreciendo anlisis (a menudo, en tiempo real) que ayuden a los clientes a utilizar sus productos con ms eficiencia y eficacia.

    Quieren realizar sus actividades mejor, ms rpido y con menos gastos empleando el Big Data con el fin de documentar todas las decisiones que se toman en relacin con un proceso o una unidad de negocio en particular.

    Se dan cuenta de que el Big Data es fundamental para todas las unidades de negocio de la organizacin, por lo que intentan establecer las bases para una visin centrada en los datos de todo su mundo.

    Saben que deben aprender a manejar el Big Data antes de que sea demasiado tarde, pero todava no saben cmo hacerlo. El objetivo consiste en aprender y experimentar.

    Aunque todos son buenos motivos para interesarse por el Big Data, si desea que sus proyectos resistan el paso del tiempo (y el escrutinio de los distintos departamentos), ha de tener muy claro el motivo que mejor refleja sus intereses.

    Motivos por los que casi todas las empresas implementan proyectos de Big Data

    Informacin imprescindible

    6 | Informatica: El gran cuaderno del Big Data

  • Segn un estudio1, el 55% de todos los proyectos de Big Data no se termina y muchos otros no cumplen sus objetivos. Aunque este llamativo porcentaje no es infrecuente en una fase tan temprana de una tendencia tecnolgica, sera una insensatez pasar por alto la leccin que imparten esos proyectos. Veamos los cuatro motivos principales por los que fracasan los proyectos de Big Data.

    Objetivos difusos El motivo de fracaso que ms se cita en el estudio es el "mbito de aplicacin impreciso" del proyecto. Demasiadas empresas desarrollan proyectos ambiciosos (y, al mismo tiempo, demasiado ambiguos) que carecen de objetivos claros, y que luego terminan fracasando cuando llega el momento de tomar decisiones complicadas sobre lo que reviste importancia y lo que no.

    Perseguir el Big Data por el simple hecho de tener un proyecto de Big Data es la receta para el desastre. La complejidad de estos proyectos exige un compromiso firme con la consecucin de un resultado concreto. Sin unos objetivos claros, eso no es posible.

    Motivos por los que fracasan algunos proyectos de Big Data

    1

    1 www.informationweek.com/software/information-management/vague-goals-seed-big-data-failures/d/ d-id/1108384

    Informacin imprescindible

    7 | Informatica: El gran cuaderno del Big Data

  • 2 3

    Expectativas equivocadas Con toda la fama del Big Data, hay quien llega a algunas suposiciones muy arriesgadas en cuanto a lo que puede ofrecer el proyecto. Aunque resulte tentador hacer promesas valientes para plazos breves, es importante mantener una visin realista de lo que cabe esperar del proyecto, el tiempo que va a necesitar y la cantidad de esfuerzos que requiere.

    Cuando las expectativas del impacto y de la informacin son demasiado elevadas, acaba buscando petrleo en un mar de terabytes de incgnitas. Si las expectativas de la oferta no son realistas, se encontrar intentando cumplir plazos y presupuestos nada razonables.

    Aumento de costes y retrasos del proyecto Si se tiene en cuenta lo novedosa que es esta disciplina para la empresa, no sorprende que casi todos los proyectos de Big Data terminen costando o tardando ms de lo previsto. Ello se suele deber a una mezcla de expectativas irreales e incomprensin del procedimiento para crear una arquitectura escalable.

    En los casos en que se contrata a los escasos y bien remunerados desarrolladores de Java para Hadoop, a quienes se les encomiendan titnicas implementaciones de codificacin manual, las empresas no tardan en asumir que resulta imposible salir del entorno de pruebas sin ningn error. La consecuencia es que los proyectos de Big Data terminan como un experimento cientfico que languidece en el laboratorio y nunca llega a ver la luz.

    Informacin imprescindible

    Motivos por los que fracasan algunos proyectos de Big Data

    8 | Informatica: El gran cuaderno del Big Data

  • 4Incapacidad de escalar Si ya cuesta bastante trabajo encontrar cinco desarrolladores buenos de Java para Hadoop, en el momento en que los proyectos aumentan de tamao y hacen falta 30 desarrolladores de Java en un mismo ao, el atasco puede ser monumental. Lo peor no es la oportunidad perdida por no utilizar clsteres Hadoop, sino la prdida de tiempo y de empuje.

    Con demasiada frecuencia, las empresas se fijan ms en la conveniencia a corto plazo que en la sostenibilidad a largo plazo. Aunque no tendra sentido sugerir que se evite siempre esa contrapartida, nunca nos cansaremos de insistir en la importancia de la visin a largo plazo. Para que los datos cuenten con la proteccin y la gestin apropiadas, es imprescindible supervisar las implicaciones a largo plazo del proyecto.

    Las cuatro causas del fracaso del Big Data son preocupantes y demasiado habituales. A continuacin, veremos cmo puede evitarlas y crear una implementacin duradera.

    Informacin imprescindible

    Motivos por los que fracasan algunos proyectos de Big Data

    9 | Informatica: El gran cuaderno del Big Data

  • Consejos para conseguir que su proyecto de Big Data funcioneEn vista de que la mayora de los proyectos de Big Data fracasa por la falta de claridad y la incapacidad para demostrar la utilidad de la iniciativa, debe asumir la tarea de aportar al proyecto el enfoque y las pruebas pertinentes. Siga estos tres tiles consejos para asegurarse de que el proyecto inicia y contina su andadura.

    Marque objetivos claros y contenga las expectativas

    Si no sabe con certeza qu propsito debe fijar para el proyecto, plantee los objetivos marcados para la infraestructura de datos existente.

    Si su organizacin ya necesita datos para determinados procesos de negocio (como deteccin de fraudes o anlisis de mercado), reflexione sobre la manera en que el Big Data podra mejorar esos procesos o dotarlos de mayor valor. En lugar de afrontar un problema completamente nuevo, solo debera mejorar un proyecto o un proceso existente.

    Sin un enfoque claro ni un valor demostrable ante los usuarios de negocio, el proyecto est abocado al fracaso.

    2

    Defina las mtricas que demuestran el valor del proyecto

    Si las mtricas estn definidas con claridad y se ajustan a sus objetivos, se ahorra muchos problemas. Al fijarse metas realistas y susceptibles de cuantificacin, todos a su alrededor percibirn sus progresos.

    An ms importante: sabrn a qu aspira a largo plazo. Plantese el modo de cuantificar la repercusin del proyecto en el contexto de sus objetivos. Es crucial porque habr concesiones a corto plazo que tendr que racionalizar ante los usuarios de negocio, y los objetivos cuantificables sirven para demostrar que les ofrece ms valor del que perciben.

    1

    Informacin imprescindible

    10 | Informatica: El gran cuaderno del Big Data

  • Adopte una estrategia en cuanto a las herramientas y la codificacin manual

    Evite la tentacin de codificar todo de forma manual y directamente en Hadoop. Recuerde que el objetivo no es crear de la nada y con sus propias manos una implementacin que funcione, sino suministrar el valor del Big Data a su organizacin.

    En lugar de realizar la codificacin manual de todas las integraciones, limpiar todos los conjuntos de datos y, luego, realizar la codificacin manual de todos los anlisis, busque herramientas y mtodos de automatizacin con los que acelerar estos procesos.

    Ms importante si cabe es evitar la trampa de malgastar el escaso y costoso talento en el desarrollo de Java en aspectos que se pueden delegar en otros empleados. Su funcin consiste en tomar decisiones estratgicas sobre la implantacin de recursos limitados de tal manera que se alcancen los objetivos.

    Decntese por herramientas que aumenten la productividad del equipo de desarrollo aprovechando las competencias y los conocimientos de sus actuales expertos en ETL, calidad de datos y business intelligence,

    y reserve para sus superestrellas de Java el trabajo en la lgica especfica, para la cual no hay herramientas disponibles. Adems, dado que las tecnologas como Hadoop evolucionan da a da, vale la pena perfilar una capa de abstraccin que sirva como proteccin ante los constantes cambios en las especificaciones de las tecnologas subyacentes. Ante todo, recuerde que las competencias que necesita escasean, pero siempre hay herramientas disponibles.

    3

    Informacin imprescindible

    Consejos para conseguir que su proyecto de Big Data funcione

    11 | Informatica: El gran cuaderno del Big Data

  • Seleccin del proyecto adecuadoEn vista de los retos que deber afrontar, veamos, a continuacin, cmo debe proceder para elegir el proyecto apropiado para su organizacin.

  • Si la organizacin tiene sed de cambios y ya ha aceptado la necesidad de contar con una estructura completa de gobernanza de datos para mejorar los mtodos de trabajo, es probable que se pueda saltar esta seccin. Ahora bien, si va a plantear un proyecto tctico localizado que se pueda adaptar con el tiempo a toda la empresa, siga leyendo.

    El proyecto adecuado posee las cuatro caractersticas siguientes.

    Valor demostrable

    El proyecto adecuado es aquel en que el valor se reparte a partes iguales entre TI y la unidad de negocio a la que pretende ayudar. Eso implica proporcionar un valor claro a un departamento, una unidad de negocio o un grupo, de tal forma que lo perciba.

    Apoyo

    Los ejecutivos que respaldan su visin son esenciales para lograr el xito del proyecto. En los proyectos de Big Data, hace falta tener apoyos e intercesores en la cpula que estn dispuestos a defender el trabajo que lleva a cabo.

    Por eso, si se ve capaz de crear anlisis fantsticos para logstica, pero tiene su nico respaldo ejecutivo en marketing, cambie el planteamiento. Si cuenta con el apoyo de marketing, dirija su creacin a cumplir los requisitos de anlisis de marketing. El cambio no se puede forzar. Confrmese con la influencia y squele el mximo partido.

    Aspecto del proyecto adecuado

    1 2

    Seleccin del proyecto adecuado

    13 | Informatica: El gran cuaderno del Big Data

  • Efecto domin

    El primer proyecto tctico tiene una importancia estratgica vital. Aparte de demostrar ms all de toda duda razonable que el Big Data resulta til para la unidad de negocio en cuestin, debe asegurarse, asimismo, de que su valor se comunica despus con facilidad al resto de la empresa.

    Por ello, a la hora de escoger el primer proyecto, tenga en cuenta la estrategia.

    Una vez que demuestre el valor del Big Data al departamento de marketing, por ejemplo, resultar ms sencillo recabar apoyos entre los equipos de logstica, los cuales se habran mostrado reticentes en otro caso.

    Competencias trasladables

    Como sealbamos en el ltimo punto, el valor del primer proyecto le sirve para convencer a otros departamentos de la empresa. Con ese fin, debe aprender las competencias, las capacidades y las lecciones apropiadas con el primer proyecto. Con ms exactitud, tiene que documentarlas de manera que pueda trasladarlas al siguiente proyecto. Recuerde que, si pretende lograr el xito, debe mirar a los proyectos futuros.

    As pues, prepare condiciones de escalabilidad para poder ocuparse de ms proyectos en el futuro. No se trata solo de escalar el clster. Se trata de escalar las competencias y las operaciones. O bien tiene que descubrir ms superestrellas de Java para Hadoop o bien halla la manera de sacar ms partido a los recursos de los que ya dispone.

    3 4

    Aspecto del proyecto adecuado

    Seleccin del proyecto adecuado

    14 | Informatica: El gran cuaderno del Big Data

  • Consideracin de las repercusionesA la hora de elegir el prximo proyecto, tambin debe tener en consideracin cmo va a repercutir en su organizacin. Hay tres aspectos generales fundamentales para convencerse de que persigue el proyecto de Big Data adecuado.

    Coste y trastorno

    En trminos muy bsicos, el coste del proyecto depende del tiempo y del dinero necesarios para ponerlo en funcionamiento. A la hora de la verdad, tambin hay que sopesar la perturbacin que puede provocar.

    En ocasiones, solo se trastornan los procedimientos: las unidades de negocio acostumbradas a ser propietarias de sus datos no se sienten cmodas al ceder el control a una estructura centralizada de gobernanza de datos.

    En otras ocasiones, guarda ms relacin con las competencias y las tecnologas, por ejemplo, cuando es preciso integrar tecnologas nuevas en la infraestructura existente y reorganizar o actualizar las competencias para hacerlo.

    En cualquier caso, debe prever los posibles trastornos, reconocerlos y asegurarse de minimizarlos o de comunicar su vala.

    1

    Seleccin del proyecto adecuado

    15 | Informatica: El gran cuaderno del Big Data

  • Consideracin de las repercusiones

    Cadencia de beneficios y repercusiones Al estudiar varios proyectos iniciales, es natural decantarse por los que ofrecen ms mejoras y el mximo efecto para el negocio. No obstante, tambin es relevante abundar en la naturaleza del impacto en el negocio: se apreciar la mayor parte del valor a corto o a largo plazo?

    Ms importante an: cundo notarn los usuarios de negocio dicho impacto? Por ejemplo, si introduce la gestin de datos maestros en el data warehouse, mejorar de forma drstica la eficiencia de su business intelligence, pero los analistas de negocio solo percibirn ese valor cuando se den cuenta de que no tendrn que volver a limpiar datos financieros nunca ms.

    Recursos y restricciones

    Teniendo en cuenta el anlisis de los dos factores anteriores, piense en los recursos que hay a su disposicin. Trataremos este tema a fondo ms adelante pero, de momento, tenga en cuenta que, como es natural, su intencin con el proyecto es esquilmar cada euro invertido.

    La consecucin de ese objetivo opera en ambos sentidos. Por un lado, pretende conseguir la mxima repercusin en el negocio pero, por otro, debe trazar una estrategia de inversin del presupuesto. Aunque le seduzca la idea de formar un equipo de especialistas en datos comparable al de Google, acaso se lo puede permitir? Tomar decisiones inteligentes en lo referente a herramientas y personal es esencial para lograr el xito del proyecto.

    2 3

    Seleccin del proyecto adecuado

    16 | Informatica: El gran cuaderno del Big Data

  • Proyectos tcticos de Big Data: algunos ejemplosEl Big Data posee una amplia variedad de aplicaciones. Aunque parezca fascinante, tambin suena un poco abrumador para quienes no tienen claro con qu proyecto arrancar. Esta es una lista de los proyectos tcticos de Big Data que han emprendido nuestros clientes.

    Si an no sabe por qu proyecto debera empezar su organizacin, fjese en los ejemplos siguientes para hacerse una idea ms ajustada de lo que el Big Data ofrece a su empresa.

    Anlisis de los riesgos y de la oferta

    Recomendaciones de inversin

    Finanzas

    Programas conectados a los vehculos

    Mantenimiento predictivo

    Fabricacin

    Predicciones de diagnstico de pacientes

    Coste total de atencin sanitaria

    Desarrollo de frmacos

    Atencin sanitaria

    Cobertura sanitaria

    Mercados de valores

    Optimizacin fiscal

    Deteccin de fraudes

    Sector pblico

    Interaccin activa con los clientes

    Servicios basados en la ubicacin

    Distribucin

    Seguimiento de comportamientos en los juegos

    Opciones de cross-sell y up-sell

    Multimedia

    Seleccin del proyecto adecuado

    17 | Informatica: El gran cuaderno del Big Data

  • Proyectos tcticos de Big Data: algunos ejemplos

    Seleccin del proyecto adecuado

    Qu buscaban algunos de nuestros clientes

    Fjese en la especificidad con que describen algunos de nuestros clientes sus iniciativas. Esa es la clase de enfoque por el que le conviene apostar.

    Una gran empresa tecnolgica de Silicon Valley pretende ahorrar ms de diez millones de dlares estadounidenses en el cada vez mayor coste del data warehouse gracias a una combinacin de Hadoop y tecnologa de data warehouse tradicional que permite reducir el incremento en el coste total por terabyte.

    Un gran fabricante de medios de transporte desea rebajar en un 1% el consumo de combustible de sus vehculos en los 10 prximos aos. Tambin pretende reducir las txicas emisiones de dixido de carbono ampliando en un 10% los perodos de mantenimiento y mejorando en un 1% el kilometraje.

    Un fabricante que trabaja con locomotoras tiene la intencin de conseguir un aumento de 1,6 km a la hora en las rutas diarias para que sus clientes se ahorren hasta 200 millones de dlares estadounidenses al ao.

    Una empresa mundial de servicios de pago quiere aumentar en un 30% su negocio digital fomentando la personalizacin segn el cliente como parte de una estrategia de Big Data denominada "optimizacin del omnicanal de distribucin".

    Todos estos casos constituyen logros excepcionales para cualquier equipo de Big Data.

    18 | Informatica: El gran cuaderno del Big Data

  • Transicin bsica al Big Data

    Si tiene todo listo para sentar las bases del enfoque de Big Data para toda la empresa, los tres pasos siguientes van a resultar esenciales en la transicin.

    Incluso si tiene como objetivo unos cuantos proyectos tcticos de Big Data, debera seguir estos tres pasos. Cada uno de ellos es crucial para la integridad fundacional de la organizacin centrada en los datos. De hecho, para conseguir el mximo provecho, es conveniente seguirlos por orden.

    Optimizacin del data warehouse

    Esto implica almacenar y procesar los datos en la plataforma ms rentable. A menudo, se empieza por sacar las cargas de trabajo de ETL y los datos sin procesar o con poco uso del hardware de data warehouse caro.

    La finalidad es evitar costosas actualizaciones del data warehouse y comenzar a utilizar hardware ms barato y estructuras informticas distribuidas como Hadoop para estar preparados para manejar el volumen, la diversidad y la velocidad del Big Data.

    1

    Seleccin del proyecto adecuado

    19 | Informatica: El gran cuaderno del Big Data

  • Lago de datos gestionado

    Un lago de datos gestionado es un lugar nico para gestionar el suministro y la demanda de todos los datos. En este caso, el trmino operativo es "gestionar". El objetivo consiste en transformar el caos repartido en varias estructuras en informacin segura, fiable y especfica.

    Para ello, es preciso crear un lago de datos para perfeccionar, gobernar y controlar los datos. Sin embargo, hace falta mucha previsin para conseguirlo pues es imprescindible incorporar procesos y polticas de gobernanza de datos estratgicos y rigurosos. Si no se implantan, el lago corre el riesgo de convertirse, ni ms ni menos, en una cinaga de datos.

    Inteligencia operativa en tiempo real

    Tiene que crear las tecnologas (anlisis, aplicaciones de gran capacidad o interfaces de interaccin) que necesita su personal para acceder a todos esos datos, analizarlos y suministrarlos. Las aplicaciones que cree han de ser fciles de usar y deben proporcionar la informacin que necesitan los usuarios.

    Se puede tratar, por ejemplo, de la interfaz con la que los representantes del servicio de atencin al cliente supervisan el comportamiento de los clientes en distintos canales e identifican

    a quienes tienen ms probabilidades de descartar la empresa en las dos semanas siguientes.

    2 3

    Transicin bsica al Big Data

    Seleccin del proyecto adecuado

    20 | Informatica: El gran cuaderno del Big Data

  • Transicin en tres pasos

    Como ya hemos dicho, para conseguir el mximo provecho, recomendamos seguir estos pasos por orden.

    Rebaje el coste de su infraestructura y apuntale la arquitectura de la empresa.

    Optimizacin del data warehouse

    Cree un lugar nico para gestionar el suministro y la demanda de datos.

    Lago de datos gestionado

    Ofrezca aplicaciones vanguardistas que proporcionen la informacin que necesita su personal.

    Anlisis en tiempo real

    Seleccin del proyecto adecuado

    21 | Informatica: El gran cuaderno del Big Data

  • Cmo definen nuestros clientes sus objetivos fundamentales

    Incluso los proyectos de base deben indicar de forma especfica qu pretenden conseguir. Si bien en este caso la especificidad no guarda relacin con el dinero ni con el tiempo ahorrados, s se aplica a los lmites de lo que se crea exactamente. Fjese en los ejemplos siguientes de proyectos de infraestructura de Big Data de nuestros clientes.

    Una multinacional que realiza cientos de millones de transacciones financieras en centenares de pases ha creado un hub de datos que abarca toda la empresa. El objetivo consiste en llevar a cabo anlisis de Big Data e identificar los macropatrones y las macrotendencias claves en la interaccin con los clientes.

    Una gran empresa tecnolgica ha creado un cloud de anlisis que abarca toda la empresa para agilizar el plazo de comercializacin de los productos basados en datos, incluyendo los conjuntos de datos nuevos en los anlisis que realizan todas las unidades de negocio.

    Una organizacin mundial de asesora financiera ha creado una infraestructura lgica de data warehouse con el fin de garantizar que haya informacin coherente a disposicin en todas las plataformas estndar (entre otras, Hadoop, bases de datos operativas y data warehouses tradicionales) que se utilizan en ella.

    En resumen, el Big Data tiene grandes repercusiones, pero exige unas bases adecuadas.

    Transicin bsica al Big Data

    Seleccin del proyecto adecuado

    22 | Informatica: El gran cuaderno del Big Data

  • ParteB. Su estrategiaA continuacin, seremos prcticos y nos fijaremos en los requisitos especficos de su prximo (o primer) proyecto de Big Data.

  • 101 m.75 mph.

    276 m.70 mph.

    501 m.69 mph.

    136 m.72 mph.

    411 m.67 mph.

    598 m.55 mph.

    Definicin de sus objetivosCoja lpiz y papel. Como ya hemos sealado, la principal causa del fracaso de los proyectos de Big Data es la falta de objetivos claros. Vamos a asegurarnos de que el proyecto que tiene en mente no se pierda en ambigedades.

  • Empezaremos por el negocio porque, para que el proyecto reciba una buena acogida, sus objetivos han de tener prioridad sobre los de TI.

    Los objetivos que se planteen conseguir para el negocio con el proyecto deben ser lo ms especficos posibles. Recuerde definir objetivos cuyos efectos se puedan cuantificar.

    Por ejemplo, en el proyecto de la interfaz del servicio de atencin al cliente que permite predecir la rotacin de clientes, no se deben enumerar objetivos tan imprecisos como "mejorar la experiencia del cliente".

    Cuanto ms claros sean los objetivos, ms cerca estar de alcanzarlos. Cinco objetivos muy restringidos valen ms que uno general.

    Objetivos de negocio

    Definicin de sus objetivos

    25 | Informatica: El gran cuaderno del Big Data

  • Objetivos de negocio

    Enumere, por orden de importancia, los objetivos de su proyecto de Big Data que guarden relacin con el negocio y los usuarios de negocio. (Indique tantos o tan pocos objetivos como desee). Ejemplo: Reducir la rotacin de clientes.

    Anote los plazos mnimo y mximo en que se debe alcanzar cada objetivo. Ejemplo: De tres a seis meses.

    Ahora, por cada objetivo, escriba una medida de xito que sirva para determinar si se ha alcanzado. Lo idneo es que aporte mtricas o clculos. Ejemplo: Reducir la rotacin media mensual en un X%.

    Cunto tiempo debe llevar el proyecto de Big Data?

    El proyecto de Big Data debe tardar tanto tiempo como sea necesario para desplegar todo su valor. En nuestra experiencia, el mbito de aplicacin del proyecto dicta el plazo.

    Hemos colaborado con clientes que han completado proyectos tcticos en menos de tres meses y con otros que han invertido tres aos en terminar programas de base.

    Si su proyecto es largo, tenga en cuenta que conviene demostrar su valor cada seis meses. Si adopta un enfoque gil en el proyecto, le resulta ms sencillo presentar las diferentes fases y los distintos hitos como proyectos ms pequeos.

    Lo que est claro es que no puede "suponer" cunto va a tardar. Calcule una estimacin del plazo basndose en su experiencia y en la de otros que hayan emprendido proyectos parecidos antes. Si no sabe a quin acudir, no dude en ponerse en contacto con nosotros.

    Definicin de sus objetivos

    26 | Informatica: El gran cuaderno del Big Data

  • Objetivos de TI

    A continuacin, fijmonos en los objetivos de TI relacionados con su proyecto.

    (Recuerde que, si su proyecto pretende agilizar o mejorar el trabajo de TI, le va a costar vendrselo a los usuarios de negocio. Por eso, conviene comunicar los objetivos de TI junto con los objetivos que ya entusiasman a los usuarios de negocio).

    Detngase, colabore y escuche

    Hemos redactado este cuaderno para que le resulte ms fcil iniciar su proyecto de Big Data, tanto si trabaja para el negocio como si lo hace paraTI. Sea como fuere, nodeje los objetivos en el aire. Si precisa orientacin concreta sobre las posibles pretensiones, llame a un compaero con experiencia en el campo e inicie ya la colaboracin.

    Para que el proyecto tenga xito, es indispensable la colaboracin estratgica.

    Enumere, por orden de importancia, los objetivos de su proyecto de Big Data que guarden relacin con TI. (Indique tantos o tan pocos objetivos como desee). Ejemplo: Establecer procesos para recopilar, limpiar, controlar y almacenar en tiempo real datos agregados de clientes, datos de uso de tarjetas de crdito, datos de grficos sociales e indicadores de rotacin.

    Definicin de sus objetivos

    27 | Informatica: El gran cuaderno del Big Data

  • Objetivos de TI

    Anote los plazos mnimo y mximo en que se debe alcanzar cada objetivo. Ejemplo: De dos a cuatro meses.

    Ahora, por cada objetivo, escriba una medida de xito que sirva para determinar si se ha alcanzado. Lo idneo es que aporte mtricas o clculos. Ejemplo: Porcentaje exacto de prediccin de rotacin del X%

    Definicin de sus objetivos

    28 | Informatica: El gran cuaderno del Big Data

  • Definicin de sus necesidades de datosUna vez descritos los objetivos concretos de su iniciativa de Big Data, pasemos al meollo del proyecto: los datos en s. En cualquier proyecto, ha de mantener una mentalidad estratgica acerca de la informacin necesaria, los conjuntos de datos que cubren esa necesidad, la manera de obtenerlos y la forma de utilizarlos.

  • Antes de nada, fijmonos en la finalidad ms bsica de su proyecto de Big Data: la informacin que desea proporcionar a su organizacin. Responda a las preguntas siguientes con tanta minuciosidad como pueda.

    Datos necesarios

    Para alcanzar los objetivos de negocio antes descritos, segn los usuarios de negocio, qu deben saber para tomar decisiones fundadas? Ejemplo: Qu clientes ms valorados tienen probabilidades de descartar la empresa y qu comportamientos se relacionan con la rotacin.

    Qu datos sirven para aportar esos conocimientos? Ejemplo: Historial de compras del cliente, crticas, porcentaje de compras, porcentaje de abandono, porcentaje de rechazo y calidad del servicio de atencin al cliente.

    Definicin de sus necesidades de datos

    30 | Informatica: El gran cuaderno del Big Data

  • Datos necesarios

    Qu sistemas de origen contienen esos conjuntos de datos? Ejemplo: Registros del servicio de atencin al cliente, mtricas de rendimiento de productos, base de datos de actividad del cliente y gestin de datos maestros de clientes.

    Aparte de los datos ya sealados, existe alguna otra informacin que aporte contexto o ms valor a los anlisis? Ejemplo: Encuestas del servicio de atencin al cliente, anlisis de la competencia, datos meteorolgicos y datos de redes sociales.

    Definicin de sus necesidades de datos

    31 | Informatica: El gran cuaderno del Big Data

  • Datos necesarios

    Qu conjuntos de datos con el acceso vedado ahora mismo podran incluir datos contextuales adicionales? Ejemplo: Datos de redes sociales de terceros, datos de mercado de terceros y datos meteorolgicos.

    Cuando contemple los conjuntos de datos cuyo acceso tiene vedado, no se limite a los datos ajenos a su organizacin. Segn Gartner, la mayora de las empresas utiliza apenas el15% de los datos internos de la organizacin2. Segn Appfluent, empresa que realiza anlisis estadsticos sobre el uso de data warehouses, entre el30% y el70% de los datos de los data warehouse estn inactivos.

    El resto permanece en silos, archivos heredados y almacenes de datos de difcil acceso, caros de usar o complicados de encontrar, lo cual no supondra ningn problema salvo por el hecho de que ya est pagando por almacenar todos esos datos.

    Cuando busque los datos que necesita, merece la pena echar un vistazo primero a los datos que ya posee su organizacin.

    2 Sitio web de Gartner: www.gartner.com/technology/topics/ big-data.jsp

    Definicin de sus necesidades de datos

    A la caza de los datos inescrutables

    32 | Informatica: El gran cuaderno del Big Data

  • Cinco consideraciones clave en torno a los datosTras describir los datos que va a buscar, ya cuenta con una visin ms clara de los retos concretos que le plantea el Big Data. Hay cinco elementos en particular que debe tener en cuenta antes de seguir adelante, ya que dictan las necesidades tanto de cada conjunto de datos como del conjunto de datos del Big Data.

    Preprese para un gran volumen

    Preprese para afrontar la infinidad de datos que va a precisar. En todas las dimensiones, clasifique los datos por su valor (por ejemplo, transacciones de clientes), su uso (frecuencia de acceso), su tamao (gigabytes, terabytes), su complejidad (datos de mquinas, datos relacionales, vdeos) y las personas con acceso a ellos (solo los especialistas en datos o cualquier usuario de negocio).

    Un inventario concienzudo y organizado de los datos facilita la decisin de cmo gestionarlos. Evale la capacidad actual de almacenamiento y procesamiento y busque los mtodos ms rentables y eficientes para hacerla escalable.

    1

    Definicin de sus necesidades de datos

    33 | Informatica: El gran cuaderno del Big Data

  • Cinco consideraciones clave en torno a los datos

    Tenga en cuenta la diversidad El aspecto ms complicado del Big Data radica en la multitud de formatos y estructuras que debe conciliar en sus anlisis. Tiene que integrar varias fuentes si desea incluir estructuras y tipos de datos nuevos (sociales, de sensores o de vdeos) con las fuentes a las que estn acostumbrados (relacionales o mainframes heredados).

    La codificacin manual de cada integracin precisa resulta tan engorrosa que puede consumir todo el tiempo y todos los recursos de que dispone. Aproveche al mximo las herramientas disponibles de integracin y calidad de datos para agilizar el proceso y dedicarse a tareas ms tiles.

    Controle la velocidad

    Por lo general, al combinar la transmisin de datos en tiempo real con los datos histricos, aumenta el potencial predictivo de los anlisis. Por ello, algunos de los datos que le interesan solo tienen valor si fluyen de manera constante hacia sus sistemas.

    En efecto, casi todos los anlisis en tiempo real se tienen que basar en transmisiones de datos que, a menudo, proceden de fuentes diferentes y tienen distintos formatos. Integre en el proyecto alguna tecnologa de anlisis de transmisiones y una infraestructura lgica que le permitan gestionar todos los datos.

    2 3

    Definicin de sus necesidades de datos

    34 | Informatica: El gran cuaderno del Big Data

  • Cinco consideraciones clave en torno a los datos

    Compruebe la veracidad

    Da igual lo relevantes que sean sus anlisis: no valen nada si los usuarios no pueden tener una confianza razonable en los datos que incluyen. Cuantos ms datos analice, ms importante es que mantenga la mxima calidad de datos.

    Para que los datos sirvan a un fin determinado, tiene que conocer dicho fin. Si un especialista en datos busca patrones en datos agregados de clientes, la preparacin necesaria es mnima. Sin embargo, los datos de los informes financieros y de la cadena de suministro exigen un elevado grado de conservacin, limpieza y certificacin de precisin y cumplimiento. Cree categoras basadas en la preparacin indispensable que vayan desde datos sin procesar hasta almacenes conservados y controlados de datos limpios, fiables y fidedignos.

    Tenga en consideracin el cumplimiento

    Los distintos conjuntos de datos que va a manejar tienen diferentes requisitos y condiciones de seguridad. En cada conjunto de datos, se debe plantear qu hace falta para mantener el anonimato de los datos conforme a las polticas de seguridad. Montones de datos proliferarn en centenares de almacenes por toda la empresa. Entrese de dnde residen los datos sensibles, protjalos en la fuente mediante cifrado y, a continuacin, controle quines tienen acceso a ellos.

    Adems de archivar de forma segura e inteligente los datos sensibles, enmascrelos con reglas predefinidas cada vez que los migre o los introduzca en los entornos de desarrollo y prueba. Aplique estas cinco consideraciones a todos los conjuntos de datos que maneje y no tendr problemas para superar de forma ms realista los retos que plantea el Big Data.

    4 5

    Definicin de sus necesidades de datos

    35 | Informatica: El gran cuaderno del Big Data

  • ParteC. Su eficaz cadena de suministro de datosLos mtodos tradicionales de business intelligence y data warehouse no se escalan para cubrir las necesidades de las iniciativas de Big Data. Por eso, a continuacin, veremos la manera de escalar su equipo, sus procesos y su infraestructura.

  • Su equipo de Big Data representa tanto su mayor reto como su mayor oportunidad. Debe hallar el delicado equilibrio entre quienes comprenden los objetivos de negocio y quienes saben ejecutar los requisitos tcnicos.

    Su equipo

  • Cinco lecciones bsicas para formar equiposLa mayora de las organizaciones infravalora el grado de competencias que hace falta para aplicar una tecnologa nueva como Hadoop.

    Las estructuras de datos distribuidas son simplemente difciles de gestionar. Desde los conocimientos de Java requeridos para el desarrollo con Hadoop hasta las nuevas competencias especializadas en datos que tendr que contratar, va a tener que reunir un nmero considerable de competencias nuevas para que su proyecto eche a volar3.

    Cuando forme el equipo, no olvide incorporar las siguientes lecciones a la estrategia de contratacin.

    3 InfoWorld: "Hadoop, Python, and NoSQL lead the pack for big data jobs", 5 de mayo de2014 (www.infoworld.com/t/it-jobs/hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884)

    Su equipo

    38 | Informatica: El gran cuaderno del Big Data

  • Cinco lecciones bsicas para formar equipos Aproveche las competencias por las que contrat a su personal

    Uno de los mayores errores que cometen las empresas cuando contratan especialistas en datos y analistas cuantitativos consiste en obligarlos a hacer el trabajo sucio. Si sus recursos ms competentes invierten su tiempo en la codificacin manual de las integraciones de datos y en la limpieza de los datos, no solo consigue que se sientan frustrados sino que, adems, desaprovecha las competencias que le han resultado tan difciles de hallar.

    Concentre las competencias que escasean en las tareas que de verdad las necesitan. No le interesa que esas personas abandonen el barco, y mucho menos que pierdan el tiempo en trabajos que podra acometer con cualquier herramienta.

    Mantenga una mentalidad estratgica acerca de la composicin del equipo

    Si todo sale como es debido, crecern tanto el mbito como los recursos del proyecto. Piense ahora en la estrategia para ahorrarse la dura realidad de no poder escalar ciertos procesos con la suficiente rapidez porque solo hay un nmero limitado de personal con las competencias precisas, incluso en Silicon Valley.

    Si se ampla el mbito de aplicacin del proyecto, qu posibilidades reales hay de encontrar a tiempo las competencias que cubran esas necesidades? Por ejemplo, los especialistas en datos son

    infinitamente ms difciles de encontrar, formar y contratar que los desarrolladores4.

    El equilibrio del equipo es crucial. Ha de buscar la mezcla perfecta de la experiencia en gestin de datos adquirida con tesn y el entusiasmo por aprender herramientas nuevas. Adems, debe lograr el equilibrio entre el personal con conocimientos tcnicos y el personal con la experiencia en el campo precisa para crear los modelos adecuados.

    1 2

    4 Wall Street Journal: "Big Datas High-Priests of Algorithms", 8 de agosto de2014 (http://online.wsj.com/articles/academic-researchers-find-lucrative-work-as-big-data-scientists-1407543088)

    Su equipo

    39 | Informatica: El gran cuaderno del Big Data

  • Ajuste los objetivos del proyecto cuanto antes y, luego, comunquelos

    Uno de los errores ms comunes que cometen las empresas cuando contratan personal nuevo consiste en olvidar comunicar los autnticos objetivos del proyecto. Desde la primera entrevista y en todo momento hasta el desempeo del trabajo en s, debe dejar meridianamente claro qu pretende ofrecer a los usuarios de negocio. Aproveche el respaldo de los ejecutivos para explicar la misin y compartir tanto los casos prcticos como los problemas.

    Si no entienden a la perfeccin el valor de negocio del proyecto, corre el riesgo de que los empleados nuevos crean que solo deben tener en cuenta los objetivos de TI.

    Cuando el equipo se ampla, tambin es mayor la necesidad de gestionarlo

    A diferencia de la tecnologa nueva, que se puede implantar, implementar e integrar de forma objetiva, el personal nuevo se tiene que acostumbrar al puesto de trabajo, a sus cometidos y al motivo por el que se les encomiendan. Puede ser usted o cualquier otro, pero alguien tiene que afrontar el reto de gestin que plantea un equipo nuevo.

    No conviene infravalorar elementos como la cultura o la cohesin. Reflexione largo y tendido sobre el modo de integrar a los empleados nuevos en sus procesos. Quiz no pueda ensearles competencias pero, sin duda, puede ayudarlos a ser mejores miembros del equipo.

    Cinco lecciones bsicas para formar equipos

    3 4

    Su equipo

    40 | Informatica: El gran cuaderno del Big Data

  • Su equipo no puede permitirse quedarse parado

    Todos los das surgen tecnologas de Big Data y las que ya existen evolucionan con rapidez. Se trata de un momento fascinante para las empresas que tienen el coraje de adoptar las mejores prcticas enseguida. Ahora bien, tambin representa el reto definitivo de obtener ventaja frente a la competencia.

    Su personal tiene que desarrollar sus competencias tan rpido como cambia el mundo que lo rodea. La buena noticia es que nada motiva ms a los buenos empleados que el reto de ir por delante de los acontecimientos. El desafo radica en ofrecer la formacin y el debate que precisan para seguir aumentando tanto sus capacidades como las suyas.

    Cinco lecciones bsicas para formar equipos

    5

    Importancia de la estrategia

    Una decisin importante que deber tomar una y otra vez es la de crear las funcionalidades con herramientas automatizadas o mediante integraciones manuales.

    La codificacin manual ofrece un control completo y preciso sobre el objeto de la creacin. A menudo, tiene un valor incalculable y es necesaria si, por ejemplo, desea crear una secuencia compleja para extraer metadatos de una forma que an no es posible.

    Las herramientas, por su parte, ofrecen mayor agilidad y la capacidad de repetir de manera sostenible el mismo proceso. En tareas como la integracin y la calidad de datos, son cruciales porque, gracias a ellas, no obliga a los superdotados analistas y especialistas a encargarse del trabajo sucio.

    Sea realista con sus recursos. Si no puede formar un equipo tan nutrido ni tan brillante como el de Google, no malgaste sus escasos recursos en el intento.

    Su equipo

    41 | Informatica: El gran cuaderno del Big Data

  • Si (y, esperemos, cuando) emprende una iniciativa de Big Data ms bsica, debe implantar la estructura de procedimientos para la gobernanza de datos. De hecho, aunque el proyecto de Big Data tenga como objetivo ofrecer valor a un solo departamento, puede ser interesante crear una comisin reducida de gobernanza de datos para aprender a superar los retos nicos que tal organismo presenta.

    En esencia, la comisin de gobernanza de datos es el organismo formal de ejecutivos que tiene el cometido de supervisar el enfoque de los datos de la empresa, pero tambin debe incluir administradores de datos, esto es, personal funcional o de un departamento determinado que se encarga de gestionar los datos procedentes de una unidad de negocio concreta.

    (De hecho, algunos de nuestros clientes asignan funciones de administracin de datos segn el dominio de datos. Eso significa que una persona tiene a su cargo los datos de los productos, otra se ocupa de los datos de los clientes, y as sucesivamente.)

    Establecimiento de la gobernanza de datos

    Su equipo

    42 | Informatica: El gran cuaderno del Big Data

  • Se debe proponer crear procesos que garanticen que la estructura de gobernanza de datos resulte ms positiva que negativa. Trabaje de forma activa para que no se convierta en una carga burocrtica asegurndose de que todos los implicados se comprometen a alcanzar los mismos objetivos en los mismos plazos.

    La estructura de gobernanza de datos debe poseer las cinco caractersticas siguientes.

    Transversal

    Una comisin de gobernanza de datos cuyos miembros tengan funciones parecidas es del todo ineficaz. El objetivo consiste en crear un organismo donde estn representadas las visiones y las necesidades exclusivas de cada una de las unidades de negocio a las que est dirigido el proyecto de Big Data.

    Comunicativa

    Sin una comunicacin fluida entre las funciones, los departamentos y los dominios, es probable que el proyecto quede enterrado en burocracia y malentendidos. Esto sucede con demasiada frecuencia. Asegrese de que todas las inquietudes se calman o reciben una respuesta apropiada.

    Su equipo

    1 2

    Establecimiento de la gobernanza de datos

    43 | Informatica: El gran cuaderno del Big Data

  • Eficiente

    El proceso transversal no debe suponer un obstculo. Hace falta una gran agilidad para que el proyecto de Big Data llegue a buen puerto. Por eso, integre reglas de comunicacin de excepciones y de automatizacin siempre que sea factible y adopte herramientas de colaboracin que mantengan lneas de comunicacin oportunas abiertas.

    Comprometido

    Comunique los objetivos principales del proyecto con eficacia y compruebe que todos los implicados en la estructura de gobernanza de datos se dedican a conseguir esos objetivos. Tanto los planteamientos de gobernanza como la toma de decisiones se deben regir por los objetivos comunes.

    Centralizado

    El mayor reto de la estructura de gobernanza de datos se presenta a la hora de dar prioridad a los objetivos de una unidad de negocio frente a los de otra que tambin cuenta con representacin en la comisin. Las decisiones se deben sustentar en los beneficios a largo plazo para toda la comisin aunque ello suponga que los beneficios a corto plazo se aprecien solo en una unidad de negocio.

    Su equipo

    3 4 5

    Establecimiento de la gobernanza de datos

    44 | Informatica: El gran cuaderno del Big Data

  • Vuelva a coger lpiz y papel. Ahora que ya sabe las diversas oportunidades y los distintos inconvenientes subjetivos que presentar el nuevo equipo, imaginemos su composicin.

    En la pgina siguiente, se enumeran las funciones para Big Data basadas en los puestos que han cubierto nuestros clientes. Segn el personal de que dispone ahora mismo y del plazo previsto de ejecucin del proyecto (indicado al principio de la seccin en la pgina 24), apunte el nmero de personas que debe contratar.

    Competencias que necesita y competencias que posee

    Su equipo

    45 | Informatica: El gran cuaderno del Big Data

  • Funcin Tiene ya a alguien capaz de desempe-ar esta funcin?

    Es preciso contratar a alguien para esta funcin

    Por el tiempo dispo-nible, es preciso contratar a este nmero de personas

    Especialista en datos

    Experto en dominios

    Analista de negocio

    Analista de datos

    Ingeniero de datos

    Administrador de bases de datos

    Arquitecto empresarial

    Arquitecto de soluciones de negocio

    Arquitecto de datos

    Administrador de datos

    Desarrollador de ETL (integracin de datos)

    Desarrollador de aplicaciones

    Desarrollador de cuadros de mando

    Modelador estadstico

    Otro

    Otro

    Otro

    Otro

    Otro

    o o

    Necesidad de una mentalidad integradora

    Cuando salga en busca de nuevos miembros para el equipo, no se limite a personas con la cualificacin correcta. No se equivoque: encontrar a personas con la cualificacin correcta ya es un reto en s mismo pero, aparte, debe buscar gente que est dispuesta a asumir los objetivos de negocio y que cuente con competencias tcnicas.

    Nuestros clientes no paran de repetirnos la importancia que reviste que quienes se incorporan a los proyectos de Big Data comprendan la realidad del negocio y estn especializados en datos complejos. Este tipo de mentalidad integradora es importante y difcil de encontrar. Merece la pena fomentarla con formacin y los resultados tambin valen el esfuerzo.

    Su equipo

    46 | Informatica: El gran cuaderno del Big Data

  • 41523

    10356

    98276

    10392

    4562318456

    63002

    60303

    15234

    Tal como hemos observado ya varias veces, las herramientas que emplee desempean un papel estratgico en la ejecucin del proyecto de Big Data. En esta seccin, vamos a fijarnos en las herramientas de las que dispone y en las que necesita.

    Sus herramientas

  • Segn nuestra experiencia, las herramientas siguientes resultan esenciales en la arquitectura precisa para los proyectos de Big Data (la arquitectura se aborda en profundidad ms adelante). Por supuesto, sus objetivos y sus recursos condicionan la combinacin tecnolgica apropiada para su proyecto concreto.

    Repase esta lista de herramientas y marque con una equis ( ) las ms importantes (y pertinentes desde el punto de vista estratgico) para su proyecto.

    Incorporacin de datos

    Proceso consistente en el consumo apropiado, eficiente y metdico de los datos necesarios.

    Carga en batch Dispone de acceso a todos los tipos de datos que necesita y puede escalar con eficiencia la ejecucin de la carga en batch en sus almacenes de datos?

    Captura de cambios de datos Puede capturar los cambios efectuados en los datos de sus sistemas de origen sin que estos se vean afectados?

    Transmisin de datosPuede recopilar de manera fiable datos en tiempo real y transmitirlos a sus almacenes de datos?

    Archivado Puede archivar y comprimir los datos que no se utilizan con frecuencia y, al mismo tiempo, garantizar el fcil acceso a los datos archivados cuando sean necesarios?

    Examen de las herramientas del Big Data

    Sus herramientas

    48 | Informatica: El gran cuaderno del Big Data

  • Repase esta lista de herramientas y marque con una equis ( ) las ms importantes (y pertinentes desde el punto de vista estratgico) para su proyecto.

    Gestin de datos

    Polticas, procesos y prcticas imprescindibles para gestionar de manera adecuada la eficacia, la precisin, la fiabilidad y la disponibilidad de los datos.

    Integracin de datos Puede preparar y consolidar estructuras y fuentes diversas en un conjunto de datos cohesionado para el anlisis?

    Calidad de datos Puede limpiar con fiabilidad los datos as como eliminar los duplicados y los errores?

    Seguridad de datos Puede detectar y proteger los datos en todos los almacenes de datos asignando reglas relativas al uso, al acceso y a los permisos?

    Mquina virtual de datos Puede crear una capa de abstraccin para los datos que asocie con amplitud el procesamiento de datos desde el entorno de implantacin subyacente?

    Gestin de datos maestros Puede almacenar una nica versin consolidada, completa y fidedigna de la realidad de los diversos dominios de datos?

    Estructura de datos distribuidaPuede emplear una tecnologa como Hadoop para escalar de forma rentable las exigencias de almacenamiento y procesamiento?

    Data warehouse Dispone de alguna tecnologa de data warehouse que admita los requisitos de rendimiento, uso y escalabilidad que tienen los anlisis de Big Data y las integraciones con las infraestructuras de Hadoop?

    Examen de las herramientas del Big Data

    Sus herramientas

    49 | Informatica: El gran cuaderno del Big Data

  • Repase esta lista de herramientas y marque con una equis ( ) las ms importantes (y pertinentes desde el punto de vista estratgico) para su proyecto.

    Examen de las herramientas del Big Data

    Entrega de datos

    Proceso consistente en enviar los datos que posee a los sistemas y las aplicaciones que los necesitan.

    Carga en batch Puede escalar con eficiencia la carga en batch de los datos entre los sistemas back-end operativos, los anlisis y las fuentes?

    Transmisin en tiempo real Puede ofrecer transmisin de datos en tiempo real a las aplicaciones, los anlisis y los sistemas back-end que la requieren?

    Hub de integracin de datos Puede hacer que los datos estn disponibles mediante un enfoque como el del modelo de publicacin y suscripcin a fin de evitar la proliferacin de integraciones de punto a punto?

    Virtualizacin de datos Puede entregar datos de sus sistemas sin sobrecargarlos?

    Procesamiento basado en eventos Puede detectar y analizar amenazas, oportunidades y otros eventos crticos para el negocio y darles una respuesta en tiempo real?

    Sus herramientas

    50 | Informatica: El gran cuaderno del Big Data

  • Repase esta lista de herramientas y marque con una equis ( ) las ms importantes (y pertinentes desde el punto de vista estratgico) para su proyecto.

    Anlisis

    Herramientas y procesos que permiten convertir los datos sin procesar en conocimientos, patrones, predicciones y clculos sobre el dominio objeto de anlisis.

    Visualizacin Puede presentar sus datos y conclusiones de manera que resulten fciles de comprender y asimilar?

    Anlisis avanzados Puede aplicar algoritmos analticos de vanguardia a sus conjuntos de datos a fin de efectuar clculos complejos?

    Aprendizaje automatizadoPuede aplicar algoritmos avanzados de aprendizaje automatizado con el fin de identificar patrones y elaborar predicciones imposibles de manejar con su ancho de banda manual?

    De todas estas herramientas y tecnologas, algunas como la integracin de datos, la calidad de datos y la gestin de datos maestros son tan fundamentales para la transicin al Big Data que, en realidad, no merece la pena reestructurarlas. No desperdicie las valiosas competencias ni las horas de trabajo del proyecto de Big Data en la cantidad de tiempo y recursos que hace falta para crear esas funcionalidades con sus propias manos.

    Recuerde cules son los objetivos del proyecto y que estos no incluyen una creacin personalizada de absolutamente todo.

    Examen de las herramientas del Big Data

    Sus herramientas

    51 | Informatica: El gran cuaderno del Big Data

  • Sus procesos Pasemos a los procesos reales que precisa para enfrentarse al Big Data. Aunque sus procesos sean especficos segn sus objetivos y sus requisitos, en esta seccin, se ofrece informacin general sobre lo que cabe esperar y aprender.

  • A partir de la experiencia, estamos en condiciones de afirmar que las metodologas giles constituyen un enfoque excelente para los proyectos de Big Data. Garantizan que contenga las expectativas, aprenda de los errores e itere el camino hacia procesos ptimos. Dicho lo cual, el enfoque de su proyecto depende por completo de su situacin y de sus preferencias.

    En todo caso, los ocho pasos siguientes resultan cruciales para la cadena de suministro del Big Data. Sea cual sea el mtodo elegido, asegrese de establecer junto con su equipo procesos eficaces para seguir estos pasos.

    Acceso a los datos

    El primer reto consiste en adquirir todos los datos necesarios. En algunos casos, eso implica capturar transmisiones de datos y, en otros, extraerlos de una base de datos. Configure procesos repetibles y manejables para garantizar que dichos datos se puedan almacenar, a continuacin, conforme a los mtodos previstos.

    Integracin de los datos

    El reto ms complejo del Big Data guarda relacin con la diversidad de estructuras y formatos de datos. Para lograr una ejecucin sostenible de los anlisis, debe configurar un proceso para integrar y normalizar todos estos datos. Lo ideal es que requiera el mnimo procesamiento manual posible.

    Los ocho pasos del Big Data

    Sus procesos

    1 2

    53 | Informatica: El gran cuaderno del Big Data

  • Limpieza de los datos

    Para que los anlisis sean fiables, es imprescindible limpiar los datos a fin de eliminar duplicados, errores y datos imprecisos o incompletos. El proceso ha de garantizar que los analistas y los especialistas ms cualificados no pierden su tiempo en "hacer la colada".

    Control de los datos

    Una forma de mantener una fuente fiable de datos limpios e integrados consiste en establecer un proceso para controlar los datos. La finalidad es crear una nutrida recopilacin de datos consolidados, organizados por dominios (productos, clientes, etc.) y enriquecidos con informacin del Big Data que se pueda suministrar a todos los dems sistemas.

    Proteccin de los datos

    Ha de establecer dos procesos bsicos. El primero consiste en definir las normas y las prcticas de seguridad que exija cada conjunto de datos; el segundo, en detectar los datos sensibles y enmascararlos de forma persistente o dinmica para garantizar la aplicacin uniforme de esas normas y mejores prcticas.

    Los ocho pasos del Big Data

    3 4 5

    Sus procesos

    54 | Informatica: El gran cuaderno del Big Data

  • Anlisis de los datos

    El proceso de anlisis depende de los analistas, las herramientas analticas y los requisitos relacionados con los objetivos. Resulta esencial mantener una mentalidad que priorice la deteccin iterativa y la mejora continua ya que conviene que este proceso sea mejor, ms rpido, ms barato y ms escalable con el tiempo y la experiencia.

    Anlisis de las necesidades de negocio

    Se trata de un paso que, a pesar de ser fundamental, casi siempre se obvia. Establezca un proceso claro para el anlisis de las necesidades de negocio incluso mientras se analizan los datos. Es fundamental porque, si no mantiene el pulso al negocio, se arriesga a dividir los esfuerzos y a minimizar la repercusin en el negocio.

    Aprovechamiento operativo de la informacin

    Como ya hemos destacado antes en el cuaderno, es indispensable que se perciba el impacto en el negocio del proyecto de Big Data. Cree procesos automatizados para suministrar las respuestas halladas a los usuarios de negocio que ms las necesitan. Por ejemplo, es preciso poner los datos sobre los clientes con ms probabilidad de rotacin a disposicin de los agentes del servicio de atencin al cliente mediante un cuadro de mando. No olvide incorporar tambin un bucle de comentarios para saber cmo se recibe la informacin.

    Los ocho pasos del Big Data

    6 7 8

    Importancia de la documentacin

    Si domina estos ocho pasos, su proyecto de Big Data marchar en la direccin correcta. El objetivo consiste en establecer procesos claros, repetibles y escalables en permanente mejora. Con ese fin, la documentacin de dichos procesos y las consiguientes mejoras resultan vitales para el equipo.

    Las competencias, las capacidades y las lecciones del proyecto de Big Data han de ser trasladables y se tienen que comunicar con frecuencia.

    Sus procesos

    55 | Informatica: El gran cuaderno del Big Data

  • 264

    93

    62

    78

    157

    187

    654

    362

    92

    40

    468

    50

    61

    Su arquitectura Para que la cadena de suministro del Big Data sea eficaz y efectiva, es imprescindible garantizar que la arquitectura es slida y est concebida de forma estratgica. En esta seccin, veremos el aspecto de la arquitectura de Big Data idnea y la manera de implantar la suya por fases.

  • A la hora de crear la arquitectura de su proyecto de Big Data, el punto de partida ms lgico consiste en configurar un entorno de desarrollo de pruebas en el cual probar datos para asegurarse de que la arquitectura sea viable. Al hacerlo, tenga en cuenta las recomendaciones siguientes.

    Empiece con moderacin

    Si configura una zona de pruebas bien definida en la que ejerza un control absoluto, podr iterar el mtodo hasta conseguir una implementacin correcta. Pngase en marcha cuanto antes y documente las lecciones aprendidas con cada iteracin.

    El tamao importa

    La diferencia clave entre la zona de pruebas y la implementacin real radica en que el entorno de produccin ser mucho ms grande. Por ello, har falta un procesamiento automatizado para incorporar, integrar, limpiar y distribuir los resultados. Por lo tanto, hacen falta una estructura mucho ms slida as como procesos y componentes de eficacia probada para que el entorno de produccin activo sea del todo fiable y flexible.

    Primeros pasos: zona de pruebas

    Su arquitectura

    57 | Informatica: El gran cuaderno del Big Data

  • Enmascare los datos antes de probarlos

    Cuando las organizaciones emplean datos de prueba, suelen utilizar una variante de sus datos de produccin activos para garantizar que los formatos y las estructuras representen el entorno activo. Lamentablemente, si no se realiza un enmascaramiento adecuado, los datos sensibles pueden quedar expuestos en un entorno nada seguro.

    No se extrave en el camino

    Una de las causas ms comunes del aumento de costes y del retraso de los proyectos de Big Data es que los errores de codificacin manual no detectados en la zona de pruebas se convierten en la peor pesadilla del equipo cuando se activa la arquitectura. Por eso, si codifica a mano bastantes partes de la arquitectura, no se sorprenda si tiene que rehacer un montn de cdigo para satisfacer los requisitos de produccin y contener las expectativas. Tambin cuenta con la alternativa de emplear de primero herramientas de productividad y automatizacin que le eviten rehacer el cdigo y subsanar los errores.

    Primeros pasos: zona de pruebas

    Su arquitectura

    58 | Informatica: El gran cuaderno del Big Data

  • En el diagrama siguiente, se representa el modo en que recomendamos crear la arquitectura idnea de tecnologas y procesos de Big Data.

    Entrega de datos

    Carga en batch

    Hub de integracin de

    datos

    Virtualizacin de datos

    Procesamiento basado en

    eventos y en tiempo real

    Incorporacin de datos

    Carga en batch

    Captura de cambios de

    datos

    Transmisin de datos

    Archivado

    Bases de datos relacionales

    Mainframe Documentos y correos

    electrnicos Redes sociales, datos de

    terceros y archivos de registro

    Sensores de mquinas Cloud pblico Cloud privado

    Fuentes de datos

    Arquitectura idnea del Big Data

    Integracin de datos Calidad de datos Mquina virtual de datos Seguridad de datos Gestin de datos maestros Almacenamiento

    escalable (por ejemplo, Hadoop)

    Data warehouse

    Gestin de datos

    Visualizacin Aplicaciones mviles Anlisis Business intelligence Cuadros de mando en

    tiempo real

    Aplicaciones

    Su arquitectura

    59 | Informatica: El gran cuaderno del Big Data

  • Plan de su proyectoYa hemos analizado todos los aspectos de su transicin al Big Data. A continuacin, srvase de este plan como modelo para gestionar el proyecto de Big Data desde su concepcin hasta su implementacin.

  • Emplee este plan de proyecto como modelo para documentar los detalles y los diversos elementos de su proyecto de Big Data. Luego, srvase del documento compilado como medio para conseguir el respaldo preciso del resto de la organizacin. Tambin le resultar de utilidad para convencer a socios externos.

    Plan de su proyecto

    Plan de su proyecto

    Identificar los objetivos de negocio y de TI

    Definir las medidas del xito

    Identificar la informacin necesaria

    Identificar los datos y las fuentes para suministrarlos

    Fase 1: estrategia Fase 2: datos

    61 | Informatica: El gran cuaderno del Big Data

  • Personal O Evaluacin de las competencias necesarias

    O Evaluacin de las competencias ya disponibles

    Proceso O Acceso a los datos O Integracin de los datos O Limpieza de los datos O Controla de los datos O Proteccin de los datos O Anlisis de los datos O Anlisis de las necesidades de negocio

    Herramientas O Informtica distribuida (por ejemplo, Hadoop)

    O Calidad de datos O Integracin de datos O Gestin de datos maestros O Enmascaramiento de datos

    O Visualizacin O Anlisis de transmisiones O Anlisis O Aprendizaje automatizado

    Desarrollar cuadros de mando

    Automatizar procesos para la entrega de datos

    Configurar un proceso de comentarios

    Fase 3: cadena de suministro Fase 4: aprovechamiento operativo de la informacin

    Plan de su proyecto

    Plan de su proyecto

    62 | Informatica: El gran cuaderno del Big Data

  • Srvase de las listas de comprobacin, los principios y las directrices descritos en este cuaderno para trasladar el potencial del Big Data a su organizacin. Sea cual sea (de momento) la envergadura de su proyecto, no nos cabe duda de que cuenta con un mejor equipamiento para salvar los numerosos escollos que surgen en su camino.

    No olvide plantear los recursos de forma estratgica y desarrollar de manera muy ajustada procesos y competencias trasladables, escalables y constante mejora. Si mantiene la visin a largo plazo durante el proyecto, preparar a su organizacin para que realice anlisis ms acertados y tome decisiones ms documentadas durante muchsimo tiempo.

    En muchos sentidos, su primer proyecto de Big Data va a ser el que jams olvide. Desde los errores que, sin duda, va a cometer hasta el equipo que va a formar, est a punto de iniciar un viaje de inmenso valor estratgico para su empresa.

    Si examina y evita los numerosos inconvenientes que hemos tratado y mantiene un firme compromiso con su visin del proyecto, lograr cambiar la forma de trabajar de su organizacin.

    Esto es grande.

    En marcha

    63 | Informatica: El gran cuaderno del Big Data

  • Si es desarrollador de Informatica, puede ser desarrollador de Hadoop. Con nuestros servicios, nuestros conectores y nuestras pruebas de software de Big Data, tomar la senda correcta.

    Siguientes pasos

    Est listo para aplicar lo aprendido?

    64 | Informatica: El gran cuaderno del Big Data

  • Acerca de InformaticaAyudamos a las empresas a gestionar sus datos para que obtengan de ellos un valor de negocio cuantificable. Tambin estamos ayudando a algunas de las mayores empresas del mundo a examinar los errores ms comunes en la gestin de datos para que tengan xito en sus proyectos escalables y repetibles de Big Data.

    Hablemos.

    IN18-1014-2730

    Untitled