Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

download Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

of 7

Transcript of Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    1/15

     Boletín deServiciosde Asesoría en Riesgos

     No. 1 - 2015

     www.pwc.com/ve

     Lagos de Datos Empresariales:

    Como lograr una mayor integración y un mejor análisis de nuestros datos

     Inicio

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    2/15

    ContenidoHaga click en los enlaces para navegar a través del documento

    Boletín de Servicios de Asesoría en Riesgos - No. 1 - 2015

    4 Lagos de Datos: Un enfoque emergente

    4 ¿Por qué un lago de datos?

    4 Factores de motivación detrás de la adopciónde lagos de datos

    4 Flujo de datos en el Lago de Datos

    4 ¿Cómo madura un lago de datos?

    4 Madurez y Gobernabilidad

    4 Lecciones iniciales aprendidas y obstáculos aevitar

    4 Referencias

    4 Créditos / Suscribirse

    Páginasiguiente

    PáginaanteriorCerrar ImprimirContenido

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    3/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Los lagos de datos son un enfoque emergente

     y poderoso para abordar el desafío quepresenta la integración de datos, a medidaque las empresas aumentan su exposición alas aplicaciones móviles, a las aplicacionesbasadas en la nube, al Internet of things, y aotros aspectos de lo que PwC llama “La nuevaplataforma de TI”. 1

    Un ejemplo de implementación de lagosde datos es el de un hospital en los EstadosUnidos que mantiene millones de registros, demás de un millón de pacientes, que incluyenimágenes de radiología y otros reportessemiestructurados, notas no estructuradas delos médicos, así como amplios volúmenes dedatos en hojas de cálculo. Para abordar el retoque representó el almacenamiento, integración y accesibilidad de estos datos, el hospital creóun lago de datos basado en la arquitecturaHadoop2, la cual permite el procesamientodistribuido de big data haciendo uso de

    estándares de software abierto ampliamenteaceptados, así como procesamiento

    masivamente paralelo, utilizando hardware

    comercial genérico o estándar3. En la Figura 1 se

    Lagos de Datos:Un enfoque emergente

    presenta una visión gráfica de lo que es un lago

    de datos.

    ¿Qué es un lago de datos?

    Es un repositorio de grandes cantidades y variedades de datos, tanto estructurados como no estructurados

     

     Los lagos de datos usan técnicas de cluster computing para el almacenamiento

    masivamente escalable, de bajo costo de archivos de data de cualquier formato

    Los generalistas y 

    programadores de datos

    pueden acceder el flujode datos para realizar

    análisis en tiempo real

    El lago puede servir como un área

    de montaje para el data warehouse, 

    la locación para datos tratados máscuidadosamente para reporte y

    análisis por lote

     El lago de datos acepta entradas

    desde varias fuentes y puede

     preservar tanto la fidelidad comola procedencia de las transfor-

    maciones de datos. Los modelosde datos emergen con el uso a lo

    largo del tiempo, en lugar de ser

    impuestos desde el inicioCientíficos de datos utilizan ellago para el descubrimiento y la

    generación de ideas

    Figura 1: Visión gráfica de un lago de datos

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    4/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    En el caso citado, Hadoop permite que los

    diversos registros del hospital sean almacenadosen sus formatos nativos para su posterioranálisis, en lugar de forzar una integración“todo o nada” desde un inicio, como sería elcaso al hacer uso de un data warehouse. Elpreservar el formato nativo también ayuda amantener la procedencia y la fidelidad de losdatos, de forma que puedan ser realizadosdiferentes análisis utilizando diferentescontextos.

    El lago de datos ha hecho viable diferentes tiposde proyectos de análisis de datos, incluyendo laposibilidad de predecir la probabilidad de queocurran readmisiones de pacientes, permitiendoa su vez tomar acciones que permitanprevenirlas4.

    Tal como el hospital, diversas empresas endiversos sectores están comenzando a extraer ycolocar datos para su análisis en un repositorio

    único basado en Hadoop, sin necesidad detransformar los datos, como tendrían que

    hacerlo en caso de utilizar un data warehouse 

    relacional5. En la figura 2 se presenta un

    ejemplo de una arquitectura Hadoop básica para

    una infraestructura de lago de datos escalable.

    Figura 2: Ejemplo de arquitectura Hadoop. Fuente: Electronic Design, 2012, y Hortonworks, 2014

    Lagos de Datos:Un enfoque emergente (cont.)

     Arquitectura básica Hadoop para infraestructura escalable de lago de datos

    Sistema de Archivo Distribuido (HDFS)

     Archivo

    de entrada

    Tarea Mapa

    Tarea reducida

     Archivo

    de salida

    Entrada

    Región 1

    Región 2

    Región 3

    Split 1

    Split 2

    Split 3

    Split 4

    Split 5

    Job tracker

    Mapear( )

    Particionar( )

    Combinar( )

    Entrada

    Salida

    Ordenar( )

    Reducir( )

    Haddood almacena

    y preserva los datos

    en cualquier

    formato a lo largo

    de un cluster de

    servidores estándar

    El sistema separa

    los trabajos,

    distribuye procesos

    y los recombina a

    través de un cluster

    que puede escalar

    a miles de nodos

    de servidores

    Con YARN6, ahora

    Haadop soporta

    varios modelos de

    programación, así

    como salidas por

    lote casi en

    tiempo real

    http://prevpage/http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    5/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Lagos de Datos:Un enfoque emergente (cont.) ¿Por qué un lago de datos?

    El concepto básico que soporta Hadoop

    fue ideado por Google para cubrir susnecesidades de un modelo flexible y efectivo, en términos de costo, deprocesamiento de datos que pudiese escalara medida que los volúmenes de datoscrecían más rápido que nunca.

     Yahoo, Facebook, Netflix, y otros cuyosmodelos de negocio también están basadosen gestionar enormes volúmenes de datos,rápidamente adoptaron métodos similares.

    Un factor importante para su adopción fuelos ahorros en términos de costos, dadoque Hadoop puede ser entre 10 y 100 vecesmenos costoso que desplegar cualquiera delos data warehouses tradicionales.

    Sin embargo, otro factor que impulsó su

    adopción ha sido la oportunidad de aplazarlas actividades de depuración de datos y

    el desarrollo de esquemas de datos (que

    por lo general demandan un alto gradode esfuerzo) hasta que la organizaciónhaya identificado una clara necesidadde negocio. A su vez, los lagos de datosson más convenientes para los datosmenos estructurados que estas compañíasnecesitaban procesar.

    Hoy en día, las empresas en todos lossectores se encuentran en un punto similarde necesidad; por ejemplo, las empresasque deben utilizar enormes volúmenes y múltiples variedades de datos pararesponder a las presiones regulatorias ycompetitivas están adoptando lagos dedatos.

    Los lagos de datos pueden ayudar a resolver

    el problema persistente de la accesibilidad y la integración de datos. Usandoinfraestructuras de big data, las empresasestán empezando a agrupar crecientes volúmenes de datos para su análisis osimplemente para almacenarlos para suuso futuro indeterminado. (Ver en páginasiguiente el recuadro “Definiendo a losLagos de datos”).

    Enfoques previos para una ampliaintegración de datos han forzado a todoslos usuarios a un esquema predeterminadocomún, o modelo de datos. A diferenciade esta visión monolítica de un modelode datos único a lo largo de la empresa, ellago de datos flexibiliza la estandarización y aplaza el modelado, resultando enun potencial casi ilimitado para el

    descubrimiento de datos y la comprensiónoperacional.

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    6/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    ¿Por qué un lago de datos? (cont.)

    • Fidelidad: Los lagos de datos basados en Hadooppreservan los datos en su formato original ycapturan los cambios que se hagan a los datos y a lasemántica contextual a lo largo del ciclo de vida delos datos. Este enfoque es especialmente útil paratemas de cumplimiento y de auditoría interna. Silos datos han sufrido transformaciones, adiciones y actualizaciones, la mayoría de las organizacionesgeneralmente sufrirán para organizar los datoscuando la necesidad surja y tendrán poca esperanza

    de determinar claramente su origen.

    • Facilidad de acceso: La accesibilidad es simpleen los lagos de datos, lo cual es uno de los beneficiosde preservar los datos en su formato original. Ya seaque se trate de datos estructurados, no estructuradoso semi estructurados, éstos son cargados yalmacenados tal como son, para ser transformadosposteriormente. Datos operativos, de cliente y/ode proveedores son consolidados por los dueñosde los datos sin mayor esfuerzo, lo cual eliminabarreras internas tecnológicas, e incluso políticas,

    incrementando la capacidad de compartir los datos.

     Definiendo a Lagos de datos

    Muchas personas han escuchado nombrar los lagosde datos, pero al igual que el término big data, lasdiversas definiciones varían. Los cuatro criterios que semencionan a continuación son vitales para una buenadefinición:

    • Tamaño y bajo costo: Los lagos de datosson grandes. Pero no son solo grandes, sinoeconómicos; pueden ser un orden de magnitudmenos caros de configurar y mantener que un

    data warehouse, medidos terabyte a terabyte. ConHadoop, volúmenes de datos a escala de petabytesno son ni costosos ni complicados de construir y mantener. Algunos proveedores que aboganpor el uso de Hadoop afirman que el costo porterabyte para data warehouses puede llegar a serde 250.000 dólares americanos, versus entre 2500 y 1000 dólares americanos con un clúster Hadoop.Otros proveedores que abogan por el uso de datawarehouses e infraestructuras de almacenamientotradicionales, disputan estas afirmaciones y hacenuna distinción entre el costo de almacenar terabytes

    de datos y el costo de escribir, o de terabytes escritos*

    Pre-requisitos tradicionales, como el conocerlos requerimientos detallados del negocio odesarrollar un modelado de datos minuciosos noson pre-requeridos bajo este enfoque.

    • Enlace tardío: Hadoop se presta a laestructuración flexible y orientada a la tarea y norequiere de modelos de datos por adelantado

    * Para más información con relación a la accesibilidadde los datos, costo de lagos de datos y refinamiento

    de metadatos, incluyendo tecnología de seguimientode la procedencia de los datos, ver la entrevista a MikeLang, “Haciendo Hadoop viable para la ciencia de datosempresarial” en www.pwc.com/technologyforecast/mike-

    lang. Para más información con relación a la estimaciónde costos ver: Loraine Lawson, “¿Cuál es el costo de unTerabyte?” ITBusinessEdge, Mayo 17, 2013, en http:// www.itbusinessedge.com/blogs/integration/whats-the-

    cost-of-a-terabyte.html.

    http://prevpage/http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    7/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    ¿Por qué un lago de datos? (cont.)

     A medida que los volúmenes de datos,

     variedad de datos y riqueza de losmetadatos crece, de la misma forma creceel beneficio que se puede obtener.

     Actualmente, las compañías son capaces decrear colaborativamente modelos o vistasde los datos y luego gestionar mejorasincrementales a los metadatos. Estos datos, y sus metadatos, son colocados en HDFS, elcual almacena partes de archivos a lo largode un clúster distribuido de servidores en lanube, donde éstos son accesibles y puedenser refinados colaborativamente.

    Los análisis extraídos de los lagos se vuelven cada vez más valiosos a medidaque los metadatos que describen diferentes vistas de los datos se acumulan.

    Cada industria tiene un caso de usopotencial para los lagos de datos. Un

    lago de dato puede ser una vía para

    obtener mayor visibilidad o poner fin a losdenominados silos de datos (datos que semantienen aislados de otras áreas de laorganización). Numerosas compañías venlos lagos de datos como una oportunidadde capturar una vista de 360 grados de susclientes o de analizar tendencias de mediossociales.

    En la industria de servicios financieros,donde la regulación Dodd-Frank 7 esrelevante, una institución ha empezadoa centralizar múltiples data warehousesen una repositorio comparable a un lagode datos, pero que está estandarizadoutilizando XML.

    Esta institución está moviendoreconciliaciones, acuerdos y reportes

    Dodd-Frank a esta nueva plataforma. Paraeste caso, este enfoque reduce los gastos

    generales de integración debido a que los

    datos son comunicados y almacenados enun formato estándar, pero a la vez flexible,adecuado para datos menos estructurados.

    El sistema a su vez provee una vistaconsistente de los clientes a lo largo de lasfunciones operativas, funciones de negocio y productos. Algunas compañías hanconstruido entornos limitados o sandboxes de big data para su análisis por parte decientíficos de datos. Estos sandboxes son,de cierta forma, similares a lagos de datos,aunque más limitados en su alcance ypropósito.

    PwC, por ejemplo, construyó un sandbox  de medios sociales para ayudar a clientes amonitorear la salud de su marca mediantesu aplicación SocialMind8.

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    8/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Los data warehouses relacionales y sus

    rangos de precio más alto, han dominadopor largo tiempo las actividades de análisiscomplejo, reporte y operaciones de datos.(El hospital descrito anteriormente, porejemplo, primero implementó un datawarehouse).

    Sin embargo, sus modelos de datos pocoágiles y la rigidez de sus esquemas deintegración no son adecuados para soportaraltos volúmenes y variedad de big data. Lagran mayoría de estos sistemas tambiénhacen al usuario de negocio dependientede TI incluso para las más pequeñasmejoras que se puedan querer realizar,sobre todo por su diseño poco elástico, porla complejidad del sistema y por la bajatolerancia al error humano. El enfoque dellago de datos evita estos problemas.

     Libertad de los “grilletes” que representa

    tener un gran y único modelo de datos

    La primera actividad a realizar en unproyecto de lago de datos es el de compilartodos los datos en un único repositorio, ala vez que se le brinda la mínima atencióna crear esquemas que definan puntos deintegración entre sets de datos dispares. Esteenfoque facilita el acceso, sin embargo, eltrabajo requerido para convertir esos datosen información procesable es un desafíosubstancial. Aun cuando la integración delos datos se realiza en la capa de Hadoop, lacontextualización de los metadatos se realizaal momento de crear los esquemas de datos.

    El integrar los datos involucra menos pasosdado que los lagos de datos no promuevenun esquema de metadatos rígido, como si lo

    requieren los data warehouses relacionales.

    En su lugar, los lagos de datos soportan

    un concepto conocido como enlace tardíoo esquema al leer, en el cual los usuariosconstruyen esquemas personalizados ensus consultas. Los datos están atados a unesquema dinámico creado al momento de laejecución de la consulta.

    El principio de enlace tardío transforma elproceso de modelado de datos, pasando deequipos y administradores centralizados debases de datos y data warehouses, quienesgeneralmente se encuentran en una locacióndistinta a donde se encuentran las fuentesde los datos, a equipos locales de analistasde negocio y científicos de datos, quienespueden ayudar a crear contextos flexibles,específicos para cada dominio en particular.

    Factores de motivación detrás de laadopción de lagos de datos

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    9/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Para aquellos acostumbrados a SQL, este

    cambio abre todo un nuevo mundo deposibilidades. En este enfoque, mientrasmás se conozca sobre los metadatos, es mássencillo el realizar las consultas.

    Los datos pre-etiquetados ofrecen unpunto de partida y son muy útiles enimplementaciones con poca variedadde datos. En la mayoría de los casos,sin embargo, los datos pre-etiquetadosrepresentan una pequeña porción de losformatos de datos entrantes.

    Factores de motivación detrás de laadopción de lagos de datos (cont.)

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    10/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    El lago de datos carga los extractos de datos,

    independientemente de su formato, enun gran almacén de datos. Los metadatosson desasociados de sus datos subyacentes y almacenados independientemente,ofreciendo flexibilidad para múltiplesperspectivas de usuarios finales y undesarrollo incremental del nivel de madurezde la semántica.

    En la figura 3 se presenta una descripcióngráfica del flujo de datos en el lago de datos.

    Flujo de datos en el Lago de Datos

    Flujo de datos en el lago de datos

     XML

    .xls

    etc.

     

    Etiquetado y vinculación de metadatos

    Etiquetados, sinónimos, vinculación

    El lago de datos ofrece una oportunidad única

    para obtener perspectivas de big data flexibles,

    evolutivas y maduras

    Usuarios colaboran para identificar, organizar ydar sentido a los datos en el lago de datos

     Analistas de datos yde negociosseleccionan y reportandatos de dominiosespecíficos

    Científicos de datos yde negociosseleccionan y reportansobre datos dedominios específicos

    Máquinas ayudan adescubrir patrones y acrear vistas de datos

    Extractos

    de datos

    ascendentes

     Análisis de datos entre dominios

    Nuevas acciones (i.e. campañas a

    clientes) basadas en la

    información obtenida de los datos

    Metadatos crecen y maduran através del tiempo, gracias a lainteracción de los usuarios

    Un repositorio de big data almacena los datos originalescargando los datos existentes yaceptando nueva informaciónregularmente

    Nuevos datos ingresan al lago

     Figura 3: Descripción gráfica del flujo de datos en un lago de datos

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    11/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    ¿Cómo maduraun lago de datos? Madurez y Gobernabilidad

    La incorporación de nuevos datos en el lago

    de datos puede ocurrir gradualmente y notendrá un impacto en modelos existentes.

    El lago inicia con datos en bruto, y vamadurando a medida que más datosingresan, a medida que los usuarios ylas máquinas construyen metadatos, y laadopción de los usuarios incrementa.

    Los términos ambiguos y que pudiesensolaparse, eventualmente convergirán a unentendimiento común (eso es, semántica)dentro y a lo largo de los dominios delnegocio. La madurez de los datos resultadel crecimiento natural de la interacción y retroalimentación de los usuarios,en la capa de gestión de los metadatos(interacción que continuamente refina ellago y mejora la “discoveribilidad”).

    Con el lago de datos, los usuarios pueden

    tomar aquello que les sea relevante y dejarel resto. Dominios individuales del negociopueden madurar independientemente ygradualmente. La clasificación perfectade los datos no es requerida. Los usuariosa lo largo de la empresa pueden obtenerinformación de todas las disciplinas, sinestar limitados por silos organizacionales oesquemas rígidos.

    Muchas de las personas que escuchan el

    término lago de datos, podrían asociar elconcepto con un gran sandbox de datos,pero el rango de los potenciales casos deuso para lagos de datos es mucho másamplio. Las empresas visualizan depósitosal estilo lago de datos, como áreas demontaje, como alternativas a los almacenesde datos, o incluso como centros de datosoperacionales, asumiendo las tecnologías ycasos de uso apropiados.

    Un componente clave es Hadoop, así comomuchas de las tecnologías de análisis dedatos asociadas con él. Lo que comenzócomo un medio de análisis por lotesad hoc en Hadoop y MapReduce, estáevolucionando rápidamente con la ayudade YARN y Storm9 para ofrecer analíticasdistribuidas de propósito general, así como

    capacidades de procesamiento en tiemporeal.

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    12/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Madurez y Gobernabilidad (cont.)

     Al menos un proveedor ha estado ejecutando

    un clúster Hadoop de más de 2.000 nodospara soportar las aplicaciones de análisis decomportamiento de 8 clientes10.

     A pesar de estos avances, las empresas aúnsiguen preocupadas con el riesgo que existealrededor de la implementación de lagos dedatos, especialmente en esta etapa inicialde desarrollo. ¿Cómo pueden las empresasmitigar el riesgo y gestionar un lago basado

    en Hadoop para exploraciones de ampliorango?

    Los lagos pueden proveer beneficiosúnicos con respecto a los métodos degestión de datos tradicionales a un costosubstancialmente más bajo, pero requierende muchas consideraciones prácticas yun enfoque reflexivo con respecto a la

    gobernabilidad, particularmente en sectoresaltamente regulados.

    Las áreas a considerar incluyen:

    •Complejidad de datos heredados:Muchos sistemas heredados contienenun amasijo de parches de seguridad, workarounds y diseño deficiente. Comoresultado, los datos en bruto podríanproveer un valor limitado fuera de sucontexto heredado. El lago de datosfunciona óptimamente cuando esalimentado con datos inalterados desdesistemas fuente, y luego complementado

    con metadatos.• Gestión de metadatos: Los lagos de datos

    requieren de una avanzada gestión demetadatos, incluyendo caracterizacionesde archivos de datos, análisis asistidospor computadoras y seguimiento dela procedencia de los datos para cadatransformación. ¿La definición delesquema de datos al momento de la

    lectura debería ser la regla, y los esquemaspredefinidos la excepción? Depende de

    las fuentes. El primer caso es ideal para

    trabajar con estructuras de datos quecambian rápidamente, mientras que elúltimo es mejor para dar respuesta, enfracciones de segundos, a consultas sobredatos altamente estructurados.

    • Madurez del lago:  Los científicos de datos tomarán la

    delantera en el uso y maduración de loslagos de datos. Las organizaciones podránincorporar las necesidades de otros que se

    podrían beneficiar también de la iniciativadentro del contexto de los procesosorganizacionales, sistemas y controlesexistentes.

    • Áreas de montaje o zona “búfer”:  El lago puede servir como un lugar

    efectivo en términos de costos para colocardatos y realizar análisis previos quepudiesen ser prohibitivamente costosos

    de analizar en data warehouses u otrossistemas.

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    13/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Lecciones iniciales aprendidas yobstáculos a evitar

     Algunas iniciativas de lagos de datos no han

    sido exitosas, produciendo en su lugar mássilos o sandboxes vacíos. Dado este riesgo,las empresas están abordándolo con muchaprecaución. “Vemos a nuestros clientescrear cementerios de big data, colocandotodos sus datos en HDFS con la esperanzade lograr algo eventualmente. Pero luegosimplemente pierden la pista de lo que hancolocado ahí” dice Sean Martin, CTO deCambridge Semantics, un proveedor de

    herramientas de gestión de datos.

    Las Compañías pueden evitar la creaciónde cementerios de big data mediante eldesarrollo y ejecución de un sólido planestratégico que aplique la tecnología ymétodos adecuados al problema.

    Pocas soluciones tecnológicas en tiempos

    recientes han tenido tanto potencial de

    lograr cambios significativos como Hadoop

     y las bases de datos de tipo NoSQL (No sóloSQL, por sus siglas en inglés) especialmentecuando pueden habilitar un repositorioúnico, para toda la empresa, y proveeracceso a datos que anteriormente seencontraban atrapados en silos. El mayorreto no es crear un lago de datos per se, sinoel tomar ventaja de las oportunidades quepresenta. Un medio para crear, enriquecer y gestionar metadatos semánticos de forma

    incremental es esencial.

    Como se ha observado a lo largo de esteboletín, las empresas cada vez más sepodrán beneficiar de la capacidad deintegrar “cualquier dato, desde cualquierfuente, en cualquier formato, a cualquiermomento”. Un aspecto clave de esteproceso, generalmente delegado a las

    organizaciones de TI, es que sea realizado

    manteniendo la seguridad de los datos pero

    a su vez facilitando el acceso a personal clavecon una reducida dependencia de TI.

    PwC puede ayudar a las organizaciones adefinir estrategias de integración y hojasde rutas bien definidas, así como unaarquitectura de integración segura quepermita que el ecosistema de la Compañíapueda manejar tecnologías nuevas yemergentes junto con tecnologías ya

    establecidas, mientras integra de formasegura y transparente servicios soportadoslocalmente y servicios ubicados en la nube.

    PwC a su vez puede apoyar en la evaluacióndel modelo de seguridad requerido parasoportar esta arquitectura, así como en elmejoramiento del control interno apoyadopor procesos más eficientes, más accesibles y

    más seguros.

    http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    14/15

    Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos

    No. 1 - 2015Página

    siguientePáginaanteriorCerrar ImprimirContenido

    Referencias

    1 Para más información, ver: http://www.pwc.com/us/en/ 

    increasing-it-effectiveness/new-it-platform.jhtml

    2 Apache Hadoop es una colección de tecnología de

    estándar abierto que permiten a los usuarios almacenar

    y procesar datos de dimensiones petabyte a través de

    clústeres de computadores comerciales en la nube.

    Para más información, ver “Making sense of Big Data,”

    PwC Technology Forecast 2010, Issue 3 en http://www.

    pwc.com/us/en/technology-forecast/2010/issue3/ 

    index.jhtml.

    3 Para más información sobre procesamiento

    masivamente paralelo utilizando hardware estándar,

    ver: http://www.sandia.gov/~rbbrigh/papers/cplant-

     journal.pdf

    4 “UC Irvine Health does Hadoop,” Hortonworks, http:// 

    hortonworks.com/customer/uc-irvine-health/.

    5 “The end of data standardization,” Marzo 20, 2014,

    http://usblogs.pwc.com/emerging-technology/the-end-

    of-datastandardization/ 

    6 YARN es el centro arquitectónico de Hadoop que

    permite a motores de procesamiento de múltiples

    datos, como SQL interactivo, el poder manejar datos

    almacenados en una única plataforma, permitiendo

    todo un nuevo enfoque para la analítica, http:// 

    hortonworks.com/hadoop/yarn/ 

    7 Ley de Reforma de Wall Street y Protección al

    Consumidor Dodd-Frank. Para más detalle, ver: http:// 

    www.banking.senate.gov/public/_files/070110_Dodd_

    Frank_Wall_Street_Reform_comprehensive_summary_

    Final.pdf

    8 Para más información de SocialMind y de otras

    aplicaciones de análisis que PwC ofrece, ver http:// 

    www.pwc.com/us/en/analytics/analytics-applications.

     jhtml

    9 Storm es un sistema de computación en tiempo real

    distribuido que es utilizado para procesar grandes

    volúmenes de datos a gran velocidad. Más información

    en: http://hortonworks.com/hadoop/storm/ 

    10 Timothy Prickett Morgan, “Cluster Sizes Reveal Hadoop

    MaturityCurve,” Enterprise Tech: Systems Edition,

    8 de Noviembre, 2013. http://www.enterprisetech.

    com/2013/11/08/cluster-sizesreveal-hadoop-maturity-

    curve/ 

    http://nextpage/http://prevpage/http://print/http://close/

  • 8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales

    15/15

    Créditos

    Este boletín es de carácter informativo y no expresa opinión de la Firma. Si bien se han tomado todas las precauciones del caso en la preparación de este material, Espiñeira, Pacheco y Asociados no asume ninguna

    responsabilidad por errores u omisiones; tampoco asume ninguna responsabilidad por daños y perjuicios resultantes del uso de la información contenida en el presente documento. Las marcas mencionadas son propiedad de

    sus respectivos dueños. PwC niega cualquier derecho sobre estas marcas

    © 2015. Espiñeira, Pacheco y Asociados (PricewaterhouseCoopers). Todos los derechos reservados. PwC se refiere a la firma venezolana Espiñeira, Pacheco y Asociados (PricewaterhouseCoopers) y en ocasiones podríareferirse a la red de rmas miembro de PwC. Cada rma miembro es una entidad legal separada. Para más detalles visite www.pwc.com/ve • R.I.F.: J-00029977-3

     Editado por Espiñeira, Pacheco y AsociadosTeléfono master: (58-212) 700 6666

    Contactos de este boletín:

     José Miguel Chirinos [email protected]

    +58 (212) 700 62 46

    No. 1 - 2015

    Síganos en

     Para suscribirse al Boletín

    Consultoría

    Gustavo Pulgar [email protected]

    +58 (241) 824 23 21

      ve.linkedin.com /in/gpulgar

    Páginasiguiente

    PáginaanteriorCerrar ImprimirContenido

    @PwC_Venezuela pwcVenezuela pwc-Venezuela pwcvenezuela

    mailto:[email protected]://twitter.com/3d0rrhttps://twitter.com/3d0rrhttps://twitter.com/robersvhttp://instagram.com/pwcvenezuelahttp://twitter.com/pwc_venezuelahttp://www.facebook.com/pwcVenezuelahttp://linkedin.com/company/pwc-venezuelamailto:[email protected]://nextpage/http://prevpage/http://print/http://close/