Big Data y Minería de datos

of 144 /144
1 Prof. Luis Joyanes Aguilar BIG DATA & MINERÍA DE DATOS : La revolución de los datos TECNOLÓGICO DE MONTERREY Querétaro, 1 de noviembre, 2013

Embed Size (px)

description

Estado del arte en Big Data versus Minería de datos. Tecnologías y herramientas. Conferencia en TEC de Monterrey, campus Querétaro

Transcript of Big Data y Minería de datos

  • 1. BIG DATA & MINERA DE DATOS : La revolucin de los datosTECNOLGICO DE MONTERREY Quertaro, 1 de noviembre, 2013Prof. Luis Joyanes Aguilar1

2. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 2 3. ESTADO DEL ARTE DECLOUD COMPUTINGCOMPUTACIN EN LA NUBE La nueva era de la computacin Prof. Luis Joyanes Aguilar3 4. 4 5. 5 6. TEC DE MONTERREYBIG DATAEl universo digital de datosProf. Luis Joyanes Aguilar 6 7. LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos est cambiando la ciencia, medicina, negocios y tecnologa. A medida que aumenta nuestra coleccin de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.Because in the era of big data,more isnt just more. More is different Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 7 8. LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com) 1TB (250.000 canciones)20 TB (fotos uploaded a Facebook cada mes) 120 TB (todos los datos e imgenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climtico en EEU compilados por el National Climatic Data Center); 530 TB (Todos los vdeos de YouTube); 600 TB (base de datos de genealoga, incluye todos los censos de EEUU 1790-2000)1 PB (datos procesados por los servidores de Google cada 75 minutos) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 8 9. Tabla de unidades de almacenamiento(The Economist, febrero 2010): data, data everywhere www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 9 10. El Universo Digital EMC / IDC Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 10 11. El Universo Digital EMC / IDC Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 11 12. EL UNIVERSO DIGITAL DE DATOS, 2013 EMC Corporation PUBLIC en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. Ela pesar de la expansin sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y mquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. estudio arroj que, Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 12 13. EL UNIVERSO DIGITAL DE DATOS, 2013 La proliferacin a nivel mundial de dispositivos, como PC y telfonos inteligentes, aument el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por mquinas, como cmaras de vigilancia o contadores inteligentes, ha contribuido a laduplicacin del Universo Digital en los ltimos dos aos solamente, hasta alcanzar un tamao descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzar 40 ZB, cifra que supera las proyecciones anteriores por 14%. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 13 14. EL UNIVERSO DIGITAL DE DATOS, 2013 En trminos de volumen, 40 ZB de datos son equivalentes a lo siguiente: Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sera equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB sern 5.247 GB por persona a nivel mundial. Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 14 15. El universo digital de datos, IDC 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pina 15 16. El universo digital de datos, 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 16 17. LA ERA DEL EXABYTE/ZETTABYTE CISCO LA ERA DEL EXABYTE, CISCO . Estudio Cisco Visual Networking Index (VNI) 2007-2012. Trfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Trfico mundial de datos (publicado en 2013) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 17 18. Informe VNI CISCO 2012-2107 Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del ao, una tasa de trfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs).Mxico produjo en 2012 un trfico de 0,6ExaBytes/mes. Se estima que en 2017 producir unos 1,3 EB. Para ese momento el 56% de la poblacin contar con acceso a Internet de acuerdo con el INEGI de Mxico Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 18 19. Informe VNI CISCO 2012-2107 Los dispositivos que ms ayudan a generar los 44 EB por mes, segn CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales En 2017 se espera una tasa global de trfico mensual de 121 EB aprox. 1 ZB Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 19 20. TEC DE MONTERREY Campus QuertaroBIG DATA Y MINERA / ANALTICA DE DATOS. Nuevas bases de datos NoSQL, In-Memory Prof. Luis Joyanes Aguilar 20 21. Harvard Business Review, octubre 2012 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 21 22. Foreign Affairs, mayo 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 22 23. Revista BBVA, innovation edge, junio 2013 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 23 24. ORIGEN DEL TRMINO Grandes volmenes de datos Datos masivosMacrodatos (Fundacin Funde BBVA) La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestin la forma en que vivimos e interactuamos con el mundo (Mayer-Schmberg, Cukier, The Economist)Correlacin: ya no importa elel qu Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013porqu sino sloPgina 24 25. LA AVALANCHA / DILUVIO DE DATOS Segn Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de informacin. Hoy en da creamos la misma cifra cada dos das2. Las previsiones aseguran que en esta dcada crearemos alrededor de 40 zettabytes (informe de IDC de diciembre de 2012) Segn la consultora IDC, cifran en 1,8 Zettabytes la informacin generada en 2011. Si tratramos de almacenar esa informacin en iPads (del modelo de 32GB) necesitaramos 57.500 millones; puestos unos al lado de otro formaramos una lnea que dara 3 veces la vuelta al mundo y, si tratramos de apilarlos, la montaa resultante sera 25 veces ms alta que el monte Fuji. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 25 26. LA AVALANCHA / DILUVIO DE DATOS Twitter: (redes sociales) 90 millones de tuits (tweets) por da que representan 12 Terabytes (datos de 2011)Boeing: (industria) Vuelo transocenico de un jumbo puede generar 640 Terabytes.Wal-Mart: (comercio) 1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.Google procesa al da 20 PB de informacin Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 26 27. LA AVALANCHA / DILUVIO DE DATOS El 90% de los datos acumulados en todo el mundo se han creado en los dos ltimos aos. Cada da se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas estn comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de informacin. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 27 28. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 28 29. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 29 30. BIG DATA, bbva edge, junio 2013 Fuentes: SAS | Big Data: www.sas.com/big-data. IBM | Big Data at the Speed of Business McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011.Fuente: Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 30 31. LA AVALANCHA / DILUVIO DE DATOS Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada da se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos estn desestructurados. El nmero de dispositivos en red duplicar a la poblacin mundial en 2015 y los datos que generen se convertirn en informacin utilizada por las empresas para anticipar las necesidades de los consumidores. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 31 32. LA AVALANCHA / DILUVIO DE DATOS La respuesta para ordenar este caos es bigdata, la nueva herramienta parasistematizar los datos procedentes de cualquier soporte incluyendo imagen sonido, fotos, textos y convertirlos de forma automtica en informacin. Big data ayud a ganar las elecciones a Barak Obama y ha reducido de das a minutos la deteccin de uso de informacin privilegiada en Wall Street Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 32 33. LA AVALANCHA / DILUVIO DE DATOS En torno a ella se est creando un mercado evaluado por la firma de anlisis Gartner en 132.000 millones de dlares para 2015. Ese ao se crearn 4,4 millones de puestos de trabajo para abastecerlo. Los expertos comparan la herramienta con una revolucin industrial en el mundo de los datos y afirman que con ella cambiar nuestra forma de vida. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 33 34. APLICACIONES DE BIG DATA Los Gigantes de Internet como Google, Amazon o Facebook basan su xito en el valor de los big data sin ellos tendran serias dudas de supervivencia.Big data es el nuevo petrleo, oro o man de la dcada. IBM, SAP ,Oracle, Cisco los han sistematizado para adaptarlas a todo tipo de empresas. Google comenz a gestionar Big Data desde su nacimiento en 1998, para indexar sus bsquedas Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestin, ahorrar consumos o lanzar nuevos servicios. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 34 35. APLICACIONES DE BIG DATA Big data empieza a dar los primeros pasos en Europa.La britnica Tesco, cuarta cadena minorista mundial, lo acaba de implantar para controlar la energa en 120 tiendas irlandesas y quiere extenderlo a las 3.000 tiendas que tiene entre Irlanda y Reino Unido para lograr un ahorro de 20 millones de euros en consumos energticos. ING Direct ha lanzado en Holanda un servicio para vigilar la interaccin de los clientes con la web que genera llamadas telefnicas automticas para ayudar a quienes no logran terminar su operacin una forma de fidelizar clientes Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 35 36. APLICACIONES DE BIG DATA La central de reservas Amadeus (lneas areas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERA DE DATOS. Investigacin realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Mnich. El informe indica que las aerolneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos tursticos deben plantearse una estrategia big data para situarse a la vanguardia. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 36 37. APLICACIONES DE BIG DATA La industria area comercial podra ahorrar 30 millones de dlares en 15 aos con larecogida de datos realizada por los sensores que GE coloca en los motores de los aviones. Trece de las 25 mayores cadenas hoteleras de todo el mundo efectan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez ms en funcin de sofisticados sistemasde anlisis de datos de clientes (MINERA DE DATOS) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 37 38. APLICACIONES DE BIG DATA En Espaa, un sistema privado de seguridad, Sanitasha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes. En un ao hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de deteccin precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios [Portavoz de Sanitas al peridico El Pas] Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 38 39. APLICACIONES DE BIG DATA Las farmacuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigacin contra el cncer, el alzhimer y otras lacras de la sociedad. hacer predicciones de comportamientos futuros de pacientes son grandes ventajas de big data, que puede mejorarnos la vida hasta lmites insospechados. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 39 40. APLICACIONES DE BIG DATA Una lnea de negocio importante de big data estar en las empresas de servicios. Mezclarn la informacin procedente de distintas fuentes y harn campaas de marketing (mercadotecnia) personalizado asociado a la geolocalizacin con datos de su perfil de riesgo, sus gustos y sus hbitos Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 40 41. EXPANSIN, de Wall Street Journal, 1 de abril 2013 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas estn buscando la mejor forma de aprovechar el exceso de informacin. La informacin abunda y las empresas estn buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenmeno como big data. La definicin es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha ms informacin que antes, que proviene de muchas ms fuentes y la obtienen casi al momento en que se genera. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 41 42. EXPANSIN, de Wall Street Journal, 1 de abril 2013 El concepto de big data a menudo se relaciona con las empresas que ya operan en el mundo de la informacin, como Google, Facebook y Amazon. Pero compaas en mltiples industrias estn colocando los datos en el corazn de sus operaciones. Estn recolectando cantidades enormes de informacin, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e informacin de ubicacin que viene de los dispositivos mviles. Las empresas escudrian esta informacin para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes. Las firmas de logstica, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva caracterstica. Los gerentes de personal estudian cmo los candidatos a un empleo responden preguntas para ver si encajan bien con la compaa. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 42 43. EXPANSIN, de Wall Street Journal, 1 de abril 2013 An quedan numerosos obstculos en el camino. Algunos son tcnicos, pero en la mayora de las empresas las decisiones se siguen basando en la opinin de la persona con el salario ms alto y podra ser difcil convencer a un ejecutivo de que los datos superan su intuicin. Los recursos humanos, las operaciones, el desarrollo de productos o el mrketing son las diferentes formas a travs de las cuales las empresas usan el poder de la informacin para transformar sus negocios. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 43 44. EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) UPS UPS comenz a instalar sensores en sus vehculos de reparto para conocer su velocidad y ubicacin, si el cinturn de seguridad del conductor est abrochado... Al combinar su informacin de GPS y los datos de sensores sobre rendimiento en ms de 46.000 vehculos, UPS recort 136 millones de kilmetros de sus rutas. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 44 45. EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) InterContinentalLa cadena hotelera InterContinental ha recabado informacin sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolid la informacin en un solo almacn de datos que rene informacin de redes sociales y procesa bsquedas ms rpido Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 45 46. DEFINICIN DE BIG DATA: IBM What is big data?* Every day, we create 2.5 quintillion bytes of data so much that 90% of the data in the world today has been created in the last two years alone. This datacomes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is bigdata. * www-01.ibm.com/software/data/bigdata/ Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 46 47. DEFINICIN DE BIG DATA: Gartner Gartner* define Biga data como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de informacin que demandan formas innovadoras y efectivas de procesar la informacin www.gartner.com/id=2100215 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 47 48. DEFINICIN DE BIG DATA: IBM Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 48 49. Modelo 3V de Big Data VOLUMEN Terabytes Records Transactions Tables, files VELOCIDAD Batch (por lotes) Near time (casi a tiempo) Real time (tiempo real) Streams (flujos) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013VARIEDAD Estructurado No estructurado Semi-estructurado Todos los demsPgina 49 50. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 50 51. DEFINICIN DE BIG DATA: IBM VOLUMEN de datosprocesados por las empresas ha crecido significativamente.Google procesa 20 petabytes al da En 2020 se esperan 42.000 millones de pagos electrnicos. La Bolsa de Nueva York genera UN terabyte de datos al da Twitter genera 8 TB Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 51 52. DEFINICIN DE BIG DATA: IBM VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. Flujo de datos a alta velocidad.eBay se enfrenta al fraude a travsde PayPal analizando cinco millones de transacciones en tiempo real al da. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 52 53. DEFINICIN DE BIG DATA: IBM VARIEDAD: Big data es cualquier tipo dedato estructurado y no estrutcturado - tales como texto, datos de sensores, datos entre mquinas (M2M), archivos logs, audio, vdeo, flujos de clicks, XML, datos en streaming, cotizaciones burstiles, medios sociales,Una creciente variedad de datos necesitan ser procesados y convertidos a informacin Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 53 54. DEFINICIN DE BIG DATA: IBM Segn otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data: Veracidad de los datos Valor de los datos Viabilidad de la infraestructuras y las herramientas de almacenamiento Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 54 55. Fuentes de Big Data Herramientas para anlisis de datos en grandes volmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012): Web y Social media Machine-to-Machine (M2M, Internet delas cosas) Biometria Datos de transacciones de grandes datos (salud, telecomunicaciones) Datos generados por las personas (humanos) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 55 56. Store.com Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 56 57. Big Data. Joyanes, MxicoDF: Alfaomega (2013) 1. Web y Social Media: Incluye contenido web e informacin que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de peridicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon agregadores de contenidos como Dig, Meneame En esta categora los datos se capturan, almacenan o distribuyen teniendo presente las caractersticas siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr, Entradas (posting) de Facebook y contenidos web diversos. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 57 58. Big Data. Joyanes, MxicoDF: Alfaomega (2013) 2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologas que permiten conectarse aotros diferentes dispositivos entre s. M2M utiliza dispositivos como sensores o medidores que capturan algn evento en particular (humedad, velocidad, temperatura, presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a travs de cableadas, inalmbricas y mviles a otras aplicaciones que traducen estos eventos en informacin significativa. La comunicacin M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categora podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presin). sensores, dispositivos GPS y ocasionan la generacin de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, seales GPS, seales de GIS, etc. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 58 59. Big Data. Joyanes, MxicoDF: Alfaomega (2013) 3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturacin, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procedern de registros de llamada de centros de llamada, departamentos de facturacin, reclamaciones de las personas, presentacin de documentos Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 59 60. Big Data. Joyanes, MxicoDF: Alfaomega (2013) 4. Biometra: La biometra o reconocimiento biomtrico. La informacin biomtrica se refiere a la identificacin automtica de una persona basada en sus caractersticas anatmicas o trazos personales. Los datos anatmicos se crean a partir de las caractersticas fsicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, gentica, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen anlisis de pulsaciones y escritura a mano. Los avances tecnolgicos han incrementado considerablemente los datos biomtricos disponibles Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 60 61. Big Data. Joyanes, MxicoDF: Alfaomega (2013) . En el rea de seguridad e inteligencia, los datos biomtricos han sido informacin importante para las agencias de investigacin. En el rea de negocios y de comercio electrnico los datos biomtricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biomtricos. Los datos generados por la biometra se pueden agrupar en dos grandes categoras: Gentica y Reconocimiento facial. An Overview of Biometric Recpgnition. http://biometrics.cse.nsu.edu/info.html Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 61 62. Big Data. Joyanes, MxicoDF: Alfaomega (2013) 5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la informacin que guarda un centro de llamadas telefnicas (call center) al establecer una llamada telefnica, notas de voz, correos electrnicos, documentos electrnicos, estudios y registros mdicos electrnicos, recetas mdicas, documentos papel, faxes, etc. El problema que acompaa a los documentos generados por las personas es que pueden contener informacin sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unin Europea o Mercosur) relativas a proteccin de datos y privacidad. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 62 63. Estructura de Big Data: tipos de datos Estructurados No estructurados No estructurados (texto, datos de vdeo, datos de audio,,,) Semiestructurados ( a veces se conocen comomultiestructurados. Tienen un formato y flujo lgico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML, datos de web logs) Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data Objetivo principal de los sistemas de gestin de datos: Integracin de datos estructurados y no estructurados Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 63 64. ESTADO ACTUAL DE BIG DATA 1. Almacenamiento: hacen falta nuevas tecnologas de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de programacin 4. Obtencin de valor: los datos no se pueden comer crudos (en bruto) La informacin no es conocimiento accionable Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 64 65. 1. Almacenamiento Hacen falta nuevas tecnologas de almacenamiento RAM vs HHD Memorias hardware. HHD 100 ms barato que RAM pero 1000 veces ms lento Solucin actual:Solid- state drive (SSD) adems no voltil Tecnologas in-memory (SAP HANA) Investigacin: Storage Class Memory (SCM) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 65 66. 2. Base de datos Las BD relacionales no pueden con todo volumen de la informacinGBs PBs Exabytes . Cada da ms populares Limitadas para almacenamiento de big data (ACID, SQL, ) ACID: Atomicity, Consistency, Isolation & Durability Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 66 67. 3. Procesamiento HADOOP Se requieren nuevos modelos de programacin para manejarse con estos datos Solucin: Para conseguir procesar grandes conjuntos de datos:MapReduce de Google Pero fue el desarrollo deHadoop (Yahoo -Apache) por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 67 68. 4. Obtencin de valor Los datos no se pueden comer crudos (en bruto) la informacin no es conocimiento accionable Para ello tenemos tcnicas deData Mining Asociacin Clasificacin Clustering Prediccin ...La mayora de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 68 69. Bases de datos In-Memory (en-memoria) SAP Hana Oracle Times TenIn-Memory Database IBM solidDBRelacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft Transferencia de datos entre Hadoop y bases de datosrelacionalesLegacy (jerrquicas, en red primeras relacionales) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 69 70. BASES DE DATOS RELACIONALES (REPASO) La mayora de las bases de datos cumplen con las propiedades ACID (atomicity, consistency,isolation, durability).Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilizacin. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 70 71. BASES DE DATOS ANALTICAS Analticas: para permitir a mltiples usuarios contestar rpidamente preguntas de negocio que requieran de grandes volmenes de informacin.Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos en memoria Almacenamiento en columnas Histricamente estas bases de datos tan especializadas tenan un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organizacin. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 71 72. Bases de datos analticas Bases de datos diseadas especficamente para ser utilizadas como motores de Data Warehouse. Estas bases de datos logran procesar grandes volmenes de informacin a velocidades asombrosas, gracias a la aplicacin de diferentes conceptos y tecnologas: Almacenamiento en columnas en lugar de filas (registros) Massively parallel processing (MPP) In-Memory Analytics Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 72 73. Almacenamiento en columnas, no filas: FUENTE: datalytics.com Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 73 74. Computacin en memoria In-Memory La computacin en memoria es unatecnologa que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del anlisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que estn disponibles para su procesamiento o anlisis inmediatamente despus que se han creado). Existen un amplio conjunto de tecnologas que emplean bases de datos en memoria. SAP HANA es una de las ms acreditadas y populares (Oracle, IBM,) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 74 75. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 75 76. BASES DE DATOS NoSQL Las bases de datos no-relacionales son comnmente llamadas bases de datos NoSQL ya que la gran mayora de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas Es una definicin controvertida, aunque la definicin ms aceptada es Not only SQL. Una de las caractersticas de las bases de datos no relacionales es que la mayora de ellas no utilizan esquemas de datos rgidos como las bases de datos relacionales. Esto hace que estas bases de datos tambin se les llame Schema-less o Schema-free (almacenamiento des-estructurado). Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 76 77. Taxonoma de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su implementacin son los siguientes: Almacenes de Clave-Valor Almacenes de Familia de Columnas (columnares) Almacenes de documentos (orientadas a documentos) Almacenes de Grafos (orientadas a grafos) - Cachs de memoria Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 77 78. SOLUCIONES DE BASES DE DATOS NoSQL Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 78 79. MongoDB MongoDB es un sistema de base de datos NoSQL orientado a documentos, desarrollado bajo el concepto de cdigo abierto. MongoDB forma parte de los sistemas de base de datos NoSQL, almacena los datos no en tablas, sino en documentos tipo JSON con un esquema dinmico (formato BSON), haciendo que la integracin de los datos sea ms fcil y rpida. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 79 80. Neo4j Neo4j es una base de datos de grficos, de cdigo abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, tambin conocidas como Grfico de Propiedad (Property Graph). Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 80 81. Apache CouchDB Base de datos de cdigo abierto, NoSQL que emplea JSON para documentos, JavaScript como lenguaje de consulta para MapReduce y HTTP como API. Se distribuye bajo una licencia Apache 2.0 y es utilizada por mltiples organizaciones, como la BBC que usa CouchDB para su plataforma dinmica de contenidos, mientras que Credit Suisse's lo utiliza para almacenar los detalles de configuracin de su framework Python de mercado de datos49. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 81 82. HyPertable Sistema Gestor de Bases de Datos de cdigo abierto desarrollado en C++ por la compaa Zvents, basado en el modelo Big Table de Google. Es un sistema de almacenamiento de datos distribuido, escalable, no relacional, no soporta transacciones y de alto desempeo, ideal para aplicaciones que necesitan manejar datos que evolucionan rpidamente y diseado para soportar una gran demanda de datos en tiempo real. Entre sus clientes51 se encuentran empresas comoEbay, Tiscali o Reddiff.com Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 82 83. Hive Sistema data warehouse para Hadoop que facilita resmenes de datos, consultas ad-hoc, y el anlisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles con Hadoop.Hive proporciona un mecanismo para proyectar la estructura sobre estos datos y consultar los datos utilizando un lenguaje SQL, llamado HiveQL. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 83 84. Lenguaje R R es el lenguaje de programacin lder en el mundo para el anlisis estadstico y la realizacin de grficos. R, es un lenguaje para la minera de datos y un entorno de programacin. Se trata de un proyecto GNU, que es similar al lenguaje y al entorno de programacin S desarrollado en Bell Laboratories (antes AT&T, ahora Lucent Technologies). Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 84 85. Lenguaje R R ofrece una gran variedad de tcnicas estadsticas (modelos lineales y no lineales, tests estadsticos, anlisis de series temporales, clasificacin, clustering, ...) y tcnicas grficas, y es altamente extensible. R est disponible como software libre bajo licencia de GNU Free Software Foundation. Secompila y ejecuta en una variedad de plataformas UNIX y sistemas similares (incluyendo FreeBSD y Linux), Windows y MacOS. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 85 86. Redis Redis es un motor de base de datos en memoria, basado en el almacenamiento en tablas de hashes clave, valor) pero que opcionalmente puede ser usada como una base de datos durable o persistente. Est escrito en ANSI C patrocinado por VMware.1 2 y esta liberado bajo licencia BSD. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 86 87. Quin usa Apache Cassandra? Algunos usuarios importantes de Cassandra son: Digg Facebook Twitter Rackspace SimpleGEO Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 87 88. Integracin con Big Data. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013FUENTE: datalytics.comPgina 88 89. Integracin con Big Data. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013FUENTE: datalytics.comPgina 89 90. Tecnologas BIG DATAHADOOP Prof. Luis Joyanes Aguilar90 91. Logo de HADOOP Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 91 92. Logo de HADOOP Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 92 93. 93 94. TECNOLOGAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevn que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecer a un ritmo anual de ms del 60% hasta el ao 2016. La popularidad de Hadoop se ha ido incrementando durante los ltimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para despus analizarlos y ser capaces de tomar decisiones lo ms favorables posible para sus negocios. IDC tambin espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 94 95. Hadoop The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model De la pgina de Hadoop Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 95 96. Hadoop Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de mquinas de forma distribuida. Se inspir en los documentos sobre MapReduce y Google File System publicados por Google. Est desarrollado en Java y se ejecuta dentro de la JVM. Actualmente est soportado por Google, Yahoo e IBM entre otros. Tambin existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 96 97. Hadoop: caractersticas principales Econmico: Est diseado para ejecutarse en equipos de bajo coste formando clsteres. Estos clsteres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de informacin. Escalable: Si se necesita ms poder de procesamiento o capacidad de almacenamiento solo hay que aadir ms nodos al clster de forma sencilla. Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados. Confiable (fiable) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 97 98. TECNOLOGAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusteres construidos con hardware genrico. En esencia, Hadoop consiste de dos elementos base: unsistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce).. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 98 99. Hadoop El diseo de Hadoop se divide en dos partesprincipales:Por un lado est el sistema de ficheros distribuido Hadoop Distributed File System (HDFS) que se encarga de almacenar todos los datos repartindolos entre cada nodo de la red Hadoop. Por otro lado la implementacin de MapReduce que se encarga del procesamiento de la informacin de forma distribuida. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 99 100. Historia de HADOOP 2004-2006 Google publica los papers de GFS y MapReduce Doug Cutting implementa una version Open Source en Nutch 2006-2008 Hadoop se separa de Nutch Se alcanza la escala web en 2008 2008-Hasta ahora Hadoop se populariza y se comienza a explotar comercialmente. Fuente: Hadoop: a brief history. Doug Cutting Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 100 101. Historia de Hadoop: Doug Cutting Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 101 102. Fundacin Apache: proyectos open source The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 102 103. Componentes HADOOP (Apache) The project includes these modules: Hadoop Common: The common utilities that support the other Hadoop modules. Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data. Hadoop YARN: A framework for job scheduling and cluster resource management. Hadoop MapReduce: A YARN-based system for parallel processing of large data sets. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 103 104. Hadoop Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 104 105. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 105 106. Hadoop en la actualidad Hadoop se puede utilizar en teora para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son ms fciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicacin se encuentran: Anlisis de logs; Anlisis de mercado Machine learning y data mining Procesamiento de imgenes Procesamiento de mensajes XML Web crawling e Indexacin Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 106 107. Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido en el mbito empresarial, sobre todo en compaas que manejan grandes volmenes de datos.Yahoo:La aplicacin Yahoo! Search Webmap est implementado con Hadoop sobre un clster de mas de 10.000 nodos Linux y la informacin que produce es la utilizada por el buscador de Yahoo.Facebook: Tiene ha da de hoy el mayor clsterHadoop del mundo que almacena hasta 30 peta bytes de informacinAmazon A9:Se utiliza para generar ndices de bsqueda de los productos ofertados en el portal. Disponen de varios clsteres de entre 1 y 100 nodos cada uno. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 107 108. Hadoop en la actualidad The New York Times: Utiliza Hadoop y EC2(Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imgenes TIFF en imgenes PNG de 800 K para ser mostradas en la Web en 36 horas. Adems existen compaas cuyo negocio es principal esHadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuracin y despliegue de clsteres Hadoop. Adems proporciona servicios de consultora y formacin en estas tecnologa. Todo el software que distribuyen es Open Source. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 108 109. Distribuciones de Hadoop Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 109 110. Proveedores de Big Data Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalizacin: disponibilidad, rendimiento, replicas ). Una distribucin muy popularMapR, Greenplum, Hortonworks, Otros distribuidores: Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 110 111. ANALTICA DE BIG DATA Cloudera EMC Greenplum IBM Impetus Technologies Kognitio ParAccel SAP SAND Technology SAS Tableau Software Teradata Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 111 112. OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLGICAS Y DE COMUNICACIN DEMANDADAS POR LAS EMPRESASProf. Luis Joyanes Aguilar112 113. NECESIDAD DE FORMACIN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIGDATA El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se debern cubrir en los prximos cinco aos segn estadsticas fiables de IDC, Gartner, Forrester, McKinsey UNA DE LAS PROFESIONES MS DEMANDADAS SER DE ESPECIALISTAS EN CIENCIAS DE DATOS (Cientficos de datos) y adems ANALISTAS DE DATOS (formados en Analytics y tecnologas Big Data Hadoop, InMemory) Se necesitan certificaciones profesionales en CLOUDCOMPUTING Y BIG DATA TECNOLGICAS Y DE NEGOCIOS Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 113 114. NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniera, diplomadosCommunity Manager, Social Media Manager y Analista Web y SEO Ingeniero de Cloud Computing (En Espaa hay una universidad privada que lo lanza el prximo curso)Ingeniero de negocios digitales (Digital Business Intelligence) Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologas in-memory)Analtica de datos (Analytics) y Analtica deBig Data Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 114 115. NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager, SEO, Analistas Web cada da son ms demandadas y. Sin embargo la profesin del futuro ser:EL CIENTFICO DE DATOS (Data Scientist). Un profesional con formacin de Sistemas, Estadstica, Analtica, Ciencias Fsicas y Biolgicas que analizar los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.HBR (Harvard Business Review lo declar la profesin MS SEXY del siglo XXI) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 115 116. LAS TITULACIONES-PROFESIONES MS DEMANDADAS en TIC EN PRXIMOS AOS (HBR, Harvard Business Review) nmero de octubre de 2012 (Los datos el nuevo petrleo/oro del siglo XXI):Ciencia de los datos: Data Science (Maestra/Doctorado) En Estados Unidos, Mxico y Europa ya existen iniciativas. (EN MXICO, el ITAM)LA PROFESIN MS SEXY DEL SIGLO XXI : EL CIENTFICO DE DATOS (Data Scientist) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 116 117. MUCHAS GRACIAS Preguntas? Portal GISSIC El gora de Latinoamrica: gissic.wordpress.comTwitter:@luisjoyanes www.facebook.com/joyanesluis www.slideshare.net/joyanes PORTAL NTICS : luisjoyanes.wordpress.com CORREO-e:[email protected] Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 117 118. BIBLIOGRAFA Prof. Luis Joyanes Aguilar118 119. BIBLIOGRAFA BSICA JOYANES, Luis (2012). Computacin enla nube. Estrategias de cloud computing para las empresas. Mxico DF: Alfaomega; Barcelona: MarcomboBIG DATA. El anlisis de los grandes volmenes de datos. Mxico DF: Alfaomega; Barcelona:JOYANES, Luis (2013).Marcombo Coleccin de libros NTiCS (Negocios, Tecnologa, Innovacin, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de Mxico DF. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 119 120. BIBLIOGRAFA BSICA JOYANES, Luis. Computacin en "Nube" (Cloud Computing) y Centros de Datos la nueva revolucin industrial cmo cambiar el trabajo en organizaciones y empresas?. Sociedad y Utopa. UPSA: Madrid. , ISSN 1133-6706, N 36, 2010, pgs. 111-127. JOYANES, Luis (2009a) La Computacin en Nube(Cloud Computing) :El nuevo paradigma tecnolgico para empresas y organizaciones en la Sociedad del Conocimiento , ICADE, n 76, eneromarzo 2009, Madrid: Universidad Pontificia Comillas. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 120 121. LTIMOS LIBROS DEL prof. LUISJOYANESCiberseguridad. Retos y desafos parala defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Espaol de Estudios Estratgicos). 2011. Editor y Coordinador. www.ieee.org Cuadernos de estrategia, n 149 Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 121 122. Blogs tecnolgicos TechCrunch (www.techcrunch.com) Gizmodo (www.gizmodo.com, www.gizmodo.es) Boing Boing (www.boingboing.com) Engadget (www.engadget.com) The Official Google Blog (googleblog.blospot.com) OReilly (www.oreillynet.com) Slahdot (www.slahdot.com) Microsiervos (www.microsiervos.com) Xataca (www.xataca.com) All Things Digital (allthingsd.com) Mashable (www.mashable.com) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 122 123. LECTURAS RECOMENDADAS NIST Cloud Security Alliance ISACA BBVA, BANKINTER, Accenture ENISA Cio.com, Computing.es, Computerworld ONTSI. Cloud computing. Retos y oportunidades.www.ontsi.red.es/ontsi/sites/default/files/1_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 123 124. BIBLIOGRAFA Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innova tion-edge/21-big-data SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press. DAVENPORT, Thomas H. y DYCH, Jill. Big Data in BigCompanies. SAS. International Institute for Analytics. Datalytics. 18D Pentaho Big Data Architecture,www.datalytics.com (Pentaho) Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . Inmemory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 124 125. BIBLIOGRAFA ZIKOPOULOS, Paul C. et al (2012). Understanding BigData. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 125 126. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 126 127. REFERENCIAS McKinsey Global Institute . Big data: Thenext frontier for innovation, competition, and productivity. June 2011James G. Kobielus. The Forrester Wave: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipia Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniera,Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Luis Joyanes Aguilar Congreso QBit Quertaro, 1 de noviembre de 2013Pgina 127 128. REFERENCIAS Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.orgIBM. http://www-01.ibm.com/software/data/bigdata/ Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 128 129. LECTURAS RECOMENDADAS (historia del cloud) KING, Rachael (2008): How Cloud Computing is Changing the World? en BusinessWeek, New York, 4 august, 2008 LEINWAND, Allan (2008): Its 2018: Who Owns the Cloud? en BusinessWeek, New York, 4 august, 2008 THE ECONOMIST (2008): Let it rise. A Special report on IT Corporate en The Economist, London, October 25th 2008. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 129 130. ANEXOS Informe McKinsey de Big Data OPEN DATA Prof. Luis Joyanes Aguilar130 131. Big Data McKinsey. Junio 2011 Big data: The next frontier forinnovation, competition, and productivity.http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 131 132. Big Data McKinsey. Junio 2011 Big data: The next frontier for innovation,competition, and productivity.The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 132 133. Big Data McKinsey. Junio 2011 Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big datalarge pools of data that can be captured, communicated, aggregated, stored, and analyzedis now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldnt take place without data. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 133 134. Big Data McKinsey. Junio 2011 The question is what this phenomenon means. Is the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 134 135. What do we mean by "big data"? : McKinsey 2011 Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big datai.e., we dont define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes). Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 135 136. OPEN DATA (Datos abiertos) Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 136 137. OPEN DATA (Datos abiertos) Las administraciones pblicas [de cualquier organismo nacional e internacional] generan gran cantidad de informacin en formatos propios de difcil acceso para la mayora de los ciudadanos. Bases de datos, listas, estudios, informes, estadsticas, etc. son datos abiertos (open data) en formatos propios que son de difcil acceso para la mayora de los ciudadanos. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 137 138. OPEN DATA (Datos abiertos) Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes pblicas o privadas Qu necesitan los profesionales o las empresas para sacar rentabilidad a esos datos pblicos? Evidentemente la colaboracin de las entidades pblicas para liberar cada da ms informacin y crear ms oportunidades de negocio Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 138 139. Qu son datos abiertos? Los Datos Abiertos constituyen una iniciativa de transparencia y Gobierno Abierto que consiste en la liberacin de conjuntos de datos que son de inters pblico. Los Datos Abiertosson puestos a disposicin de la sociedad, se promueve su libre acceso y reutilizacin, exceptuando aquellos datos que por razones de seguridad y privacidad previstas en la normativas vigentes no puedan ser publicados; La mayor parte de los datos generados o mantenidos por el estado son pblicos. Sin embargo, no slo el estado puede abrir sus datos: empresas, organizaciones y comunidades de informacin que producen o mantienen datos pueden ponerlos a disposicin, siempre en formatos abiertos y bajo licencias libres. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 139 140. OPEN DATA (Datos abiertos) La administracin de Estados Unidos inici la iniciativa Open Data y en paralelo la Unin Europea ha ido adoptando tambin la iniciativa. En Espaa los primeros gobiernos han sido los Gobiernos Autonmicos de El Principado de Asturias y el Pas Vasco. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 140 141. OPEN DATA (Datos abiertos) La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la informacin reutilizable (contenidos abiertos) estn al alcance de cualquier ciudadano. Un estudio de la UE(2010) estima que el mercado de informacin pblica podra generar riqueza por valor de 27.000 millones de euros. Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 141 142. OPEN DATA EN LATAM MXICO Portal de Datos Abiertos del DISTRITO FEDERALhttp://df.gob.mx Ayuntamiento de Puebla (octubre 2013) Iniciativa de Open Data (peridico MILENIOARGENTINA. Portal de datos abiertos de Buenos Aires Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 142 143. OPEN DATA EN LATAM Colombia Portal de Datos Abiertos del gobiernohttp://datosabiertoscolombia.cloudapp.ne t/frm/buscador/frmBuscador.aspxPer Portal de Datos Abiertos de la Municipalidad deLima Portal de Datos Abiertos: http://www.datosperu.org/ Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 143 144. INICIATIVAS PIONERAS INTERNACIONALES EN OPEN DATA En Espaa adems de los gobiernos autonmicos de Asturias, Pas Vasco y Catalua, la fundacin CTIC ligada al consorcio W3C (www.fundacionctic.org). http://datos.gob.es/datos/?q=node/232En Estados Unidos data.gov, en Gran Bretaa data.gov.uk En Google (abril 2011, del nmero 1) la revista de negocios. //thinkquarterly.co.uk. El nmero 1 dedicado a OPEN DATA.En la Unin Europea (Iniciativa OPEN DATA): http://open-data.europa.eu/es Luis Joyanes AguilarCongreso QBit Quertaro, 1 de noviembre de 2013Pgina 144