Universidad Autónoma de Aguascalientes Luis Eduardo ... · Investigación en Cloud Computing •...
Transcript of Universidad Autónoma de Aguascalientes Luis Eduardo ... · Investigación en Cloud Computing •...
• Qué es Cloud Computing?
• Quién utiliza Cloud Computing?
• Plataformas utilizadas en Cloud Computing
• Investigación en Cloud Computing
• Uso de Hadoop en la Investigación
• Cloud Computing en la UAA (Hadoop)
• Demostración básica de uso de Hadoop
Cloud Computing es una tecnología de reciente creación, cuyo objetivo principal es el de procesar y almacenar grandes volúmenes de información a través de esquemas distribuidos.
Esta tecnología esta basada en el uso de Internet donde un conjunto de varias computadoras trabajan en conjunto para lograr el objetivo anterior (Grid).
En general al usar Cloud Computing, se puede utilizar infraestructura propietaria o se puede rentar a un proveedor (Infraestructure as a Service -IaaS)
Crawling, indexing, searching, mineria en la red Web
“Post-genomics” investigación ciencias de la vida
Datos científicos( física, astronomía etc.)
Redes de sensores
Aplicaciones Web 2.0
Wayback Machine tuvo 2 PB + 20 TB/month (2006)
Google proceso 20 PB a day (2008)
NOAA tuvo ~1 PB datos climáticos (2007)
CERN’s LHC generó aprox. 15 PB en el año (2008)
640K ought to be
enough for anybody.
Google App Engine (http://code.google.com/intl/es-419/appengine/)
Yahoo Labs (http://labs.yahoo.com/Cloud_Computing)
Amazon Web Services (http://aws.amazon.com/ec2/) Cloudera (http://www.cloudera.com ) Sun Cloud
(http://www.sun.com/solutions/cloudcomputing/) Windows Azure
(http://www.microsoft.com/windowsazure/) GoGrid (http://www.gogrid.com/) Blue Cloud (http://www.ibm.com/ibm/cloud/) 3tera-CA (http://www.3tera.com/) Etc.
Name: Google/IBM Cloud Computing University InitiativeMajor Contributors: University of Washington; Carnegie Mellon; MIT; Stanford University; University of California, Berkeley; University of MarylandPurpose: Gives academic researchers and students access to thesponsors' huge computing resources so they may experimentwith the design and management of cloud applications and services.
Name: Reservoir www.reservoir-fp7.euMajor Contributors: IBM, SAP, Sun Microsystems, Telefonica, University of Messina, University College of London, Umea University, Universidad Complutense de Madrid, University of Lugano, Thales Group, Elsag Datamat, CETICPurpose: An EU-funded project that promotes research intocreating a service-based online economy based on distributedcomputing in an open cloud.
Name: Eucalyptus, www.eucalyptus.comMajor Contributors: Building on an NSF-funded project at the University of California, Santa Barbara, Eucalyptus Systems launched in April with funding from Benchmark Capital and BV CapitalPurpose: Is commercializing an open-source platform for building private clouds using existing hardware and software, which can then be merged with a public cloud like Amazon Web Services. This hybrid approach allows companies to move data and applications in and out of the public cloud as the need arises
Name: Open Cirrus, www.opencirrus.orgMajor Contributors: HP, Intel, Yahoo, University of Illinois at Urbana-Champaign, Karlsruhe Institute of Technology (Germany), Infocomm Development Authority (Singapore)Purpose: A test bed for researchers studying how to design and manage data centers for the cloud.
Name: Apache Hadoop, hadoop.apache.orgMajor Contributors: Apache Software Foundation, Yahoo, Google, Microsoft, ClouderaPurpose: Has developed an open-source version of Google's MapReduce and File System infrastructure for processing large amounts of data in parallel, a necessity in cloud computing
Que es Hadoop?◦ Hadoop es un proyecto de Apache que desarrolla
software de código abierto para computo distribuido.
Hadoop esta constituido de los siguientes subproyectos:◦ Hadoop Distributed File System – Un sistema de archivos
distribuido para el almacenamiento de grandes volumenes de información (Basado en GFS).
◦ Hbase – Una base de datos distribuida escalable que soporta grandes volumenes de datos en tablas.
◦ Hive – Una infraestructura para “data warehousing”.◦ MapReduce – Un framework de desarrollo para para
procesar extensos volumenes de datos en cluster de computadoras.
NameNode
DataNode DataNode DataNode DataNode DataNode
Rack One Rack Two Data Blocks
Replication
Block Ops
Block = 64 Mb
Cluster de laboratorio de Redes y Sistemas Distribuidos UAA
En cuanto a infraestructura, este
grupo de trabajo consta de:
•Un laboratorio de 12 computadoras
quad core para la prueba de clúster.
•2 servidores SUN Sunfire los cuales
sirven como controladores de nodos
principales en clúster de pruebas.
•1 servidor HP Proliant que sirve como
Servidor de Aplicaciones Internas.
•Enlace a I2 a 2 Mbps así como una
red interna a 1 Gbps.
Se tiene implantado HDFS para pruebas de aplicaciones MapReduce.
Se realizan pruebas para investigación de pruebas de Alta Disponibilidad de Hadoop.
Como material didáctico a nivel pregrado y posgrado dentro de las materias de Computo Distribuido y Paralelo.
Proyectos de Investigación para el análisis de datos dentro del área Biológica.
Una nueva tecnología con muchas posibilidades en el ámbito académico y de investigación.
Llevar el cómputo de procesamiento al usuario.
Muchos participantes e iniciativas para estandarizar el uso de Cloud Computing.
Proyecto para crear una “Nube de Nubes” ideal pero no en el corto plazo.
Integración con otras tecnologías tal como Web Services, GRID Services, etc. Para obtener muchos mas beneficios.