El horizonte de la investigación en el siglo xxi

29
El Horizonte de la Investigación en el Siglo XXI Dr. Hugo A Banda Gamboa 15 Junio 2011

description

Visión de la investigación en el Siglo XXI

Transcript of El horizonte de la investigación en el siglo xxi

Page 1: El horizonte de la investigación en el siglo xxi

El Horizonte de la Investigación en el Siglo XXI

Dr. Hugo A Banda Gamboa 15 Junio 2011

Page 2: El horizonte de la investigación en el siglo xxi

Contenido

La Sociedad del Conocimiento y el Tsunami de datos

El 4to. Paradigma

eScience y La Ciencia Computacional

Laboratory Information Management Systems

Herramientas computacionales

Proyectos de Microsoft Research

Conclusión

Referencias

2 Dr. Hugo Banda - Junio 2011

Page 3: El horizonte de la investigación en el siglo xxi

La Sociedad del Conocimiento

• El conocimiento está considerado como la principal fuerza motriz del crecimiento económico y del mejoramiento de la calidad de vida de las sociedades actuales.

• A medida que la generación e intercambio de conocimiento se van constituyendo en preocupaciones clave, no resulta sorprendente que la inversión en la creación de nuevas herramientas de análisis y visualización de datos, generación de información y gestión del conocimiento, sea considerada de suma importancia en los países de mayor avance científico-tecnológico.

3 Dr. Hugo Banda - Junio 2011

Page 4: El horizonte de la investigación en el siglo xxi

El Tsunami de Datos …

• Cuando el desarrollo de la teoría genera tantos datos, los científicos encuentran a menudo que nuevas ideas no pueden ser probadas por falta de tecnología o herramientas.

• Investigadores en Genómica, Astronomía y muchas otras áreas activas de la ciencia enfrentan un reto fundamental: la recopilación de datos es tan fácil y rápida que supera la capacidad para validar, analizar, visualizar, almacenar y administrar la información.

4 Dr. Hugo Banda - Junio 2011

Page 5: El horizonte de la investigación en el siglo xxi

El Tsunami de Datos

• Cada vez más, los adelantos científicos se alimentan por funciones informáticas avanzadas que ayudan a los investigadores a manipular y explorar grandes conjuntos de datos.

• La velocidad a la que cualquier disciplina científica avance dependerá de qué tan bien sus investigadores colaboren entre sí y puedan contar con el apoyo de tecnólogos, en áreas de eScience tales como bases de datos, administración de flujo de trabajo, visualización y tecnologías de cloud computing.

5 Dr. Hugo Banda - Junio 2011

Page 6: El horizonte de la investigación en el siglo xxi

Gordon Bell: Microsoft Research

• En las investigaciones científicas, estamos en una etapa de desarrollo que es similar a cuando se inventó la imprenta. La impresión tomó mil años en desarrollarse y evolucionar hacia las formas que se tienen hoy. Usando computadores para obtener comprensión de datos creados y guardados en nuestros almacenes de datos electrónicos probablemente tomará décadas — o menos.

6 Dr. Hugo Banda - Junio 2011

Page 7: El horizonte de la investigación en el siglo xxi

El 4to Paradigma

• A pesar que diversos métodos de simulación empíricos y analíticos han proporcionado respuestas a muchas preguntas, está surgiendo una nueva metodología científica impulsada por problemas intensivos en datos: el Cuarto Paradigma.

• El cuarto paradigma aborda este desafío y la oportunidad que se presenta.

7 Dr. Hugo Banda - Junio 2011

Page 8: El horizonte de la investigación en el siglo xxi

Los 4 Paradigmas Científicos 1. Hace miles de años: la ciencia fue empírica (descripción de

fenómenos naturales)

2. Los últimos cien años: ramificación teórica (uso de modelos y generalizaciones)

3. Las últimas décadas: ramificación computacional (simulación de fenómenos complejos)

4. Hoy: exploración de datos (eScience) unificación de la teoría, experimentación y simulación: Datos capturados por instrumentos o generados por simulador

Procesado por software

Información/conocimiento almacenado en el equipo

Científicos analizan la base de datos / archivos utilizando la administración de datos y la estadística

8 Dr. Hugo Banda - Junio 2011

Page 9: El horizonte de la investigación en el siglo xxi

eScience • Es la ciencia intensiva en cálculo, que se lleva a

cabo en entornos de red altamente distribuidos, o es la ciencia que utiliza enormes conjuntos de datos que requieren computación en grilla.

• El término a veces incluye tecnologías que permiten colaboración distribuida, a través de acceso en grilla.

• El término fue creado en 1999 por John Taylor, Director General de la Oficina de Ciencia y Tecnología del Reino Unido.

Dr. Hugo Banda - Junio 2011 9

Page 10: El horizonte de la investigación en el siglo xxi

Características de eScience

• Debido a la complejidad del software y de los requerimientos de infraestructura de almacenamiento de datos, los proyectos de eScience usualmente involucran a grandes equipos, gestionados y desarrollados en centros de investigación, grandes universidades y el gobierno.

• Actualmente existen varios programas enfocados en eScience en el Reino Unido, Europa y Estados Unidos, en donde el término cyberinfrastructure es típicamente usado para definir proyectos de eScience.

Dr. Hugo Banda - Junio 2011 10

Page 11: El horizonte de la investigación en el siglo xxi

La Exploración de Datos

• Actualmente los astrónomos realmente no miran el cosmos a través de telescopios.

• En su lugar, exploran el espacio a través de instrumentos complejos y de gran escala, que envían datos a centros de almacenamiento, y sólo entonces buscan la información y la visualizan en sus computadores.

11 Dr. Hugo Banda - Junio 2011

Page 12: El horizonte de la investigación en el siglo xxi

La Ciencia Computacional

• Las técnicas y tecnologías conocidas para la denominada ciencia basada en datos son tan diferentes de las que actualmente se demandan, que vale la pena hacer una clara distinción con lo que se ha dado en llamar la ciencia computacional, que constituye el cuarto paradigma para la exploración científica.

12 Dr. Hugo Banda - Junio 2011

Page 13: El horizonte de la investigación en el siglo xxi

X-Info

• La evolución de X-Info y Comp-X para cada disciplina X

• Cómo codificar y representar el conocimiento

13 Dr. Hugo Banda - Junio 2011

Page 14: El horizonte de la investigación en el siglo xxi

Los Problemas Genéricos

• Adquisición de datos

• Gestión de Petabytes (1015 bytes)

• Esquemas comunes

• Cómo organizar y reorganizar

• Cómo compartir con otros

• Herramientas para consulta y visualización

• Construcción y ejecución de modelos

• Integración de datos y literatura

• Documentación de experimentos

• Conservación y preservación a largo plazo

14 Dr. Hugo Banda - Junio 2011

Page 15: El horizonte de la investigación en el siglo xxi

Información con Semántica Codificada

• Las metas de muchos científicos es codificar su información de tal manera que la puedan intercambiar con otros científicos.

• ¿Por qué es necesaria la codificación? Porque para que la información almacenada en un

computador pueda ser comprensible, los programas deben ser capaces de comprender la información.

• Esto implica que la información sea representada en forma algorítmica. Para esto, es necesario desarrollar una representación (semántica) estandarizada de lo que significa un gen, una galaxia o una medición de alguna variable física.

15 Dr. Hugo Banda - Junio 2011

Page 16: El horizonte de la investigación en el siglo xxi

Laboratory Information Management Systems

• Este tipo de sistema de información proporciona una cadena de procesamiento desde los instrumentos o los simuladores que generan datos, hasta la bodega de datos.

• La cadena de procesamiento se encarga de adquirir los datos, calibrarlos, acondicionarlos, reconfigurarlos, codificarlos y descargarlos en el lugar de almacenamiento, en un formato tal que al estar publicado en el Internet, pueda ser accesible y comprensible para una amplia variedad de investigadores o usuarios.

16 Dr. Hugo Banda - Junio 2011

Page 17: El horizonte de la investigación en el siglo xxi

Formatos para Grandes y Complejas Bases de Datos

• La comunidad científica ha inventado un conjunto de formatos para enormes y complejas colecciones de datos: HDF6 (Hierarchical Data Format)

http://www.hdfgroup.org/ NetCDF7 (Network Common Data Form

http://www.unidata.ucar.edu/software/netcdf/

• Estos formatos son utilizados para intercambio de datos y portan el esquema adonde quiera que se los mueva.

• Sin embargo las diversas disciplinas científicas requieren mejores herramientas que HDF y NetCDF para lograr que los datos puedan autodefinirse.

Dr. Hugo Banda - Junio 2011 17

Page 18: El horizonte de la investigación en el siglo xxi

Acceso a Grandes y Complejas Bases de Datos

• Otro problema clave es que a medida que las colecciones de datos se hacen grandes, se dificulta su transferencia. Un Petabyte de datos ya no es posible mover con FTP.

• Para realizar el análisis de datos se manejan dos opciones: mover los datos hacia quien requiere analizarlos; o mover las consultas hacia donde están los datos.

• En este caso resulta evidente que es necesario desarrollar mejores herramientas para aplicar las consultas a donde están las colecciones de datos.

Dr. Hugo Banda - Junio 2011 18

Page 19: El horizonte de la investigación en el siglo xxi

Visualización y Análisis

• Las herramientas de visualización y análisis forman parte de un tercer problema clave.

• Algunas comunidades científicas actualmente utilizan MATLAB, EXCEL y LabView.

• At present, we have hardly any data visualization and analysis tools. Some research communities use MATLAB, for example, but the funding agencies in the U.S. and elsewhere need to do a lot more to foster the building of tools to make scientists more productive.

Dr. Hugo Banda - Junio 2011 19

Page 20: El horizonte de la investigación en el siglo xxi

Herramientas Computacionales (HW/SW)

• La complejidad de las tareas analíticas y de visualización, requieren de infraestructura computacional paralela y distribuida. Para estos fines, se han desarrollado algunos proyectos:

Cluster Beowulf - http://www.beowulf.org/

Proyecto Condor - http://www.cs.wisc.edu/condor/

Programa BOINC - http://boinc.berkeley.edu/

Dr. Hugo Banda - Junio 2011 20

Page 21: El horizonte de la investigación en el siglo xxi

Cluster Beowulf • Un Beowulf es una clase de computador masivamente

paralelo de altas prestaciones principalmente construido a base de un cluster de componentes hardware estándard.

• Un Beowulf ejecuta un sistema operativo de libre distribución como Linux o FreeBSD, y se interconecta mediante una red privada de gran velocidad.

• Generalmente se compone de un grupo de PCs o estaciones de trabajo dedicados a ejecutar tareas que precisan una alta capacidad de cálculo.

• Los nodos en el cluster de computadoras no se hallan en los puestos de trabajo de los usuarios, sino que están totalmente dedicados a las tareas asignadas al cluster.

• Generalmente, el cluster se conecta al mundo exterior por un solo nodo.

Dr. Hugo Banda - Junio 2011 21

Page 22: El horizonte de la investigación en el siglo xxi

Cluster Beowulf Construido por la NASA con 64 PC´s Ordinarios

Dr. Hugo Banda - Junio 2011 22

Page 23: El horizonte de la investigación en el siglo xxi

Proyecto Condor

• Condor es un sistema de gestión de carga de trabajos que requieren computación intensiva.

• Condor provee de un mecanismo de colas de trabajo, políticas de calendarización, esquemas de prioridad, monitoreo y gestión de recursos.

• Los usuarios simplemente envían sus trabajos seriales o paralelos y Condor los sitúa en la cola, decide cuándo y dónde ejecutarlos, de acuerdo con las políticas establecidas, monitoreo cuidadosamente su progreso y finalmente informa al usuario que ha concluido su procesamiento.

Dr. Hugo Banda - Junio 2011 23

Page 24: El horizonte de la investigación en el siglo xxi

Programa BOINC

• Programas de código abierto para computación voluntaria y computación en grilla (grid).

• Usa el tiempo de inactividad de los computadores (Windows, Mac, o Linux) para desarrollar proyectos complejos: Científicos: BOINC permite crear un proyecto de

computación voluntaria obteniendo la potencia de procesamiento de miles de CPUs.

Universitarios: BOINC ayuda a crear un Campus Virtual de Supercomputación

Empresariales: BOINC facilita la computación en grilla con ordenadores personales

Dr. Hugo Banda - Junio 2011 24

Page 25: El horizonte de la investigación en el siglo xxi

Proyectos de Microsoft Research …

• Microsoft Biology Foundation v2.0: Library & Tools

• MirageBlocks • High Quality Automatic Translations • World Wide Telescope • F# Programming Language • Web N-gram Services (Semantic Computing) • Digital Humanities & eHeritage Tolls for

Academics • Zentity 2.0 and Active Text

Dr. Hugo Banda - Junio 2011 25

Page 26: El horizonte de la investigación en el siglo xxi

Proyectos de Microsoft Research

• .NET Gadgeteer-A plataform for rapid prototyping

• eSience in the Cloud at fluxdata.org

• WikiBhaha-A multilingual content creation tool for Wikipedia

• Rich Interactive Narratives

• Window HPC y Windows Azure

• Scientific Computing using Windows Azure

• Kinect Development Kit

• RiSE4Fun-Research Tools for Serious Developers

Fuente: http://research.microsoft.com/en-us/research/default.aspx

Dr. Hugo Banda - Junio 2011 26

Page 27: El horizonte de la investigación en el siglo xxi

Conclusión

Con la ciencia avanzando a ser computacional y basada en grandes colecciones de datos, los desafíos tecnológicos clave incluyen la necesidad de mejor captura, análisis, modelación y visualización de la información científica. El objetivo es ayudar a los científicos, investigadores, políticos y el público en general en la toma de decisiones bien informadas.

Dan Fay - Microsoft Research

Dr. Hugo Banda - Junio 2011 27

Page 28: El horizonte de la investigación en el siglo xxi

Referencias • G. Bell, T. Hey, and A. Szalay, “Beyond the Data Deluge,”

Science, vol. 323, no. 5919, pp. 1297–1298, 2009.

• J. Wing, “Computational Thinking,” Comm. ACM, vol. 49, no. 3, Mar. 2006.

• NSF Regional Scale Nodes, http://rsn.apl.washington.edu.

• G. Bell, J. Gray, and A. Szalay, “Petascale Computational Systems,” IEEE Computer, pp. 110–112, vol. 39, 2006.

• T Hey, S Tansley, and K Tolle (Eds). “The Fourth Paradigm: Data-Intensive Scientific Discovery.” Microsoft Research, Redmond, Washington, USA, 2009.

Dr. Hugo Banda - Junio 2011 28

Page 29: El horizonte de la investigación en el siglo xxi

Quito, Marzo 2006 (C) Dr. Hugo A. Banda Gamboa 29/46

GRACIAS

Dr. Hugo A. Banda Gamboa

Presidente

CORDICYT [email protected]