Supercómputo en la UNISON: el ACARUSacarus.uson.mx/car2018/dia1/Supercomputo.pdf · • Facilita...

53
Supercómputo en la UNISON: el ACARUS Carmen Heras

Transcript of Supercómputo en la UNISON: el ACARUSacarus.uson.mx/car2018/dia1/Supercomputo.pdf · • Facilita...

Supercómputo en la

UNISON: el ACARUS

Carmen Heras

Agenda

1. Conceptos básicos y estadísticas

2. Tendencias: uso de aceleradores, IA y computación

cuántica

3. Soporte para la ciencia

4. Infraestructuras de CAR en México

5. Supercómputo en la UNISON: el ACARUS

• Servicios/Funciones

• Usuarios

• Actividades académicas

• Vinculación y colaboración

• Proyectos

• Infraestructura: instalaciones, hardware y software

Qué es el Supercómputo?

• El supercómputo es la tecnología

informática más avanzada de cálculo

numérico.

• Permite al investigador llevar a

cabo, con certeza y velocidad, miles de

billones de operaciones de punto

flotante por segundo para estudiar

problemas de gran magnitud.

FLOPS= FLoating point Operations Per Second

Nombre Flops

megaflops 106

gigaflops 109

teraflops 1012

petaflops 1015

exaflops 1018

zettaflops 1021

yottaflops 1024

• Facilita el estudio de fenómenos y condiciones que tan sólo

hace menos 30 años eran imposible.

• Sus aplicaciones abrieron en todo el mundo, nuevas líneas de

investigación científica en áreas como ingeniería, medicina,

geofísica, geografía, astronomía, química, ciencias de la

atmósfera, ciencias nucleares, entre otras.

Qué es el Supercómputo?

Cómo explicar estos fenómenos?

Organización

TOP500

Noviembre

2017

OrganizaciónTOP500

OrganizaciónTOP500

MPP: Massively Parallel Processing

OrganizaciónTOP500

OrganizaciónTOP500

OrganizaciónTOP500

Agenda

1. Conceptos básicos y estadísticas

2. Tendencias: uso de aceleradores, IA y computación

cuántica

3. Soporte para la ciencia

4. Infraestructuras de CAR en México

5. Supercómputo en la UNISON: el ACARUS

• Servicios/Funciones

• Usuarios

• Actividades académicas

• Vinculación y colaboración

• Proyectos

• Infraestructura: instalaciones, hardware y software

Tendencias: uso de aceleradores, IA y computación cuántica

Aceleradores: •Aumentan la capacidad de cálculo

•Mayor densidad en el hardware

•Menor consumo de energía

•Menor costo

•GPGPU de acelerador a procesador

Organización

TOP500

Noviembre

2017

Tendencias: uso de aceleradores, IA y computación cuántica

Inteligencia Artificial: •Desarrollo de Big Data

•Reconocimiento de patrones

•Seguridad nacional

•Robótica - autómatas

•Sistemas expertos

Tendencias: uso de aceleradores, IA y computación cuántica

Computación cuántica: •Paradigma de computación no clásica

•Qubits, no bits

•Nuevas puertas lógicas = Nuevos algortimos

Agenda

1. Conceptos básicos y estadísticas

2. Tendencias: uso de aceleradores, IA y computación

cuántica

3. Soporte para la ciencia

4. Infraestructuras de CAR en México

5. Supercómputo en la UNISON: el ACARUS

• Servicios/Funciones

• Usuarios

• Actividades académicas

• Vinculación y colaboración

• Proyectos

• Infraestructura: instalaciones, hardware y software

Soporte para la ciencia: Titan / ORNL

#1 11/2012

#3 11/2016

#5 11/2017

Titan / ORNL

CODE DESCRIPTION Example science problem

Programming model for acceleration Libraries Performance information

POINT OF CONTACT

LAMMPS is a molecular dynamics general statistical mechanics based code applicable to bioenergy problems . http://lammps.sandia.gov/

Course-grained molecular dynamics simulation of bulk heterojunction polymer blend films used, e.g., within organic photovoltaic devices.

OpenCL or CUDA

Speedup is 1X to 7.4X on 900 nodes, comparing XK7 to XE6. The performance variation is strongly dependent upon the number of atoms per node. This algorithm is mixed precision on GPU, double precision on CPU.

Mike Brown, ORNL

WL-LSMS. Wang-Landau (WL) - Linear Scaling Multiple Scattering (LSMS). A first principles density functional theory code (local density approximation) used to study magnetic materials

Simulation of the magnetic phase transition in nickel.

CUDA or CUDA and Libraries

GPU: CULA, LibSciACC, cuBLAS CPU: BLAS, LAPACK

XK7 vs XE6 speedup is 3.5X. Benchmark runs from 321 (321 WL walkers, 1024 atoms.)

Markus Eisenbach, ORNL

S3D. Direct numerical simulation of compressible, reacting flows for combustion science

Temporal jet simulation of dimethyl-ether combustion

OpenACC XK7 vs XE6 speedup is 2X. Ramanan Sankaran, ORNL

CAM-SE. Community Atmosphere Model - Spectral Elements. http://earthsystemcog.org/projects/dcmip-2012/cam-se

High-resolution atmospheric climate simulation using CAM5 physics and the MOZART chemistry package.

CUDA Fortran Matt Norman, ORNL

DENOVO is a three-dimensional, massively parallel, deterministic radiation transport code. It is capable of solving both shielding and criticality problems on high-performance computing platforms.

Reactor eigenvalue problem

CUDA

XK7 CPU-only vs. XK7 (CPU+GPU) for the Denovo Sweep part only, on nearly 18K nodes.

Tom Evans (ORNL), Wayne Joubert (ORNL)

Soporte para la ciencia: Titan / ORNL

High-Fidelity Simulations for Clean and Efficient Combustion of Alternative Fuels.

Jacqueline Chen, Sandia National Laboratories: 30,000,000 hours (1,250,000 días = 3,424.66

años)

Clean and Efficient Coal Gasifier Designs using Large-Scale Simulations. Madhava

Syamlal, National Energy Technology Laboratory: 13,000,000 hours

Landmark Direct Numerical Simulations of Separation and Transition for Aerospace-

Relevant Wall-Bounded Shear Flows. Hermann Fasel, University of Arizona: 500,000

hours

Petascale Simulation of Nan-Electronic Devices. Gerhard Klimeck, Purdue University:

5,000,000 hours.

Propulsor Analyses for a Greener, High Bypass Ratio, Aircraft Gas Turbine Engine.

Robert Maleki, Pratt & Whitney: 1,500,000 hours.

Soporte para la ciencia: Titan / ORNL

En el caso particular de la astrofísica

un grupo de investigadores del

ORNL dirigidos por Anthony

Mezzacappa desarrollan el primer

modelo tridimensional (3D) para

estudiar con detalle la explosión de

supernova producida por el colapso

del núcleo de una estrella masiva

poniendo énfasis en el caso

particular de la Supernova 1987.

Soporte para la ciencia: Titan / ORNL

Proyecto Chimera: código

hidrodinámico

(MVH3/VH1); Código de

transporte de neutrinos

(MGFLDTRANS);

Código cinético nuclear

(XNET)

Soporte para la ciencia: Titan / ORNL

El proyecto Chimera solicitó 60 millones de horas

de procesador, es decir, más de 6 mil 800 años de

tiempo de CPU. En otras palabras, una

computadora con un procesador de un núcleo

necesitaría casi 7 mil años para consumir este

tiempo de procesamiento.

1,000 núcleos: 7 años

10,000 núcleos: 9 meses

Cómputo Paralelo:

Soporte para la ciencia: Titan / ORNL

High Performance Computing at Los

Alamos National Laboratory - Cray

Nombre Flops

megaflops 106

gigaflops 109

teraflops 1012

petaflops 1015

exaflops 1018

zettaflops 1021

yottaflops 1024

#10 TOP500 11/2016

ExaScale

Agenda

1. Conceptos básicos y estadísticas

2. Tendencias: uso de aceleradores, IA y computación

cuántica

3. Soporte para la ciencia

4. Infraestructuras de CAR en México

5. Supercómputo en la UNISON: el ACARUS

• Servicios/Funciones

• Usuarios

• Actividades académicas

• Vinculación y colaboración

• Proyectos

• Infraestructura: instalaciones, hardware y software

Infraestructuras de CAR en México

#370 11/2015

Infraestructuras de CAR en México

#500 = 206:11/2015, 286:06/2016, 349:11/2016, 432:06/2017 y 548:11/2017

Posición Institución Equipo TFLOPS

1 CINVESTAV Abacus-SGI 429/277.5

2 BUAP-LNS Cuetlaxcoapan-Fujitsu 208

3 UAM-Iztapalapa - LSV Yoltla-DELL 152

4 UNAM-DGTIC Miztli - HP 118

5 IPICYT-CNS Thubat-Kaal - IBM 107

6 UNAM-DGTIC Bakliz-HP 80

7 UNISON-ACARUS Ocotillo - Dell 39.3/31

8 CICESE Knik2-Supermicro/Lufac 37

9 CINVESTAV Xiucoatl-Supermicro/Lufac 25

10 UAM-Iztapalapa - LSV Aitzaloa-Dell 18

Infraestructuras de CAR en México

Abacus – SGI

CINVESTAV

Cuetlaxcoapan– FUJITSU

LNS-BUAP

Infraestructuras de CAR en México

Thubat-Kaal – IBM

CNS-IPICYT Yoltla - DELL

UAM-I - Supercómputo

Ocotillo - DELL

ACARUS-UNISON

Infraestructuras de CAR en México

Agenda

1. Conceptos básicos y estadísticas

2. Tendencias: uso de aceleradores e IA

3. Soporte para la ciencia

4. Infraestructuras de CAR en México

5. Supercómputo en la UNISON: el ACARUS

• Servicios/Funciones

• Usuarios

• Actividades académicas

• Vinculación y colaboración

• Proyectos

• Infraestructura: instalaciones, hardware y software

El Area de Cómputo de Alto Rendimiento de la Universidad de

Sonora, se creó en el 2001 con la finalidad de apoyar las actividades

de los cuerpos académicos. La importancia de esta área ha radicado

sobre dos ejes:

1. Contar con equipamiento que permita realizar investigación de

frontera.

1. Contar con los programas de cómputo científico que son

considerado en el medio como estándares.

ACARUS

• Proporcionar una infraestructura de supercómputo a los

usuarios que los requieran

• Impulsar el desarrollo tecnológicos de alto rendimiento

– ProDeTAR

• Actualización de Infraestructura

• Licenciamiento de Software Científico

• Promover la utilización del ACARUS

• Administrar el hardware y software

• Brindar servicio de información y asesoría a los usuarios

Servicios/Funciones

Servicios/Funciones

• Realizar la planeación y organización de cursos de capacitación

– ProCCAR

• Programa de capacitación continua

• Diplomado en Supercómputo

• Proyectos de servicio social

• Ofrecer soporte técnico especializado

• Atender a visitas técnicas y académicas

• Diseñar y mantener la página del ACARUS

• Mantener lazos de colaboración interinstitucional

“Usuarios permanentes que

requieren resolver problemas

complejos con el apoyo de

equipo de Cómputo de Alto

rendimiento”.

Usuarios

Actividades académicas

Actividades académicas

Vinculación/Colaboración

Red Mexicana de Supercómputo

Proyecto: Ocotillo

Proyecto:

Actualización de la infraestructura de

cómputo de alto rendimiento de la

Universidad de Sonora

Programa:

Apoyo al Fortalecimiento y Desarrollo

de la Infraestructura Científica y

Tecnológica del CONACYT

Proyecto: Ocotillo

Reto: implementación de clúster de alto rendimiento para

producción científica

Proyecto: Ocotillo

• 1 Nodo maestro

• 8 Nodos de cálculo CPU de 64 cores

• 18 Nodos de cálculo CPU de 40 cores

• 2 Nodos de visualización científica

• 1 Nodo GP/GPU 8 tarjetas Tesla M2070Q 3584 cores

• 1 Sistema de almacenamiento 50tb

• Red infiniband QDR

• Red de administración ethernet gigabit

• 1 Sistema de monitoreo KVM

• UPS

• Rack

Solución integral:

Proyecto: Ocotillo

Nodos: maestro y de cálculo CPU:

4 X

• 8 AMD OPTERON 6282SE, 2.6 GHZ

= 128 CORES

• 256 GB RAM

• 8 TB 7.2K RPM

• SAS 6GBPS

• 64 cores x 8 servidores x 4 flops x 2.6 GHz = 5,324.8 GFlops

• 2 INTEL XEON E5680, 3.3 GHZ

= 12 CORES

• 24 GB RAM

• 1.5 TB 15K RPM

• SCSI 6GBPS

SWITCH INFINIBAND 40 GBPS

SWITCH ETHERNET 10 GBPS

Nodo Maestro

Nodos de procesamiento CPU

Proyecto: Ocotillo

Nodos de visualización científica:

• 2 INTEL XEON E5680, 3.3 GHZ

= 12 CORES

• 24 GB RAM

• 1.5 TB 15K RPM

• SCSI 6GBPS

SWITCH ETHERNET 10 GBPS

2 X

• 1 XEON E5620, 2.4 GHZ

= 4 CORES

• 128 GB RAM

• NVIDIA QUADRO 5000, 2.5 GB RAM

= 352 CORES

• 600 GB 10K RPM

• SCSI 6GBPS

• 718 GFLOPS / GPU

Nodo Maestro Nodo de Visualización

Proyecto: Ocotillo

Nodo GP/GPU:

• 8 NVIDIA TESLA M2070Q, 1.55 GHZ, 448 CORES

= 3584 CORES

• 6 GB RAM DEDICADA / GPU

• 8 GPGPUs x 1,024 GFLOPS = 8,192 GFLOPS

Nodos de procesamiento CPU Nodos de procesamiento GPU

Proyecto: Ocotillo

Almacenamiento paralelo:

2 X

• 2 XEON E5620, 2.4 GHZ

= 8 CORES

• 48 GB RAM

• 600 GB 15K RPM

• SCSI 6GBPS

2 X

• 24 TB 7.2K RPM

• SAS 6GBPS

• 24 TB 7.2K RPM

• SAS 6GBPS

Nodos de control

Arreglos de discos

Proyecto: Ocotillo

UPS, cableado y rack:

• 18 KVA

• BANCO DE BATERIAS 2X

• 42 U

• 16 PUERTOS

• CONSOLA

Proyecto: Ocotillo

Resultado de la implementación:

Proyecto: Ocotillo

Equipo de apoyo: laboratorio de supercomputo y

visualización de la UAM-I, GRACIAS!!!

Proyecto: Ocotillo

Equipo de administración ideal:

• 1 ADMINISTRADOR DE PROYECTO

• 1 ADMINISTRADOR TECNICO

• 2 ADMINISTRADOR DE SOLUCIONES

• SOPORTE TECNICO:

• 1 CALCULO CPU

• 1 CALCULO GPU

• 1 VISUALIZACION CIENTIFICA

• 1 LUSTRE

• 1 RED INFINIBAND/ETHERNET

Infraestructura disponible

Sala de capacitación

• Clúster Científico Ocotillo de 29 nodos

• Clúster Experimental de 16 nodos

• Equipo de Video-Conferencia

• Equipo de Proyección

• Unidades de Almacenamiento Externo

• Equipos Perifericos

Hardware

¡Gracias por su atención!

Carmen Heras

[email protected]