Cluster HPC Linux

download Cluster HPC Linux

of 89

Transcript of Cluster HPC Linux

Universidad Autnoma MetropolitanaUnidad Iztapalapa

TALLER DE CLUSTERS HPC EN LINUXLaboratorio de Supercmputo y Visualizacin en Paralelo

puzzle inc.

Ing. Juan Carlos Rosas C. Responsable del Laboratorio [email protected]

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

IntroduccinHoy en da los Cluster en Linux para HPC (High Performance Computing) son muy populares, ya que estn al alcance de todos y se consideran como una herramienta fundamental para el desarrollo de la investigacin de muchos tericos.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters1) Conceptos Bsicos de Supercmputo 2) Arquitecturas de Cmputo de Alto Rendimiento 3) Historia y Evolucin de los Clusters 4) Arquitectura de los clusters: CPU, Comunicaciones, etc. 5) Software para Clusters: SO (Distribuciones), Sistemas de Administracin, Software de Paso de Mensajes, Compiladores, ... 6) Clusters: Ventajas y Desventajas

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

1) Conceptos Bsicos de Supercmputo

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersRendimiento: Es la efectividad del desempeo de una computadora, sobre una aplicacin o un benchmark en particular. Flops: Es una medida de la velocidad del procesamiento numrico del procesador. Son operaciones de punto flotante por segundo. Alto Rendimiento (HPC): Gran demanda de procesamiento de datos en procesadores, memoria y otros recursos de hardware, donde la comunicacin entre ellos es muy rpida. Latencia: Tiempo de transferencia de mensajes de una interfaz a otra. Ancho de Banda: Capacidad de transferencia que tiene un canal de comunicaciones en una unidad de tiempo.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersAlta Disponibilidad (HA): Disposicin y acceso a servicios al 100% de manera ininterrumpida.

Supercmputo: Cmputo masivo o comnmente llamado HPC.

Sistema Distribuido: Sistema en el que recursos de cmputo (CPU, memoria y dispositivos de I/O se comunican y trabajan entre si mediante un sistema o tecnologa de comunicacin).

Programacin en Paralelo: Estilo o mtodo de programacin que permite dividir en subprogramas a un programa para resolver un problema determinado.puzzle inc.

Tecnologa VIA: Protocolo de comunicacin con caractersticas gran Ancho de banda y baja latencia.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

2) Arquitecturas de Cmputo de Alto Rendimiento

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersComputadora Paralela: Mquina con dos o ms procesadores que pueden trabajar simultnea y/o coordinadamente. Memoria Compartida: En una mquina paralela existe una sola memoria que puede ser accesada por todos los procesadores. Memoria Distribuida: Cada uno de los procesadores de un multiprocesador tiene asociado a l una unidad de memoria.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersSistema de Memoria Compartida

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersSistema de Memoria Distribuida

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersSistema Hbrido

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

3) Historia y Evolucin de los Clusters

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersEn el verano de 1994 Thomas Sterling y Don Becker, trabajando en CESDIS construyeron un Cluster que consista en 16 procesadores DX4 conectadas por un canal Ethernet a 10Mbps. El esfuerzo del desarrollo para esta primera mquina creci rapidamente en lo que ahora llamamos el proyecto de Beowulf. Los Beowulf se distinguen por que no imponen una arquitectura del sistema. Los componentes primarios del sistema que manejan la arquitectura se pueden descomponer en el procesador, memoria, red de trabajo y sistema de almacenamiento secundario.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersEvolucin de los Clusters en el tiempo

http://www.top500.org

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

4) Arquitectura de los clusters: CPU, Comunicaciones, etc.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters Qu es un Cluster ?Switch / Hub

UnClusterson variosnodos conectados entresatravez delared.

Nodo 1 Nodo 2 Nodo 3

Nodo Maestro

puzzle inc.

Nodo n

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersHardware de un Cluster Procesador Memoria Dispositivos de Almacenamiento Comunicaciones

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 ConclusionesVelocidad Latencia (Mbps) Alta Baja Baja 10a1000 1250 4250 Utilizacin Soporte deCPU Bueno Medio Bueno Alta Baja Baja

Bases Tericas para la Administracin y uso de ClustersCaracteristicas de comunicaciones

Tipo

Conexin

Costo Bajo Alto Medio

Ethernet Switch/Hub Giganet Infiniband Switch Sswitch

puzzle inc.

Dolphin Myrinet Cuadrix

Switch Switch Switch

Baja Baja Baja

Excesivamente 4250 Alto ? 2400 Alto Bueno >10000 ExcesivamenteAlto ?

Baja Baja Baja

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersTecnologas de Clusters y su ClasificacinClusters de Alto Rendimiento: Se utilizan para programas intensivos numericamente, como seriales tanto paralelos. No garantizan disponibilidad. Clusters de Alta Disponibilidad: Se utilizan para garantizar la disponibilidad de servicios o recursos. Clusters Heterogneos: Son aquellos que se forman con distintos tipos de tecnologas o plataformas. Clusters Homogneos: Son aquellos en donde la tecnologa es homognea, es decir que todas las PC's tienen el mismo tipo de tecnologa o plataforma. Cluster dedicado: Es aquel que slo funciona como Cluster y slo como Cluster. Cluster no dedicado: Es aquel que de vez en cuando lo es y cuando no; sus nodos realizan otras funciones pero eso ya es decisin del usuario.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersBeowulf: Es un cluster de componentes commodity de cmputo dedicados a un problema paralelo. En un Beowulf los nodos se conectan por medio de una red privada, y slo el "nodo maestro" es visible desde el exterior. El nodo maestro est reservado para accesar, compilar y manejar las aplicaciones a ejecutar. En general hay de dos tipos de Cluster 'stand alone' y 'diskless', el primero se refiere a que cada nodo tiene su propio sistema operativo y el segundo a que el sistema operativo reside en un solo nodo, por lo general en la mquina maestra.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersClusters en Linux una alternativa tecnolgicaNecesidades actuales: Servidores de Alto Rendimiento y Alta Disponibilidad En el Sector Educativo Abatir Costos ( En equipo, licencias, software, etc... ) Ventajas de Clusters: Computo en paralelo (Comunicaciones entre dos o n mquinas ) Creacin de mquinas virtuales Acceso a rendimientos mayores como una supercomputadora Investigacin en este sistema

puzzle inc.

Mejoramiento y Desarrollo constante barata, estable y poderosa Sistemas Distribuidos

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

5) Software para Clusters: SO (Distribuciones), Sistemas de Administracin, Software de Paso de Mensajes, Compiladores, ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersSistema Operativo Otro componente dominante para remitir compatibilidad, es el software de Clusters. Con la madurez y la robustez de Linux, el software GNU y de la estandarizacin de envo de mesajes va PVM y MPI, los programadores ahora tienen una garanta que los programas que escriban corrern en un futuro en un Cluster Beowulf sin importar quien hace los procesadores o las redes de trabajo.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters Por que Linux ? Codigo Abierto Desarrollo y correcin de errores mas rpidos Estndares elaborados internacionalmente Estabilidad Software Disponible Rendimiento de Red Costo Soporte por fabricantes de Hw y Sw

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersSofware de un Cluster MPI: Message Passing Interface. Biblioteca estndar para programacin paralela en el modelo de intercambio de mensajes. PVM: Mquina Virtual Paralela. Es una librera para el cmputo paralelo en un sistema distribuido de computadoras. Est diseado para permitir que una red de computadoras heterognea comparta sus recursos de cmputo, con el fin de aprovechar esto y para disminuir el tiempo de ejecucin de un programa.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de ClustersSistemas de Administracin para Clusters Debe cumplir con:

Un ambiente de administracin e instalacin centralizado y tolerante a fallas. Sistema de administracin Centralizado Fcil Recuperacin de Fallas Sin perdida de Datos instalacin, configuracin y Puesta punto de forma Centralizada Monitoreo Centralizado Sistema de Asignacin de Recursos (Memoria y CPU) Automatizado Fcil manejo de Entrada/Salida de Datos

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

6) Clusters: Ventajas y Desventajas

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters

Mayor Disponibilidad Fcil Mantenimiento Crecimiento Bajo Costo

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters* Una vez funcionando el Cluster debe de haber alguin responsable, de monitorear el estado del Cluster, para que cada nodo est funcionando ptimamente, una posible solucin a esto es instalar software de auditoria, de chequeo del sistema y un sistema de 'colas' para 'salvar' nuestros procesos o tareas. * Tambin es muy importante tener una programacin muy buena o debidamente estructurada en el software que se le instale. * Y en cuanto a hardware de comunicaciones todava cuesta muy caro tener un equipo de comunicaciones de alta velocidad, por que entre ms rpida sea la comunicacin es mejor el desempeo de un Cluster, depende de la situacin econmica en la que no encontremos.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Bases Tericas para la Administracin y uso de Clusters* En cuanto a energa elctrica y disipacin de calor todava los clusters consumen mucha energa elctrica por los gabinetes en el que se aloja el CPU y disipan mucho calor, Por lo que se recomienda un buen lugar ventilado o aire acondicionado, se puede tener reguladores pero se corre el riesgo de que que se 'caiga' totalmente el sistema o Cluster cuando no haya energa elctrica. * Es bueno tambin mencionar que el cluster al estar en funcionamiento se debe planear bien su uso, ya que cuando esta siendo utlizado al 100% (cada uno de sus nodos y procesadores), ste no se podr utilizar para otra cosa, de modo contrario su rendimiento en algunas ocasiones se iria al suelo.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

1) Introduccin a la Administracin de Servidores Linux 2) Administracin Bsica 3) TCP/IP 4) Servicios TCP/IP Importantes para Clusters (rsh, xinetd, ssh, etc.)

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

1) Introduccin a la Administracin de Servidores Linux

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersADMINISTRACIN Responsabilidades del Administrador Administracin de recursos Polticas (Uso, Seguridad, etc) Respaldo y recuperacin de datos Root Buenas Prcticas

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersRESPONSABILIDADES DEL ADMINISTRADOR Mantenimiento peridico del sistema Administracin de cuentas de usuarios Mantener en secreto datos importantes Respetar las politicas Asesorar a los usuarios Respaldos Monitoreo

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

ADMINISTRACION DE RECURSOS Planeacin de recursos desde el principio (nmero de usuarios, espacio, etc.) Garantizar uso eficiente y balanceado Estimar potencial del equipo de cmputo Planeacin a futuro

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersPOLITICAS Establecer polticas de uso (espacio en disco, tiempo de procesador, prioridades, etc) Establecer polticas de seguridad (que tipo de servicios requiere, quien puede accesar, etc) Polticas en caso de falla

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

RESPALDOS EFECTUAR RESPALDOS PERIODICAMENTE !!! Diferenciar datos crticos y no crticos La recuperacin en caso de falla debe de ser lo ms rpida posible

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

COMO root ?

El usuario ROOT tiene todo el poder en un sistema Linux / UNIX ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersBUENAS PRACTICAS ... NUNCA usar ROOT, a menos que sea INDISPENSABLE Siempre hacer LOGIN como usuario Monitorear los permisos NUNCA usar Telnet y comandos R desde afuera Monitorear servicios TCP/IP activos y no activos Realizar actualizaciones necesarias Revisar probables bugs

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

2) Administracin Bsica

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersADMINISTRACION BASICA Administracin de Cuentas Sistema de archivos de Linux Comandos Importantes Procesos y /proc Dispositivos y /dev Logs y /var/log Otros servicios Manuales, donde buscar informacin ? Inicio y apagado del sistema

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCUENTAS DE USUARIOSEl esquema jerrquico:1) Config. Manual 2) Comandos: useradd, userdel, passwd 3) Ambiente Grfico 4) Otros mtodos

Archivos implicados: /etc/passwd, /etc/shadow, el/*

/etc/group, /etc/sk

Atencin especial: .bash_profile, .bash_login, .bash_history Implementacin de Quota para sistemas con muchos usuarios Propagacion del HOME de los usuarios ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersPARTICIONES Cada disco para poder accesarlo debe de incluir particiones. Debe de haber una planeacin de particiones en Linux (Clientes y Servidores) Comandos para manejo de particiones: FDISK, FCSK, DD El archivo /etc/fstab contiene la tabla de las asociaciones de particiones de discos con el sistema VFS de LINUX. Cada particin se monta como un directorio.

puzzle inc.

NOTA: Las particiones se pueden montar manualmente, /etc/fstab esta un paso arriba en la jerarqua

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersSISTEMAS DE ALMACENAMIENTO Sistema de Archivos. Nos permite accesar a nuestros dispositivos de almacenamiento. Hay varios tipos los mas robustos y recomendados: EXT3 y XFS. Sistemas de Almacenamiento se dividen en 2 en general: 1) Local SAN (Storage Area Network). Sistema dealmacenamiento por arreglo de discos a traves de fibre channel, SCSI, SAS, iSCSI, etc

puzzle inc.

2) a traves de la Red (NAS del ingls Network Attached Storage).Tecnologa dedicada a compartir la capacidad de almacenamiento de un Servidor con elementos clientes a travs de una red p/e: CIFS, NFS, FTP o TFTP.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersSISTEMA DE ARCHIVOS Todos los archivos pertenecen a un usuario (UID) y un grupo (GID) y tiene diferentes permisos para OWNER, GROUP y OTHERS Permisos: RWX Comandos: chown, chmod

puzzle inc.

*NOTA: Va muy de la mano con passwd y group

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersSISTEMAS DE ARCHIVOS /bin /usr /sbin /lib /etc /proc /dev /tmp /var Ejecutables mas importantes Aplicaciones y datos para estas Ejecutables y scripts de ROOT Librerias *.so y *.a La configuracin del sistema Espacio del Kernel Dispositivos Temporales Logs, spool, www

/usr/bin Ejecutables usados pero de menor importancia

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

DISPOSITIVOS DE ALMACENAMIENTO Representados por diferentes dispositivos en Linux 1) SCSI, SAS, SATA, USB 2) IDE 3) TAPE /dev/hdXX /dev/rmtX /dev/sdXX

puzzle inc.

4) CD/DVDROM /dev/cdrom, /dev/cdwriter, /dev/dvdwriter, /dev/srX

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCOMANDOS IMPORTANTES Para manipulacin de archivos y directorios: MV, CP, RM, MKDIR, RMDIR, CD, LDD, TYPE, FILE, DF, DU, MOUNT, UMOUNT, TAR, GZIP, ECHO, TOUCH, VI ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCOMANDOS IMPORTANTES Para trabajar el SHELL (Interprete de comandos muy poderoso!): EXPORT, ENV, SETENV, FOR, WHILE, ECHO, GREP, SED, CUT, AWK ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersPROCESOS Un proceso consiste de codigo ejecutable, segmento de datos y stack. El scheduler se usa para hacer intercambio de procesos. El Quantum es la unidad del tiempo que le toca a cada proceso antes de ser suspendido. Cada proceso gasta tiempo de Kernel y tiempo de Usuario. Cada proceso tiene una prioridad asignada (-20 a 19) (nice).

puzzle inc.

En un momento dado, cada proceso esta en alguno de estos estados: Corriendo, Esperando, Durmiendo

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersESTRUCTURA DEL ESPACIO DE PROCESOS

INIT

PROC1

PROC2

PROC3

PROC1_1 puzzle inc.

PROC1_2

PROC3_1

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCOMANDOS IMPORTANTES Para la administracin de procesos:

TOP, KILL, KILLALL, PS, PSTREE, NICE, NOHUP, ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

PROCESOS O ESTADO DEL KERNEL /proc Directorios de todos los procesos (File handlers, argumentos, ...) /proc Parametros del Kernel (Sistema de archivos, TCP/IP stack, informacin del sistema, hardware) /proc Interfaz entre el Kernel y el administrador

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

LOGS DEL SISTEMA (MONITOREO) El demonio SYSLOGD guarda todos los eventos importantes del sistema en varios archivos en /var/log. /var/log/messages y /var/log/secure son los mas importantes. Tambien existen comandos como DMESG para ver mensajes del Kernel y el UPTIME para monitorear la actividad del sistema

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

OTROS COMANDOS ... Otros comandos importantes de Linux: CRON, AT, IPCS, IPCRM MC (Midnight Commander)

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

MANUALES Y AYUDA ON-LINE .. LDP (Linux Documentation Project) HOWTOs, Man Pages, Info, /usr/share/doc, www.google.com/linux, Listas de correo de una aplicacin especifica

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersINICIO DE LOS SISTEMAS TIPO I386 MBR, Boot record, Boot loader LILO, GRUB Runlevels /sbin/init y /etc/inittab /etc/fstab, montaje de particiones Scripts de inicio en /etc/rc.d/ /etc/sysconfig, /etc/rc.d/init.d/ /etc/rc.d/rc.local Mingetty (LOGIN)

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

ENCENDIDO Y/O APAGADO Asi como internamente un SO tiene un prodecimiento de encendido y apagado en cluster tambien hay procedimientos ...

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

3) TCP/IP

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersREDES DE COMPUTADORAS En general funcionan por medio de una serie de protocolos TCP/IP bajo el modelo OSI de redes. Tambien llamados INTRANET, pueden ser LAN's o WAN's. En el pasado acostumbraban usar IP's vlidas, en la actualidad es ms frecuente ver IP's no vlidas principalmente para Clusters.

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

TIPOS DE REDES Tipo A: Redes WAN, pueden consistir de 256*256*256=1 millon de nodos Tipo B: Redes WAN, pueden consistir de 256*256=65536 nodos

puzzle inc.

Tipo C: Redes LAN, maximo 256 nodos

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCONECTIVIDAD TCP/IP Para que dos entidades de red puedan verse solo se necesita: 1) IP. Puede se homolaga y no homologada (/etc/sysconfig/network-scripts/ifcfg-ethX) 2) Msk. Mascara (/etc/sysconfig/network-scripts/ifcfgethX) 3) Gw (Op y depende) Gateway. (/etc/sysconfig/networkscripts/ifcfg-ethX y /etc/sysconfig/network) Y comando ROUTE e IP

puzzle inc.

4) Hostname. Nombre de la maquina o alias (/etc/sysconfig/network y /etc/hosts) 5) DNS (Op). Servidor de nombres (/etc/resolv.conf)

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCONFIGURACION MANUAL Se usan comandos ifconfig y route 1) ifconfig ethX XXX.XXX.XXX.XXX netmask 255.255.255.0 2) route add net XXX.XXX.XXX.XXX dev ethX 3) La ruta DEFAULT: route add default gw XXX.XXX.XXX.XXX Para revisar la conexion: PING a una mquina en la red local, p.ej. el Gateway. Revisar conexin a Internet: ping IP_INTERNET Revisar DNS: ping HOST_INTERNET

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

4) Servicios TCP/IP Importantes para Clusters (rsh, xinetd, ssh, etc.)

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersXINETD XINETD es un demonio de Linux hecho para simplificar el manejo de algunos servicios bsicos de Red, sobre todo aquellos que abren una nueva sesin por cada usuario Archivos: /etc/xinetd.conf Los archivos de configuracin estan en /etc/xinetd.d/

puzzle inc.

Hay un archivo por cada servicio con el nombre de este

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCOMANDOS R Son transparentes y ligeros y se utilizan para hacer logins remotos y transferencia de archivos: Archivos de configuracin: /etc/xinet.d/rX, /etc/hosts, /etc/hosts.equi v, /etc/securetty, /$HOME/.rhosts /etc/hosts.deny

puzzle inc.

NOTA: X = login, exec, sh, sycn

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

SSH Tienen la misma funcion que los comandos R la diferencia es que utiliza un canal ecriptado. Archivos de configuracin: /etc/ssh/ssh_config, /etc/sshd_config

puzzle inc.

Comandos importantes: ssh, scp, sftp, ssh, ssh-keygen

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

NFS Exports Comandos Portmap

puzzle inc.

Otros sistemas de archivos por red: SAMBA?, PNFS?, GFS?, LUSTRE?

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersFIREWALLS / IPTABLES Firewall, Por Qu ? Diferentes tipos de Firewall Soluciones existentes Firewall en el Kernel de Linux Hace un filtrado de paquetes IP Ejemplo de reglas Se usa tambin para Forwarding, IP masq Es un tema aparte, require un curso completo de seguridad

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

OTROS SERVICIOS TCP/IP IMPORTANTES PARA CLSUTERS DNS ? APACHE ? SENDMAIL ? TFTPBOOT ? FTP ?

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de ClustersCONCLUSIONES 1) Planeacin 2) Configuracin adecuada de SO 3) Configuracin adecuada de Red y servicios 4) Procedimientos y politicas administrativas 5) Respaldos 6) Automatizacin de tareas 7) Monitoreo 8) Seguridad

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

Introduccin a los compiladores de GNU Makefiles

1) El proposito 2) Secciones y opciones 3) Errores en Makefile

puzzle inc.

Compilar un programa Errores

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Conocimientos Prcticos Necesarios de Administracion de Linux para Manejo de Clusters

MONITOREO Importancia de hacer monitoreo Comandos (df, top, etc) Logs Detectando intrusiones y fallas Acciones en caso de falla

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

1) Explicar Diferencias de Administracin de un Cluster de un solo Servidor 2) Sistemas de Administracin 3) Sistemas de Asignacion de Recursos de Cmputo 4) Sistemas de Paso de Mensajes 5) Programacin para Clusters (Que Tipo de Programas se puede Ejecutar en un Cluster) 6) Formas de Monitoreo de un Cluster

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

1) Explicar Diferencias de Administracin de un Cluster de un solo Servidor

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

La diferencia escencial entre la admiinstracin de un servidor a un cluster es el numero de maquinas o grupos que tengamos en nuestra red, mientras mas organizado y planeado tengamos nuestro sistema mas eficiente sera nuestra administracin

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

2) Sistemas de Administracin

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

Hoy en dia existen varios sistemas de administracin para clusters que son centralizados, distribuidos, tolerantes a fallas y agradables al usuario: Rocks Scalli SCSC Kick-start CIA

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

3) Sistemas de Asignacion de Recursos de Cmputo

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del ClusterLos Sistemas de Asignacion de Recursos de Cmputo sirver para asignar y aprovechar mejor los recursos de cmputo que se tienen, principalmente: 1) CPU 2) RAM 3) HD Existen varios sistemas: SGE, LSF, PBS, TORQUE, MAUI.

puzzle inc.

Es altamente recomendable que un Cluster tengo uno por muy chico que sea, y mas si lo utiliza mas de un usuario.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

4) Sistemas de Paso de Mensajes

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del ClusterNormalmente se utiliza IMPI y se ha vuelto muy popular, en general hay dos versiones MPI ver. 1.X y MPI ver 2.X. Tanto para MPI 1 como MPI 2 funcionan de manera distinta y tienen sus caracteristicas. MPI 1 siempre ha utilizado de forma nativa el paso de mensajes y con el tiempo ha mejorado en algunos aspectos

puzzle inc.

MPI 2 utiliza el pricipio de maquina virtual como PVM y a traves de esta ha mejorado la comunicacion multihilo y multicore.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

5) Programacin para Clusters (Que Tipo de Programas se puede Ejecutar en un Cluster)

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Administracin del Cluster

6) Formas de Monitoreo de un Cluster

Cmo se puede realizar? A traves de scripts automatizados A traves de aplicaciones o herramientas ya populares como Rocks, CIA, Ganglia, etc..

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

Uso de un Cluster con un Sistema de AdministracinEJERCICIOS 1) Revisin de Configuracin de un Cluster en general 2) Comandos de Administracin 3) Comandos de Monitoreo 4) Ejecucin de Programas 5) Uso del Sistema de Asignacin de Recursos 6) Apagado/Prendido del Cluster 7) Creacin de Usuarios 8) Recuperacin de Fallas

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

El LSVP en la UAM ...

Ejemplos Prcticos en el Laboratorio de Supercmputo y Visualizacin en Paralelo de la UAM Iztapalapa

puzzle inc.

Contenido Introduccin Tema 1 Tema 2 Tema 3 Tema 4 Tema 5 Conclusiones

ConclusionesUn Cluster para HPC o CAR depende de muchas variables pero principalmente de tres en general para su uso eficiente o adecuado: 1) De la Infraestructura. 2) De su Administracin. 3) De su uso por parte de los usuarios.

puzzle inc.

GRACIAS !

puzzle inc.

Universidad Autnoma MetropolitanaUnidad Iztapalapa

TALLER DE CLUSTERS HPC EN LINUXLaboratorio de Supercmputo y Visualizacin en Paralelo

puzzle inc.

Ing. Juan Carlos Rosas C. Responsable del Laboratorio [email protected]