rendimiento y monitorización · monitorización de aplicaciones estado de las ejecuciones...
TRANSCRIPT
![Page 1: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/1.jpg)
-Operations Department-Barcelona Supercomputing CenterRED ESPAÑOLA DE
SUPERCOMPUTACIÓN
Rendimiento y monitorizaciRendimiento y monitorizacióónn
![Page 2: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/2.jpg)
2
Foreword
All Information contained in this document refers to BSC´s & RES´s internal proceedings/scripts/developments. This information is
confidential and should not be published nor distributed.
![Page 3: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/3.jpg)
3
Index
● Introduction● RES node architecture ● RES node policies ● Monitorización
![Page 4: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/4.jpg)
4
Introduction
● Resource Manager● Handles any allocatable resource (check, start application,
stop application, ...)● Scheduler
● Decides which job to run at every moment in base of priorities and policies defined
● IBM´s LoadLeveler was our de-facto (Resource Manager + Scheduler solution)
● Since June 2007 MareNostrum production tools are:●Slurm as Resource Manager (OpenSource)●Moab as Scheduler (from ClusterResources)
![Page 5: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/5.jpg)
5
Index
● Introduction● RES Node Architecture● RES Node Policies ● Monitorización
![Page 6: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/6.jpg)
6
RES Node Architecture
Servers
Bla
de C
ente
rs
Head node
Login nodes
GPFS
Cluster Management
Users` job control commands
SYSTEM ARCHITECTURE
![Page 7: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/7.jpg)
7
RES Node Architecture
Servers
Bla
de C
ente
rs
Head node
Login nodes
GPFS
Cluster Management
User’s job control commands
slurmd
slurmd slurmd
slurmdslurmd
slurmd slurmd
slurmd
slurmd slurmd slurmd
Moab
SlurmCtld
COMPONENTS DEPLOYED
![Page 8: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/8.jpg)
8
Index
● Introduction● RES Node Architecture ● RES Node Policies● Monitorización
![Page 9: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/9.jpg)
9
RES Node Policies
● MareNostrum´s CPU time is divided and prioritized ensuring access for:● Access Committee assigned projects (70%)● Site own projects (20%)● Other (10%)
● Scheduling policies should guarantee this consumption at the end of every period and year
INTRODUCTION
![Page 10: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/10.jpg)
10
RES Node PoliciesACCESS COMMITTEE
● For every project, Scientific Committee provides:● # Number of hours –in thousands-● Class of hours:
● A - maximum priority, should be executed before the rest
● B - if there are no A jobs, or filling the gaps
● To accomplish this BSC:● Defines internal ‘Class C’
● for those users that wasted all their A and/or B time● only run if there are no suitable A or B jobs on queue
● Establishes manual Priority Management Rules: ● «One ‘A+B’ project that wastes A, is moved to B»● «One only ‘A’ or ‘B’ project that wastes all its time, is moved to C»
![Page 11: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/11.jpg)
11
RES Node PoliciesJOB PRIORITY MODEL
● To evaluate priority weights from components:CREDENTIAL + FAIR-SHARING + SERVICE
![Page 12: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/12.jpg)
12
RES Node PoliciesCREDENTIALS - JOB PRIORITY MODEL
● To evaluate priority weights from components:CREDENTIAL + FAIR-SHARING + SERVICE
This sets priority depending on the:* Group* User* Quality of Service
CREDWEIGHT 1QOSWEIGHT 1000
GROUPWEIGHT 10USERWEIGHT 1
![Page 13: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/13.jpg)
13
RES Node PoliciesFAIR-SHARE - JOB PRIORITY MODEL
● To evaluate priority weights from components:CREDENTIAL + FAIR-SHARING + SERVICE
FSINTERVAL 07:00:00:00FSDEPTH 16FSDECAY 0.95FSPOLICY DEDICATEDPESFSTREEISPROPORTIONAL TRUE
FSWEIGHT 100FSUSERWEIGHT 1FSGROUPWEIGHT 10
![Page 14: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/14.jpg)
14
RES Node Policies
FAIR-SHARE TREE - COMMITTEE BRANCH
Root
otherbscprojects
class_cclass_bclass_a
70 20 10
1000 100 2
Initial Group Share == # thousand hours from Access Committee
![Page 15: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/15.jpg)
15
RES Node PoliciesSERVICE - JOB PRIORITY MODEL
● To evaluate priority weights from components:CREDENTIAL + FAIR-SHARING + SERVICE
This sets priority depending on the time the job has spent in the queue
SERVICEWEIGHT 1QUEUETIMEWEIGHT 100
![Page 16: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/16.jpg)
16
Index
● Introduction● RES Node Architecture ● RES Node Policies ● Monitorización
![Page 17: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/17.jpg)
17Centro Nacional de Supercomputación
Necesidades básicas - Monitorización
● Monitorización de sistema● Diagnósticos (detección de anomalías)
● Monitorización de aplicaciones● Estado de las ejecuciones (rendimiento)● Contabilidad
● Fuentes● Software específico (Ganglia)● Sistema de colas● Software propio
● Frecuencia● Elevada, pero sin excesos● Minimización de interferencias con la ejecución● Inicio y final de las ejecuciones
![Page 18: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/18.jpg)
18Centro Nacional de Supercomputación
Herramientas – Monitorización de sistema
● Ganglia● Monitorización de sistema
● Carga cpu● Uso de memoria/swap● Uso de red● …
● Posibilidad de envío de información adicional● Desde scripts
● Componentes● Gmond – daemon local● Gmetad – recolector remoto● Interfaz web
![Page 19: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/19.jpg)
19Centro Nacional de Supercomputación
Herramientas – Monitorización de sistema
● Ganglia● Puntos fuertes
● Daemon local ligero● Fácilmente modificable (open source)
● Puntos débiles● Broadcast de información● Recolector no fácilmente escalable
● Modificaciones BSC-CNS● Modificación Gmond (métricas adicionales)● Generación automàtica de configuración● Limitación de broadcast a blade center● Desarrollo de un recolector escalable● Desarrollo de herramientas de consulta
![Page 20: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/20.jpg)
20Centro Nacional de Supercomputación
Herramientas – entorno de ejecución
● Desarrollos en el BSC-CNS● Prólogo
● Verificación del estado del nodo● Drivers, red, sistemas de ficheros, hardware, …
● Cancelación automática del trabajo en caso de fallo● Extracción del nodo del sistema de colas en caso de fallo● Propagación de información al script inicial del usuario a través
de variables de entorno● Nodo master, lista de nodos
● Generación de información de contabilidad● Epílogo
● Localización y eliminación de procesos de usuario● Verificación del estado del nodo y reconfiguración en caso
necesario
![Page 21: Rendimiento y monitorización · Monitorización de aplicaciones Estado de las ejecuciones (rendimiento) Contabilidad Fuentes Software específico (Ganglia) Sistema de colas Software](https://reader035.vdocument.in/reader035/viewer/2022071212/6028190aa7bbe73b3617f6db/html5/thumbnails/21.jpg)
21
Thank you !www.bsc.es