les sites de calcul egee en france

19
EGEE-II INFSO-RI- 031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Les sites de calcul EGEE en France David Bouvet Tutorial CGG 07-10/11/2006

Upload: garrett-dickerson

Post on 03-Jan-2016

28 views

Category:

Documents


1 download

DESCRIPTION

Les sites de calcul EGEE en France. David Bouvet Tutorial CGG 07-10/11/2006. Plan. Sites français Site grille Site de calcul infrastructure aspects fonctionnels ex. prĂ©occupations majeures quelques Ă©lĂ©ments de solutions (retour d’exp. IN2P3-CC) Conclusions Liens utiles. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Les sites de calcul EGEE en France

EGEE-II INFSO-RI-031688

Enabling Grids for E-sciencE

www.eu-egee.org

EGEE and gLite are registered trademarks

Les sites de calcul EGEE en FranceDavid BouvetTutorial CGG07-10/11/2006

Page 2: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 2

Plan

‱ Sites français‱ Site grille‱ Site de calcul

– infrastructure– aspects fonctionnels– ex.– prĂ©occupations majeures– quelques Ă©lĂ©ments de solutions (retour d’exp. IN2P3-CC)

‱ Conclusions‱ Liens utiles

Page 3: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 3

Sites français

‱ ROC Français: IN2P3-CC IN2P3-CC Lyon (Centre de Calcul de l'IN2P3) IN2P3-LPC Clermont (Laboratoire de Physique Corpusculaire) IN2P3-CPPM Marseille (Centre de Physique des Particules de

Marseille) GRIF Ile de France (Grille de Recherche d’Ile de France) Site

distribué sur les sites : DAPNIA (CEA/Saclay), IPNO (IN2P3, Orsay), LAL (IN2P3, Orsay), LLR (Ecole Polytechnique, Palaiseau) et LPNHE (IN2P3, Paris 6)

CGG Massy (Compagnie Générale de Géophysique) IPSL/IPGP Paris (Institut Pierre Simon Laplace/Institut de Physique

du Globe de Paris) IN2P3-LAPP Annecy (Laboratoire d'Annecy-Le-Vieux de Physique

des Particules) IN2P3-SUBATECH Nantes (Laboratoire de physique SUBAtomique

et des TECHnologies associées) IN2P3-IRES Strasbourg (Institut de Recherches Subatomiques) AUVERGRID Clermont (site pour une grille régionale) IN2P3-LPSC Grenoble (Laboratoire de Physique Subatomique et de

Cosmologie)

Page 4: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 4

‱ DĂ©ployer un site grille


c’est mettre le doigt dans l’engrenage de la production [P. Girard 2005]

Page 5: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 5

Site grille : un autre niveau de mutualisation des ressources

‱ Centre de calcul : – Supercalculateur / Fermes de

calcul ensemble de “Worker Nodes” machines hĂ©tĂ©rogĂšnes

(Hardware, OS)

– Grande capacitĂ© de stockage (disques, bandes)

– Gestion de communautĂ© d’utilisateurs via les comptes (groupes et utilisateurs)

– Gestion experte de la production

‱ Grille de calcul :– Mutualisation des centres de

ressources– Gestion de communautĂ©s via le

concept de “Virtual Organization”

– Minimisation du temps de latence des utilisateurs

Page 6: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 6

Site grille : un autre niveau de mutualisation des ressources

‱ Centre de calcul : ‱ Grille de calcul :

Ferme1 Ferme2

Batch System

SystĂšme de partage de fichiers

WN WN WN WN WNWNWN WN WN WN WNWN




Stockage

France

Resource Broker(s)

Catalogue de fichiers

RC RC RC RCRCRC RC RC RC RCRC

Italie

RC




Stockage

VO VO VO VO

Page 7: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 7

Site de calcul :infrastructure

‱ Centre de ressources / Site (SA1)– fournit à la grille

des ressources de calcul

des ressources de stockage

Ă©ventuellement des services/VO

RC

France

Resource Broker

Catalogue de fichiers

RC RC RC RCRC RC RC RC RC RCRC

Italie


Stockage

VO

Storage Element

Computing Element

RB

BDII

LFC UI

VOMS FTS

Page 8: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 8

Site de calcul :aspects fonctionnels

‱ Gestion des membres d’une VO– sur les noeuds de grille, “Mapping”

des membres de la VO vers la notion d’utilisateurs des systùmes d’exploitation

gĂ©nĂ©ration d’un “grid-mapfile” sur certains services de la grille

configuration faite par le site sur le noeud pour mapper le “proxy” vers le compte fonction des

‱ gestion de “pool” de comptes:egeode001,

egeode002
‱ les diffĂ©rents groupes et rĂŽles se

traduisent par un mapping sur des pools/comptes différents

‱ tous les pools de la VO partage le mĂȘme groupe

local users

VO1_User

VO1_User

VO2_User

Grid-mapfile

SE

CERB

ACLProxy

VO

VOMS

ACL1

ACL2

ACL3

Page 9: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 9

Site de calcul :aspects fonctionnels

‱ Publication d’information sur la grille– chaque site publie

Une description des ressources/services qu’il fournit par VO L’état actuel de ses ressources (CPU libres, espace de stockage...) Sur les RC, ce qu’une VO a installĂ© (“Tags” des Software Managers)

RC3RC2

RC1RB1RB2LFC

LFC

Systùme d’information (BDII)

Site CC-IN2P3

VO1

VO2

VO3

Page 10: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 10

Site de calcul (ex.) :IN2P3-CC

VO BoxVO LHC

Site B

DII Computing

ElementComputing

ElementStorageElement

StorageElement

VOMS4 VOs

LFC CentralBiomed

HPSS DCACHE

StorageElement

SRMGridftpGridftp

XFS

Stockage

BQS

Anastasie

WN WN WN WN WN WN WN WN

Calcul

LFC Local4 VOs LHC

FTS4 VOs LHC

MonBox4 Sites

Systùme d’information de la grille

VO BoxVO LHCV OBox

VO LHCVO BoxVO LHC

Page 11: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 11

Site de calcul :préoccupations majeures

‱ Services de grille critiques– indisponibilitĂ© des services de VO (VOMS, LFC, FTS, 
)

impossibilitĂ© pour la VO d’utiliser la grille– indisponibilitĂ© du systĂšme d’information du site (site BDII)

disparition des services critiques du systĂšme d’information globale‱ SĂ©curitĂ©

– traçabilitĂ© de l’utilisation des nƓuds grilles– trou de sĂ©curitĂ© introduit par le M/W

‱ Gestion des donnĂ©es des VO– indisponibilitĂ©/perte des donnĂ©es applicatives (Storage Element)– indisponibilitĂ©/perte des donnĂ©es de service spĂ©cifiques aux VO :

BD des membres d’une VO ou des catalogues de fichiers d’une VO Tags des VO enregistrĂ©s sur les CE (indiquant les softwares installĂ©s sur le site par

la VO) software des VO installés sur les espaces partagés

‱ Mises Ă  jour du Middleware/Changements de configuration– dysfonctionnement dĂ» Ă  de mauvaises configurations, des nouveaux bugs, etc.

ex. : mauvaise publication d’un CE crĂ©ant un « trou noir Â» sur la grille (7000 Jobs d’Atlas en 1 nuit en mai pour IN2P3-CC)

– rupture de services– perturbation/rupture de la production locale

Page 12: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 12

Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (1)

‱ Disposer d’une infrastructure de test/validation– pour Ă©prouver le M/W, son installation, mieux le comprendre et

donc le maĂźtriser avant de le mettre en productionutilisation de la technologie des machines virtuelles (5 serveurs

VMWare avec 4 machines virtuelles)‱ Ă©conomique

‱ gain de temps grĂące au clonage d’images de rĂ©fĂ©rence

‱ adaptĂ©e aux installations rĂ©pĂ©tĂ©es

‱ Ă©vite l’intervention des administrateurs systĂšmes pour des rĂ©installation Ă  rĂ©pĂ©tition

‱ permet de disposer de services de grille hors production nĂ©cessaires aux tests d’autres noeuds.

Page 13: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 13

Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (2)

‱ Utiliser l’expertise locale et dĂ©lĂ©guer aux experts la part qui leur incombe– toutes nos BD sont en charge de l’équipe « Bases de DonnĂ©es Â»â€“ l’installation du systĂšme et la gestion rĂ©seau des nƓuds grille

sont assurĂ©es par l’équipe « SystĂšmes et RĂ©seaux Â» une grande partie des problĂšmes de sĂ©curitĂ© est couverte par les

experts en sĂ©curitĂ© du CCIN2P3 l’environnement des nƓuds de grille est cohĂ©rent avec les autres

machines du parc on dispose des outils de surveillance matériel et systÚmes pour les

nƓuds de la grille

– le stockage/transfert de donnĂ©es est gĂ©rĂ© par l’équipe « Stockage Â»

– le suivi des jobs « grille Â» est assurĂ© par l’équipe « Production Â»â€“ une partie du support aux utilisateurs grille est pris en charge par

le « Support aux utilisateurs Â»

Page 14: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 14

Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (3)

‱ Communiquer des alias plutît que des noms de machines pour les nƓuds de la grille– quand le M/W le permet (pb avec les CE)– quand le nom d’un nƓud entre dans la configuration d’autres

nƓuds de grillechangement transparent de machine lors de panne ou de mise à

jour de l’intergiciel

‱ L’utilisation d’une machine de rechange permet des mises Ă  jour sans arrĂȘt de service (BDII, CE)– le nƓud de remplacement fraĂźchement mis Ă  jour peut ĂȘtre

largement testĂ© avant son entrĂ©e en production– dans le cas d’un CE, on peut faire tourner 2 CE simultanĂ©ment

sans avoir à drainer le gestionnaire de jobs1.mise en production du nouveau CE2. fermeture de l’ancien CE (il n’accepte plus de nouveaux jobs)3.sortie de l’ancien CE lorsque tous ses jobs sont finis

Page 15: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 15

Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (4)

‱ L’installation partagĂ©e des WN/UI sur AFS faire l’installation pour l’ensemble de la ferme sans altĂ©rer l’installation de chaque WN

pour Ă©viter de sortir les WN de production le temps de la mise Ă  jour‱ mise Ă  jour de tous les WN en une fois

durĂ©e: un drainage de la ferme (24 Ă  48h selon les jobs en machine)‱ mise Ă  jour par N lots de WN

durée: N x drainage des lots de WN (24 à 48h selon les jobs en machine)

de faire coexister diffĂ©rentes version de l’intergiciel pour les WN, mise en Ɠuvre au niveau du CE d’un mĂ©canisme de sĂ©lection de la version du M/W Ă 

utiliser pour un job changer de version à la volée par (re)configuration du CE

GLITE3.0.0

GLITE3.0.4

CE

WN WN WN WN WN WN WN WN

CE

WN WN WN WN WN WN WN WNAFS

Page 16: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 16

Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (5)

‱ Utilisation de systĂšme de « backup Â» pour les donnĂ©es contingentes– la plupart des logs des noeuds de grille est dupliquĂ©e sur une machine

distante grĂące au service « syslog Â». Ils sont conservĂ©s 3 mois (durĂ©e dĂ©finie par le projet)

– les Tags des VO (sur les CE) sont sauvĂ©s rĂ©guliĂšrement sur cette machine

– les softwares de VO sont dĂ©posĂ©s sur des volumes sauvegardĂ©s d’AFS‱ S’armer pour une surveillance active

– NAGIOS (CA, CRL, site BDII, etc.)– LEMON (en cours de test)– outils « maison Â»

ex. : surveillance de l’évolution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de dĂ©tecter des changements anormaux de frĂ©quentation du site.

‱ Communiquer rapidement lors de la dĂ©tection de problĂšme– pour s’économiser le traitement de tickets d’incident– pour sortir de production si besoin est

‱ Collaborer avec d’autres sites pour rĂ©pliquer les services critiques

Page 17: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 17

Conclusions

‱ DĂ©ployer et gĂ©rer un site grille de production fait appel Ă  plusieurs rĂŽles– administration RĂ©seaux et SystĂšmes, administration et exploitation de fermes

de calcul, administration et exploitation de serveurs de stockages, support aux utilisateurs et aux VO, administration de base de donnĂ©es, expert « grille Â»

‱ Comprendre le middleware et son installation pour– l’adapter Ă  son infrastructure– ĂȘtre rĂ©actif mais aussi proactif

« Etre proactif, c’est faire des footings dĂšs septembre pour perdre les kilos qu’on prendra aux fĂȘtes de fin d’annĂ©e. Â» [P. Girard, 2006]

prĂ©voir les pannes, les Ă©volutions possibles, et s’affranchir tant que possible de dĂ©pendances externes

collaborer avec d’autres sites pour garantir la pĂ©rennitĂ© des services critiques‱ La stabilitĂ© du middleware s’est grandement amĂ©liorĂ©e

– l’effet « production Â» contribue Ă  cette stabilitĂ© la multiplication d’utilisateurs et de sites est la meilleure garantie d’une stabilitĂ© vite

retrouvĂ©e la mise en place d’une infrastructure opĂ©rationnelle

– elle repose encore sur une logique de « best effort Â» et de savoir-faire manque d’outils d’administrations (administrer n’est pas configurer) manque de documentation mais aussi trop d’information (mails, wikis, sites web, 
) devrait s’amĂ©liorer avec le nouveau middleware, l’utilisation de standard, et la

pression mise par les sites

Page 18: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 18

Liens utiles

‱ COD operators– rotation sur les ROC pour fournir une Ă©quipe

d’opĂ©rateurs de surveillance (CIC On Duty)‱ User support : GGUS

– https://gus.fzk.de/pages/home.php‱ Outils de monitoring

– CIC portal https://cic.in2p3.fr

‱ point d’entrĂ©e sur les autres outils‱ vue intĂ©grĂ©e des autres outils Ă  l’usage des COD

opĂ©rateurs– Service Availability Monitoring (SAM)

https://lcg-sam.cern.ch:8443/sam/sam.py

– Grid Operations Centre Core Database (GOCDB) https://goc.grid-support.ac.uk/gridsite/gocdb2

– GIIS monitor (Gstat) http://goc.grid.sinica.edu.tw/gstat

– GOC monitoring tools http://goc.grid-support.ac.uk/gridsite/monitoring/

– GOC job monitor http://gridportal.hep.ph.ic.ac.uk/rtm/

‱ Accounting– http://goc.grid-support.ac.uk/gridsite/accounting/

index.html

Page 19: Les sites de calcul EGEE en France

Enabling Grids for E-sciencE

Tutorial CGG – 07-10/11/2006David Bouvet 19

Merci