les sites de calcul egee en france
DESCRIPTION
Les sites de calcul EGEE en France. David Bouvet Tutorial CGG 07-10/11/2006. Plan. Sites français Site grille Site de calcul infrastructure aspects fonctionnels ex. prĂ©occupations majeures quelques Ă©lĂ©ments de solutions (retour dâexp. IN2P3-CC) Conclusions Liens utiles. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/1.jpg)
EGEE-II INFSO-RI-031688
Enabling Grids for E-sciencE
www.eu-egee.org
EGEE and gLite are registered trademarks
Les sites de calcul EGEE en FranceDavid BouvetTutorial CGG07-10/11/2006
![Page 2: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/2.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 2
Plan
⹠Sites français⹠Site grille⹠Site de calcul
â infrastructureâ aspects fonctionnelsâ ex.â prĂ©occupations majeuresâ quelques Ă©lĂ©ments de solutions (retour dâexp. IN2P3-CC)
âą Conclusionsâą Liens utiles
![Page 3: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/3.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 3
Sites français
⹠ROC Français: IN2P3-CC IN2P3-CC Lyon (Centre de Calcul de l'IN2P3) IN2P3-LPC Clermont (Laboratoire de Physique Corpusculaire) IN2P3-CPPM Marseille (Centre de Physique des Particules de
Marseille) GRIF Ile de France (Grille de Recherche dâIle de France) Site
distribué sur les sites : DAPNIA (CEA/Saclay), IPNO (IN2P3, Orsay), LAL (IN2P3, Orsay), LLR (Ecole Polytechnique, Palaiseau) et LPNHE (IN2P3, Paris 6)
CGG Massy (Compagnie Générale de Géophysique) IPSL/IPGP Paris (Institut Pierre Simon Laplace/Institut de Physique
du Globe de Paris) IN2P3-LAPP Annecy (Laboratoire d'Annecy-Le-Vieux de Physique
des Particules) IN2P3-SUBATECH Nantes (Laboratoire de physique SUBAtomique
et des TECHnologies associées) IN2P3-IRES Strasbourg (Institut de Recherches Subatomiques) AUVERGRID Clermont (site pour une grille régionale) IN2P3-LPSC Grenoble (Laboratoire de Physique Subatomique et de
Cosmologie)
![Page 4: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/4.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 4
âą DĂ©ployer un site grilleâŠ
câest mettre le doigt dans lâengrenage de la production [P. Girard 2005]
![Page 5: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/5.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 5
Site grille : un autre niveau de mutualisation des ressources
âą Centre de calcul : â Supercalculateur / Fermes de
calcul ensemble de âWorker Nodesâ machines hĂ©tĂ©rogĂšnes
(Hardware, OS)
â Grande capacitĂ© de stockage (disques, bandes)
â Gestion de communautĂ© dâutilisateurs via les comptes (groupes et utilisateurs)
â Gestion experte de la production
âą Grille de calcul :â Mutualisation des centres de
ressourcesâ Gestion de communautĂ©s via le
concept de âVirtual Organizationâ
â Minimisation du temps de latence des utilisateurs
![Page 6: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/6.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 6
Site grille : un autre niveau de mutualisation des ressources
âą Centre de calcul : âą Grille de calcul :
Ferme1 Ferme2
Batch System
SystĂšme de partage de fichiers
WN WN WN WN WNWNWN WN WN WN WNWN
âŠ
Stockage
France
Resource Broker(s)
Catalogue de fichiers
RC RC RC RCRCRC RC RC RC RCRC
Italie
RC
âŠ
Stockage
VO VO VO VO
![Page 7: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/7.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 7
Site de calcul :infrastructure
âą Centre de ressources / Site (SA1)â fournit Ă la grille
des ressources de calcul
des ressources de stockage
Ă©ventuellement des services/VO
RC
France
Resource Broker
Catalogue de fichiers
RC RC RC RCRC RC RC RC RC RCRC
ItalieâŠ
Stockage
VO
Storage Element
Computing Element
RB
BDII
LFC UI
VOMS FTS
![Page 8: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/8.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 8
Site de calcul :aspects fonctionnels
âą Gestion des membres dâune VOâ sur les noeuds de grille, âMappingâ
des membres de la VO vers la notion dâutilisateurs des systĂšmes dâexploitation
gĂ©nĂ©ration dâun âgrid-mapfileâ sur certains services de la grille
configuration faite par le site sur le noeud pour mapper le âproxyâ vers le compte fonction des
âą gestion de âpoolâ de comptes:egeode001,
egeode002âŠâą les diffĂ©rents groupes et rĂŽles se
traduisent par un mapping sur des pools/comptes différents
âą tous les pools de la VO partage le mĂȘme groupe
local users
VO1_User
VO1_User
VO2_User
Grid-mapfile
SE
CERB
ACLProxy
VO
VOMS
ACL1
ACL2
ACL3
![Page 9: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/9.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 9
Site de calcul :aspects fonctionnels
âą Publication dâinformation sur la grilleâ chaque site publie
Une description des ressources/services quâil fournit par VO LâĂ©tat actuel de ses ressources (CPU libres, espace de stockage...) Sur les RC, ce quâune VO a installĂ© (âTagsâ des Software Managers)
RC3RC2
RC1RB1RB2LFC
LFC
SystĂšme dâinformation (BDII)
Site CC-IN2P3
VO1
VO2
VO3
![Page 10: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/10.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 10
Site de calcul (ex.) :IN2P3-CC
VO BoxVO LHC
Site B
DII Computing
ElementComputing
ElementStorageElement
StorageElement
VOMS4 VOs
LFC CentralBiomed
HPSS DCACHE
StorageElement
SRMGridftpGridftp
XFS
Stockage
BQS
Anastasie
WN WN WN WN WN WN WN WN
Calcul
LFC Local4 VOs LHC
FTS4 VOs LHC
MonBox4 Sites
SystĂšme dâinformation de la grille
VO BoxVO LHCV OBox
VO LHCVO BoxVO LHC
![Page 11: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/11.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 11
Site de calcul :préoccupations majeures
âą Services de grille critiquesâ indisponibilitĂ© des services de VO (VOMS, LFC, FTS, âŠ)
impossibilitĂ© pour la VO dâutiliser la grilleâ indisponibilitĂ© du systĂšme dâinformation du site (site BDII)
disparition des services critiques du systĂšme dâinformation globaleâą SĂ©curitĂ©
â traçabilitĂ© de lâutilisation des nĆuds grillesâ trou de sĂ©curitĂ© introduit par le M/W
âą Gestion des donnĂ©es des VOâ indisponibilitĂ©/perte des donnĂ©es applicatives (Storage Element)â indisponibilitĂ©/perte des donnĂ©es de service spĂ©cifiques aux VO :
BD des membres dâune VO ou des catalogues de fichiers dâune VO Tags des VO enregistrĂ©s sur les CE (indiquant les softwares installĂ©s sur le site par
la VO) software des VO installés sur les espaces partagés
âą Mises Ă jour du Middleware/Changements de configurationâ dysfonctionnement dĂ» Ă de mauvaises configurations, des nouveaux bugs, etc.
ex. : mauvaise publication dâun CE crĂ©ant un « trou noir » sur la grille (7000 Jobs dâAtlas en 1 nuit en mai pour IN2P3-CC)
â rupture de servicesâ perturbation/rupture de la production locale
![Page 12: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/12.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 12
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (1)
âą Disposer dâune infrastructure de test/validationâ pour Ă©prouver le M/W, son installation, mieux le comprendre et
donc le maĂźtriser avant de le mettre en productionutilisation de la technologie des machines virtuelles (5 serveurs
VMWare avec 4 machines virtuelles)âą Ă©conomique
âą gain de temps grĂące au clonage dâimages de rĂ©fĂ©rence
⹠adaptée aux installations répétées
âą Ă©vite lâintervention des administrateurs systĂšmes pour des rĂ©installation Ă rĂ©pĂ©tition
âą permet de disposer de services de grille hors production nĂ©cessaires aux tests dâautres noeuds.
![Page 13: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/13.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 13
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (2)
âą Utiliser lâexpertise locale et dĂ©lĂ©guer aux experts la part qui leur incombeâ toutes nos BD sont en charge de lâĂ©quipe « Bases de DonnĂ©es »â lâinstallation du systĂšme et la gestion rĂ©seau des nĆuds grille
sont assurĂ©es par lâĂ©quipe « SystĂšmes et RĂ©seaux » une grande partie des problĂšmes de sĂ©curitĂ© est couverte par les
experts en sĂ©curitĂ© du CCIN2P3 lâenvironnement des nĆuds de grille est cohĂ©rent avec les autres
machines du parc on dispose des outils de surveillance matériel et systÚmes pour les
nĆuds de la grille
â le stockage/transfert de donnĂ©es est gĂ©rĂ© par lâĂ©quipe « Stockage »
â le suivi des jobs « grille » est assurĂ© par lâĂ©quipe « Production »â une partie du support aux utilisateurs grille est pris en charge par
le « Support aux utilisateurs »
![Page 14: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/14.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 14
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (3)
âą Communiquer des alias plutĂŽt que des noms de machines pour les nĆuds de la grilleâ quand le M/W le permet (pb avec les CE)â quand le nom dâun nĆud entre dans la configuration dâautres
nĆuds de grillechangement transparent de machine lors de panne ou de mise Ă
jour de lâintergiciel
âą Lâutilisation dâune machine de rechange permet des mises Ă jour sans arrĂȘt de service (BDII, CE)â le nĆud de remplacement fraĂźchement mis Ă jour peut ĂȘtre
largement testĂ© avant son entrĂ©e en productionâ dans le cas dâun CE, on peut faire tourner 2 CE simultanĂ©ment
sans avoir Ă drainer le gestionnaire de jobs1.mise en production du nouveau CE2. fermeture de lâancien CE (il nâaccepte plus de nouveaux jobs)3.sortie de lâancien CE lorsque tous ses jobs sont finis
![Page 15: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/15.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 15
Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (4)
âą Lâinstallation partagĂ©e des WN/UI sur AFS faire lâinstallation pour lâensemble de la ferme sans altĂ©rer lâinstallation de chaque WN
pour Ă©viter de sortir les WN de production le temps de la mise Ă jourâą mise Ă jour de tous les WN en une fois
durée: un drainage de la ferme (24 à 48h selon les jobs en machine)⹠mise à jour par N lots de WN
durée: N x drainage des lots de WN (24 à 48h selon les jobs en machine)
de faire coexister diffĂ©rentes version de lâintergiciel pour les WN, mise en Ćuvre au niveau du CE dâun mĂ©canisme de sĂ©lection de la version du M/W Ă
utiliser pour un job changer de version à la volée par (re)configuration du CE
GLITE3.0.0
GLITE3.0.4
CE
WN WN WN WN WN WN WN WN
CE
WN WN WN WN WN WN WN WNAFS
![Page 16: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/16.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 16
Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (5)
âą Utilisation de systĂšme de « backup » pour les donnĂ©es contingentesâ la plupart des logs des noeuds de grille est dupliquĂ©e sur une machine
distante grùce au service « syslog ». Ils sont conservés 3 mois (durée définie par le projet)
â les Tags des VO (sur les CE) sont sauvĂ©s rĂ©guliĂšrement sur cette machine
â les softwares de VO sont dĂ©posĂ©s sur des volumes sauvegardĂ©s dâAFSâą Sâarmer pour une surveillance active
â NAGIOS (CA, CRL, site BDII, etc.)â LEMON (en cours de test)â outils « maison »
ex. : surveillance de lâĂ©volution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de dĂ©tecter des changements anormaux de frĂ©quentation du site.
âą Communiquer rapidement lors de la dĂ©tection de problĂšmeâ pour sâĂ©conomiser le traitement de tickets dâincidentâ pour sortir de production si besoin est
âą Collaborer avec dâautres sites pour rĂ©pliquer les services critiques
![Page 17: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/17.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 17
Conclusions
âą DĂ©ployer et gĂ©rer un site grille de production fait appel Ă plusieurs rĂŽlesâ administration RĂ©seaux et SystĂšmes, administration et exploitation de fermes
de calcul, administration et exploitation de serveurs de stockages, support aux utilisateurs et aux VO, administration de base de données, expert « grille »
âą Comprendre le middleware et son installation pourâ lâadapter Ă son infrastructureâ ĂȘtre rĂ©actif mais aussi proactif
« Etre proactif, câest faire des footings dĂšs septembre pour perdre les kilos quâon prendra aux fĂȘtes de fin dâannĂ©e. » [P. Girard, 2006]
prĂ©voir les pannes, les Ă©volutions possibles, et sâaffranchir tant que possible de dĂ©pendances externes
collaborer avec dâautres sites pour garantir la pĂ©rennitĂ© des services critiquesâą La stabilitĂ© du middleware sâest grandement amĂ©liorĂ©e
â lâeffet « production » contribue Ă cette stabilitĂ© la multiplication dâutilisateurs et de sites est la meilleure garantie dâune stabilitĂ© vite
retrouvĂ©e la mise en place dâune infrastructure opĂ©rationnelle
â elle repose encore sur une logique de « best effort » et de savoir-faire manque dâoutils dâadministrations (administrer nâest pas configurer) manque de documentation mais aussi trop dâinformation (mails, wikis, sites web, âŠ) devrait sâamĂ©liorer avec le nouveau middleware, lâutilisation de standard, et la
pression mise par les sites
![Page 18: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/18.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 18
Liens utiles
âą COD operatorsâ rotation sur les ROC pour fournir une Ă©quipe
dâopĂ©rateurs de surveillance (CIC On Duty)âą User support : GGUS
â https://gus.fzk.de/pages/home.phpâą Outils de monitoring
â CIC portal https://cic.in2p3.fr
âą point dâentrĂ©e sur les autres outilsâą vue intĂ©grĂ©e des autres outils Ă lâusage des COD
opĂ©rateursâ Service Availability Monitoring (SAM)
https://lcg-sam.cern.ch:8443/sam/sam.py
â Grid Operations Centre Core Database (GOCDB) https://goc.grid-support.ac.uk/gridsite/gocdb2
â GIIS monitor (Gstat) http://goc.grid.sinica.edu.tw/gstat
â GOC monitoring tools http://goc.grid-support.ac.uk/gridsite/monitoring/
â GOC job monitor http://gridportal.hep.ph.ic.ac.uk/rtm/
âą Accountingâ http://goc.grid-support.ac.uk/gridsite/accounting/
index.html
![Page 19: Les sites de calcul EGEE en France](https://reader035.vdocument.in/reader035/viewer/2022081603/568137ea550346895d9f9e07/html5/thumbnails/19.jpg)
Enabling Grids for E-sciencE
Tutorial CGG â 07-10/11/2006David Bouvet 19
Merci