grid.infn.it the infn grid project stato del tier-2 di catania roberto barbera...
TRANSCRIPT
grid.infn.it
The INFN Grid Project
Stato del Tier-2 di Catania
Roberto Barbera ([email protected])Università di Catania e INFNIncontro con i referee di INFN GridCatania, 08.09.2008
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 2
Enabling Grids for E-sciencE
Sommario
• Stato del Tier-2:– Logistica e servizi;– Consumi elettrici;– Prestazioni in termini di disponibilità ed affidabilità;– Analisi dei problemi e loro soluzioni;– Nuovo sistema di monitoraggio e statistiche di utilizzo;– Confronto tra accounting locale e HLRMon;
• Stato acquisti con fondi s.j. 2008;• Richieste su fondi s.j. 2009;• Impianto fotovoltaico;• Personale afferente al Tier-2;• Conclusioni.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 3
Enabling Grids for E-sciencE
Catania Computing Room (1/2)
3D Model of Catania Data Center
Full Area: ~200 m2
Area # 110 racks / 40 kW UPS/PDU
Area # 280 kW UPS/PDU
Area # 213 racks
Area # 280 kW Air Cond. with
~110 kW external chillerExternal 350 kVA Diesel
power generator
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 4
Enabling Grids for E-sciencE
Catania Computing Room (2/2)
Area # 2
Area # 1 Security system
Area # 2
Fire estinguisher system
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 5
Enabling Grids for E-sciencE
RACK
RACK
RACK
RACK
RACK
SE
SE
1 Gbps
4 Gbps 10 Gbps GARR
4507
4948
Catania Local Area Network
SAN
Area #1
Area #2
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 6
Enabling Grids for E-sciencE
“Panoptes” LAN Monitoring(basato su Nagios, NTOP, ecc.)
Autori: R. Catania, E. Giorgio, G. Passaro, G. Ricciardi, G. Sava
Esempio di sinergia Grid-Centro di Calcolo
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 7
Enabling Grids for E-sciencE
Consumi elettrici di Catania (INFN + COMETA)
Total energy consumption (kWh)
0
500000
1000000
1500000
2000000
2500000
03/0
4/200
6
06/0
6/200
6
02/1
0/200
6
20/1
2/200
6
06/0
2/200
'7
05/0
4/200
7
06/0
6/200
7
04/1
0/200
7
05/1
2/200
7
05/0
3/200
8
05/0
5/200
8
15/0
9/200
8
06/1
1/200
8
07/0
1/200
9
06/0
4/200
9
04/0
6/200
9
Date
kWh Cooling
CPU
Total cost (€)
0
50000
100000
150000
200000
250000
300000
350000
400000
03/0
4/200
6
06/0
6/200
6
02/1
0/200
6
20/1
2/200
6
06/0
2/200
'7
05/0
4/200
7
06/0
6/200
7
04/1
0/200
7
05/1
2/200
7
05/0
3/200
8
05/0
5/200
8
15/0
9/200
8
06/1
1/200
8
07/0
1/200
9
06/0
4/200
9
04/0
6/200
9
Date
Eu
ro Cooling
CPU
• Il consumo annuale è pari a ~115 k€;
• Esso è imputabile per il 60% all’INFN e per il 40% a COMETA
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 8
Enabling Grids for E-sciencEOrdine di spegnimento del Direttore
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 9
Enabling Grids for E-sciencE
CPU e kSI2K per VO a Catania
all alice cms theophys othersCPUs 423 209 88 36 106
KSI2000 716 313 211 64 142
active alice cms theophys othersCPUs 387 192 80 36 89
KSI2000 680 297 202 64 127
all aliceCPUs 152 152
KSI2000 258 258
active aliceCPUs 84 84
KSI2000 142 142
Sito di produzione INFN Grid Catania
Sito TriGrid di INFN Catania
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 10
Enabling Grids for E-sciencE
Risorse pledged per il 2009
297 1638
Da fine Maggio 2009 Catania ha ~18% dei kSI2K totali
~135 kSI2K hanno più di 4 anni !
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 11
Enabling Grids for E-sciencEProfilo d’età delle CPU
Età delle CPU - Sito di produzione
0
20
40
60
80
100
2001 2002 2003 2004 2005 2006 2007 2008 2009
Anno d'acquisto
Nu
me
ro d
i CP
U
CPU spente
CPU accese
Età delle CPU - Sito TriGrid_Catania
0
20
40
60
80
100
120
2001 2002 2003 2004 2005 2006 2007 2008 2009
Anno d'acquisto
Nu
me
ro d
i CP
U
CPU spente
CPU accese
Nessuna delle CPU di Catania è più giovane di 2 anni d’età!
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 12
Enabling Grids for E-sciencE
Statistiche dei job di ALICE (1/2)(prese da MonaLisa: 1/10/08-4/9/09)
Jobs ALICE a CataniaCT/(BA+CA+CYBERSAR+LNL+TO)
05
101520253035
ott-0
8no
v-08
dic-
08ge
n-09
feb-
09m
ar-0
9ap
r-09
mag
-09
giu-
09lu
g-09
ago-
09se
t-09
Tempo
Nu
mer
o d
i jo
bs
(%)
Running jobs
Done jobs
84.6%
La frazione di job running a Catania è proporzionale alla frazione di kSI2K.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 13
Enabling Grids for E-sciencE
9.4%
Statistiche dei job di ALICE (2/2)(prese da MonaLisa: 1/10/08-4/9/09)
21.5%
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 14
Enabling Grids for E-sciencE
Availability del T-2 di Catania
Availability = Uptime / (Total time - Time_status_was_UNKNOWN)
SLA = 70%
0102030405060708090
100
set-0
8
ott-0
8
nov-
08
dic-0
8
gen-
09
feb-
09
mar
-09
apr-0
9
mag
-09
giu-0
9
lug-0
9
ago-
09
set-0
9
ott-0
9
Tempo
Av
aila
bili
ty (
%)
SLA
DIP1 DIP2“DIP4”
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 15
Enabling Grids for E-sciencE
Reliability del T-2 di Catania
Reliability = Uptime / (Total time - Scheduled Downtime - Time_status_was_UNKNOWN)
SLA = 75%
0
20
40
60
80
100
ott-0
8
nov-
08
dic-0
8
gen-
09
feb-
09
mar
-09
apr-0
9
mag
-09
giu-0
9
lug-0
9
ago-
09
set-0
9
Tempo
Re
liab
ility
(%
)
SLA
DIP1 DIP2 DIP3“DIP4”
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 16
Enabling Grids for E-sciencE
DIP1 – Problemi all’SE (1/3)
• L’SE ALICE::Catania::DPM viene commissionato alla fine di Febbraio 2008;
• Dopo circa un mese di utilizzo:
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 17
Enabling Grids for E-sciencE
DIP1 – Problemi all’SE (2/3)
• All’inizio di Settembre 2008 l’SE contiene il 44.2% di tutta la produzione relativa a PDC08 ma si riempie completamente e diventa inutilizzabile per successive produzioni (il numero di job a Catania diminuisce);
• A metà Novembre 2008, dopo l’approvazione da parte del Consiglio Direttivo dello sblocco del s.j. 2007, viene indetta la gara per acquistare dello storage aggiuntivo;
• A Dicembre 2008 uno dei disk server dello storage si guasta e diminuisce l’availability del Tier-2 (il GRIS di sito comincia “a fare i capricci”);
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 18
Enabling Grids for E-sciencE
DIP1 – Problemi all’SE (2/3)
• A Gennaio 2009 viene consegnato lo storage aggiuntivo ma i driver giusti non sono disponibili per SL3 e passano alcune settimane per poterli avere e far partire l’operazione di “estendere” la partizione GPFS;
• Lo storage viene ricommissionato solo a fine Gennaio 2009 ma si riesce comunque ad avere il 5.3% di tutta la produzione PDC09 (che, in assoluto, è comunque 3 volte più grossa di PDC08);
• Meno file sull’SE di Catania comportano quindi anche meno job di analisi sul CE;
• Da allora, comunque, sorgono i problemi relativi all’interfaccia software tra DPM e xrootd, comuni anche agli altri grossi siti con molti accessi concorrenti.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 19
Enabling Grids for E-sciencE
DIP2 – Problemi al CE
• A fine Febbraio 2009 si decide, per omogeneizzare il LRMS del Tier-2 e di COMETA, di fare l’upgrade di LSF alla versione 7.0.3;
• Ciò ci ha fatto “incappare” nel bug 47245;
• Dopo innumerevoli test (con l’availability del T-2 che andava giù!) viene trovato un workaround “semi-automatico” che permette al CE di tornare a funzionare; il bug è stato ufficialmente chiuso solo il 19 Agosto 2009!!
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 20
Enabling Grids for E-sciencE
DIP3 – Riconfigurazione delle policy di scheduling (1/2)
• Dopo lo spegnimento di parte delle macchine, fatto a fine Maggio 2009, e le “critiche” ricevute nell’incontro del 12 Giugno 2009, viene decisa una nuova politica di allocazione delle risorse;
• Prima (uso della pre-emption per i job di ALICE e di OPS):
• La pre-emption libera immediatamente la CPU ma non la memoria e questo può portare a crash della macchina se il job sospeso ne occupava una grossa frazione;
• Inoltre, gli utenti possono stancarsi di vedere i loro job sospesi, cancellarli, e non voler più usare il Tier-2 di Catania.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 21
Enabling Grids for E-sciencE
DIP3 – Riconfigurazione delle policy di scheduling (2/2)
• Dopo (assegnazione fissa di core a code relative a VO):
– Un certo numero di cores sono stati assegnati in modo fisso ai job di ALICE mentre il resto è condiviso tra i job delle altre VO;
– In tal modo quando un job viene eseguito sul WN trova tutta la memoria libera.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 22
Enabling Grids for E-sciencE
“DIP4” – Problema all’impianto di raffreddamento dell’area #1
• Lunedì 3 Agosto 2009, alle 16.30 circa, l’intasamento di un filtro dell’impianto di condizionamento dell’area #1, unito al cedimento di una guarnizione di teflon, causa una grossa fuoriuscita d’acqua in sala macchine da un tubo ad alta pressione;
• Il sistema di controllo di APC manda l’allarme immediatamente ma, quando il personale interviene (~20’ dopo l’allarme), ci sono già parecchie centinaia di litri d’acqua per terra; si procede quindi all’arresto di emergenza dell’erogazione di energia elettrica;
• La sala macchine viene accuratamente asciugata ma l’incidente comporta un fermo imprevisto di 3 giorni. Alla riaccensione, nessun danno viene registrato all’infrastruttura.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 23
Enabling Grids for E-sciencE
Nuovo sito di monitoraggio del T-2 di Catania(http://grid.ct.infn.it/t2-monitoring)
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 24
Enabling Grids for E-sciencE
Statistiche di utilizzo (1/3)(monitor locale di LSF – ultimi 12 mesi)
Il Tier-2 di Catania è il sito di INFN Grid che supporta in assoluto più VO.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 25
Enabling Grids for E-sciencE
Statistiche di utilizzo (2/3)(monitor locale di LSF – ultimi 12 mesi)
• 114 anni di CPU in 1 anno;
• ~30% di efficienza;
• In linea con EGEE.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 26
Enabling Grids for E-sciencE
Statistiche di utilizzo (3/3)(monitor locale di LSF – ultimi 12 mesi)
È in corso un confro
nto tra i d
ati del m
onitorin
g locale e quelli
pubblicati da HLRMon.
Si vedano le successive tre slid
e.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 27
Enabling Grids for E-sciencEAnalisi dei dati pubblicati da HLRMon (1/3)
• Il calcolo dei grafici di WCT e CPT di HLRMon sono basati sul valore della variabile SI00Mean:– SI00Mean ≡
“GlueHostApplicationSoftwareRunTimeEnvironment: SI00MeanPerCPU“
• Osservazione #1: a rigore, SI00Mean andrebbe pubblicato per coda (cioè per CE) mentre invece è attualmente ammesso un valore unico per tutto il sito; ciò può inficiare i dati di accounting anche sensibilmente;
• Tenendo conto delle macchine accese/spente e, quindi, dei core (192) e dei kSI2K (297) disponibili per ALICE, il valore di SI00Mean per il Tier-2 di Catania è, ad oggi, 1547;
• Erroneamente, sul BDII era pubblicato il valore 2000 che è stato corretto;
• Osservazione #2: gli attuali valori di fondo scala di HLRMon non tengono conto di assegnazioni statiche di core a VO, come avviene sul Tier-2 di Catania, e quindi sono misleading.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 28
Enabling Grids for E-sciencE
Analisi dei dati pubblicati da HLRMon (2/3)(grafici aggiornati al 7/9/09)
kSI2K-day CPT per VO/dayLast 30 days
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 29
Enabling Grids for E-sciencE
Analisi dei dati pubblicati da HLRMon (3/3)(grafici aggiornati al 7/9/09)
kSI2K-day CPT per VO/monthLast year
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 30
Enabling Grids for E-sciencE
Sito TriGrid_Catania (1/2)
• Nel 2008 il sito TriGrid_Catania ha egregiamente contribuito alle produzioni di ALICE:
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 31
Enabling Grids for E-sciencE
Sito TriGrid_Catania (2/2)
• Per ragioni legate all’esecuzioni delle altre applicazioni del progetto TriGrid VL, la versione di gLite installata sul sito TriGrid_Catania è stata congelata e, ad un certo momento, una modifica di AliEn lo ha reso inutilizzabile;
• Da una certa versione, AliEn non supporta più il GRIS ma solo il BDII; in AliEn 2.17, rilasciata durante l’estate, S. Bagnasco ha generalizzato gli script allo scopo di consentire un supporto ai siti che usano ancora il GRIS;
• Adesso che il progetto TriGrid VL è terminato, il sito è sotto riconfigurazione per entrare a far parte di nuovo del Tier-2 di ALICE e si stat testando la patch della versione 2.17.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 32
Enabling Grids for E-sciencEStato acquisti fatti con fondi s.j. 2008
• Con i 96 k€ (IVA inclusa) del fondo s.j. 2008 sono stati acquistati:– N. 1 IBM DS4700 con 96 TB di spazio disco;– N. 2 server di front-end per GPFS IBM x3655;– N. 2 switch FC per SAN;– N. 1 switch CISCO 4948 10GE;
• L’hardware è stato tutto consegnato a fine Luglio 2009:– Lo storage è già in fase di installazione con GPFS+SToRM+
xrootd;– Lunedì 14 Settembre il CISCO 4948 verrà collegato a 10 Gb/s al
CISCO 4507 che funge da “border router”;– Maggiori dettagli saranno forniti durante la visita di oggi
pomeriggio.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 33
Enabling Grids for E-sciencERichieste su fondi s.j. 2009
• Sul fondo s.j. 2009 si richiedono a Catania 110 k€ per l’acquisto del seguente hardware:– 135 kSI2K di potenza di calcolo (17.5 k€);– 58 TB di storage (52.2 €);– 1 UPS Symmetra PX 48 kW (40 k€);
• L’acquisto dell’UPS si è reso necessario per potenziare l’area #1 della sala macchine e procedere ad un improcrastinabile riordino dell’hardware al fine di migliorare le performance di accesso ai dati:– Maggiori dettagli saranno forniti durante la visita di
oggi pomeriggio.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 34
Enabling Grids for E-sciencE
Impianto fotovoltaico (1/3)
• L’idea è quella di coprire il tetto del Dipartimento di Fisica e Astronomia con un campo fotovoltaico totalmente integrato:
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 35
Enabling Grids for E-sciencE
Impianto fotovoltaico (2/3)
• Superficie occupabile: ~2200 m2;
• Angolo di azimut rispetto al Sud: 26°;
• Valore di occupazione della superficie: 8.5 m2 per kWp;
• Potenza installata minima: 190 kWp– Perdite dovute agli ombreggiamenti: <6%;
• Producibilità minima: 1435 kWh/(kWp·anno) ossia poco più di 270 MWh/anno;
• Costo “chiavi in mano” stimato: 1 M€, oltre IVA.Calcoli effettuati con “Sole advanced 2.0” ed i dati di irraggiamento e le temperature medie mensili UNI10349.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 36
Enabling Grids for E-sciencE
Impianto fotovoltaico (3/3)
• È stato ultimato il progetto preliminare di massima;
• È stato definito un possibile capitolato d’appalto e sono stati informati sia la GE che gli Uffici competenti dell’AC dell’INFN;
• È stata richiesta all’Università di Catania la concessione di utilizzo per 25 anni del tetto del Dipartimento di Fisica e Astronomia; giusto ieri è giunta comunicazione ufficiosa dell’OK da parte dell’Ufficio Tecnico di UniCT.
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 37
Enabling Grids for E-sciencE
Personale afferente al Tier-2(non è ivi compreso il gruppo di ricerca)
• Personale permanente:
– Giuseppe Andronico (Tecnologo, responsabile del Centro di Calcolo, 30%).
– Roberto Barbera (P.A., responsabile del T-2, 50%);
– Patrizia Belluomo (CTER del Centro di Calcolo, 20%)
– Giuseppe Platania (CTER del Centro di Calcolo, 50%);
– Carlo Rocca (CTER del Centro di Calcolo, 20%);
– Giuseppe Sava (CTER del Centro di Calcolo, 20%);
• Personale a contratto:
– Salvatore Monforte (Art.23 fino al 31.12.2009, stabilizzando, 50%);
– Rosanna Catania (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%);
– Elisa Ingrà (Borsista INFN fino al 31.10.2009, 50%);
– Gianluca Passaro (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%);
– Alberto Pulvirenti (Ass. Ric., 30%);
– Andrea Cortellese (Borsista INFN da 11/2009 per 2 anni, 20%);
– Fabrizio Pistagna (Borsista INFN da 11/2009 per 2 anni, 20%);
– Riccardo Rotondo (Borsista INFN da 11/2009 per 2 anni, 20%)
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 38
Enabling Grids for E-sciencE
Conclusioni (1/2)
• Il Tier-2 di Catania è il sito di INFN Grid che supporta più VO;
• Tra queste, ALICE non è quella che ha il modello di calcolo più semplice e scalabile (es.: una VObox per cluster!);
• Le “prestazioni” del Tier-2 di Catania sono proporzionali alle risorse di calcolo in esso disponibili ed al loro grado di obsolescenza;
• Le cause di alcuni problemi di affidabilità e disponibilità avuti nel corso del 2009 sono state individuate ed analizzate: in molti casi non sono riconducibili a problemi locali ma piuttosto a deficienze del middleware; soluzioni efficaci sono state trovate in tutti i casi nei più brevi tempi possibili;
• Le statistiche di utilizzo basate sul sistema di monitoring ed accounting locale sono in contrasto con quanto pubblicato da HLRMon: alcune cause sono state individuate ed è in corso un’analisi puntuale delle discrepanze;
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 39
Enabling Grids for E-sciencE
Conclusioni (2/2)
• Gli acquisti fatti con i fondi del s.j. 2008 sono stati effettuati e l’hardware è in fase avanzata di commissioning;
• Le richieste sui fondi s.j. 2009 sono in linea sia con le necessità dell’Esperimento che con quelle della sede locale; un Tier-2 non può considerarsi a costo zero “sine die”;
• Il personale permanente afferente al Tier-2 andrebbe potenziato; è urgente l’assegnazione a Catania di almeno un’unità di personale con contratto a tempo indeterminato (attualmente si può contare sul 50% di un Art. 23 “stabilizzabile”);
• L’impianto fotovoltaico è stato definito ma, quando verrà realizzato, non rappresenterebbe la panacea in quanto potrà coprire poco meno dei costi attuali legati ai consumi elettrici;
• Senza un apporto finanziario esplicito e costante da parte dell’INFN, il Tier-2 di Catania è da considerarsi “a crescita zero” – (a meno degli sviluppi tecnologici riguardanti l’aumento di potenza
di calcolo delle CPU a parità di potenza elettrica consumata).
Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 40
Enabling Grids for E-sciencE
Thank you very much! Any Questions ?