space systems dependability the hybrid (modelling) necessitybusiness . ladc-2011, são josé dos...
TRANSCRIPT
Space Systems DependabilityThe hybrid (modelling) necessity
Jean-Paul Blanquart
ASTRIUM Satellites
5th Latin-American Symposium on Dependable Computing
INPE, São José dos Campos, Brazil, April 25-29, 2011
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Outline� A few words about EADS, Astrium, …
� Dependability in space� Constraints, needs, solutions, achievements
� Dependability (FDIR) process
� Model Based Dependability� Engineering, Assessment
� Why it may become so complicated?
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
EADSEuropean Aeronautic Defense and Space
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Astrium
Astrium is a global
space industry leader,
with world-class
expertise and extensive
prime contractorship
experience across all
sectors of the space
business
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
3 Key domains
Astrium Services
AstriumSatellites
Astrium Space Transportation
The European prime contractor
for civil and military space transportation and manned
space activities
A world leader in the design
and manufacture of
satellite systems
At the forefront of satellite services
in the secure communications,
Earth observation and navigation fields
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Outline� A few words about EADS, Astrium, …
� Dependability in space� Constraints, needs, solutions, achievements
� Dependability (FDIR) process
� Model Based Dependability� Engineering, Assessment
� Why it may become so complicated?
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Space systems: Constraints� Limited mass, power
� Limited ground-board link
� Limited maintenance
� Radiations
� Knowledge, mastering of the environment
� Phased missions, critical parts
� Long lifetime
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
A large variety of dependability needs� Reliability
� Lifetime (satellites, space probes)� Continuity of service (launchers, rendez-vous, re-entry)
� Availability� Instantaneous (satellite, probes critical phases, launchers)� Average (Mission return)� Outage duration, frequency (critical or expensive services)
� Maintainability, adaptation (reconfiguration, software, procedures)
� Safety (Launchers, manned flights, rendez-vous, end of life)
� Security
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Solutions, basic principles� Selective redundancy, hot or more often cold
duplex� Some notable examples of comparison and vote
� Automatic detection and reconfiguration (FDIR)
� Safe mode
� “Favourite” adversaries� Single point of failures, common cause failures, failure
propagation� Unpredicted situations, lack of observability, controllability
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Classical satellite architecture
SCU A
SCU B
SunSensor
sensor
TM
TC
TM
TC
ADE 4ADE 4PPUPPU MW-XMW-X
Ires
Gyp
GPSGPS
PSRPSR
OtherOtherRIURIU
RemoteRemoteComputerComputer
Mil-STD 1553B bus
typically 1 or 2Interface payload
CPSCPS
Ion thrusters
MechanismsMechanismsBatteries
SolarArrays
SADM
2*7 Thrusters
PIUPIUPIUPIU
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Computer failure (cold duplex)
Nœud Nœud(off)
Mémoire
MRE
Senseur
Actuateur
contexte
autotests autotests
commutatio
on/off
PrésenceTerre
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Launcher (Ariane 5)
Hot-Duplex,semi-cross-strapped,one-shot
+ Safety
(nominal)
Remote unit 1 (backup)
SdC (Mil. Std. 1553B)
OBC1 (Master)
OBC2 (Backup)
Umbilical to launchpad
inter-computers alarm link
(backup)
Remote unit 1
Remote unit n
Remote unit n
(nominal)
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Manned automatic vehicles (projects)
BFout2
Reset / Alimentation
1553
TM1
BFout1
TM2
Alimentation
BC
Bfin BFin
USRRT/OBS
Reset / Alimentation
OBC 2RT/OBS
OBC 1Contexte / RepriseContrôle commande
IPN
GNC2 Bus GNC3 Bus GNC4 Bus
Communication Busses
GNC2
BC
RT
IPC
GNC3
BC
RT
IPC
NAPMIOP
GNC4
BAP
RT
SIORPBC IPC
RT
GNC1 Bus
GNC1
BC
RT
IPC
RT RTRT
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
ATV (Automatic Transfer Vehicle)
Rendez-vousSensors
SENSORS ACTUATORS
VTC CMU
FTC 1
ATV CORE
SYSTEM BUSES
RUSSIAN SEGMENT BUSES
FTC 2 FTC 3
US SEGMENT BUSES
CMU
Launch Pad i/f BUSES
CMU
EquipmentMeasurement & Command
MSU
ATVCARGO
PropulsionDrive
ElectronicsGyros Earth
Sensors
GPSPowerDistr.
UHFSBand
SunSensors
to CMUs
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
ATV Fault Tolerant Computer
DPU2
ALB
Bus A
Avionics System Bus B
Avionics System Bus C
Avionics System Bus D
Avionics System
FML
AVIDPU3
DPU4DPU1
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
And it works…� Launchers
� Satellites� “~10-6/h” 2xlifetime, 90%>� But:
� Launch: 6-7%� In-orbit installation: 4-5%� Early phase: 1.5 10-6/h� Life: 0.5 10-6/h
20.030.040.050.060.070.080.090.0
100.0
1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005
Succ
ess r
ate
Launches 10 year mean Mean (90.7%)
20%
20%
22%
25%
4%9%
Propulsion
Command
Mechanical
Power
Deployment
Environment
39%
29%
6%
3%
13%
10%Propulsion
Command
Structure
Power
Separation
Explosion
Indicative values, from public data (up to 2005)
No pretention as strongly substantiated statistics
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Outline� A few words about EADS, Astrium, …
� Dependability in space� Constraints, needs, solutions, achievements
� Dependability (FDIR) process
� Model Based Dependability� Engineering, Assessment
� Why it may become so complicated?
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Dependability process (FDIR)
NORMAL MODENORMAL MODE SAFE MODESAFE MODEDRU
PM_x
TX_A
IF_1553 - CV_DRU_y MSI_y
IOS_y
MTQ_y RS_yMAG_y CSS_y TH_pf_y
TH/Rech_cuGS
Batterie
1553_int
1553_cu
AlimentationRech_pf_y
IOT_y
OBMU
TTR_BDCU_B
DCU_ARX_A
RX_B
TTR_A
TX_B
TX_B
TX_A
Events �HW ? SW ? GCC ?
FDIR• REQUIREMENTS• ARCHITECTURE• Modes versus “failures”• HIERARCHY• FD/I/R Management
Events �SW ?GCC?
Events �HW ?SW ?GCC?
REQUIREMENTS• One Failure tolerant design• R(t) ≥ 0,8• D(t) ≥ 0,99• Autonomy …• …
REQUIREMENTS• One Failure tolerant design• R(t) ≥ 0,8• D(t) ≥ 0,99• Autonomy …• …
Failures Management- DETECTIONHow ? Which parameters ? Frequency ?...- ISOLATIONProtections, Time to react ?...- RECOVERYWhich actions ? Who executes ? …
Failures Management- DETECTIONHow ? Which parameters ? Frequency ?...- ISOLATIONProtections, Time to react ?...- RECOVERYWhich actions ? Who executes ? …
Events �HW ? SW ? GCE ?
THERMTHERM
Légende :: Instrument: TMCU: Thermique: Alimentation: Commande-contrôle: SCAO
Légende :: Instrument: TMCU: Thermique: Alimentation: Commande-contrôle: SCAO
FOGFOGFOGFOGFOGFOG
MIL-STD-1553-B
HR TMI
MIL-STD-1553-B
THERMTHERM
RECHRECHRECHRECH
THERMTHERM
FOG-O
CMG-M
REFT 8 Hz
REFT1 Hz
REFT8 Hz
REFT32 Hz
X
OBTUROBTUR
MACMACMACMACMTQMTQ
BATTERIEBATTERIE
Déploiements
Voie RVoie N
RECHRECHRECHRECH
GS
THERMTHERMTHERMTHERM
CMG-ECMG-E FOG-EFOG-E
Récepteur
OM
UX
S
CHIFFREURCHIFFREUR
DRUDRU
SSTSST
STR-O
ESSTESSTSTR-ESTR-E
DECHIFFREUR
Emetteur
COMPRESSEURMEMOIRE
COMPRESSEURMEMOIRE
Alim_EPAlim_EP
PFPF
MSIMSI
EPEP
VHF
BDR DORISBDR DORIS
OBMUOBMU
S
S
S
S
PROPU
STR-O STR-O
CMG-M
CMG-M
CMG-M
TWTTWT
EPCEPC
MODULATEURMODULATEUR
TWTTWT
EPCEPC
MODULATEURMODULATEUR
TWTTWT
EPCEPC
MODULATEURMODULATEUR
FCV
LVPT
PT
CBH
MAGMAG
CSSCSS
RWRW
GCC: Ground Control Centre
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
FDIR analysis
RAMS_101 « An electrical protection shall protect the spacecraft from any short-circuit down-stream »RAMS_101 « An electrical protection shall protect the spacecraft from any short-circuit down-stream »
NORMAL MODENORMAL MODE
REQUIREMENTS
STRATEGY
DESIGN
Eqt BF FM Fonction Dysfonctionnement Effet Local Effets système N A Recommandations TM Maîtrise G C Remarques
3 1 1 CTA_BUS_RECH -Activer les réchauffeurs du contrôle thermique
c/o réchauffeur Absence activation d'un réchauffeur
Fonction contrôle thermique erronéePoinst localements froids (6 lignes affectées)LVC#XX : Comparaison mesure-commandeProcédure LVC : SYS_AROPassage en mode SAT_SAFDisponibilité affectée
T° ligne i 2= SURVEILLANCELVC#XX : Comparaison mesure-commande
3= SOLPossibilité d'utiliser la carte RECH_B
1 R SUR C= la surveillance comporte un seuil haut et un seuil basC= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2)
3 1 2 CTA_BUS_BUS_RECH -Activer les réchauffeurs du contrôle thermique
c/c réchauffeur MEO protection électrique PCDU LCL groupe de 6pertes de 6 réchauffeurs
Fonction contrôle thermique erronéePoinst localements froids (6 lignes affectées)LVC#XX : Comparaison mesure-commandeProcédure LVC : SYS_AROPassage en mode SAT_SAFDisponibilité affectée
T° ligne i, j, k …
2= SURVEILLANCELVC#49 : Comparaison mesure-commande
3= SOLPossibilité d'utiliser la carte RECH_B
1 R SUR C= la surveillance comporte un seuil haut et un seuil basC= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2)
4 1 1 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique
Informations capteurs erronées (ES_A)
Paramètres Thermistances erronés voie A ou voie B
Aucun effet au permier ordreVote majoritaire
R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectéesR= Statuer sur programmation du CTA en mode survie
T° ligne i 1= PROTECTIONVote majoritaire (2/3)
1 R P C= ES_A reçoit TH_A, TH_CC= ES_B reçoit TH_BC= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes
4 1 2 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique
Informations capteurs erronées (ES_B)
Paramètres Thermistances erronés voie A
Aucun effet au permier ordreVote majoritaire
R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectéesR= Statuer sur programmation du CTA en mode survie
T° ligne i 1= PROTECTIONVote majoritaire (2/3)
1 R P C= ES_A reçoit TH_A, TH_CC= ES_B reçoit TH_BC= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes
6 1 1 MAGNETOMETRE -Mesurer le champ magnétique terrestre sur les 3 axes Bx, By, Bz
Acquisitions magnétomètre bloquées Bx, By, Bz (0, …)
Mesures champ magnétique inutilisables
SAT_NOM: Magnétomètre n/uLVC#XX : Sorties MAG bloquéesErreur reportASH : Bx, By, Bz pour calcul loi Bpointperte des fonctions : Mesures de champ magnétiqueMode ASH erronéNon convergence STABLVC#XX : Sorties MAG bloquéesProcédure LVC : SYS_AROPass
X MNL: Erreur reportASH: Reconfiguration automatiqueSURVIE
2= ERREUR REPORTLVC#XX : Sorties MAG bloquées
ACQUISITION/ASH2= SYS_AROLVC#XX : Sorties MAG bloquées
3 R C= Magnétomètre utilisé uniquement en mode ASH (survie et première acquisition)C= Magnétomètre redondéC= surveillance magnétomètre entraîne erreur report en MNL (information sol uniquement)
���
�������
�������
������ �
SAFE MODESAFE MODEDRU
PM_x
TX_A
IF_1553 - CV_DRU_y MSI_y
IOS_y
MTQ_y RS_yMAG_y CSS_y TH_pf_y
TH/Rech_cuGS
Batterie
1553_int
1553_cu
AlimentationRech_pf_y
IOT_y
OBMU
TTR_BDCU_B
DCU_ARX_A
RX_B
TTR_A
TX_B
TX_B
TX_A
FDIR
TC
RAMS_001 « Every failure likely to propagate shall be detected in appropriate time in order
to avoid propagation to another reliability block (as defined in teh reliability block diagram) »
RAMS_001 « Every failure likely to propagate shall be detected in appropriate time in order
to avoid propagation to another reliability block (as defined in teh reliability block diagram) »
RAMS_051 « Every failure with criticality 1 shall trigger a safe mode »RAMS_051 « Every failure with criticality 1 shall trigger a safe mode »
F / D / I / R
RAMS_151 « In order to detect ASH control failure during stabilization phase, the OBSW shall monitor the duration of the stabilization phase. Triggering of this surveillance shall lead to ARO. (URD.AOCS.ASH.FDIR.0100)
RAMS_151 « In order to detect ASH control failure during stabilization phase, the OBSW shall monitor the duration of the stabilization phase. Triggering of this surveillance shall lead to ARO. (URD.AOCS.ASH.FDIR.0100)
V&V
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
FDIR lifecycleSystem Specification• Lifetime• Reliability target• Availability target• Failure events• Autonomy• Failure tolerance level• design rules• …
FDIR POLICY• Redundancy• Architecture• FDIR Management• Operational Modes• Feared Events
FDIR POLICY• Redundancy• Architecture• FDIR Management• Operational Modes• Feared Events
MONITORING / RECOVERY• SSS / SRS (SW) inputs• System database inputs
MONITORING / RECOVERY• SSS / SRS (SW) inputs• System database inputs
FunctionalAnalysis
FunctionalAnalysis
RiskAnalysis
RiskAnalysis
FMECA_1(Functional)FMECA_1
(Functional)
FMECA_2(Detailed)FMECA_2(Detailed)
FDIR REPORT• FDIR design• …
FDIR REPORT• FDIR design• …
SW DESIGN• Design ReportSW DESIGN• Design Report
Sub’s SPECIFICATION• Failure tolerance• …
Sub’s SPECIFICATION• Failure tolerance•• ……
FDIR VERIFICATION• FDIR Report 1 • REVIEWS
FDIR VERIFICATION• FDIR Report 1 • REVIEWS
FDIR TESTING• Test SpécificationsFDIR TESTING• Test Spécifications
Sub’s DESIGN• Monitoring • FMECA
Sub’s DESIGN• Monitoring • FMECA
FDIR DESIGN• FDIR Policy (detailed) • Monitoring• Recovery• Requirements
FDIR DESIGN• FDIR Policy (detailed) • Monitoring• Recovery• Requirements
ContingencyAnalysis
ContingencyAnalysis
FMECA_3(HSIA)
FMECA_3(HSIA)
FMECA_4(consolidated)
FMECA_4(consolidated)
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Outline� A few words about EADS, Astrium, …
� Dependability in space� Constraints, needs, solutions, achievements
� Dependability (FDIR) process
� Model Based Dependability� Engineering, Assessment
� Why it may become so complicated?
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Types of models (for dependability)determined by the objectives
� Quantitative (probabilistic) analysis of RAMS properties� Modelling the impact of faults/failures on the level of performance
Markov, RBD, …� Qualitative analysis of faults/failures propagation
� Modelling the impact and propagation of faults/failures on on the architecture (physical, functional, …)Structural models, AADL, …
� Assessment (correctness, performance) of FDIR� Modelling the behaviour of the FDIR
State machines, temporised automata, model-checking, …� Soundness, completeness of the safety, dependability arguments
� Modelling the dependability and safety argumentationLogical formulas, GSN, …
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Main types of dependability models
� Behaviour (in presence of faults)� Needs for an appropriate abstraction of the behaviour� Behaviour of the system (functional, « dys-functional »)� Behaviour of the fault processing mechanisms� Assembly of functional blocks (on, off, failed, …)
� Architecture and fault propagation� Explicit representation of fault propagation, with an abstraction of
the behaviour
� Coupling behavioural and structural models� At least for FDIR mechanisms� Impact of faults on behaviour� Impact of reconfigurations on behaviour
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Quite an old story
Mu
Mu
Mu
CommandLoss
2.8 1e-9
Prim. CommandLoss
Sec. CommandLoss
gonio1Loss1e-4
sun1Loss1e-4
sun2Loss1e-4
gonio2Loss1e-4
gyro1Loss1e-4
node myComponentflowoutput : {nominal , failed} : out ;
statestatus : {nominal , failed} ;
eventfail;
initstatus := nominal ;
transstatus=nominal | � fail �> status := failed ;
assertoutput=status ;
node myComponentflowoutput : {nominal , failed} : out ;
statestatus : {nominal , failed} ;
eventfail;
initstatus := nominal ;
transstatus=nominal | � fail �> status := failed ;
assertoutput=status ;
Eqt BF FM Fonction Dysfonctionnement Effet Local Effets système N A Recommandations TM Maîtrise G C Remarques
3 1 1 CTA_BUS_RECH -Activer les réchauffeurs du contrôle thermique
c/o réchauffeur Absence activation d'un réchauffeur
Fonction contrôle thermique erronéePoinst localements froids (6 lignes affectées)LVC#XX : Comparaison mesure-commandeProcédure LVC : SYS_AROPassage en mode SAT_SAFDisponibilité affectée
T° ligne i 2= SURVEILLANCELVC#XX : Comparaison mesure-commande
3= SOLPossibilité d'utiliser la carte RECH_B
1 R SUR C= la surveillance comporte un seuil haut et un seuil basC= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2)
3 1 2 CTA_BUS_BUS_RECH -Activer les réchauffeurs du contrôle thermique
c/c réchauffeur MEO protection électrique PCDU LCL groupe de 6pertes de 6 réchauffeurs
Fonction contrôle thermique erronéePoinst localements froids (6 lignes affectées)LVC#XX : Comparaison mesure-commandeProcédure LVC : SYS_AROPassage en mode SAT_SAFDisponibilité affectée
T° ligne i, j, k …
2= SURVEILLANCELVC#49 : Comparaison mesure-commande
3= SOLPossibilité d'utiliser la carte RECH_B
1 R SUR C= la surveillance comporte un seuil haut et un seuil basC= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2)
4 1 1 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique
Informations capteurs erronées (ES_A)
Paramètres Thermistances erronés voie A ou voie B
Aucun effet au permier ordreVote majoritaire
R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectéesR= Statuer sur programmation du CTA en mode survie
T° ligne i 1= PROTECTIONVote majoritaire (2/3)
1 R P C= ES_A reçoit TH_A, TH_CC= ES_B reçoit TH_BC= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes
4 1 2 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique
Informations capteurs erronées (ES_B)
Paramètres Thermistances erronés voie A
Aucun effet au permier ordreVote majoritaire
R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectéesR= Statuer sur programmation du CTA en mode survie
T° ligne i 1= PROTECTIONVote majoritaire (2/3)
1 R P C= ES_A reçoit TH_A, TH_CC= ES_B reçoit TH_BC= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes
6 1 1 MAGNETOMETRE -Mesurer le champ magnétique terrestre sur les 3 axes Bx, By, Bz
Acquisitions magnétomètre bloquées Bx, By, Bz (0, …)
Mesures champ magnétique inutilisables
SAT_NOM: Magnétomètre n/uLVC#XX : Sorties MAG bloquéesErreur reportASH : Bx, By, Bz pour calcul loi Bpointperte des fonctions : Mesures de champ magnétiqueMode ASH erronéNon convergence STABLVC#XX : Sorties MAG bloquéesProcédure LVC : SYS_AROPass
X MNL: Erreur reportASH: Reconfiguration automatiqueSURVIE
2= ERREUR REPORTLVC#XX : Sorties MAG bloquées
ACQUISITION/ASH2= SYS_AROLVC#XX : Sorties MAG bloquées
3 R C= Magnétomètre utilisé uniquement en mode ASH (survie et première acquisition)C= Magnétomètre redondéC= surveillance magnétomètre entraîne erreur report en MNL (information sol uniquement)
Eqt BF FM Fonction Dysfonctionnement Effet Local Effets système N A Recommandations TM Maîtrise G C Remarques
3 1 1 CTA_BUS_RECH -Activer les réchauffeurs du contrôle thermique
c/o réchauffeur Absence activation d'un réchauffeur
Fonction contrôle thermique erronéePoinst localements froids (6 lignes affectées)LVC#XX : Comparaison mesure-commandeProcédure LVC : SYS_AROPassage en mode SAT_SAFDisponibilité affectée
T° ligne i 2= SURVEILLANCELVC#XX : Comparaison mesure-commande
3= SOLPossibilité d'utiliser la carte RECH_B
1 R SUR C= la surveillance comporte un seuil haut et un seuil basC= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2)
3 1 2 CTA_BUS_BUS_RECH -Activer les réchauffeurs du contrôle thermique
c/c réchauffeur MEO protection électrique PCDU LCL groupe de 6pertes de 6 réchauffeurs
Fonction contrôle thermique erronéePoinst localements froids (6 lignes affectées)LVC#XX : Comparaison mesure-commandeProcédure LVC : SYS_AROPassage en mode SAT_SAFDisponibilité affectée
T° ligne i, j, k …
2= SURVEILLANCELVC#49 : Comparaison mesure-commande
3= SOLPossibilité d'utiliser la carte RECH_B
1 R SUR C= la surveillance comporte un seuil haut et un seuil basC= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2)
4 1 1 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique
Informations capteurs erronées (ES_A)
Paramètres Thermistances erronés voie A ou voie B
Aucun effet au permier ordreVote majoritaire
R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectéesR= Statuer sur programmation du CTA en mode survie
T° ligne i 1= PROTECTIONVote majoritaire (2/3)
1 R P C= ES_A reçoit TH_A, TH_CC= ES_B reçoit TH_BC= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes
4 1 2 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique
Informations capteurs erronées (ES_B)
Paramètres Thermistances erronés voie A
Aucun effet au permier ordreVote majoritaire
R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectéesR= Statuer sur programmation du CTA en mode survie
T° ligne i 1= PROTECTIONVote majoritaire (2/3)
1 R P C= ES_A reçoit TH_A, TH_CC= ES_B reçoit TH_BC= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes
6 1 1 MAGNETOMETRE -Mesurer le champ magnétique terrestre sur les 3 axes Bx, By, Bz
Acquisitions magnétomètre bloquées Bx, By, Bz (0, …)
Mesures champ magnétique inutilisables
SAT_NOM: Magnétomètre n/uLVC#XX : Sorties MAG bloquéesErreur reportASH : Bx, By, Bz pour calcul loi Bpointperte des fonctions : Mesures de champ magnétiqueMode ASH erronéNon convergence STABLVC#XX : Sorties MAG bloquéesProcédure LVC : SYS_AROPass
X MNL: Erreur reportASH: Reconfiguration automatiqueSURVIE
2= ERREUR REPORTLVC#XX : Sorties MAG bloquées
ACQUISITION/ASH2= SYS_AROLVC#XX : Sorties MAG bloquées
3 R C= Magnétomètre utilisé uniquement en mode ASH (survie et première acquisition)C= Magnétomètre redondéC= surveillance magnétomètre entraîne erreur report en MNL (information sol uniquement)
Fault Trees
Markov Chains
AltaRica
GSPNAADL
Cf. Ana-Elena Rugina PhD, 2007
with limitations and solutions
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Main advantages� Support to model creation, discussion, validation
� Additional capabilities (property validation, …)
� Easier updates
� Coupling with other models
� Could/should we go further?� What about correctness of
fault tolerance mechanisms?
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Objectives & Constraints
�Define a modelling technique
� Express faults and failures propagation
� Specify Fault, Detection, Isolation and Recovery mechanisms
�Demonstrate properties on Dependability/FDIR
�Appropriate modelling languages & tools
Need: Model the system dynamics in the presence of faults
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Requirements on modelling techniques (1/2)
��������
�����
��������
�����
�� �
Detect
� Functional dependencies
� Deployment on resources
�� �
Recover
Recover Detect
Delegate
��������
�����
� Spread FDIR functions
� FDIR Hierarchy
Functional & Dysfunctional time constraints
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Requirements on modelling techniques (2/2)
� Functional dependencies
� Deployment on resources
� Spread FDIR functions
� FDIR Hierarchy
� Time constraints
Validation objectives• Demonstration
Design objectives• Simple (compositional) modelling method• Close to the engineering model
TransformationTimed automata
(UPPAAL)
Architecture/Behaviour (AADL)
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Modelling method – Dependability pattern
Fault
Error Failure
Nominal mode
Transient/ Permanent event
alteration
firing
Fault
Recovery
FAULT MODELS
FAULT PROPAGATION MODELS
Nominal mode
Nominal mode
Failure mode
idle recovery
Confirmation
Nominal mode
Failure modeFailure mode
Recovery
Degradation
detection recovery
FDIR MODELS
FAILURE MODELS
Degradedmode
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Modelling method
��
�� �
��
��
�� �
���
��
�� �
��
�� �� � �� �� �� � ��
F1 : total loss of computing power
=> {resource/processor/computing/…}
f4: => {resource/processor/computing/…}
f1 : CPU internal fault
=> {resource/ processor/ computing/…}
F4 :Data1 absent
=> {Data/ absent/…}
FDIR
���
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Model transformation
AADL metamodel(.ecore)
AADL behavior annex metamodel (.ecore)
UPPAAL metamodel(.ecore)
AADL model (.xmi)
UPPAAL model (.xmi)UPPAAL
configuration (.xml)
Kermeta programTransformation
rules Transformation Generation
<<conforms to>>
<<conforms to>>
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Model reduction – fault isolation
��
�� �
��� ��� ���
��
�� �
���
��
�� �
��� ���
��
�� �
��� ��� ���
���
�� �
���
��� ��� ���
�� �
���
��� ���
��� �� �
���
���
Device 1 Device 2 Device 4 Device 5
�� �
�� �
<<monitoring>>
���������
��� ���������� ��� ���������
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Model reduction – Step by step validation
�� �� � �� �� �� � ��
�� �
<<monitoring>>
�� � ��� �!
"#�� ����$ "#�� ����$ %��&��
��������
"���� $ "���$ "���� $ "���$
Find the earliest t such that
��������
�������� "#�� ����$"���� $ "���$
�� �� � ��
It is true at t
�� �� � ��
����������������
��������
"�����$"�����$"�����$
%��&�
Find the earliest t1 such that
�� � �� �
<<monitoring>>�� �
Find the latest t2 such that
��������
����� � ��� � ���� ��
Slowest recovery time(t2) < Fastest propagation time(t1)
��
��������
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
To summarize…�Systematic modelling method for dependability and FDIR
� Compositional (dependability pattern) � Incremental (functional, dependability and FDIR layers)� Extensible (enhancement of deduced propagation paths)� Demonstrable (model simulation and model checking) � Complex propagation, common mode faults, external events, …
�Method improvements � Model reduction techniques, possibly resolution techniques� Complete libraries (fault models, failure modes, propagation rules)
� Integration into company’s processes � Articulation of FDIR, Dependability, Engineering processes� Place of simulation, formal validation� Tools, methods benchmarking, training
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Outline� A few words about EADS, Astrium, …
� Dependability in space� Constraints, needs, solutions, achievements
� Dependability (FDIR) process
� Model Based Dependability� Engineering, Assessment
� Why it may become so complicated?
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Hybrid models� Structure / Behaviour
� Behaviour: Discrete logic + continuous� Decoupling possible but based on a priori hypotheses which
must be validated, cannot be exhaustive, hardly systematic and anyway limited by the actual interactions
� Interest of coupling, integrating models� Limitations of current tools and even theoretical
framework to support comprehensive and accurate simulations… and even more proofs
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Why we need at least time(s)� Explicitly used by FDIR mechanisms (implicit
coupling, enforcement of the desired organisation, sequencing, hierarchy)
� Sort of “pivot” notion between the discrete logics and the continuous physical phenomena
� Explicit incorporation of the temporal characteristics of failures
� Transient, intermittent…� Possibly some other interesting though speculative ideas
about time and failures
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
Time and failures� Notion of resistance, during some time, to faults
� Explicit property in security� Less usual though possibly interesting for accidental faults� See also the built-in resistance to exceptional environmental
conditions
� Notion of “trajectory of failures”� “Mortal Byzantine”, cf. Josef Widder, Martin Biely, Günther
Griddling, Bettina Weiss, TU Wien, DSN 2007
� Notion of safety margin for dynamic systems� On-going PhD by Amina Mekki-Mokhtar (LAAS-CNRS,
Toulouse, Supervised by D. Powell, J. Guiochet)
LADC-2011, São José dos Campos, Brazil, April 25-29, 2011
It is a long way to space
No source of failureshould be overlooked
Factory,
Road…
Space Systems DependabilityThe hybrid (modelling) necessity
Jean-Paul Blanquart
ASTRIUM Satellites
5th Latin-American Symposium on Dependable Computing
INPE, São José dos Campos, Brazil, April 25-29, 2011