caractérisation de l’incertitude de la concentration au ... · censored environmental data using...
TRANSCRIPT
Caractérisation de l’incertitude de la concentration au point d’exposition basée sur des données censurées à
gauche
1
Niloofar Shoari Doctorante
Jean-Sébastien Dubé, Ph. D Département de génie de la construction
Le 27 avril 2016 Montréal, Canada
Limite de détection maximale = 1,3
Que sont les données censurées à gauche?
2
Données de concentration en As <0,7, <0,7, <0,7, <0,9, <0,9, <1,3, <1,3, 1,8, 2,1, 2,2, …, 13, 14, 14, 14, 15, 18, 19, 21, 24
24 18 12 6 0
20
15
10
5
0
Concentration en As (mg/kg)
Fréq
uenc
e
Les observations censurées à gauche sont de véritables données
3
<LD
L’incertitude des données vient de différentes sources
4
! Incertitude relative à l’échantillonnage. Par exemple, l’hétérogénéité inhérente, la collecte inadéquate des échantillons ou leur mauvaise manipulation (en dehors de la portée) ! Incertitude analytique (en dehors de la portée) ! Incertitude quant à la gestion des données : l’incertitude reliée aux ensembles de données et l’importance des statistiques entrent en jeu
Différentes sources d’incertitude
5
Échantillonnage Analyse Gestion des données
Échantillon pris sur le terrain
Échantillonnage
Sous-échantillon
www.greenskeeperlawncare.com
Analyse en laboratoire
Méthodes d’estimation de la CPE selon les données censurées à gauche
6
! La méthode de substitution (p. ex. LD/2)
! La méthode Kaplan-Meier (K-M) o Non paramétrique : pas besoin d’assumer une distribution paramétrique
pour les données de concentration
! La méthode du maximum de vraisemblance (MLE) o Paramétrique : hypothèse de distribution paramétrique
o Lognormal, Weibull et gamma
! La régression de statistiques d’ordre (ROS) o Hypothèse de distribution paramétrique pour les données non censurées et
prédiction des valeurs censurées
o rROS(lognormal), GROS (gamma)
Recommandations des recherches antérieures sur la simulation
7
! La substitution fournit des estimations biaisées (Helsel, 2006)
! K-M fonctionne bien pour la censure inférieure à 50 % (Antweiler, 2007)
! MLE fonctionne bien lorsque la taille de l’échantillon est supérieure à 50 (Helsel, 2012)
o MLE (lognormal) rencontre des difficultés en optimisation lorsque les données sont fortement asymétriques dans un échantillon de petite taille ou de taille moyenne (Shoari et coll., 2015)
! rROS et GROS semblent robustes face aux erreurs de spécification relatives à la distribution (Helsel, 1986, Shoari et coll.,2015)
8
Notions fondamentales de « bootstrap »
Monde réel Monde « bootstrap »
La simulation basée sur les données sert à quantifier l’incertitude de la moyenne estimée
9
nxxx ,...,, 21
x
Échantillon
µMonde réel Monde « bootstrap »
)1()1(2
)1(1 ,...,, nxxx
)2()2(2
)2(1 ,...,, nxxx
)1000()1000(2
)1000(1 ,...,, nxxx
)2(x
)1(x
)1000(x
)3()3(2
)3(1 ,...,, nxxx )3(x
Description des données
10
! Concentration d’échantillons de sol prélevés dans le cadre de la caractérisation d’un site de friche industrielle à Montréal ! Les échantillons ont été prélevés entre 1998 et 2009 à partir de 242 forages dispersés sur le site ! Concentrations de 15 métaux et de 22 hydrocarbures aromatiques polycycliques (HAP) ! Les données de concentration sont caractérisées par des observations censurées à gauche
11
Scénario 1) ! Grande taille d’échantillon ! Faible pourcentage de censure ! Asymétrie faible
Estimations d’incertitude similaires
Contaminant n % de censure VC Cobalt 409 31 % 0,6
12
Scénario 2) ! Grande taille d’échantillon ! Pourcentage de censure moyen ! Asymétrie élevée
Contaminant n % de censure VC Benzo[a]pyrène 517 51 % 5,4
Estimations d’incertitude encore similaires
13
Scénario 3) ! Grande taille d’échantillon ! Asymétrie élevée ! Pourcentage de censure élevé
Contaminant n % de censure VC Fluorène 517 63 % 5,6
Incertitude accrue des moyennes estimées
obtenues au moyen de MLE (lognormal)
14
La réduction de la taille de l’échantillon entraîne la surestimation de l’incertitude dans le cas de MLE (lognormal)
Scénario 4)
Quelques exemples
15
Contaminant MLE
(lognormal) MLE
(Weibull) MLE
(gamma) K-M rROS GROS Cobalt 8,23±6% 8,15±6% 8,22±7% 8,28±7% 8,32±7% 8,26±7%
Arsenic 9,30±18% 8,05±13% 7,90±13% 7,88±24% 8,53±13% 7,20±16%
Chrome 16,67±8% 17,04±10% 17,11±11% 16,77±10% 16,92±11% 16,98±11%
Benzo[a]pyrène 1,08±49% 0,88±39% 1,25±48% 1,27±47% 1,26±47% 1,24±48%
Fluorène 1,86±67% 0,93±44% 1,02±49% 1,04±48% 1,03±48% 1,01±49%
Naphtalène 0,83±51% 0,74±63% 1,27±45% 1,29±63% 1,28±63% 1,26±64%
Moyenne ± pourcentage d’incertitude
Leçons retenues
16
! Une certaine quantité d’incertitude est causée par les données de concentration censurées à gauche ! Dans le cas d’importantes données de concentration, l’incertitude de toutes les méthodes est similaire ! Les spécialistes sont mis en garde concernant l’utilisation de la méthode MLE en présence d’hypothèses lognormales lorsque: -les données de concentration sont hautement asymétriques;
-la taille de l’échantillon est petite;
-le pourcentage de censure est élevé.
Notre recommandation
17
! L’utilisation adéquate de la méthode MLE dépend de la taille de l’échantillon et de la connaissance de la distribution des données de concentration ! En général, les méthodes rROS, GROS et K-M fonctionnent bien, car :
-elles sont robustes en cas d’asymétrie des données; -elles sont robustes quant à la taille de l’échantillon; -elles sont robustes au pourcentage de censure.
Références
18
! Antweiler, R. C. et Taylor, H. E., 2008. « Evaluation of statistical treatments of left-censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science & technology 42(10):3732-3738.
! Gilliom, R. J. et Helsel, D. R. 1986. « Estimation of distributional parameters for censored trace level water quality data 1. Estimation techniques ». Water Resour. Res. 22, 135-146.
! Helsel, D. R. 2006. « Fabricating data: How substituting values for nondetects can ruin results, and what can be done about it ». Chemosphere, 65:2434 -2439
! Helsel, D. R. « Statistics for censored environmental data using Minitab and R ». John
Wiley & Sons, 2012; Vol. 77.
! Shoari N, Dubé J.-S., Chenouri S. 2015. « Estimating the mean and standard deviation of environmental data with below detection limit observations: Considering highly skewed data and model misspecification ». Chemosphere 138: 599-608