caractérisation de l’incertitude de la concentration au ... · censored environmental data using...

18
Caractérisation de l’incertitude de la concentration au point d’exposition basée sur des données censurées à gauche 1 Niloofar Shoari Doctorante Jean-Sébastien Dubé, Ph. D Département de génie de la construction Le 27 avril 2016 Montréal, Canada

Upload: others

Post on 24-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Caractérisation de l’incertitude de la concentration au point d’exposition basée sur des données censurées à

gauche

1

Niloofar Shoari Doctorante

Jean-Sébastien Dubé, Ph. D Département de génie de la construction

Le 27 avril 2016 Montréal, Canada

Page 2: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Limite de détection maximale = 1,3

Que sont les données censurées à gauche?

2

Données de concentration en As <0,7, <0,7, <0,7, <0,9, <0,9, <1,3, <1,3, 1,8, 2,1, 2,2, …, 13, 14, 14, 14, 15, 18, 19, 21, 24

24 18 12 6 0

20

15

10

5

0

Concentration en As (mg/kg)

Fréq

uenc

e

Page 3: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Les observations censurées à gauche sont de véritables données

3

<LD

Page 4: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

L’incertitude des données vient de différentes sources

4

! Incertitude relative à l’échantillonnage. Par exemple, l’hétérogénéité inhérente, la collecte inadéquate des échantillons ou leur mauvaise manipulation (en dehors de la portée) ! Incertitude analytique (en dehors de la portée) ! Incertitude quant à la gestion des données : l’incertitude reliée aux ensembles de données et l’importance des statistiques entrent en jeu

Page 5: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Différentes sources d’incertitude

5

Échantillonnage Analyse Gestion des données

Échantillon pris sur le terrain

Échantillonnage

Sous-échantillon

www.greenskeeperlawncare.com

Analyse en laboratoire

Page 6: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Méthodes d’estimation de la CPE selon les données censurées à gauche

6

! La méthode de substitution (p. ex. LD/2)

! La méthode Kaplan-Meier (K-M) o  Non paramétrique : pas besoin d’assumer une distribution paramétrique

pour les données de concentration

! La méthode du maximum de vraisemblance (MLE) o  Paramétrique : hypothèse de distribution paramétrique

o  Lognormal, Weibull et gamma

! La régression de statistiques d’ordre (ROS) o  Hypothèse de distribution paramétrique pour les données non censurées et

prédiction des valeurs censurées

o  rROS(lognormal), GROS (gamma)

Page 7: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Recommandations des recherches antérieures sur la simulation

7

! La substitution fournit des estimations biaisées (Helsel, 2006)

! K-M fonctionne bien pour la censure inférieure à 50 % (Antweiler, 2007)

! MLE fonctionne bien lorsque la taille de l’échantillon est supérieure à 50 (Helsel, 2012)

o MLE (lognormal) rencontre des difficultés en optimisation lorsque les données sont fortement asymétriques dans un échantillon de petite taille ou de taille moyenne (Shoari et coll., 2015)

! rROS et GROS semblent robustes face aux erreurs de spécification relatives à la distribution (Helsel, 1986, Shoari et coll.,2015)

Page 8: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

8

Notions fondamentales de « bootstrap »

Monde réel Monde « bootstrap »

Page 9: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

La simulation basée sur les données sert à quantifier l’incertitude de la moyenne estimée

9

nxxx ,...,, 21

x

Échantillon

µMonde réel Monde « bootstrap »

)1()1(2

)1(1 ,...,, nxxx

)2()2(2

)2(1 ,...,, nxxx

)1000()1000(2

)1000(1 ,...,, nxxx

)2(x

)1(x

)1000(x

)3()3(2

)3(1 ,...,, nxxx )3(x

Page 10: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Description des données

10

! Concentration d’échantillons de sol prélevés dans le cadre de la caractérisation d’un site de friche industrielle à Montréal ! Les échantillons ont été prélevés entre 1998 et 2009 à partir de 242 forages dispersés sur le site ! Concentrations de 15 métaux et de 22 hydrocarbures aromatiques polycycliques (HAP) ! Les données de concentration sont caractérisées par des observations censurées à gauche

Page 11: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

11

Scénario 1) ! Grande taille d’échantillon ! Faible pourcentage de censure ! Asymétrie faible

Estimations d’incertitude similaires

Contaminant n % de censure VC Cobalt 409   31  %   0,6  

Page 12: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

12

Scénario 2) ! Grande taille d’échantillon ! Pourcentage de censure moyen ! Asymétrie élevée

Contaminant n % de censure VC Benzo[a]pyrène 517   51  %   5,4  

Estimations d’incertitude encore similaires

Page 13: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

13

Scénario 3) ! Grande taille d’échantillon ! Asymétrie élevée ! Pourcentage de censure élevé

Contaminant n % de censure VC Fluorène 517   63  %   5,6  

Incertitude accrue des moyennes estimées

obtenues au moyen de MLE (lognormal)

Page 14: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

14

La réduction de la taille de l’échantillon entraîne la surestimation de l’incertitude dans le cas de MLE (lognormal)

Scénario 4)

Page 15: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Quelques exemples

15

Contaminant MLE

(lognormal) MLE

(Weibull) MLE

(gamma) K-M rROS GROS Cobalt 8,23±6% 8,15±6% 8,22±7% 8,28±7% 8,32±7% 8,26±7%

Arsenic 9,30±18% 8,05±13% 7,90±13% 7,88±24% 8,53±13% 7,20±16%

Chrome 16,67±8% 17,04±10% 17,11±11% 16,77±10% 16,92±11% 16,98±11%

Benzo[a]pyrène 1,08±49% 0,88±39% 1,25±48% 1,27±47% 1,26±47% 1,24±48%

Fluorène 1,86±67% 0,93±44% 1,02±49% 1,04±48% 1,03±48% 1,01±49%

Naphtalène 0,83±51% 0,74±63% 1,27±45% 1,29±63% 1,28±63% 1,26±64%

Moyenne ± pourcentage d’incertitude

Page 16: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Leçons retenues

16

!  Une certaine quantité d’incertitude est causée par les données de concentration censurées à gauche ! Dans le cas d’importantes données de concentration, l’incertitude de toutes les méthodes est similaire ! Les spécialistes sont mis en garde concernant l’utilisation de la méthode MLE en présence d’hypothèses lognormales lorsque: -les données de concentration sont hautement asymétriques;

-la taille de l’échantillon est petite;

-le pourcentage de censure est élevé.

Page 17: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Notre recommandation

17

! L’utilisation adéquate de la méthode MLE dépend de la taille de l’échantillon et de la connaissance de la distribution des données de concentration ! En général, les méthodes rROS, GROS et K-M fonctionnent bien, car :

-elles sont robustes en cas d’asymétrie des données; -elles sont robustes quant à la taille de l’échantillon; -elles sont robustes au pourcentage de censure.

Page 18: Caractérisation de l’incertitude de la concentration au ... · censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science

Références

18

! Antweiler, R. C. et Taylor, H. E., 2008. « Evaluation of statistical treatments of left-censored environmental data using coincident uncensored data sets: I. Summary statistics ». Environmental science & technology 42(10):3732-3738.

! Gilliom, R. J. et Helsel, D. R. 1986. « Estimation of distributional parameters for censored trace level water quality data 1. Estimation techniques ». Water Resour. Res. 22, 135-146.

! Helsel, D. R. 2006. « Fabricating data: How substituting values for nondetects can ruin results, and what can be done about it ». Chemosphere, 65:2434 -2439

! Helsel, D. R. « Statistics for censored environmental data using Minitab and R ». John

Wiley & Sons, 2012; Vol. 77.

! Shoari N, Dubé J.-S., Chenouri S. 2015. « Estimating the mean and standard deviation of environmental data with below detection limit observations: Considering highly skewed data and model misspecification ». Chemosphere 138: 599-608