Download - Big data: preprocessing - models.life.ku.dk
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Big data: preprocessing
How do we incorporate chemical knowledge to separate good
data from bad as a preprocessing step?
Arctic Analyscis Ilulissat, Greenland 10th – 14th March 2014
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
«My» data
NMR, chromatography and mass spectrometry for:
− (Environmental) metabolomics
− Analysis of complex mixtures
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Is it big?
BIG DATA
• Volume
• Velocity
• Variety
E. Dumbill - Big Data 1 (2013)
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Is it big?
i5 laptop 4GB RAM
Dual Xeon Workstation
Yes!
Can it be bigger?
• Larger studies
• Multiple sets to be matched
• Testing of multiple metaparameters and optimisation
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
PredictIV
5 years project
21 partners
3 target organs
7 cellular models
3 time points investigated
30 chemicals initially; reduced to 4
Genomics, Transcriptomics, Proteomics and Metabolomics platforms
Hepatotoxicty Neurotoxicity Nephrotoxicity
Amiodarone Ibuprofen Chloropromazine Cyclosporin
Amiodarone Diazepam Chloropromazine Cyclosporin
Cyclosporin
The overall objective of Predict-IV is to develop
strategies to improve the assessment of drug safety
by using innovative schemes not based on animal
tests and involving optimised cell culture systems,
different chemical treatments and an intelligent
combination of cell biology, mechanistic toxicology,
in-silico modelling and "omics" approaches like
metabolomics.
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Metabostudio server
Architecture
• Data stored as CDF
• Web R server and interface
• XCMS and related packages
controlled through scripts
Meta data handling
• CSV files, Excel worksheets and/or RMDBs
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Workflow
The whole procedure is semi-automated
Some parts are already parallelised
• Feature detection/baseline
• Deisotoping, identification of adducts and fragment?
Others could be but are not
• Alignment (Obiwarp)
• Filling of empy cells
• Testing
Bottlenecks
• Choice of metaparameters
• Annotation
• Assessment of different steps
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
A perfect world? Q
C1
Q
C2
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Metabolomics (July 31, 2011)
Maybe not so much!
Peak aliasing (extration and filling)
Contaminations
Fourier Transform artefacts
Mass negative bias due to intensity
“Bad” features
Group heterogeneity
Arbitrary rejection of peaks
Ionisation source effects
Maybe not so much!
Peak aliasing (extration and filling)
Contaminations
Fourier Transform artefacts
Mass negative bias due to intensity
“Bad” features
Group heterogeneity
Arbitrary rejection of peaks
Ionisation source effects
Maybe not so much!
Peak aliasing (extration and filling)
Contaminations
Fourier Transform artefacts
Mass negative bias due to intensity
“Bad” features
Group heterogeneity
Arbitrary rejection of peaks
Ionisation source effects
Maybe not so much!
Peak aliasing (extration and filling)
Contaminations
Fourier Transform artefacts
Mass negative bias due to intensity
“Bad” features
Group heterogeneity
Arbitrary rejection of peaks
Ionisation source effects
Maybe not so much!
Peak aliasing (extration and filling)
Contaminations
Fourier Transform artefacts
Mass negative bias due to intensity
“Bad” features
Group heterogeneity
Arbitrary rejection of peaks
Ionisation source effects
Maybe not so much!
Peak aliasing (extration and filling)
Contaminations
Fourier Transform artefacts
Mass negative bias due to intensity
“Bad” features
Group heterogeneity
Arbitrary rejection of peaks
Ionisation source effects
Ion source
ElectroSpray Ionisation
Main ion
Few from Neutral Losses (-HCOOH , -H
2O, etc)
Adducts with ions (K+, Na+ and NH4+)
in solution
Adducts with other molecules
Advion TriVersa NanoMate
• source is more exposed to the outside environment
• The flow through the nozzle is not always stable
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
CAMERA
R/CAMERA package allows to
identify
• Isotopic peaks
• Adducts
• Neutral losses
• Regroups peaks according to
retention time window (FWHM)
• Some problems with Direct
Infusion
• Correlation threshold and
mass/charge is checked
• Flexible set of rules
Many alternatives
• Astream
• MZedDb
• …
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
CAMERA
R/CAMERA package allows to
identify
• Isotopic peaks
• Adducts
• Neutral losses
• Regroups peaks according to
retention time window (FWHM)
• Some problems with Direct
Infusion
• Correlation threshold and
mass/charge is checked
• Flexible set of rules
Many alternatives
• Astream
• MZedDb
• …
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
CAMERA
R/CAMERA package allows to
identify
• Isotopic peaks
• Adducts
• Neutral losses
• Regroups peaks according to
retention time window (FWHM)
• Some problems with Direct
Infusion
• Correlation threshold and
mass/charge is checked
• Flexible set of rules
Many alternatives
• Astream
• MZedDb
• …
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Cyclosporine
Mass accuracy is set to 5 ppm
The correlation threshold is set to 0.9
Up to 5 isotopic peaks were allowed
Up to double charge
A set of 68 rules was created allowing for
• Adducts with HCOOH, Methanol, Acetonitrile and DMSO
• Adducts with H+, Na
+, K
+ and
NH4+
• Neutral loss of up to 2H2O
name nmol charge massdiff Oid score
quasi ips
[M+H]+ 1 1 1.0076 1 1 1
[M+Na]+ 1 1 22.98922 8 1 1
[M+K]+ 1 1 38.96316 10 1 1
[M+NH4]+ 1 1 18.03382 16 1 1
[M + Met + H]+ 1 1 33.03349 66 0 0.25
[M + Met + Na]+ 1 1 55.01543 67 0 0.25
[M + Met + K]+ 1 1 70.98937 68 0 0.25
[M + Met + NH4]+ 1 1 50.06004 69 0 0.25
[M + ACN + H]+ 1 1 42.03383 76 0 0.25
[M + ACN + Na]+ 1 1 64.01577 77 0 0.25
[M + ACN + K]+ 1 1 79.98971 78 0 0.25
[M + ACN + NH4]+ 1 1 59.06038 79 0 0.25
[M + DMSO + H]+ 1 1 79.02122 96 0 0.25
[M + DMSO + Na]+ 1 1 101.0032 97 0 0.25
[M + DMSO + K]+ 1 1 116.9771 98 0 0.25
[M + DMSO + NH4]+ 1 1 96.04777 99 0 0.25
[M + Form + H]+ 1 1 47.01276 86 0 0.5
[M + Form + Na]+ 1 1 68.9947 87 0 0.25
[M + Form + K]+ 1 1 84.96864 88 0 0.25
[M + Form + NH4]+ 1 1 64.03931 89 0 0.25
[M+2Na-H]+ 1 1 44.97084 34 0 0.5
[M+2K-H]+ 1 1 76.91872 60 0 0.5
[M - H + Na]+ 1 1 21.9814 61 0 0.75
… … … … … … …
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Cyclosporine
Mass accuracy is set to 5 ppm
The correlation threshold is set to 0.9
Up to 5 isotopic peaks were allowed
Up to double charge
A set of 68 rules was created allowing for
• Adducts with HCOOH, Methanol, Acetonitrile and DMSO
• Adducts with H+, Na
+, K
+ and
NH4+
• Neutral loss of up to 2H2O
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Annotation
• Seven golden rules (Rdisop) Brute formula
• Matching towards online data base:
• HMDB
• Metlin (XCMS)
• KEGG
• Drug-bank
• PubChem
• Manchester Metabolmics Database (MMD)
• …
• Some R-packages only contain references to other data bases (MZedDB)
• Breitling proposed a method similar to CAMERA to disambiguate metabolits using common mass differences due to metabolism (IDEOME)
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Annotation (HepRG – Acetaminophen)
Label fold change
p-value Link Class
Notes
328.1/474.753 2564,26 1,0E-07 cf. Metlin Aa Glucuronide
152.069/474.753 159,17 9,4E-08 cf. Metlin Aa Acetaminophenol
345.127/475.095 58,07 1,2E-07 Cf. Metlin Ab
153.074/474.23 5,40 6,7E-08 Cf. Metlin Ab
271.073/477.735 755,23 2,1E-05 Cf Metlin B
272.257/759.358 3,75 1,4E-02 Cf. Metlin B Fatty acid (amino)
311.254/903.778 2,67 2,0E-02 Cf. Metlin B Hydroxy Lipid ester
204.085/485.008 2,34 6,6E-04 Cf. Metlin B
329.227/802.957 2,03 7,7E-03 Cf. Metlin B Fatty acid (hydroxy)
347.238/564.207 1,87 2,5E-02 Cf. Metlin B Fatty acid (dicarboxylic)
176.072/528.037 1,62 2,3E-03 Cf. Metlin B
190.088/566.409 1,51 9,7E-03 Cf. Metlin B
162.059/471.352 1,46 3,9E-03 Cf. Metlin B
207.173/834.109 1,31 3,0E-02 Cf. Metlin B Fatty aldehyde
375.248/879.212 1,24 3,2E-02 Cf. Metlin B Calcitroic acid (Vit. D met) 526.289/681.763 1,23 3,9E-02 Cf. Metlin B Desmosine (HMDB00572)
119.069/525.56 1,13 4,9E-02 Cf. Metlin B
87.043/525.552 1,12 4,4E-02 Cf. Metlin B
273.259/759.361 3,50 2,3E-02 Cf. Metlin C Abietadiene (Plant met.?)
300.215/578.84 2,67 5,2E-03 Cf. Metlin C
307.188/741.797 2,16 4,0E-02 Cf. Metlin C 101.058/525.491 1,12 4,6E-02 Cf. Metlin C Isotopic peak of
"contaminant"
233.029/539.819 Inf 8,0E-04 Cf Metlin D
249.052/540.876 5684,20 5,8E-04 Cf. Metlin D
329.104/474.933 3730,19 1,4E-07 Cf. Metlin D
387.137/474.324 674,48 9,4E-08 Cf. Metlin D
371.142/475.4 671,72 1,6E-06 Cf. Metlin D
415.168/475.14 131,39 1,7E-07 Cf. Metlin D
531.178/485.008 Inf 4,8E-10 Cf. Metlin E
457.135/493.712 69,54 9,3E-05 Cf. Metlin E 331.137/585.967 5,74 4,5E-02 Cf. Metlin E Ranitidine (drug) oxide /
gibberellin
416.152/662.678 4,53 1,3E-04 Cf. Metlin E
504.328/770.45 1,92 2,2E-02 Cf. Metlin E
346.235/564.222 1,77 2,5E-02 Cf. Metlin E Polypeptides
430.277/755.641 1,61 9,6E-03 Cf. Metlin E
351.153/623.091 1,43 6,0E-04 Cf. Metlin E
315.132/692.315 1,40 4,3E-03 Cf. Metlin E Ranitidine (drug)
333.142/639.419 1,35 1,9E-02 Cf. Metlin E Drug metabolite / Polypet
419.274/880.369 1,26 1,2E-02 Cf. Metlin E Simavastin (drug)
225.108/555.916 1,25 4,9E-02 Cf. Metlin E
Butalbital (sold in combination with Acetaminophen)
347.158/681.322 1,25 2,3E-02 Cf. Metlin E Polypept / Fluorescence probe
536.183/477.733 Inf 4,4E-03 Cf. Metlin F
232.026/540.598 18204,03 7,0E-04 Cf. Metlin F Sulphate?
458.139/493.634 156,41 9,0E-05 Cf. Metlin F
362.251/623.193 2,10 2,2E-03 Cf. Metlin F
511.314/558.612 1,63 2,2E-02 Cf. Metlin F
466.145/529.044 1,32 4,0E-02 Cf. Metlin F
622.213/595.11 1,26 3,3E-02 Cf. Metlin F
88.111/523.471 1,23 4,9E-02 Cf. Metlin F
88.047/526.034 1,13 1,8E-02 Cf. Metlin F
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Merging sets: a “big data” problem?
Annotation is an imperfect task and is done after some significance is established
It often not really an option in lower resolution instruments
Proper identification of compounds is often costly money- and time-wise
Can we treat consensus tables, or even the raw data as the heterogeneous input big data?
(Identity) data fusion is close to SQL’s joining of data bases
The unique key that we use for matching the table is a combination of mass, isotopic ratios, fragmentation patterns
Can we merge/fuse data from wildly different sets?
Tekst starter uden punktopstilling For at få punkt-opstilling på teksten, brug forøg indrykning For at få venstre-stillet tekst uden punktopstilling, brug formindsk indrykning
Overskrift her
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Thanks!
Acknowledgements:
C. Guillou
D. Carpi
H. Chassaigne
S. Furbo