how to screen out liars

47
How to screen out liars Y-h. Taguchi Department of Physics Chuo University Tokyo, Japan

Upload: y-h-taguchi

Post on 16-Jul-2015

215 views

Category:

Education


2 download

TRANSCRIPT

Page 1: How to screen out liars

How to screen out liars

Y­h. TaguchiDepartment of Physics

Chuo UniversityTokyo, Japan

Page 2: How to screen out liars

・What are liars?

・Two examples to which PCA based PCA based unsupervised FEunsupervised FE was applied  ­>The first example :    Transgenerational Epigenetics

 ­>Next example: Epigenetic therapy   (NSCLC cell line reprograming)

・Mathematical details of our methodologyour methodology

Our proposed method!

Page 3: How to screen out liars

Two kinds of liars often hide behind bioinformatic analyses of massive omics data (yet, well known.....)

False positives

“This gene is expressive differently between controls and treated samples, because it can take place with 

very small probability (say, P=10­4)! ”

However, it may not be true, since 

if you consider N=104 genes, 

P=10­4 is not rare at all....

Page 4: How to screen out liars

“OK, then we consider P­values that are multiplied by N.  If it is still small enough, we regard that event as true”

False negatives“There are no genes expresseddifferently between controls and treated samples, since no P­values 

less than 1/N=10­4 were observed...”

This also may not be  true, since significance may decrease because of noise (very usual in biology...).

What shall we do?What shall we do?

Page 5: How to screen out liars

One solution is …. “Detective strategy”

“Examine suspects separately. If they declare same, it could be true. ”

Only one truth exists.

This strategy is well known, by the name “Cross Validation (CV)”. However, CV also often fails if applied to Feature extraction (FE).

“Case Closed”

Page 6: How to screen out liars

For example, leave one out CV  (LOOCV) for FE

1 2

3 4

1 2

3 4

Task: identify limited number of genes that discriminate healthy controls from patients well.

eight samples Gene set 1Gene set 2

Gene set 8

・・・

Check coincidence between eight trialsCheck coincidence between eight trialsIf coincident, it is true...

Page 7: How to screen out liars

reality is toughreality is tough Mean Probability of  each miRNA selection

0.5

LOOCV FE

Not enough coincidence. Not enough coincidence. ““Detective strategy” fails, too.Detective strategy” fails, too.

Accuracy

Task: Identify limited number of circulating miRNAs that discriminate patients from healthy controls.Y­h. Taguchi and Y. Murakami, BMC Research Notes (2014)

Lasso0.8

Diseases

LOOCV

Page 8: How to screen out liars

・What are liars?

・Two examples to which PCA based PCA based unsupervised FEunsupervised FE was applied  ­>The first example :    Transgenerational Epigenetics

 ­>Next example: Epigenetic therapy   (NSCLC cell line reprograming)

・Mathematical details of our methodologyour methodology

Our proposed method!

Page 9: How to screen out liars

Alternative strategy : principal component analysis (PCA) based unsupervised FE.

First : two unpublished biological worksSecond :  introduce methodology (the audience may be more interested in biology than mathematical details)

For other published results:  Search “Y­h. Taguchi” in google scholar.

Page 10: How to screen out liars

・What are liars?

・Two examples to which PCA based PCA based unsupervised FEunsupervised FE was applied  ­>The first example :    Transgenerational Epigenetics

 ­>Next example: Epigenetic therapy   (NSCLC cell line reprograming)

・Mathematical details of our methodologyour methodology

Our proposed method!

Page 11: How to screen out liars

The First example:Transgenerational Epigenetics (TGE)

Phenotype transfers between generations without DNA modification

(also focused in “Cell Best of 2014Cell Best of 2014”)

F3 generation of F0 pregnant female exposed to endocrine disruptor

F0♀F1♂ F2

F3Abnormalities without inherited DNA exposed to endocrine disruptor?

Page 12: How to screen out liars

Yes!・ male infertility  (Guerrero­Bosagna, PLoS ONE 2013)・ anxiety behavior (Skinner, PLoS ONE, 2008)・ mate preference (Skinner, BMC Genom., 2013)・ various diseases  (Anway, Endocrinology, 2006) 

 (on prostate, kidney, immune system, testis, and tumor development)

・ reprogramming of primordial germ cells (Skinner, PLoS ONE, 2013)・ stress responses ( Crews, PNAS, 2012)

However, understanding how TGE takes place still lacks.

Page 13: How to screen out liars

Authors' conclusion : “A comparison between the germ cell differential DNA methylation regions and the differentially expressed genes indicated no significant overlap”Significant overlaps observed would be Significant overlaps observed would be interesting....interesting....

Skinner, PLoS ONE, 2013:Primordial germ cell in F3 generation at E13 and E16, gene expression/promoter methylation

F2♀F3

Page 14: How to screen out liars

N'' com

mon 

genes

FeatureExtraction

N' g ene s

FeatureExtraction

Promoter methylation

Vinclozolin treatedControl

E13 E16 E13 E16

Gene expression

Vinclozolin treatedControl

E13 E16 E13 E16

Our strategy.....Our strategy.....

N'  ←→ N''  PP  

Total N genes

Page 15: How to screen out liars

N〜104

Results.....Results.....

P=0.05

P=10­3

P=10­2

Significant overlaps detected!Significant overlaps detected!

N''=48 genes with RefSeq ID

Page 16: How to screen out liars

Are selected N''= 48 genes biologically reasonable?Are selected N''= 48 genes biologically reasonable? various diseases  (Anway, Endocrinology, 2006) (on tumor, prostate, kidney, testis, immune system)Genes

Aberrant expression Aberrant expression associated with aberrant associated with aberrant promoter methylation of promoter methylation of these genes may be a these genes may be a causing factor of TGE causing factor of TGE mediated diseases.mediated diseases.

Based on literature searches, 22 genes out of 48 genes turned out to be related these tissues/diseases.

22 genes

Page 17: How to screen out liars

In addition to this.... In addition to this.... Chemokine Signaling pathway

CCL3PF4

CCR2

CMKLR1

Some reported relationships to vinclozolin

Some reported relationships to diseases (kidney, prostate, testis, tumor, immunology)

Thus, disfunction of Chemokine Signaling pathway may cause TGE mediated diseases in F3 generaton

Page 18: How to screen out liars

Furthermore …. Furthermore …. 

Three leucine rich repeat (LRR)  proteins (LRRN3, PRAMEL1, and LRRTM1) are included.

LRR proteins were recently regarded to play critical roles in neural systems. 

de Wit et al, Annu. Rev. Cell Dev. Biol. 2011. 27:697–729, Role of Leucine­Rich Repeat Proteins in the Development and Function of Neural Circuits

Page 19: How to screen out liars
Page 20: How to screen out liars

And …. And …. 

 LRRN3 and LRRTM3 

Page 21: How to screen out liars

While …. While …. 

2012 (101), pp. 811–818

Aberrant gene expression associated with aberrant promoter methylation of LRR proteins may cause TGE mediated  nervous system disorders.

Page 22: How to screen out liars

In conclusion …. In conclusion …. 

PCA based unsupervised FE could identify significant overlap between aberrant gene expression and aberrant promoter methylation in TGE.

Identified genes were vastly related to previously reported various diseases.

Multiple genes belong to cytokine signaling pathway or LRR proteins, both of which possibly cause TGE mediated diseases.

Possibly, we have successfully screened out liars... Possibly, we have successfully screened out liars... (experimental varidations are of course needed)(experimental varidations are of course needed)

Page 23: How to screen out liars

・What are liars?

・Two examples to which PCA based PCA based unsupervised FEunsupervised FE was applied  ­>The first example :    Transgenerational Epigenetics

 ­>Next example: Epigenetic therapy   (NSCLC cell line reprograming)

・Mathematical details of our methodologyour methodology

Our proposed method!

Page 24: How to screen out liars

Next example:                                                 (NSCLC) Epigenetic therapy toward non­small cell lung cancer

Epigenetic therapy: Drugs targeting epigeneticse.g., promoter methylation, histone modification

Many reports Many reports in vivoin vivo

 DNA methyltransferase inhibitor

Page 25: How to screen out liars

However, smaller number of  reports However, smaller number of  reports in vitroin vitro

Epigenetic therapy cannot target specific proteins/genes. Thus, in vitro study may not be able to reproduce in vivo studies.

 → Considering NSCLC cell line Considering NSCLC cell line reprogrammingreprogramming, instead., instead.

Because reprogramming alters epigenetic markers also targeted by epigenetic therapy. Thus, detailed investigation of reprogrammed NSCLC cell line may let us identify genes targeted by epigenetic therapy.

Page 26: How to screen out liars

Targeted dataset of NSCLC cell line reprogramming experiment: Mahalingam et al, Sci. Rep., 2012.

 Eight cell lines: ・ H1 (ES cell)・ H358  ・ H460 ・ IMR90 (Human Caucasian fetal lung fibroblast)・ iPCH358・ iPCH460・ iPSIMR90・ piPCH358 (re­ differentiated iPCH358)

(NSCLC)

(reprogrammed cell lines)

Gene expression + promoter methylationGene expression + promoter methylation

differentiated undifferentiated

Page 27: How to screen out liars

N'' com

mon 

genes

FeatureExtraction

N' g ene s

FeatureExtraction

Promoter methylation

undiff.diff.

Gene expression

undiff.diff.

Our strategy.....Our strategy.....

N'  ←→ N''  PP  

Total N genes

Page 28: How to screen out liars

Advantages of our strategy:Advantages of our strategy:・Integrated analyses of gene expression and promoter methylation(cf. Usually, significance was tested in gene expression and promoter methylation separately, and try to be integrated)

・Usable to unordered multi­class problems(cf. Integration of pairwise comparisons, e.g., by t test)

・Easy to be combined with other FE applicable to multi­class problems (e.g., annova)  

Page 29: How to screen out liars

PC3++

PC3­­

PC4+­

PC4­+

log 10

P

N'

0.05

0.05

0.05

0.05

Significant overlaps observedSignificant overlaps observed

Page 30: How to screen out liars

 (A) Associations with cancer related genes reported by gendoo server (B) Significant negative correlations between gene expression and promoter methylation  (C) At least one study that reported direct/indirect relationship with NSCLC

(A)  (B)  (C) Vario us B

iolog ical S igni fican ce

Page 31: How to screen out liars
Page 32: How to screen out liars

Do identified genes include candidate to be targeted by Do identified genes include candidate to be targeted by epigenetic therapy?epigenetic therapy?

YES. SFRP1SFRP1 expression is distinct between HDAC(*) inhibitor­resistant cell lines and non­resistant cell lines 

Miyanaga, A. et al. Antitumor activity of histone deacetylase inhibitors in non­small cell lung cancer cells: development of a molecular predictive model. Mol. Cancer Ther. 7, 1923–1930 (2008).

(*)Histone Deacetylase 

Page 33: How to screen out liars

H3K9K14ac of SFRP1 increase during treatment with an HDAC inhibitor for NSCLC cell lines. 

Tang, Y. A. et al.  PLoS ONE 5, e12417 (2010).

Not NSCLC

Page 34: How to screen out liars

What is biological function of SFRP1?What is biological function of SFRP1?

SFRP1 deactivates Wnt signaling pathway.

R. Surana et al. / Biochimica et BiophysicaActa 1845 (2014) 53–65

Wnt1

SFRP1

MD by GROMACS

Page 35: How to screen out liars

In conclusion …. In conclusion …. 

PCA based unsupervised FE could identify significant overlap between aberrant gene expression and aberrant promoter methylation in reprogramming NSCLC cell lines.

Among those identified, we proposed SFRP1 as candidate epigenetic therapy target gene because ...

・Distincet SFRP1 expression between non­resistant /resistant HDAC inhibitor NSCLC cell line・SFRP1 expression in NSCLC cell lines increase by HDAC inhibitor treatment  ・SFRP1 is known Wnt signaling cell line diactivator

Possibly, we have successfully screened out liars... Possibly, we have successfully screened out liars... (experimental varidations are of course needed)(experimental varidations are of course needed)

Page 36: How to screen out liars

・What are liars?

・Two examples to which PCA based PCA based unsupervised FEunsupervised FE was applied  ­>The first example :    Transgenerational Epigenetics

 ­>Next example: Epigenetic therapy   (NSCLC cell line reprograming)

・Mathematical details of our methodologyour methodology

Our proposed method!

Page 37: How to screen out liars

What is PCA based unsupervised FE and why does it work What is PCA based unsupervised FE and why does it work so well?so well?

Intuitive synthetic example 

100 f eatur es

5 features5 features

20 samples

90 features

・20 samples classified to 4 classes・only 10 features are distinct among four classes

Task:Identify 10 features without information about classes 

Page 38: How to screen out liars

Embedding genes to 2D with PCA

Genes distinct between four categories are placed as outliers outliers 

Without category labeling||

unsupervised

Page 39: How to screen out liars

Thus, we can identify genes distinct between four categories without using category labeling (unsupervised). How can we do this? 

PC1 (the first principal component) is automatically selected to represent distinction between four categories.How can this happen?  

Page 40: How to screen out liars

PCA is designed to represent majority group behavior. In this data set, PC1 occasionally represents the component that represents distinction between  categories, since distinction between four category is only feature that differs from random values. 

PC1

Page 41: How to screen out liars

Back to real applications …... Back to real applications …... Transgenerational epigenetics

PC2 for mRNA, PC1 for promoter  methylation were selected respectively, because these two have the most significant distinction between E13 and E16.  

Then, outliers (genes or probes) along PC1 and PC2 were selected. 

Page 42: How to screen out liars

Epigenetic therapy (NSCLC cell line reprogramming) ① Compute correlation 

coefficients rr between  PC1... PC24 (mRNA) + PCM1... PCM24 (promoter methylation) 

 ② Perform UPGMA (hierarchical clustering) using 1 ­|rr| as distance. 

 ③ PC3 and PC4 were identified as the most coincident pairs of PCs between mRNA and promoter methylation

Outliers(genes) along PC3/PC4 were selected! Outliers(genes) along PC3/PC4 were selected! 

Page 43: How to screen out liars

PCA  based  unsupervised  FE  can identify  features  distinct  between categories  without  using  category labeling. Thus,  it  was  supposed  to  have superior  powers  to  identify  genes critical for considered properties, e.g., treated vs control.

Page 44: How to screen out liars

ConclusionsConclusions

・PCA based unsupervised FE was proposed.

・PCA based unsupervised FE was applied to two biological examples.    → Transgenerational epigenetics    → Epigenetic therapy    (NSCLC cell line reprogramming)

・Selected genes are biologically feasible.

Successfully screened out liars!Successfully screened out liars!

Page 45: How to screen out liars

Funding:Funding:

KAKENHI 23300357,26120528Chuo University Joint Research Grant

Review Article:Review Article:Y­h. Taguchi, Hideaki Umeyama, Mitsuo Iwadate, Yoshiki Murakami, Akira Okamoto: Heuristic Principal Component Analysis­Based Unsupervised Feature Extraction and Its Application to Bioinformaticshttp://dx.doi.org/10.4018/978­1­4666­6611­5.ch007In “ Big Data Analytics in Bioinformatics and Healthcare” IGI global pub.

Page 46: How to screen out liars

Replacing PCA based unsupervised FE with Replacing PCA based unsupervised FE with categorical regression (ANOVA)categorical regression (ANOVA)

0.05

N〜104

N''=8 (N'=300)

Page 47: How to screen out liars

ANOVA : N'=300