eoy

27
 Finding Contradictions, Contrasts and Negations in Protein-Protein Interactions in the Biomedical Literature Using Text Mining Farzaneh Sarafraz COMP7000 Presentation Text Mining Group Supervised by Dr. Goran Nenadić 28 November 2008

Upload: farzanehs

Post on 25-May-2015

245 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Eoy

   

Finding Contradictions, Contrasts and Negations in Protein­Protein Interactionsin the Biomedical LiteratureUsing Text Mining

Farzaneh Sarafraz

COMP7000 PresentationText Mining GroupSupervised by Dr. Goran Nenadić28 November 2008

Page 2: Eoy

   

Natural Language Processinga.k.a Computational Linguistics

Page 3: Eoy

   

Natural Language Processing

Page 4: Eoy

   

Natural Language Processing

Page 5: Eoy

   

Text

Easily shared Primary information source Most up­to­date

Unstructured No explicit data

Page 6: Eoy

   

Text Mining

IEIR DM

Page 7: Eoy

   

Finding Contradictions, Contrasts and Negations in Protein­Protein Interactionsin the Biomedical LiteratureUsing Text Mining

Page 8: Eoy

   

Text Mining in Biomedicine

Biomedical Scientific Literature >17M articles from >5K journals 

since 1950s adding 2000 every day Impossible for humans to manage Specific (rather peculiar) language

Page 9: Eoy

   

Finding Contradictions, Contrasts and Negations in Protein­Protein Interactionsin the Biomedical LiteratureUsing Text Mining

Page 10: Eoy

   

Protein­Protein Interactions

Page 11: Eoy

   

Protein­Protein Interactions

Page 12: Eoy

   

Finding Contradictions, Contrasts and Negations in Protein­Protein Interactionsin the Biomedical LiteratureUsing Text Mining

Page 13: Eoy

   

Example

"Our results indicate that gp120 from two different strains of HIV binds to a larger region of the CD4 protein than previously described."

Page 14: Eoy

   

Example

gp120 synonyms

− Transmembrane Glycoprotein− Envelope Glycoprotein− Surface Glycoprotein− SU− gp160− Envelope Surface Glycoprotein gp160 Precursor

− gp41− TM− ENV− HIV­1 gp8

Page 15: Eoy

   

Example

Binds is almost the same as− Interacts with− Frictionates− Associates with− Activates− Colocalizes with− Cleaves

Page 16: Eoy

   

Example

CD4+ T T4(CD) CD4+ (T) CD4(+) T cellCD4­, T CD4 (T) CD4(T) CD4 T­cellT CD4 CD4(+)T CD(4+) T CD4(+) T­cellCD4(+) T CD4+­T CD4­ T CD4(+)T cellCD4 T CD4(+)­T CD4+ T cell CD4+­T­cellT4+ (CD) CD4+T CD4­, T cell CD4(+)­T­cellT4 (CD) T (CD4) CD4+ T­cell CD4 T cell

CD4 can be expressed as

Page 17: Eoy

   

Even after all this...

The chimpanzee­based CD4(81­92) peptide, however, which differs from the human peptide by a single amino acid substitution (E for G) at position 87, was considerably less potent than the human CD4(81­92)­based peptide congener to inhibit HIV­1­induced cell­cell fusion.

Page 18: Eoy

   

Contradiction and Contrasts

Author A reports p Author B reports ¬p

We have p under conditions q But we have ¬p under conditions q'

Page 19: Eoy

   

Negations

Linguistic− "Protein A does not interact with protein B."− "We lack evidence that A interacts with B."

Biological− "Protein A inhibits protein B."− dephosphorylates / depolymerizes− downregulates (vs. upregulates)− etc.

Page 20: Eoy

   

Finding Contradictions, Contrasts and Negations in Protein­Protein Interactionsin the Biomedical LiteratureUsing Text Mining

Page 21: Eoy

   

Framework

HIV­1 and Human Protein­Protein interactions− Manually over 7 years− >3000 journal papers− >5000 tuples− Gold standard

Other negative reports− Journal of Negative Results in BioMedicine

Other gold standards

Page 22: Eoy

   

Detecting Protein­Protein Interactions

Recognize gene/protein names− State of the art ~ 87%

Identify gene/protein names Detect the interaction and its qualities

− 70 "different" interactions in reference DB

Page 23: Eoy

   

Protein Name Identification

1500 human proteins− State of the art ~ 87%− Available tools ~ 15%− Our method ~ 35%

20 HIV proteins− No available tool− Our method ~ 95%

Page 24: Eoy

   

Applications

Contradictions and Contrast

Other diseases

Negations

New HIV­1 literature

Page 25: Eoy

   

Achieved so far & plan for future

Reproduce the HIV­1 interactions database Designed an interaction ontology Identify patterns of negation, contradiction, 

contrast Use the above data to increase the annotation 

accuracy

Page 26: Eoy

   

Evaluation

Widely used evalutation measures− Precision, Recall, F­Score− Sensitivity and Specificity

Benchmarks and datasets used in challenges Manually annotated gold standards

Page 27: Eoy

   

Summary

Finding Contradictions, Contrasts and Negations in Protein­Protein Interactionsin the Biomedical LiteratureUsing Text Mining