ambroise ingold (lipn université paris 13)

38
Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications Ambroise Ingold (LIPN Université Paris 13) Le 28 mars 2002

Upload: jalena

Post on 21-Feb-2016

38 views

Category:

Documents


0 download

DESCRIPTION

Le 28 mars 2002. Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations sur les interactions génétiques ou moléculaires à partir de publications. Ambroise Ingold (LIPN Université Paris 13). Plan. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Ambroise Ingold (LIPN Université Paris 13)

Mise en relation de Medline avec Flybase par l’identification dans Medline des gènes décrits dans Flybase et application à l’extraction d’informations

sur les interactions génétiques ou moléculaires à partir de publications

Ambroise Ingold (LIPN Université Paris 13)

Le 28 mars 2002

Page 2: Ambroise Ingold (LIPN Université Paris 13)

2

PlanPlan

MotivationsIdentification des gènes dans MedlineExtraction d’information sur les

interactionsInterface de la base de donnéesPerspectives

Page 3: Ambroise Ingold (LIPN Université Paris 13)

3

La circulation de l’informationLa circulation de l’information

Publications

BdD BibliographiquesMedline

Encyclopédies en ligneFlybase

Données d’expériences

Banque de résultats d’expériencesSwissprot, Genbank

Recherche

Page 4: Ambroise Ingold (LIPN Université Paris 13)

4

Investigation dans les BdDInvestigation dans les BdDReprésentation des connaissances

BdD Bibliographique Encyclopédies en ligne

Banques de résultats d’expériences

Indexation

Réf. Biblio.

Réf. rés. exp.

Réf. rés. exp.Réf. Biblio.

Indexation

GED, informatique documentaire

Bio-informatique

Page 5: Ambroise Ingold (LIPN Université Paris 13)

5

Medline (exemple)Medline (exemple)Regulation of scute function by extramacrochaete in vitro and in vivo.The pattern of adult sensilla in Drosophila is established by the dosage-sensitive interaction of two antagonistic groups of genes. Sensilla development is promoted by members of the achaete-scute complex and the daughterless gene whereas it is suppressed by whereas extramacrochaete (emc) and hairy. All these genes encode helix-loop-helix proteins. The products of the achaete-scute complex and daughterless interact to form heterodimers able to activate transcription. In this report, we show that (1) extra-macrochaete forms heterodimers with the achaete, scute, lethal of scute and daughterless products; (2) extramacrochaete inhibits DNA-binding of Achaete, Scute and Lethal of Scute/Daughterless heterodimers and Daughterless homodimers and (3) extramacrochaete inhibits transcription activation by heterodimers in a yeast assay system. In addition, we have studied the expression patterns of scute in wild-type and extramacrochaete mutant imaginal discs. Expression of scute RNA during imaginal development occurs in groups of cells, but high levels of protein accumulate in the nuclei of only a subset of the RNA-expressing cells. The pattern is dynamic and results in a small number of protein-containing cells that correspond to sensillum precursors. extramacrochaete loss-of-function alleles develop extra sensilla and correspondingly display a larger number of cells with scute protein. These cells appear to arise from those that in the wild type already express scute RNA; hence, extramacrochaete is a repressor of scute function whose action may take place post-transcriptionally.

MeSH Terms :•Amino Acid Sequence •Animal •Drosophila/genetics* •Drosophila/embryology •Epitope Mapping •Gene Expression •Gene Expression Regulation, Developmental* •Genes, Insect* •Helix-Loop-Helix Motifs/genetics •Immunohistochemistry •In Situ Hybridization •In Vitro •Molecular Sequence Data •Morphogenesis/genetics •Sense Organs/embryology* •Support, Non-U.S. Gov't

Gene Symbols :•da•emc •AS-C

?

Page 6: Ambroise Ingold (LIPN Université Paris 13)

6

Exemple de lien de Flybase vers MedlineExemple de lien de Flybase vers Medline

Flybase (Gène Wg) Genetic analysis demonstrates that wg is dispensable for efficient homeotic gene expression in the visceral mesoderm. (Tremml and Bienz, 1989)

MedlineTremml G, Bienz M. EMBO J 1989 Sep;8(9):2687-93An essential role of even-skipped for homeotic gene expression in the Drosophila visceral mesoderm.

Page 7: Ambroise Ingold (LIPN Université Paris 13)

7

BdD bibliographiques BdD bibliographiques vsvs BdD BdD factuellesfactuelles BdD

bibliographique– Redondantes,

non-ordonnées– À jour, détaillées– Fidèles, nuancées,

contextualisées

BdD factuelles– Organisées,

calculables– Parcellaires,

incomplètes– Simplificatrices, hors

contexte

Page 8: Ambroise Ingold (LIPN Université Paris 13)

8

Exemple de couplage Exemple de couplage factuel/textuelfactuel/textuelDomaine d’application

– Gènes– Relations entre les gènes (interaction)

Medline Flybase

BdD interactions

Identification des gènes

Reconnaissance des interactions

Page 9: Ambroise Ingold (LIPN Université Paris 13)

9

ArgumentaireArgumentaire

Pas d’indexation des gènes dans Medline (ou très incomplète)

Les références bibliographiques dans Flybase sont incomplètes

Pas de BdD des interactions génétiques

Page 10: Ambroise Ingold (LIPN Université Paris 13)

10

RéalisationRéalisation

Système d’identification des gènesSystème d’extraction d’information sur

les interactions

Page 11: Ambroise Ingold (LIPN Université Paris 13)

Première partiePremière partie

Identification des gènes

Page 12: Ambroise Ingold (LIPN Université Paris 13)

12

Identification des gènes (schéma)Identification des gènes (schéma)

Grandes étapes

Flybase Dictionnaire des gènes

Medline

109 résumés 50 résumés

Mise au point Test

IdentificationConfrontation

Modifications•Manuelles•Automatiques

Page 13: Ambroise Ingold (LIPN Université Paris 13)

13

Identification des gènes (plan)Identification des gènes (plan)

Le dictionnaire des gènes issu de FlybaseMéthode d’identification des gènesL’amélioration du dictionnaire des gènesLes résultats

Page 14: Ambroise Ingold (LIPN Université Paris 13)

14

Le dictionnaire des gènes issu de Le dictionnaire des gènes issu de FlybaseFlybase Exemple de gène

• Nom complet : wingless

• Symbole : wg

• Synonymes : Spd, spade, fg, flag, Sp, Sternopleural, Br, Bristled, int-1, Dint-1, Dm-1et l(2)wg

Terminologie• Label : la chaîne de caractère

• Gène : l’entité biologique

• Définition : la relation entre le gène et le label

Page 15: Ambroise Ingold (LIPN Université Paris 13)

15

Identification : Indexation et Identification : Indexation et interprétation des labelsinterprétation des labelsInitially, eve expression in individual stripes is established by different regulatory elements, each of which responds to nonperiodic spatial cues provided, at least in part, by the gap genes

even skipped (eve)

stripes (str)

Page 16: Ambroise Ingold (LIPN Université Paris 13)

16

Élimination des sous-chaînesÉlimination des sous-chaînes

These results, along with the intermediate SOP phenotype observed in Suppressor of Hairless; Hairless double mutant imaginal discs, suggest that the two genes act antagonistically to commit imaginal disc cells stably to alternative fates.

Reconnaissance bloquée

Page 17: Ambroise Ingold (LIPN Université Paris 13)

17

Algorithme d’interprétation des Algorithme d’interprétation des labelslabels

Confirmation de l’interprétation ?

Ambiguïté du label?

Plusieurs interprétations ?

Non

Non

Interprétation confirmée

Défaut de confirmation

Interprétation multiple

Interprétation simple

Oui

Oui

Oui

Non

Page 18: Ambroise Ingold (LIPN Université Paris 13)

18

Confirmation des labels ambigusConfirmation des labels ambigus

The different thoracic muscles of Drosophila are affected specifically in the mutants: stripe (sr), erect wing (ewg), vertical wings (vtw), and nonjumper (nj). We have tested the extent of this specificity by means of a genetic analysis of these loci, multiple mutant combinations, and gene dosage experiments. […] The locus stripe seems to have a polar organization where different allelic combinations show quantitative specificity in the muscle affected.

stripe (sr)

« bande »

Interprétation confirmée

Page 19: Ambroise Ingold (LIPN Université Paris 13)

19

Confirmation des labels ambigus Confirmation des labels ambigus (algorithme)(algorithme) Confirmation de

l’interprétation ?Oui Interprétation

confirmée

Page 20: Ambroise Ingold (LIPN Université Paris 13)

20

We demonstrate that posterior stripe boundaries are established by gap protein repressors unique to each stripe: h stripe 5 is repressed by the giant (gt) protein on its posterior border and h stripe 6 is repressed by the hunchback (hb) protein on its posterior border.

stripe (sr)

Label ambigü non confirméLabel ambigü non confirmé

« bande »

Défaut de confirmation

Page 21: Ambroise Ingold (LIPN Université Paris 13)

21

Confirmation de l’interprétation ?Non

Défaut de confirmation

Oui Ambiguïté du label ?

Défaut de confirmation des labels Défaut de confirmation des labels ambigus (algorithme)ambigus (algorithme)

Page 22: Ambroise Ingold (LIPN Université Paris 13)

22

Localization of the maternally synthesized nanos (nos) RNA to the posterior pole of the Drosophila embryo provides the source for a posterior-to- anterior gradient of Nos protein. Correct spatial regulation of nos activity is essential for normal pattern formation.

Nitric oxide synthase (Nos)

nanos (nos)

Interprétation multipleInterprétation multiple

Identification multiple

Page 23: Ambroise Ingold (LIPN Université Paris 13)

23

Confirmation de l’interprétation ?

Ambiguïté du label ?

Plusieurs interprétations ?

Non

Non Interprétation

multiple

Interprétation multiple Interprétation multiple (algorithme)(algorithme)

Oui

Page 24: Ambroise Ingold (LIPN Université Paris 13)

24

Amélioration du dictionnaire des Amélioration du dictionnaire des gènesgènesNettoyage des donnéesAjout de labels, de définitions et de gènes

ou objet assimilé manquantCaractérisation de l’ambiguïté des labels

Page 25: Ambroise Ingold (LIPN Université Paris 13)

25

Performance (identification des Performance (identification des gènes)gènes)88 % des identifications sont exactes.Le programme trouve 86 % des

identifications faite par l’annotateur.

Page 26: Ambroise Ingold (LIPN Université Paris 13)

26

Améliorations possiblesAméliorations possibles

Type d’erreur - % + % T %Variation orthographique

35 59 12 26 47 45

Manque du dictionnaire

20 34 20 19

Label ambigu 18 39 18 17Confusion entre entités

13 28 13 12

Divers 4 7 3 7 7 7Total 59 10

046 10

0105

100

Page 27: Ambroise Ingold (LIPN Université Paris 13)

Deuxième partieDeuxième partie

Reconnaissance des interactions

Page 28: Ambroise Ingold (LIPN Université Paris 13)

28

Grandes étapes (reconnaissance Grandes étapes (reconnaissance des interactions)des interactions)

Phrases Phrases annotées manuellement

Liste d’interactions

Phrases annotées automatiquement

Liste d’interactions

Comparaison

Comparaison

Page 29: Ambroise Ingold (LIPN Université Paris 13)

29

Calcul de l’IVICalcul de l’IVI

Phrase :We conclude that Notch signalling activity is directly responsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus

Terme Positif Fréquence Spécificitésignalling 36 49 0,73activity 36 66 0,55directly 35 44 0,80responsible 3 10 0,30accumulation 8 10 0,80proteins 65 127 0,51encoded 8 22 0,36locus 22 45 0,49Moyenne 0.57

Page 30: Ambroise Ingold (LIPN Université Paris 13)

30

Extraction des interactionsExtraction des interactions

Phrase :We conclude that Notch signalling activity is directly responsible for the accumulation of basic helix-loop- helix proteins encoded by the Enhancer of split locus

Notch Enhancer of split

Page 31: Ambroise Ingold (LIPN Université Paris 13)

31

Performance de la Performance de la reconnaissance des interactionsreconnaissance des interactions

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

0% 20% 40% 60% 80% 100%

Rappel

Préc

isio

n

2RDG Linéaire (2RDG)

Page 32: Ambroise Ingold (LIPN Université Paris 13)

32

Comparaison 2G et nGComparaison 2G et nG

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

Rappel

Préc

isio

n

nG 2G Linéaire (nG) Linéaire (2G)

Page 33: Ambroise Ingold (LIPN Université Paris 13)

Troisième partieTroisième partie

Interface de la base de données

Page 34: Ambroise Ingold (LIPN Université Paris 13)

34

Formulaire d’annotationFormulaire d’annotation(graphiques synthétiques)(graphiques synthétiques)

Page 35: Ambroise Ingold (LIPN Université Paris 13)

35

Formulaire d’annotationFormulaire d’annotation(comparaison des annotations)(comparaison des annotations)

Page 36: Ambroise Ingold (LIPN Université Paris 13)

36

Formulaire d’annotationFormulaire d’annotation(autres informations)(autres informations)

Page 37: Ambroise Ingold (LIPN Université Paris 13)

37

Conclusion (Bilan)Conclusion (Bilan) Le couplage factuel-textuel Identification des gènes Flybase dans Medline

– Confrontation encyclopédie/texte– Méthode d’identification automatique des gènes– Étude usage

Reconnaissance interactions– Cooccurrence– Indice de pertinence– Simplicité, robustesse

Page 38: Ambroise Ingold (LIPN Université Paris 13)

38

Conclusion (perspective)Conclusion (perspective)

Autres domaines d’applicationsCouplage avec des résultats

d’expériencesInterface Homme-Machine / Recherche

documentaire