we are drowning in data and starving for knowledge -r.d ... · modélisation de la structure 3d des...

23
Modélisation de la structure 3D des protéines We are drowning in data and starving for knowledge -R.D. Roger Unité Mathématique Informatique et Génome S ´ eminaire AGENAE, Seignosse-le-P ´ enon, 20-21 mai 2003 – p.1/23

Upload: dangtruc

Post on 03-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Modélisation de la structure 3D des protéines

We are drowning in data and starving for knowledge-R.D. Roger

Unité Mathématique Informatique et Génome

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.1/23

Du génome au phénotype

� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �

� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �

� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �

� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �

� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �

� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �

� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �

� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �

� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �

� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �

� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �

� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �

� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �repeats

horizontal gene transfers

nucleotide frequencies

Protein function in the contextof cellular processes:

physiology

PHENOTYPE

GENOME

high resolution cartography

ESTs

Transcriptomics, proteomics

two−hybrid

proteomics:

phenotypic features:Behavior

morphology

Protein function and cellularprocesses in the context of:

tissuesorgans

proteins, rRNA, tRNA

RBS, promotors, terminators, etc.

post−traductional modifications

gene inactivation experiments

gene expressionprotein interactions

tissue and organ specificictranscriptomics, proteomics:

ESTs

Protein function inferencedomain detection

intrinsic properties of sequences

homology search

gene context

metabolic pathways

signalling cascade

cell structure

Experimental data Other known genomes

non−orthologousgene displacements

orthologsprotein3D structure

modeling:protein engineeringdrug design, etc.

contigs assembly

prediction of gene associated signals:

gene prediction:

exceptional words

expression patterns

subcellularlocalisationprediction

gene fusionsgene neighbors

cellular pathwayscomparison of

missing genes

phylogenetic profiles

anno

tati

onpr

oces

s−le

vel a

nnot

atio

nnu

cleo

tide

−lev

el a

nnot

atio

npr

otei

n−le

vel

genetic markers

genome comparisons

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.2/23

Structure 3D et fonction

les biologistes s’intéressent à la fonction des protéines

la fonction d’une protéine dépend étroitement de la structure 3D

la structure 3D est atteinte lors du repliement de la chaînepolypeptidique

la séquence spécifie d’une manière unique la structure 3D

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.3/23

Structure 3D des protéines

1. Présence d’un cœur hydrophobe très compact (les cavitésreprésentent moins de 1% du volume)

2. Les angles φ, ψ et ω sont dans des zones de basse énergie (90%des φ, ψ dans 14% du diagramme de Ramachandran) I

3. Tous les donneurs ou accepteurs potentiels de liaison hydrogènesont satisfaits

4. Empilement des chaînes latérales varie de spécifique à aléatoire

5. Structure 3D est dominée par les structures secondaires (50-60%des résidus en hélice ou feuillet)

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.4/23

Modélisation de la structure 3D

Plus ou moins difficile selon les cas :

les méthodes utilisant une structure 3D connue (homologie)

alignement de séquences et modélisation comparative

méthodes de reconnaissance de repliements

les autres méthodes...

les méthodes ab initio

les méthodes de novo

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.5/23

Notion d’homologie

Orthologie, paralogie et xenologie

C1 C2 C3B2B1A1 AB1

DP2

DP1

2 gènes sont orthologues si leur ancetre commun est localisé à une jonction (spéciation)

2 gènes sont paralogues si leur ancetre commun est localisé sur une barre horizontale (duplication)

C2 paralogue C3 C2 et C3 orthologues B2 mais paralogues B1 AB1 xenologue aux 6 autres

SP1

SP2

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.6/23

Notion d’homologie

Évolution divergente à partir d’un ancêtre commun

orthologues

paralogues

Propriétés des protéines homologues

très bonne conservation de la structure 3D

fonctions « voisines »

La structure 3D est toujours mieux conservée que la structure primaire

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.7/23

Modélisation comparative

Mise en évidence d’une relation d’homologie par comparaisondes séquences

Transfert de la fonction

Utilisation de la structure 3D connue pour bâtir un modèle

Méthodes utilisées depuis 25 ans qui sont bien rodées

problème principal : qualité de l’alignement

problème annexe : modélisation des parties non conservées(boucles)

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.8/23

Reconnaissance de repliements

But :

améliorer la détection des homologues lointains

Rationnel :

structure 3D meilleur critère que structure primaire

nombre limité de repliements possibles

Principe :

alignement séquence structure 3D

Méthode :

Définition d’une banque de « cœurs »

Détermination de paramètres de scores

Méthode pour aligner les séquences sur les structures 3D

Estimation de la significativité du scoreSeminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.9/23

Représentation schématique

Alignement

s ij

s ij

Définition du coeur

Calcul du score de l’alignement

Estimation de la significativité du score

Σi<j

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.10/23

Définition d’un cœur

��� �� �� � �� � � � � �� � �� � � � �� � � � � �� � �� � � � �� �� �

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.11/23

Représentation schématique

� � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � �

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.12/23

Fonction de score et filtres

Utilisation de plusieurs fonctions de scores différentes (filtres)

Combinaison des résultats I

réseaux de neurones

machines à vecteurs supports (SVM)

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.13/23

Alignement de la séquence sur un cœur

Paramètres 1D (locaux) : programmation dynamique

Paramètres 3D (non locaux) :

algorithmes exacts : branch & bound, divide & conquer

heuristiques

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.14/23

Alignement de la séquence sur un cœur

L = 12

M = 3

n = 5~

Nombre d’alignements : (M+n−1)!M !(n−1)!

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.15/23

Significativité du score

Population 2 sans relation avec le repliement

DDEQWAST....

SYTRAT....

DEPQIY....

Population 1 adoptant le repliement

GVTEK....

ALPSK....

AVSTR....

cytochrome c’

score

Prob

abili

tePr

obab

ilite

GACST... sequence requete

STELM... sequence test 1

AASVF... sequence test 2

�����

VRSGA... sequence test N

1er quartile 4e quartile

D

d

score

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.16/23

Problèmes informatiques

Définition d’une banque de « cœurs »

comparaison des structures 3D des protéines (recherche decliques)

Détermination de paramètres de scores

combinaison des résultats des différents filtres (SVM?)

Méthode pour aligner les séquences sur les structures 3D

optimisation combinatoire (branch & bound, programmationlinéaire)

Estimation de la significativité du score

détermination théorique de la distribution des scores(statistiques)

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.17/23

Méthode de novo

Méthodes ab initio (approches physico-chimiques)

modélisation du processus physique réel

principal problème : taille de l’espace à explorer

Méthodes de novo (approches bioinformatiques)

approche knowledge-based

structure 3D est atteinte sans trop perturber la structure locale

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.18/23

Méthode de novo

Méthode proposée par D. Baker

extraire des fragments pertinents des bases de données destructures 3D

assembler ces fragments en structures 3D plausibles

sélectionner « la meilleure » de ces structures 3D

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.19/23

CASP 4

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.20/23

CASP 4

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.21/23

Diagramme de Ramachandran

J

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.22/23

Combinaison des scores

−4 −2 0 2 4 6 8 10

−4

−2

02

46

810

1D normalized distance

3D n

orm

aliz

ed d

ista

nce

x = 3.2

y = 3.2

y = −2x + 7.8

J

Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.23/23