we are drowning in data and starving for knowledge -r.d ... · modélisation de la structure 3d des...
TRANSCRIPT
Modélisation de la structure 3D des protéines
We are drowning in data and starving for knowledge-R.D. Roger
Unité Mathématique Informatique et Génome
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.1/23
Du génome au phénotype
� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �
� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �
� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �
� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �
� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �
� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �
� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �
� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �� � � � � � � � � � �
� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � � �
� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �
� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �� � � � � � � �
� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �
� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �repeats
horizontal gene transfers
nucleotide frequencies
Protein function in the contextof cellular processes:
physiology
PHENOTYPE
GENOME
high resolution cartography
ESTs
Transcriptomics, proteomics
two−hybrid
proteomics:
phenotypic features:Behavior
morphology
Protein function and cellularprocesses in the context of:
tissuesorgans
proteins, rRNA, tRNA
RBS, promotors, terminators, etc.
post−traductional modifications
gene inactivation experiments
gene expressionprotein interactions
tissue and organ specificictranscriptomics, proteomics:
ESTs
Protein function inferencedomain detection
intrinsic properties of sequences
homology search
gene context
metabolic pathways
signalling cascade
cell structure
Experimental data Other known genomes
non−orthologousgene displacements
orthologsprotein3D structure
modeling:protein engineeringdrug design, etc.
contigs assembly
prediction of gene associated signals:
gene prediction:
exceptional words
expression patterns
subcellularlocalisationprediction
gene fusionsgene neighbors
cellular pathwayscomparison of
missing genes
phylogenetic profiles
anno
tati
onpr
oces
s−le
vel a
nnot
atio
nnu
cleo
tide
−lev
el a
nnot
atio
npr
otei
n−le
vel
genetic markers
genome comparisons
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.2/23
Structure 3D et fonction
les biologistes s’intéressent à la fonction des protéines
la fonction d’une protéine dépend étroitement de la structure 3D
la structure 3D est atteinte lors du repliement de la chaînepolypeptidique
la séquence spécifie d’une manière unique la structure 3D
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.3/23
Structure 3D des protéines
1. Présence d’un cœur hydrophobe très compact (les cavitésreprésentent moins de 1% du volume)
2. Les angles φ, ψ et ω sont dans des zones de basse énergie (90%des φ, ψ dans 14% du diagramme de Ramachandran) I
3. Tous les donneurs ou accepteurs potentiels de liaison hydrogènesont satisfaits
4. Empilement des chaînes latérales varie de spécifique à aléatoire
5. Structure 3D est dominée par les structures secondaires (50-60%des résidus en hélice ou feuillet)
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.4/23
Modélisation de la structure 3D
Plus ou moins difficile selon les cas :
les méthodes utilisant une structure 3D connue (homologie)
alignement de séquences et modélisation comparative
méthodes de reconnaissance de repliements
les autres méthodes...
les méthodes ab initio
les méthodes de novo
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.5/23
Notion d’homologie
Orthologie, paralogie et xenologie
C1 C2 C3B2B1A1 AB1
DP2
DP1
2 gènes sont orthologues si leur ancetre commun est localisé à une jonction (spéciation)
2 gènes sont paralogues si leur ancetre commun est localisé sur une barre horizontale (duplication)
C2 paralogue C3 C2 et C3 orthologues B2 mais paralogues B1 AB1 xenologue aux 6 autres
SP1
SP2
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.6/23
Notion d’homologie
Évolution divergente à partir d’un ancêtre commun
orthologues
paralogues
Propriétés des protéines homologues
très bonne conservation de la structure 3D
fonctions « voisines »
La structure 3D est toujours mieux conservée que la structure primaire
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.7/23
Modélisation comparative
Mise en évidence d’une relation d’homologie par comparaisondes séquences
Transfert de la fonction
Utilisation de la structure 3D connue pour bâtir un modèle
Méthodes utilisées depuis 25 ans qui sont bien rodées
problème principal : qualité de l’alignement
problème annexe : modélisation des parties non conservées(boucles)
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.8/23
Reconnaissance de repliements
But :
améliorer la détection des homologues lointains
Rationnel :
structure 3D meilleur critère que structure primaire
nombre limité de repliements possibles
Principe :
alignement séquence structure 3D
Méthode :
Définition d’une banque de « cœurs »
Détermination de paramètres de scores
Méthode pour aligner les séquences sur les structures 3D
Estimation de la significativité du scoreSeminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.9/23
Représentation schématique
Alignement
s ij
s ij
Définition du coeur
Calcul du score de l’alignement
Estimation de la significativité du score
Σi<j
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.10/23
Définition d’un cœur
��� �� �� � �� � � � � �� � �� � � � �� � � � � �� � �� � � � �� �� �
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.11/23
Représentation schématique
� � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � �
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.12/23
Fonction de score et filtres
Utilisation de plusieurs fonctions de scores différentes (filtres)
Combinaison des résultats I
réseaux de neurones
machines à vecteurs supports (SVM)
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.13/23
Alignement de la séquence sur un cœur
Paramètres 1D (locaux) : programmation dynamique
Paramètres 3D (non locaux) :
algorithmes exacts : branch & bound, divide & conquer
heuristiques
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.14/23
Alignement de la séquence sur un cœur
L = 12
M = 3
n = 5~
Nombre d’alignements : (M+n−1)!M !(n−1)!
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.15/23
Significativité du score
Population 2 sans relation avec le repliement
DDEQWAST....
SYTRAT....
DEPQIY....
Population 1 adoptant le repliement
GVTEK....
ALPSK....
AVSTR....
cytochrome c’
score
Prob
abili
tePr
obab
ilite
�
�
�
�
GACST... sequence requete
STELM... sequence test 1
AASVF... sequence test 2
�����
VRSGA... sequence test N
1er quartile 4e quartile
D
d
score
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.16/23
Problèmes informatiques
Définition d’une banque de « cœurs »
comparaison des structures 3D des protéines (recherche decliques)
Détermination de paramètres de scores
combinaison des résultats des différents filtres (SVM?)
Méthode pour aligner les séquences sur les structures 3D
optimisation combinatoire (branch & bound, programmationlinéaire)
Estimation de la significativité du score
détermination théorique de la distribution des scores(statistiques)
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.17/23
Méthode de novo
Méthodes ab initio (approches physico-chimiques)
modélisation du processus physique réel
principal problème : taille de l’espace à explorer
Méthodes de novo (approches bioinformatiques)
approche knowledge-based
structure 3D est atteinte sans trop perturber la structure locale
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.18/23
Méthode de novo
Méthode proposée par D. Baker
extraire des fragments pertinents des bases de données destructures 3D
assembler ces fragments en structures 3D plausibles
sélectionner « la meilleure » de ces structures 3D
Seminaire AGENAE, Seignosse-le-Penon, 20-21 mai 2003 – p.19/23