gene and genome history. equipe evolution biologique modélisation umr 6632

98
Gene and genome history. Equipe Evolution Biologique Modélisation UMR 6632 http://www.up.univ-mrs.fr/evol/

Upload: rangle

Post on 25-Jan-2016

19 views

Category:

Documents


0 download

DESCRIPTION

Gene and genome history. Equipe Evolution Biologique Modélisation UMR 6632 http://www.up.univ-mrs.fr/evol/. Somes Concepts in evolutionary biology Informatisation. Arthropods. Gastrotrichs. Nematodes. ECDYSOZOANS. Onychophorans. Tardigrades. Kinorhynchs. PROTOSTOMES. Priapulids. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Gene and genome history.

Equipe Evolution Biologique ModélisationUMR 6632

http://www.up.univ-mrs.fr/evol/

Page 2: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 3: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Somes Concepts in evolutionary biology

Informatisation

Page 4: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Metazoan Phylogeny ( Adoutte et al. 2000)Arthropods

Gastrotrichs

Nematodes

Onychophorans

TardigradesKinorhynchs

Priapulids

EC

DY

SO

ZO

AN

S

MolluscsRotifersAnnelidsGnathostomulidsSipunculansNemerteansPogonophoransPlatyhelminthesEntoproctsBryozoansBrachiopodsPhoronids

LO

PH

OT

RO

CH

OZ

OA

NS

VertebratesCephalochordatesUrochordates

HemichordatesEchinoderms

PR

OT

OS

TO

ME

SD

EU

TE

RO

ST

OM

ES

BIL

AT

ER

IA

CtenophoransCnidariansPoriferans

Urbilateria

??

Page 5: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

URBILATERIA : The hypothetical Metazoan AncestorGeoffroy de St Hilaire ( XIX th Century)

URBILATERIA Genome evolved by the fixation of :• Nucleotide substitution• Gene loss• Gene shuffling • Genic duplication

Gene duplication Genome region duplication Whole genome duplication Chromosomal rearrangement

……..

Page 6: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Ce que l’on veut

• Retracer l’histoire des gènes en prenant en compte tous les événements génétiques

Lier les mutations à un shift fonctionnel

• Biochimique, transcriptionnel

• Physiologique, anatomique

•Lier les mutations à un shift environnemental

Page 7: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Survol du génome

• Attention il n’y a pas que les séquences codantes.

Page 8: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

5’ 3’

ORF

préARNmStart stop

5‘ UTR 3‘ UTRintron1

exon2

GT GT GT AGAGAG

Site donne

ur

Site accepteu

r

intron2

intron3

exon1

exon3 exon4

épissage

ARNm AAAAAA

Protéine

transcription

traduction

+1Région promotric

e

De l’ADN à la protéine

Page 9: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Phylogénie

A A AB B BC C CD D

Duplication

Spéciation

Construite avec des modèles évolutifs basés sur les positions …

Distance évolutive entre les séquences: détection des orthologues et paralogues

d’autres événements génétiques existent

Seules les mutations ponctuelles sont prises en compte

Les gap sont éliminés

support

Page 10: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Les autres événements

• Je n’en citerai que quelques uns

• Pour les autres on réfléchira ensemble

Page 11: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

5’ 3’

ORF

préARNmstart stop

5‘ UTR 3‘ UTRintron1

exon2

GT GT GT AGAGAG

intron2

intron3

exon1

exon3 exon4

Épissage alternatiftissu

spécifiqueProtéine isoforme2

Protéine isoforme1

GT AGAG

apparition d’un nouveau site accepteur AG

Page 12: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

5’ 3’

ORF

préARNmstart stop

5‘ UTR 3‘ UTRintron1

exon2

GT GT GT AGAGAG

intron2

intron3

exon1

exon3 exon4

Perte de l’exon 2

Protéine isoforme2

Protéine isoforme1 ancestrale

Mutation ponctuelle sur site accepteur: perte d’exon

Page 13: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

5’ 3’

ORF

préARNmstart stop

5‘ UTR 3‘ UTRintron1

exon2

GT GT GT AGAGAG

intron2

intron3

exon1

exon3 exon4

GT

ou

stop

Perte puis apparition d’un site donneur GT

Élongation d’exon

Page 14: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

GT GT GT AGAGAG stop stop

3’

ORF

start stop

5‘ UTR 3‘ UTRintron1

exon2

intron2

intron3

exon1

exon3 exon4

Perte du codon stop

Élongation d’exon

Page 15: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Orthologs and paralogs

A1/2 A3

A

A1 A2 A3 URBILATERIA

A2 A3’ A3”A1

HUMAN multigenic family

A1 A2 A3

DROSOPHILA multigenic family

A1, A2, B ParalogsDuplication

Speciation

Page 16: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Retracer l’histoire des gènes

Page 17: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Retracer l’histoire des gènes

•Lier les mutations à un shift fonctionnel

• Biochimique, transcriptionnel

• Physiologique, anatomique

Page 18: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Retracer l’histoire des gènes en prenant en compte tous les événements précédents

• Lier les mutations à un shift fonctionnel

• Biochimique, transcriptionnel

• Physiologique, anatomique

•Lier les mutations à un shift environnemental

Page 19: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Reconstruction de l'histoire évolutive d'un gène (ou produit de gène) dans un ensemble d'espèces.

• Évolution du gène dans plusieurs lignées représentée par un arbre phylogénétique.

La phylogénie

Page 20: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Évolution des séquences (ADN ou protéines)

Mutations ponctuelles (substitutions, indels):

Méthodes:

• Distances : mesure de distance ou de similarité afin de regrouper (en anglais : clustering) des séquences proches. (ex: Neighbor Joining: minimise la longueur totale de l’arbre)

Page 21: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Évolution des séquences (ADN ou protéines)

Mutations ponctuelles (substitutions, indels):

Méthodes:

• Distances

• Maximum Parcimonie: basée sur les caractères, recherche du meilleur arbre possible :

Page 22: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Évolution des séquences (ADN ou protéines)

Mutations ponctuelles (substitutions, indels):

Méthodes:

• Distances

• Maximum Parcimonie

• Maximum de Vraisemblance:

Page 23: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Évolution des séquences

Une fois l’arbre phylogénétique obtenu :

Rajouter les autres événements pouvant se produire dans le génomes (duplications, exon shuffling, perte d’exon, élongation des introns, shift transcriptionnel…).

Page 24: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Comment se fixe les mutations

• Processus populationnel

Page 25: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

I

A

B

C

D

Population :

POP 1

POP 1 split in

2 autonomous populations

A

B

C

D

A

B

C

D

POP 1A

POP 1B

Allele A fixation and accumulation of new mutations

A1

A2

B1

B2

Allele B fixation and accumulation of new mutations

From alleles to orthologsPoints mutations

Page 26: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

From alleles to orthologspoints mutations

POP 1A

POP 1B

A1

A2

A1

A2

B1

B2

B1

B2

POP 1A1

POP 1A2

POP 1B1

POP 1B2

A11

A12

A21

A22

B11

B12

B21

B22

POP 1B split in

2 autonomous populations

Allele A1 fixation and accumulation of new mutations

POP 1A split in

2 autonomous populations

Allele A2 fixation and accumulation of new mutations

Allele B1 fixation and accumulation of new mutations

Allele B2 fixation and accumulation of new mutations

Page 27: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

From alleles to orthologs

A.1.1

A.1.2

A.2.1

A.2.2

B.1.1

B.1.2

B.2.1

B.2.2

Alleles

Alleles

Alleles

Alleles

Orthologs

Page 28: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

From Gene History

To Gene Function

Page 29: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Fonction: une notion imprécise.

• La façon dont les mutations se fixent peuvent renseigner sur la fonction.

Page 30: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Orhologs under purifying selection

A

A

URBILATERIA

Speciation

Purifying Selection

DROSOPHILA

Ancestral Function

HUMAN

Ancestral Function

Purifying Selection

A

Page 31: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Discussion autour de la notion de fonction ancestrale

Page 32: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Ortholog functional switch

A

A2 A

URBILATERIA

SpeciationPurifying

Selection

DROSOPHILA

Ancestral Function

HUMAN

New Function ?

Positive selectionOr relaxed

Page 33: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Co-ortholog Sub Functionalization

A

A’ A

URBILATERIA

Speciation

Purifying Selection

DROSOPHILA

Ancestral Function

A”

Duplication

HUMAN

Sub-Function

HUMAN

Sub-Function

Page 34: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Co-ortholog Neo Functionalization

A

A A

URBILATERIA

Speciation

Purifying Selection

DROSOPHILA

Ancestral Function

A2

Duplication

HUMAN

Ancestral Function

HUMAN

New Function

Positive or relaxed Positive or relaxed selectionselection

Purifying Selection

Page 35: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Orthology/ Paralogy

Orthologs : 2 genes on different species Which come from a common ancestor and separated by a speciation event.

Paralogs : 2 genes resulting from a duplication event in a genome.

A1 HUMAN

A1 DROSO

A2 HUMAN

A2 DROSO

A3’ HUMAN

A3” HUMAN

A3 DROSO

Co-Orthologues

Duplication

Speciation

A

A1/2

A3

Page 36: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Evolutionary shift (due to positive or relaxed selection) could be linked to functional shift .

Page 37: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 38: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Detection of Positive selection and functional shift

Page 39: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 40: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

LIPASES

FERULOYLESTERASES A

LignocellulolyseMetabolisme

Cette famille possède deux types d’activité enzymatique malgrè un pourcentage de similarité de séquences élevé.

Comment expliquer une telle divergence fonctionnelle au sein de cette famille ?&

Quelles sont les forces conduisant à de tels événements ?

Example developed in our team : The lipase esterase

Page 41: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Tests PAML: détection de sélection positive

Page 42: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Sites sous sélection positive et implication fonctionnelle

FaeA Aspergillus niger (1USW)

La mutagénèse dirigée permet de connecter les sites positivement

sélectionnés au changement fonctionnel

Lien entre changements évolutif et fonctionnel

1. Asp71 et Tyr80 dans la région du « clapet » (69-80)

2. Tyr100 et le site catalytique

Page 43: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Detection of Evolutionary constraint relaxation and functional shift

• (Dykhuizen- Hartl effect" Kimura (1983))

Page 44: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Co-ortholog Neo Functionalization

A

A A

URBILATERIA

Speciation

Purifying Selection

DROSOPHILA

Ancestral Function

A2

Duplication

HUMAN

Ancestral Function

HUMAN

New Function

Purifying Selection

Page 45: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 46: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Constitutive proteasome β-subunits replacement after Interferon-γ stimulation

Paralogue = duplicated gene

Constitutive Proteasome Immuno-Proteasome

Paralogue replacement

PSMB8 (LMP 7)

PSMB9 (LMP 2)

PSMB10 (LMP Z)

PSMB5

PSMB6

PSMB7

• New function (specialization) (Specific size protein or peptide degradation – used by MHC system)

• Only found in vertebrates

• Ancestral function : Protein degradation• Present in all Metazoans, therefore

present in Urbilateria (Metazoan ancestor).

Page 47: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Large scale gene duplication in vertebrate lineage

Imm

uno

Pro

teas

ome

Pro

teas

ome

Deu

téro

stom

ata

Pro

tost

omat

a

Ver

tebr

ates

Amniota (Human)

Lisamphibia

Chondrichthyes (shark) Cephalaspidomorphi (lamprey)

Céphalochordata (amphioxus)

Echinodermata

Actinopterygii(Zebrafish)

Urochordata(Ciona)

Insects (Drosophila)

Myxini (Hagfish)

Nématod (c. elegans)

751

>751

564

528450

<833-993

833-993

360

PROTEASOME

Page 48: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

PSMB7 Mus PSMB7 Ratt

PSMB7 Bos PSMB7 Homo PSMB7 Gall

PSMB7 Xeno PSMB7 Zebra

PSMB7 Fugu PSMB10 Zebra

PSMB10 Fugu PSMB10 Bos

PSMB10 Mus PSMB10 Homo

PSMB7/10 Bran PSMB7/10 Ci-zeta Cionai

PSMB7/10 BombyxPSMB7/10 Prosbeta2

PSMB7/10 CG18341 Drosophila

62100

100

4495

93

78

599558

88

98100

5280

0.1

**

*

74 99

100*

*69

9995

* *

62

*

*

76

80

**

9578

93

9191

5958

75 *

*Duplication

Page 49: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

The study genes and genomes HISTORY.

Help to find evidences for gene FUNCTION.

Page 50: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• On sait « bien modéliser » l’histoire des substitutions mais pas ou peu les autres événements (quelques travaux sur les indels par exemple)

Page 51: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Concepts in evolutionary biology

• Use of the concepts for • Structural and functional annotation.

Structural annotation (deciphering of gene structure). Functional annotation (especially the use of

phylogeny to decipher proteins function).

.

Page 52: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Biochemical and Biological process :

• Experimental approach : RNA Interference Tandem affinity purification and mass spectrometry

• In Silico

FunctionalFunctional annotation annotation

Page 53: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Functional Annotation

Based on phylogeny. from experimentally annotated genes…

Page 54: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

INTERLUDE

• FUNCTION

• A complex concept;

Page 55: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Function Prediction

*Using orthology information (done)

*Using the evolutionary shift Information.

*Function prediction by Integrative phylogenomics (Engelhardt et al

PLOS Computional biology 2005).

Page 56: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Homologs with experimentally known function: how information can be found.

Gene Ontology

MedLine

SwissProt

Textual Information Analysis

G.O. Standard

GenBank

Functional annotationFunctional annotation

Page 57: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Biological process – biological process to which the gene or gene product contributes. Cell growth and maintenance; pyrimidine metabolism; …

• Molecular function – biochemical activity, including specific binding to ligands or structures, of a gene product. Enzyme, transporter; Toll receptor ligand, …

• Cellular component – place in the cell where a gene product is active. Cytoplasm, ribosome, …

. Plus others classifications to develop:In particular evolutionary based ontology

Functional annotationFunctional annotation

Gene Ontology Classification

Page 58: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Small fraction correspond to known, well-characterized proteins.

If the function is unknown : Phylogenetic analysis :

Functional prediction:

Using orthology information

Using the evolutionary shift information

by integrative Phylogenomics

Page 59: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Tumor necrosis factor family Phylogenetic tree :Orthologs identification

GgaTNFSF10DreTNFSF10

HsaTNFSF10PolTNFSF11

HsaTNFSF11XlaTNFSF11

GgaTNFSF5

HsaTNFSF5BboTNFSF5

MmuTNFSF2HsaTNFSF2

MmuTNFSF1HsaTNFSF1

MmuTNFSF15

HsaTNFSF15HsaTNFSF14MmuTNFSF14

HsaTNFSF6RnoTNFSF6

HsaTNFSF13MmuTNFSF6

GgaTNFSF13

PolTNFSF13MmuTNFSF7HsaTNFSF7

HsaTNFSF8MmuTNFSF8

HsaTNFSF9MmuTNFSF9

EIGER (DmeTNF)

9996

73

7879

95

9999

79

MmuTNFSF598

96

99

99

99

99

88

99

69

74

55

5897

9968

99

99

0,2

DF1

DF2

DF3

Trends in Immunology (July 2003)

Atherosclerotic plaque

formation

ALPS - LPR/GLD

Lympho proliferative syndrome

Page 60: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Small fraction correspond to known, well-characterized proteins.

If the function is unknown : Phylogenetic analysis :

Gene function prediction:

Using orthology information Using the evolutionary shift

information by integrative Phylogenomics

Page 61: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Un exemple de reconstruction phylogénétique

Page 62: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Recherche données fonctionnelles (expérimentales)

Page 63: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Intégration du shift évolutif pour l’annotation

Page 64: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 65: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

evolutionary biology concepts for genome annotation

Further reading

Concepts, hypothesis and test.

Danchin E.G.J, et al. The Major Histocompatibiliy Complex Origin Immunological reviews. 2004;198(1):216-232.

Levasseur A, Danchin E, Orlando L, Bailly X, Pontarotti P. Conceptual bases for quantifying the role of the environment on genes evolution: the participation of positive selection and neutral evolution Biological review 2007

Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology BMC Evol Biol. 2006 Nov 8;6:92 BMC Evol Biol. 2006 Nov 8;6:92

Concepts for applied evolution Danchin E.G.J, Levasseur A, Lopez-Rascol V, Gouret P, Pontarotti P. The use of evolutionary biology

concepts for genome annotation. J. Exp. Zoology Part B: Mol. and Dev. Evol. 2007 Jan 15;308(1):26-36.

Page 66: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 67: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Informatisation des concepts et connaissances

• Phylogénie

• Détection des gènes orthologues et paralogues

• Détection de changements évolutifs

• Prévision de fonctions

Page 68: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

FIGENIX est une plate-forme logicielle multi-utilisateur dédiée aux taches d'annotation structurales et fonctionnelles:

- Prédictions de gènes pour de grandes séquences d'ADN

- Construction d'arbres phylogénétiques robustes

- Détection automatique d'orthologues et de paralogues

- Recherche automatique de données fonctionnelles sur les gènes disponibles à partir de bases de données « Web »

- Filtrage et construction de bases de données protéiques (contigage d'EST)

- Processus chainés(ex: Prédiction de gènes suivie d'études phylogénétiques

pour chacun)

Page 69: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

ETAPES DU PIPELINE de Phylogénie (1)

EnsemblNR…

Séquence protéique codée par un gène putatif

BLAST + filtrage

MUSCLE + purification

+ correction de biais

Alignement multiple

Conservation « repeats »

monophylétiques

Alignement « repeats » fusionnés

Test de composition par TREEPuzzle pour

élim séq trop divergentes

Construction Arbre de la Vie

PFAM

Recherche de domaines par HmmPFAM

Création domaine « FIGENIX » (correctDomains)

Conservation alignement complet

Existence « repeats »?

N

O

Arbre de référence

Enumération domaines

Page 70: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Détection « groupes de paralogie » + élim sites qui évol trop vites (« test de Gu »)

Élim séq >30% « gaps »

Élim domaines les + non congruents détectés par HomPart de PAUP

Test de saturation

NJ Parcimonie Maximum de vraisemblance

Comparaison topologies par tests Templeton-Hasegawa

Topologies congruentes?

Arbre NJ Arbre consensus

Détection orthologuesI

recherche de fonctions

ETAPES DU PIPELINE de phylogénie (2)

arbre arbre arbre

Construction Arbre de la Vie

Arbre de référence

ON

Page 71: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 72: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Architecture de FIGENIX

RDBMS

Expert SystemGenomic

Data Annotation Engine

Web Server

Persistence Layer

RepositoryLoad Balancing, Security, ...

Archiver

Request

Data exchange

MGIAgent

GOAgent

ESTAgent

Functional Collector Agent

- plate-forme Intranet/Extranet

-architecture 3 tiers (interface web/ serveurs “métier” / base de données)

Page 73: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

1)

Page 74: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 75: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Further reading:about concepts informatisation

• Gouret et al.FIGENIX: intelligent automation of genomic annotation: expertise integration in a new software platform. BMC Bioinformatics. 2005 Aug 5;6:198

• Balandraud et al. A rigorous method for multigenic families' functional annotation: the peptidyl arginine deiminase (PADs) proteins family example BMC Genomics 2005, 6:153     

Page 76: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Further reading on FIGENIX utilisation

• Danchin et al . Eleven ancestral gene families lost in mammals and vertebrates while otherwise universally conserved in animals BMC Evolutionary Biology 2006, 6:5

• Paillisson et al . Bromodomain testis-specific protein is expressed in mouse oocyte and evolves faster than its ubiquitously expressed paralogs BRD2, -3 and -4. Genomics. 2007

• Levasseur et al Tracking the evolutionary and functional shifts connection: the lipase-esterase example.BMC evolutionary biology 2007 Jan 15;308(1):26-36. Pierre et al. Structural characterization, genomic organization and phylogenic analysis of the eutherian Ndg1/DPPA5/ECAT1/COEP. Genomics 2007  

Page 77: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 78: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Next

• Phylogenomics (genome Evolution)

• Phylopostgenomics (evolutionary system biology)

• - phylotranscriptomics

• - phylointeractomics

…..

Page 79: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 80: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

C.A.S.S.I.O.P.E

• Clever Agent System for Synteeny Inheritance and Other Phenomena in Evolution

• C.A.S.S.I.O.P.E permet de trouver des régions conservées entre les génomes.

Page 81: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Connaissances/concepts

Observation : il existe des régions de synténies conservées entre espèce.

Explication /concept : ces régions proviennent d’une région ancestrale qui a évoluée de manière indépendante après spéciation dans chaque lignée, mais pas assez pour perdre toute trace de conservation. A partir de cette connaissance et de cette prédiction que découle un ensemble de réflexion qui indique que les analyses des synténies conservées et la reconstruction de régions ancestrales sont intéressantes, d’un point de vu appliqué : assistance au clonage positionnel et d’un point de vue conceptuel : compréhension de l’évolution des génomes.

1/ des relations d’orthologie

2/ le regroupement des gènes orthologues doit être improbable sous l’hypothèse du hasard (le regroupement doit être significatif).

Page 82: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Formalisation de la question biologique• Comment mettre en évidence les synténies

conservées ?• C’est aussi à ce moment que la conceptualisation prend

toute sa place• Si les synténies conservées proviennent vraiment d’une

région ancestrale, les gènes dans ces régions doivent avoir

• ll faut donc avoir des programmes qui soient capables de mettre en évidence les relations d’orthologie, et de trouver des clusters significatifs et les intégrer dans des ystèmes informatiques

Page 83: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

NCBI by Entrez Utilities

JENA library API

OMIMdiseases

Ensembl by ENSJ API

Sequences +Localization

+QTL, ...

OrthologsDetection

Phylogeny Tasks

JADEmulti-agents framework

PhyloGenomicsOntology

POSTGRESQLRDBMS

BEANgenerator

plugin

ProtégéGUI

Questionsin SL language

C.A.S.S.I.O.P.E Clever Agent System for Synteny Inheritance and Other Phenomena in Evolution

OWL

ACL/SL

ACL/SL

ExpertSystem

RMI

Data fromWeb databases

OntologyPersistance

ACL/SL

ACL/SL

ACL/SL

Page 84: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Bioanalyse• Recherche automatique de synténies

conservées.• Dans le futur reconstruction et évolution de

régions génomique• Nouvelle connaissance et nouveaux

concepts• Application directe : • aide au clonage positionnel• Concepts/connaissance:• Mise en évidence de regroupement fonctionnel

Page 85: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

C.A.S.S.I.O.P.E.

Page 86: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Toward the ancestral genome reconstruction

Page 87: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Toward the ancestral genome reconstruction

Page 88: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632
Page 89: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Annexe

Structural annotation

Page 90: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Genome nucleotide-level Annotation :

• Mapping• Finding genomic landmarks

• Gene finding and protein prediction• Non-coding RNAs and regulatory regions• Identifying repetitive elements• Mapping segmental duplications• Mapping variations (SNP, microsatellites,

….)

Structural annotationStructural annotation

Page 91: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Available tools

Ab initio :• Genscan• Fgenesh• Genie• Etc …

Similarity Based :• Genewise• Sim4• Est2genome• Figenix

Based on statistical signals within the DNA. Coding propensity (hexamer signals).Splice Site Signals.Strengths :

Easy and quick to run. Only need DNA as input.

Weakness : High false positive rate.

Alignement programs that know about gene structure.Very accurate with strong sequence similaritiesStrengths : Accurate.Weakness : Need strong similarities, slow to run.

Structural annotationStructural annotationState of the Art

Page 92: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

DM SD A D D D DA A DAA D A+

DA A A

Page 93: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• Structural Annotation

combining together a statistical and homologous approach (similarities with known proteins). The process automation resulted in an expert system based on biological inference rules using gene history and ab-initio program. But yet not completely evolutionary biology based

« FIGENIX SOFTWARE PLATFORM » Annotating method Structural annotationStructural annotation

Page 94: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

segment ADN

protéine A(meilleur hit région 1) protéine B

(meilleur hit région 2)

région 1 région 2

hsp: A1 hsp: A2

hsp: A3

hsp: B1

hsp:B2

Page 95: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

Protein = amino acid sequence

Gene = nucleotidic sequence

mRNA = nucleotidic sequence

P

Transcription

Traduction

Figenix  : 87%Figenix  : 87%

Genscan : 31%

HMMGene : 38%

Sequence

Protein

Validation of structural annotationValidation of structural annotation

The platform performances were validated on standard dataset (HMR195) see Guigò et al, 2000; Rogic et al, 2001.

Page 96: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

0.87

0.38

0.31

CORRECT PROTEIN

PREDICTION

0.220.650.800.55Genscan

0.050.950.920.91Figenix

0.150.780.810.75Hmmgen

OVER PREDICTION

Terminal

(55)

Internal

(186)

Initial

(55)

EXON TYPEPROGRAMS

Accuracy versus Exon Type and Prediction

The Mouse and Rat sequence from the HMR195 dataset was used on the human division of swissprot.

Structural annotationStructural annotation

Page 97: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632

• The next step for structural annotation :

• Is to take into account the gene evolutionary history

Page 98: Gene and genome history.  Equipe Evolution Biologique Modélisation UMR 6632