filogenesi - univrmolsim.sci.univr.it/2014_bioinfo1/06_filogenesi.pdf · bootstrap how many...

27
Filogenesi Laboratorio di Bioinformatica I Filogenesi Dott. Sergio Marin Vargas (2014 / 2015)

Upload: others

Post on 13-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Filogenesi

Laboratorio di Bioinformatica I

Filogenesi

Dott. Sergio Marin Vargas (2014 / 2015)

Page 2: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Evoluzione

Page 3: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Selezione Naturale

Page 4: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Selezione Artificiale

Page 5: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Variazione casuale

Page 6: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Risultato Variazioni Casuali

Mutazioni non favorevoliMutazioni favorite dalla Selezione Naturale

Page 7: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Filogenesi (Visualizzare l’evoluzione)

Page 8: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Filogenesi (Omologia)

Page 9: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Gene A

Gene ancestrale

Gene B

duplicazione genica

speciazione

Filogenesi (Parologhi ed Ortologhi)

Ortologhi: geni omologhi con la stessa funzione in organismi diversi

Paraloghi: geni all’interno dello stesso organismo derivanti da duplicazione genica

Gene B1

Gene A1 Gene A2

Gene B2

speciazione

ortologhi

ortologhi

paraloghi

Specie 1 Specie 2

Page 10: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Filogenesi (Distanza genetica)

Metodo della massima parsimonia

L’albero migliore è quello con il minor numero di cambiamenti(eventi evolutivi,mutazioni, ecc), quello cioè più parsimonioso.Ci possono essere molte topologie che implicano lo stessonumero di cambiamenti, ma sono tutte ugualmente valide.

Page 11: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Esercizio 1: Preparazione sequenze

� Vogliamo ottenere sequenze aminoacidiche dell’emoglobina

beta da taxa appartenenti all’ordine dei Cetartiodactyla

(balena, maiale, ippopotamo, ecc).

� Possiamo usare NCBI Protein, cercando con la ricerca

avanzata, con i seguenti paramentri:

� Txid91561 [Organism]

� citocromo b (identificabile con la sigla cytb) (cercarlo in tutti i campi)

� Solo nel database RefSeq� Solo nel database RefSeq

� Si ottengono oltre 200 sequenze, selezionarne le sequenze di

queste 11 specie:

� “Ovis aries”, “Hippopotamus amphibius”, “Lama guanicoe”, “Sus scrofa”,

“Camelus ferus”, “Megaptera novaeangliae”, “Cervus elaphus”, “Antilope

cervicapra”, “Delphinus capensis”, “Bos taurus” e “Giraffa camelopardalis

angolensis”

� Scaricarle in formato FASTA

� Modificare il file FASTA in modo che nell’intestazione di

ciascuna sequenza ci sia solo il nome dell’organismo (servirà

per rendere l’albero filogenetico più leggibile)

Page 12: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/)

Page 13: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Propone un workflow per la creazione di alberi

Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/)

1 2 3

Page 14: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Esercizio 2: Alberi filogenetici con Mobyle@Pasteur� Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità il

questo file si trova nella pagina del corso con il nomefilogenesi.fasta

� Aprire il sito http://mobyle.pasteur.fr/ , poi:� Nella sezione alignment � multiple � muscle

� Fare un allineamento multiplo delle sequenze con muscle (output informato clustal). Salvare l‘allineamento in formato clustalw.

� Nella sezione phylogeny � distance � protdist� Nella sezione phylogeny � distance � protdist

� Utilizzando l’allineamento muscle calcolare la matrice delle distanzecon il tool protdist, notare la possibilità di impostare il modello delladistanza (Advanced Options � Distance model) comunque lasciare iparametri di default. Salvare la matrice delle distanze.

� Nella sezione phylogeny � distance � neighbor

� Calcolare l’albero filogenetico con il programma neighbor a partiredalla matrice di distanza calcolata precedentemente con questi duemetodi (Advanced Options � Distance method, in alto):

• Neighbor-joining

• UPGMA

� Confrontare i due alberi filogenetici generati. Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono vicine evolutivamente?

Page 15: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Alberi Filogenetici con Jalviewhttp://www.jalview.org/help/html/calculations/tree.html

Page 16: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Esercizio 3: Alberi filogenetici con Jalview

� Aprire Jalview (www.jalview.org), poi caricarel’allineamento fatto con muscle dell’esercizio precedente.

� Calcolare due alberi filogenetici tramite Jalview, con:� Neighbor-joining utilizzando la percentuale di identità.

� Average distance utilizzando la percentuale di identità.� Average distance utilizzando la percentuale di identità.

� Confrontare i due alberi filogenetici generati tra di loro.

� Confrontare questi alberi con quelli ottenuti nell’esercizioprecedente.

� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?

� Se cliccate su un qualsiasi punto dell’albero filogeneticodi Jalview appare una linea rossa a cosa serve ?

Page 17: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Alberi Filogenetici con EMBL-EBI

Page 18: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Esercizio 4: Alberi filogenetici con EBI-EMBL

� Utilizzare il file di sequenze FASTA dell’esercizio 1, percomodità questo file si trova nella pagina del corso con ilnome filogenesi.fasta.

� Aprire il programma di allineamento Muscle di EBI-EMBl(http://www.ebi.ac.uk/Tools/msa/muscle/), poi caricare lesequenze per allinearle.sequenze per allinearle.

� Nel risultato dell’allineamento cliccare su “PhylogeneticTree” e controllare l’albero filogenetico generato nellasezione “Phylogram”.

� Quale metodo è stato utilizzato per il calcolo delladistanza genetica ?

� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?

Page 19: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Alberi Filogenetici Bootstrap

Il bootstrap serve per testare la robustezza di un albero (o parte di esso):• La tecnica consiste nella randomizzazione.• La confidenza si calcola ri-campionando i

dati disponibili.• I caratteri (colonne in un allineamento di

sequenze) sono estratte con rimpiazzo per generare molti (almeno 100) pseudo data set.set.

• Ogni pseudo data set viene analizzato per ricostruire una filogenesi (con un qualsiasi metodo).

• L’albero che sintetizza i data set, per esempio 100, viene costruito di solito con il metodo del maggior consensus (majorityrule consensus ).

• La frequenza con cui i diversi gruppi si ritrovano nell’albero di consenso così costruito (le bootstrap proportions) sono una misura del supporto statistico per quel gruppo.

Page 20: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Alberi Filogenetici Bootstrapcon Mobyle@Pasteur

Page 21: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

� Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità questo file si trova nella pagina del corso con il nome filogenesi.fasta.

� Allineare le sequenze con Clustal omega multialign (di Mobyle@Pasteur)

� Utilizzando l’allineamento multiplo, nella sezione phylogeny � distance �

protdist, calcolare la matrice delle distanze:� Nella sezione “Bootstrap options”

� Perform a bootstrap before analysis � Yes

� Resampling methods (J)? � Bootstrap

� Random number seed (must be odd) � 123 (utilizziamo 123 come seme)

Esercizio 5: Alberi filogenetici Bootstrap

� Random number seed (must be odd) � 123 (utilizziamo 123 come seme)

� How many replicates (R)? � 20 (per ridurre il tempo, ma il minimo sarebbe 100)

� Controllare la matrice delle distanze. Quante matrici ci sono ?

� Con la matrice delle distanze multipla per il bootstrap, calcolare ora un albero con il bootstrap, nella sezione phylogeny � distance � neighbor(Verificare di avere nell’input 20 matrici delle distanze)� Usare il metodo Neighbor-joining

� Nella sezione “Bootstrap options” impostare:

� Analyze multiple data sets (M) � yes

� How many data sets � 20 (lo stesso numero usato per protdist)

� Random number seed for multiple dataset (must be odd) � 123

� Compute a consensus tree � Yes

� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?

Page 22: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Programmi

Phylogeny.frhttp://www.phylogeny.fr/

Programmi disponibili per

blast, allineamento

multiplo e analisi filogenetica

Page 23: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Un’alternativa a Mobyle@Pasteur, un sito simile che offre tool online, più semplice ma meno ricco.

Phylogeny.frhttp://www.phylogeny.fr/

Tool per l’analisi filogenetica

Page 24: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Dal menu per la Phylogeny analysis si accede a diverse modalità

La modalità più dettagliata è“à la carte”

Phylogeny.frhttp://www.phylogeny.fr/

http://mrbayes.sourceforge.net/

Diversi strumenti di visualizzazione degli alberi.

TreeDyn è un ottimo strumento di visualizzazione.

Page 25: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

� Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare:� Multiple Alignment � T-Coffee

� Alignment curation � Gblocks

� Construction of phylogenetic tree � TNT (Parsimony)

� Visualisation of phylogenetic tree � TreeDyn

Esercizio 6: Alberi filogenetici con Phylogeny.fr

� Visualisation of phylogenetic tree � TreeDyn

� Lanciare il workflow con le sequenze dell’esercizio 1.

� Visualizzare l’albero con “Phylogram”, “Cladogram”, “Radial (by Drawtree)”, “Radial (by TreeDyn)” e “Circular”.

� Perche sembra che Pecora e Antilope non sianoevolutivamente così vicine come con gli altri alberi.

� Rifare la stessa procedura ma adesso utilizzare come Construction of phylogenetic tree “Maximum Likelihood” (PhyML). Cambia qualcosa ?

Page 26: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

� Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare:� Multiple Alignment � Muscle

� Alignment curation � Gblocks

� Construction of phylogenetic tree � MrBayes (Bayesian inference)

� Visualisation of phylogenetic tree � TreeDyn

Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)

� Visualisation of phylogenetic tree � TreeDyn

� Lanciare il workflow con le sequenze dell’esercizio 1 e le opzioni:

� MrBayes porre:

� Number of generations = 1000

� Discard first 100 tree sampled.

� Com’è l’abero risultato?

� Visualizzare l’albero filogenetico con “Radial (by Drawtree)”

Page 27: Filogenesi - Univrmolsim.sci.univr.it/2014_bioinfo1/06_Filogenesi.pdf · Bootstrap How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice

Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)