filogenesi - univrmolsim.sci.univr.it/2014_bioinfo1/06_filogenesi.pdf · bootstrap how many...
TRANSCRIPT
Filogenesi
Laboratorio di Bioinformatica I
Filogenesi
Dott. Sergio Marin Vargas (2014 / 2015)
Evoluzione
Selezione Naturale
Selezione Artificiale
Variazione casuale
Risultato Variazioni Casuali
Mutazioni non favorevoliMutazioni favorite dalla Selezione Naturale
Filogenesi (Visualizzare l’evoluzione)
Filogenesi (Omologia)
Gene A
Gene ancestrale
Gene B
duplicazione genica
speciazione
Filogenesi (Parologhi ed Ortologhi)
Ortologhi: geni omologhi con la stessa funzione in organismi diversi
Paraloghi: geni all’interno dello stesso organismo derivanti da duplicazione genica
Gene B1
Gene A1 Gene A2
Gene B2
speciazione
ortologhi
ortologhi
paraloghi
Specie 1 Specie 2
Filogenesi (Distanza genetica)
Metodo della massima parsimonia
L’albero migliore è quello con il minor numero di cambiamenti(eventi evolutivi,mutazioni, ecc), quello cioè più parsimonioso.Ci possono essere molte topologie che implicano lo stessonumero di cambiamenti, ma sono tutte ugualmente valide.
Esercizio 1: Preparazione sequenze
� Vogliamo ottenere sequenze aminoacidiche dell’emoglobina
beta da taxa appartenenti all’ordine dei Cetartiodactyla
(balena, maiale, ippopotamo, ecc).
� Possiamo usare NCBI Protein, cercando con la ricerca
avanzata, con i seguenti paramentri:
� Txid91561 [Organism]
� citocromo b (identificabile con la sigla cytb) (cercarlo in tutti i campi)
� Solo nel database RefSeq� Solo nel database RefSeq
� Si ottengono oltre 200 sequenze, selezionarne le sequenze di
queste 11 specie:
� “Ovis aries”, “Hippopotamus amphibius”, “Lama guanicoe”, “Sus scrofa”,
“Camelus ferus”, “Megaptera novaeangliae”, “Cervus elaphus”, “Antilope
cervicapra”, “Delphinus capensis”, “Bos taurus” e “Giraffa camelopardalis
angolensis”
� Scaricarle in formato FASTA
� Modificare il file FASTA in modo che nell’intestazione di
ciascuna sequenza ci sia solo il nome dell’organismo (servirà
per rendere l’albero filogenetico più leggibile)
Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/)
Propone un workflow per la creazione di alberi
Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/)
1 2 3
Esercizio 2: Alberi filogenetici con Mobyle@Pasteur� Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità il
questo file si trova nella pagina del corso con il nomefilogenesi.fasta
� Aprire il sito http://mobyle.pasteur.fr/ , poi:� Nella sezione alignment � multiple � muscle
� Fare un allineamento multiplo delle sequenze con muscle (output informato clustal). Salvare l‘allineamento in formato clustalw.
� Nella sezione phylogeny � distance � protdist� Nella sezione phylogeny � distance � protdist
� Utilizzando l’allineamento muscle calcolare la matrice delle distanzecon il tool protdist, notare la possibilità di impostare il modello delladistanza (Advanced Options � Distance model) comunque lasciare iparametri di default. Salvare la matrice delle distanze.
� Nella sezione phylogeny � distance � neighbor
� Calcolare l’albero filogenetico con il programma neighbor a partiredalla matrice di distanza calcolata precedentemente con questi duemetodi (Advanced Options � Distance method, in alto):
• Neighbor-joining
• UPGMA
� Confrontare i due alberi filogenetici generati. Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono vicine evolutivamente?
Alberi Filogenetici con Jalviewhttp://www.jalview.org/help/html/calculations/tree.html
Esercizio 3: Alberi filogenetici con Jalview
� Aprire Jalview (www.jalview.org), poi caricarel’allineamento fatto con muscle dell’esercizio precedente.
� Calcolare due alberi filogenetici tramite Jalview, con:� Neighbor-joining utilizzando la percentuale di identità.
� Average distance utilizzando la percentuale di identità.� Average distance utilizzando la percentuale di identità.
� Confrontare i due alberi filogenetici generati tra di loro.
� Confrontare questi alberi con quelli ottenuti nell’esercizioprecedente.
� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?
� Se cliccate su un qualsiasi punto dell’albero filogeneticodi Jalview appare una linea rossa a cosa serve ?
Alberi Filogenetici con EMBL-EBI
Esercizio 4: Alberi filogenetici con EBI-EMBL
� Utilizzare il file di sequenze FASTA dell’esercizio 1, percomodità questo file si trova nella pagina del corso con ilnome filogenesi.fasta.
� Aprire il programma di allineamento Muscle di EBI-EMBl(http://www.ebi.ac.uk/Tools/msa/muscle/), poi caricare lesequenze per allinearle.sequenze per allinearle.
� Nel risultato dell’allineamento cliccare su “PhylogeneticTree” e controllare l’albero filogenetico generato nellasezione “Phylogram”.
� Quale metodo è stato utilizzato per il calcolo delladistanza genetica ?
� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?
Alberi Filogenetici Bootstrap
Il bootstrap serve per testare la robustezza di un albero (o parte di esso):• La tecnica consiste nella randomizzazione.• La confidenza si calcola ri-campionando i
dati disponibili.• I caratteri (colonne in un allineamento di
sequenze) sono estratte con rimpiazzo per generare molti (almeno 100) pseudo data set.set.
• Ogni pseudo data set viene analizzato per ricostruire una filogenesi (con un qualsiasi metodo).
• L’albero che sintetizza i data set, per esempio 100, viene costruito di solito con il metodo del maggior consensus (majorityrule consensus ).
• La frequenza con cui i diversi gruppi si ritrovano nell’albero di consenso così costruito (le bootstrap proportions) sono una misura del supporto statistico per quel gruppo.
Alberi Filogenetici Bootstrapcon Mobyle@Pasteur
� Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità questo file si trova nella pagina del corso con il nome filogenesi.fasta.
� Allineare le sequenze con Clustal omega multialign (di Mobyle@Pasteur)
� Utilizzando l’allineamento multiplo, nella sezione phylogeny � distance �
protdist, calcolare la matrice delle distanze:� Nella sezione “Bootstrap options”
� Perform a bootstrap before analysis � Yes
� Resampling methods (J)? � Bootstrap
� Random number seed (must be odd) � 123 (utilizziamo 123 come seme)
Esercizio 5: Alberi filogenetici Bootstrap
� Random number seed (must be odd) � 123 (utilizziamo 123 come seme)
� How many replicates (R)? � 20 (per ridurre il tempo, ma il minimo sarebbe 100)
� Controllare la matrice delle distanze. Quante matrici ci sono ?
� Con la matrice delle distanze multipla per il bootstrap, calcolare ora un albero con il bootstrap, nella sezione phylogeny � distance � neighbor(Verificare di avere nell’input 20 matrici delle distanze)� Usare il metodo Neighbor-joining
� Nella sezione “Bootstrap options” impostare:
� Analyze multiple data sets (M) � yes
� How many data sets � 20 (lo stesso numero usato per protdist)
� Random number seed for multiple dataset (must be odd) � 123
� Compute a consensus tree � Yes
� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?
Programmi
Phylogeny.frhttp://www.phylogeny.fr/
Programmi disponibili per
blast, allineamento
multiplo e analisi filogenetica
Un’alternativa a Mobyle@Pasteur, un sito simile che offre tool online, più semplice ma meno ricco.
Phylogeny.frhttp://www.phylogeny.fr/
Tool per l’analisi filogenetica
Dal menu per la Phylogeny analysis si accede a diverse modalità
La modalità più dettagliata è“à la carte”
Phylogeny.frhttp://www.phylogeny.fr/
http://mrbayes.sourceforge.net/
Diversi strumenti di visualizzazione degli alberi.
TreeDyn è un ottimo strumento di visualizzazione.
� Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare:� Multiple Alignment � T-Coffee
� Alignment curation � Gblocks
� Construction of phylogenetic tree � TNT (Parsimony)
� Visualisation of phylogenetic tree � TreeDyn
Esercizio 6: Alberi filogenetici con Phylogeny.fr
� Visualisation of phylogenetic tree � TreeDyn
� Lanciare il workflow con le sequenze dell’esercizio 1.
� Visualizzare l’albero con “Phylogram”, “Cladogram”, “Radial (by Drawtree)”, “Radial (by TreeDyn)” e “Circular”.
� Perche sembra che Pecora e Antilope non sianoevolutivamente così vicine come con gli altri alberi.
� Rifare la stessa procedura ma adesso utilizzare come Construction of phylogenetic tree “Maximum Likelihood” (PhyML). Cambia qualcosa ?
� Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare:� Multiple Alignment � Muscle
� Alignment curation � Gblocks
� Construction of phylogenetic tree � MrBayes (Bayesian inference)
� Visualisation of phylogenetic tree � TreeDyn
Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)
� Visualisation of phylogenetic tree � TreeDyn
� Lanciare il workflow con le sequenze dell’esercizio 1 e le opzioni:
� MrBayes porre:
� Number of generations = 1000
� Discard first 100 tree sampled.
� Com’è l’abero risultato?
� Visualizzare l’albero filogenetico con “Radial (by Drawtree)”
Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)