filogenesi - univrmolsim.sci.univr.it/2014_bioinfo1/06_filogenesi.pdf · bootstrap how many...

Post on 13-Jul-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Filogenesi

Laboratorio di Bioinformatica I

Filogenesi

Dott. Sergio Marin Vargas (2014 / 2015)

Evoluzione

Selezione Naturale

Selezione Artificiale

Variazione casuale

Risultato Variazioni Casuali

Mutazioni non favorevoliMutazioni favorite dalla Selezione Naturale

Filogenesi (Visualizzare l’evoluzione)

Filogenesi (Omologia)

Gene A

Gene ancestrale

Gene B

duplicazione genica

speciazione

Filogenesi (Parologhi ed Ortologhi)

Ortologhi: geni omologhi con la stessa funzione in organismi diversi

Paraloghi: geni all’interno dello stesso organismo derivanti da duplicazione genica

Gene B1

Gene A1 Gene A2

Gene B2

speciazione

ortologhi

ortologhi

paraloghi

Specie 1 Specie 2

Filogenesi (Distanza genetica)

Metodo della massima parsimonia

L’albero migliore è quello con il minor numero di cambiamenti(eventi evolutivi,mutazioni, ecc), quello cioè più parsimonioso.Ci possono essere molte topologie che implicano lo stessonumero di cambiamenti, ma sono tutte ugualmente valide.

Esercizio 1: Preparazione sequenze

� Vogliamo ottenere sequenze aminoacidiche dell’emoglobina

beta da taxa appartenenti all’ordine dei Cetartiodactyla

(balena, maiale, ippopotamo, ecc).

� Possiamo usare NCBI Protein, cercando con la ricerca

avanzata, con i seguenti paramentri:

� Txid91561 [Organism]

� citocromo b (identificabile con la sigla cytb) (cercarlo in tutti i campi)

� Solo nel database RefSeq� Solo nel database RefSeq

� Si ottengono oltre 200 sequenze, selezionarne le sequenze di

queste 11 specie:

� “Ovis aries”, “Hippopotamus amphibius”, “Lama guanicoe”, “Sus scrofa”,

“Camelus ferus”, “Megaptera novaeangliae”, “Cervus elaphus”, “Antilope

cervicapra”, “Delphinus capensis”, “Bos taurus” e “Giraffa camelopardalis

angolensis”

� Scaricarle in formato FASTA

� Modificare il file FASTA in modo che nell’intestazione di

ciascuna sequenza ci sia solo il nome dell’organismo (servirà

per rendere l’albero filogenetico più leggibile)

Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/)

Propone un workflow per la creazione di alberi

Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/)

1 2 3

Esercizio 2: Alberi filogenetici con Mobyle@Pasteur� Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità il

questo file si trova nella pagina del corso con il nomefilogenesi.fasta

� Aprire il sito http://mobyle.pasteur.fr/ , poi:� Nella sezione alignment � multiple � muscle

� Fare un allineamento multiplo delle sequenze con muscle (output informato clustal). Salvare l‘allineamento in formato clustalw.

� Nella sezione phylogeny � distance � protdist� Nella sezione phylogeny � distance � protdist

� Utilizzando l’allineamento muscle calcolare la matrice delle distanzecon il tool protdist, notare la possibilità di impostare il modello delladistanza (Advanced Options � Distance model) comunque lasciare iparametri di default. Salvare la matrice delle distanze.

� Nella sezione phylogeny � distance � neighbor

� Calcolare l’albero filogenetico con il programma neighbor a partiredalla matrice di distanza calcolata precedentemente con questi duemetodi (Advanced Options � Distance method, in alto):

• Neighbor-joining

• UPGMA

� Confrontare i due alberi filogenetici generati. Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono vicine evolutivamente?

Alberi Filogenetici con Jalviewhttp://www.jalview.org/help/html/calculations/tree.html

Esercizio 3: Alberi filogenetici con Jalview

� Aprire Jalview (www.jalview.org), poi caricarel’allineamento fatto con muscle dell’esercizio precedente.

� Calcolare due alberi filogenetici tramite Jalview, con:� Neighbor-joining utilizzando la percentuale di identità.

� Average distance utilizzando la percentuale di identità.� Average distance utilizzando la percentuale di identità.

� Confrontare i due alberi filogenetici generati tra di loro.

� Confrontare questi alberi con quelli ottenuti nell’esercizioprecedente.

� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?

� Se cliccate su un qualsiasi punto dell’albero filogeneticodi Jalview appare una linea rossa a cosa serve ?

Alberi Filogenetici con EMBL-EBI

Esercizio 4: Alberi filogenetici con EBI-EMBL

� Utilizzare il file di sequenze FASTA dell’esercizio 1, percomodità questo file si trova nella pagina del corso con ilnome filogenesi.fasta.

� Aprire il programma di allineamento Muscle di EBI-EMBl(http://www.ebi.ac.uk/Tools/msa/muscle/), poi caricare lesequenze per allinearle.sequenze per allinearle.

� Nel risultato dell’allineamento cliccare su “PhylogeneticTree” e controllare l’albero filogenetico generato nellasezione “Phylogram”.

� Quale metodo è stato utilizzato per il calcolo delladistanza genetica ?

� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?

Alberi Filogenetici Bootstrap

Il bootstrap serve per testare la robustezza di un albero (o parte di esso):• La tecnica consiste nella randomizzazione.• La confidenza si calcola ri-campionando i

dati disponibili.• I caratteri (colonne in un allineamento di

sequenze) sono estratte con rimpiazzo per generare molti (almeno 100) pseudo data set.set.

• Ogni pseudo data set viene analizzato per ricostruire una filogenesi (con un qualsiasi metodo).

• L’albero che sintetizza i data set, per esempio 100, viene costruito di solito con il metodo del maggior consensus (majorityrule consensus ).

• La frequenza con cui i diversi gruppi si ritrovano nell’albero di consenso così costruito (le bootstrap proportions) sono una misura del supporto statistico per quel gruppo.

Alberi Filogenetici Bootstrapcon Mobyle@Pasteur

� Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità questo file si trova nella pagina del corso con il nome filogenesi.fasta.

� Allineare le sequenze con Clustal omega multialign (di Mobyle@Pasteur)

� Utilizzando l’allineamento multiplo, nella sezione phylogeny � distance �

protdist, calcolare la matrice delle distanze:� Nella sezione “Bootstrap options”

� Perform a bootstrap before analysis � Yes

� Resampling methods (J)? � Bootstrap

� Random number seed (must be odd) � 123 (utilizziamo 123 come seme)

Esercizio 5: Alberi filogenetici Bootstrap

� Random number seed (must be odd) � 123 (utilizziamo 123 come seme)

� How many replicates (R)? � 20 (per ridurre il tempo, ma il minimo sarebbe 100)

� Controllare la matrice delle distanze. Quante matrici ci sono ?

� Con la matrice delle distanze multipla per il bootstrap, calcolare ora un albero con il bootstrap, nella sezione phylogeny � distance � neighbor(Verificare di avere nell’input 20 matrici delle distanze)� Usare il metodo Neighbor-joining

� Nella sezione “Bootstrap options” impostare:

� Analyze multiple data sets (M) � yes

� How many data sets � 20 (lo stesso numero usato per protdist)

� Random number seed for multiple dataset (must be odd) � 123

� Compute a consensus tree � Yes

� Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente?

Programmi

Phylogeny.frhttp://www.phylogeny.fr/

Programmi disponibili per

blast, allineamento

multiplo e analisi filogenetica

Un’alternativa a Mobyle@Pasteur, un sito simile che offre tool online, più semplice ma meno ricco.

Phylogeny.frhttp://www.phylogeny.fr/

Tool per l’analisi filogenetica

Dal menu per la Phylogeny analysis si accede a diverse modalità

La modalità più dettagliata è“à la carte”

Phylogeny.frhttp://www.phylogeny.fr/

http://mrbayes.sourceforge.net/

Diversi strumenti di visualizzazione degli alberi.

TreeDyn è un ottimo strumento di visualizzazione.

� Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare:� Multiple Alignment � T-Coffee

� Alignment curation � Gblocks

� Construction of phylogenetic tree � TNT (Parsimony)

� Visualisation of phylogenetic tree � TreeDyn

Esercizio 6: Alberi filogenetici con Phylogeny.fr

� Visualisation of phylogenetic tree � TreeDyn

� Lanciare il workflow con le sequenze dell’esercizio 1.

� Visualizzare l’albero con “Phylogram”, “Cladogram”, “Radial (by Drawtree)”, “Radial (by TreeDyn)” e “Circular”.

� Perche sembra che Pecora e Antilope non sianoevolutivamente così vicine come con gli altri alberi.

� Rifare la stessa procedura ma adesso utilizzare come Construction of phylogenetic tree “Maximum Likelihood” (PhyML). Cambia qualcosa ?

� Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare:� Multiple Alignment � Muscle

� Alignment curation � Gblocks

� Construction of phylogenetic tree � MrBayes (Bayesian inference)

� Visualisation of phylogenetic tree � TreeDyn

Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)

� Visualisation of phylogenetic tree � TreeDyn

� Lanciare il workflow con le sequenze dell’esercizio 1 e le opzioni:

� MrBayes porre:

� Number of generations = 1000

� Discard first 100 tree sampled.

� Com’è l’abero risultato?

� Visualizzare l’albero filogenetico con “Radial (by Drawtree)”

Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)

top related