clustering algorithms for gene expression analysis pablo viana fagner nascimento
TRANSCRIPT
![Page 1: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/1.jpg)
Clustering Algorithms for Gene Expression Analysis
Pablo VianaFagner Nascimento
![Page 2: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/2.jpg)
Roteiro
1. Gene Expression Analysis2. Redução de Dimensionalidade3. Clustering4. Hierarchical Clustering5. K-Means6. Self-Organizing Maps7. Gene Clustering8. Sample Clustering9. Região Reguladora10. Conclusão
![Page 3: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/3.jpg)
Gene Expression Analysis
Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições.
Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.
![Page 4: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/4.jpg)
Gene Expression Analysis Genes codificadores de enzimas que catalisam
um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo).
A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações.
Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.
![Page 5: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/5.jpg)
Gene Expression Analysis
Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe: Redução de Dimensionalidade:
Principal Component Analysis Clustering:
Hierarchical Clustering K-Means
Self-Organizing Maps
![Page 6: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/6.jpg)
Redução de Dimensionalidade
Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré-processamento.
![Page 7: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/7.jpg)
Redução de Dimensionalidade
Principal Component Analysis (PCA): Método estatístico para projetar pontos de
dimensão M num espaço de dimensão K (K << M).
Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.
![Page 8: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/8.jpg)
Clustering
O que é clusterizar? Classificar, agrupar, comprimir.
![Page 9: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/9.jpg)
Clustering
![Page 10: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/10.jpg)
Clustering
Tipos de dados Numérico Relacional Nominal
Similaridade / Distância
Número de Clusters
![Page 11: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/11.jpg)
Clustering
Supervisionado: Baseado num conjunto de vetores ou classes
dados. Não-Supervisionado:
Não existe nenhum conhecimento prévio de classificação.
Métodos Híbridos: Métodos supervisionados utilizando
classificações previamente obtidas pela aplicação de um método não-supervisionado.
![Page 12: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/12.jpg)
![Page 13: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/13.jpg)
Hierarchical Clustering Algoritmo:
Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.
A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.
Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.
![Page 14: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/14.jpg)
Hierarchical Clustering
![Page 15: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/15.jpg)
Hierarchical Clustering
Árvore de Visualização Problema:
Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita.
2N-1 possibilidades. Solução:
Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar
![Page 16: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/16.jpg)
Hierarchical Clustering
Vantagens / Desvantagens
![Page 17: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/17.jpg)
K-Means
Algoritmo: Escolhe-se uma quantidade K de elementos
representativos, do conjunto de dados. Cada ponto é associado ao ‘cluster’ do
representante mais próximo. Novos pontos representantes são calculados
pela média ou centro de gravidade do cluster. Os dois últimos procedimentos são repetidos até
o sistema convergir.
![Page 18: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/18.jpg)
K-Means
![Page 19: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/19.jpg)
K-Means
Vantagens / Desvantagens
![Page 20: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/20.jpg)
Self-Organizing Maps
Parecido com o K-Means Preserva as propriedade topológicas
dos dados Também conhecido como Kohonen
Map, foi descrito pela primeira vez como uma rede neural artificial.
Algoritmo não-supervisionado
![Page 21: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/21.jpg)
Self-Organizing Maps
Possui uma forma muito conveniente para visualização dos dados.
Manipula bem dados não uniformes e irregulares.
Não tem base teórica para determinar a dimensão ótima.
Pode demorar muitas iterações para convergir.
![Page 22: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/22.jpg)
Self-Organizing Maps
![Page 23: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/23.jpg)
Gene Clustering
![Page 24: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/24.jpg)
Sample Clustering
![Page 25: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/25.jpg)
Sample Clustering
![Page 26: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/26.jpg)
DNA e Regiões Reguladoras
![Page 27: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento](https://reader036.vdocument.in/reader036/viewer/2022081604/5706384a1a28abb8238f544b/html5/thumbnails/27.jpg)
Conclusão