clustering algorithms for gene expression analysis pablo viana fagner nascimento
Post on 07-Apr-2016
222 Views
Preview:
TRANSCRIPT
Clustering Algorithms for Gene Expression Analysis
Pablo VianaFagner Nascimento
Roteiro
1. Gene Expression Analysis2. Redução de Dimensionalidade3. Clustering4. Hierarchical Clustering5. K-Means6. Self-Organizing Maps7. Gene Clustering8. Sample Clustering9. Região Reguladora10. Conclusão
Gene Expression Analysis
Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições.
Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.
Gene Expression Analysis Genes codificadores de enzimas que catalisam
um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo).
A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações.
Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.
Gene Expression Analysis
Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe: Redução de Dimensionalidade:
Principal Component Analysis Clustering:
Hierarchical Clustering K-Means
Self-Organizing Maps
Redução de Dimensionalidade
Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré-processamento.
Redução de Dimensionalidade
Principal Component Analysis (PCA): Método estatístico para projetar pontos de
dimensão M num espaço de dimensão K (K << M).
Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.
Clustering
O que é clusterizar? Classificar, agrupar, comprimir.
Clustering
Clustering
Tipos de dados Numérico Relacional Nominal
Similaridade / Distância
Número de Clusters
Clustering
Supervisionado: Baseado num conjunto de vetores ou classes
dados. Não-Supervisionado:
Não existe nenhum conhecimento prévio de classificação.
Métodos Híbridos: Métodos supervisionados utilizando
classificações previamente obtidas pela aplicação de um método não-supervisionado.
Hierarchical Clustering Algoritmo:
Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.
A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.
Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.
Hierarchical Clustering
Hierarchical Clustering
Árvore de Visualização Problema:
Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita.
2N-1 possibilidades. Solução:
Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar
Hierarchical Clustering
Vantagens / Desvantagens
K-Means
Algoritmo: Escolhe-se uma quantidade K de elementos
representativos, do conjunto de dados. Cada ponto é associado ao ‘cluster’ do
representante mais próximo. Novos pontos representantes são calculados
pela média ou centro de gravidade do cluster. Os dois últimos procedimentos são repetidos até
o sistema convergir.
K-Means
K-Means
Vantagens / Desvantagens
Self-Organizing Maps
Parecido com o K-Means Preserva as propriedade topológicas
dos dados Também conhecido como Kohonen
Map, foi descrito pela primeira vez como uma rede neural artificial.
Algoritmo não-supervisionado
Self-Organizing Maps
Possui uma forma muito conveniente para visualização dos dados.
Manipula bem dados não uniformes e irregulares.
Não tem base teórica para determinar a dimensão ótima.
Pode demorar muitas iterações para convergir.
Self-Organizing Maps
Gene Clustering
Sample Clustering
Sample Clustering
DNA e Regiões Reguladoras
Conclusão
top related