a centralized platform for access of heterogeneous data on human genome repositories for supporting...
TRANSCRIPT
A Centralized Platform for Access of Heterogeneous Data on Human
Genome Repositories for Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia
[email protected], [email protected]
10/3/16 Salvador, BA 1
Agenda • Motivação e problema • Objetivo • Abordagens existentes • Estudo de Caso • Contribuições • Desafios e Oportunidades
10/3/16 Salvador, BA 2
Mainframes
PC
Redes
Nuvem
10/3/16 Salvador, BA 3
“Era da Conectividade”
10/3/16 Salvador, BA 4
O universo digital dobra a cada 2anos
Em 2011 o mundo criou um escalonamento de
1.8 zettabytes de dados
1.800.000.000.000.000.000.000 Zetta Exa Peta Tera Giga Mega Kilo Byte
10/3/16 Salvador, BA 5
2011 1.8 ZB
2020 50x
+90ZB
Crescimento da Informação
10/3/16 Salvador, BA 6
≠ Tipos e Fontes 2011 2020
+50x
+75x Recipientes de Informação -‐1.5x profissionais de TI
10/3/16 Salvador, BA 7
VARIEDADE Fontes de dados
Produção mudança
VELOCIDADE
Tamanho dos dados VOLUME
VERACIDADE
Qualidades diferentes
Big Data
10/3/16 Salvador, BA 8
Gerenciar... ...Unificada e em Tempo Real
Ou quase
10/3/16 Salvador, BA 9
O que está causando esta avalanche?
10/3/16 Salvador, BA 10
Objetivo
Auxiliar o gerenciamento (acesso e armazenamento) de grandes conjuntos de dados heterogêneos
• Definir um modelo de dados que possa ser empregado para expressar de maneira unificada grandes conjuntos de dados heterogêneos, distribuídos e não intrinsecamente relacionados;
• Projetar e implementar uma plataforma que irá oferecer acesso de forma padronizada a dados de diversos tipos e fontes de armazenamento
10/3/16 Salvador, BA 11
É necessário...
Lidar com técnicas de integração sob várias perspectivas: • Questões técnicas
• Representacionais
10/3/16 Salvador, BA 12
Heterogeneidade
Técnico Representacional
Integração de dados empresariais
Adequação conceitual e formal
Master data management
Transformação de dados
Federar fontes e
representações
Técnicas e padrões de ETL
Padrões e técnicas de integração
Model Management
Modelos de dados
Formalizar problemas de tradução
10/3/16 Salvador, BA 13
Ferramentas Relacionadas Caracterização e Comparação
10/3/16 Salvador, BA 14
Generalidade
2000 2003 2004 2005 2007 2009 2013 2015 BigData Web 2.0 NoSQL
Rondo Clio MIDST
Chave Valor
Orientado a documento
Família de coluna
Relacional
O. Relacional
O. Objeto
SmaSh SOS
Lenses SMF
10/3/16 Salvador, BA 15
Generalidade
2000 2003 2004 2005 2007 2009 2013 2015
Chave Valor
Orientado a documento
Família de coluna
Relacional
O. Relacional
O. Objeto
BigData Web 2.0 NoSQL
Rondo Clio MIDST SmaSh SOS
Lenses SMF
10/3/16 Salvador, BA 16
Generalidade
2000 2003 2004 2005 2007 2009 2013 2015
Chave Valor
Orientado a documento
Família de coluna
Relacional
O. Relacional
O. Objeto
BigData Web 2.0 NoSQL
Rondo Clio MIDST SmaSh SOS
Lenses SMF
10/3/16 Salvador, BA 17
Modelo para Unificação
2000 2003 2004 2005 2007 2009 2013 2015
Modelo global
BigData Web 2.0 NoSQL
Rondo Clio MIDST SmaSh SOS
Lenses SMF
10/3/16 Salvador, BA 18
Avaliação
2000 2003 2004 2005 2007 2009 2013 2015
Benchmark
Ambiente real
Método formal
BigData Web 2.0 NoSQL
Rondo Clio MIDST SmaSh SOS
Lenses SMF
10/3/16 Salvador, BA 19
Proposta
Uma Plataforma para Acesso Uniforme de grandes volumes de dados heterogêneos (PAjU)
– Independente de tipos e modelos de dados – Escalável – Em tempo (quase) real
10/3/16 Salvador, BA 20
Arquitetura de Referência
10/3/16 Salvador, BA 21
Batch Layer
Armazena um conjunto de dados mestre em constante crescimento e calcular funções arbitrárias sobre esse conjunto de dados
Persiste os dados Visões arbitrárias
10/3/16 Salvador, BA 22
Batch Layer
10/3/16 Salvador, BA 23
Serving Layer
Realiza análises sobre os dados persistidos e disponibiliza através de visões distintas
Acesso a visões Atualizada pela batch
10/3/16 Salvador, BA 24
Serving Layer
10/3/16 Salvador, BA 25
Speed Layer
Produz visões em tempo real com base nos dados que recebe
Atualização incremental Isola a complexidade
10/3/16 Salvador, BA 26
Speed Layer
10/3/16 Salvador, BA 27
Meta Layer
Realiza o gerenciamento da heterogeneidade provendo generalidade a plataforma
Unifica acesso Esquema global
10/3/16 Salvador, BA 28
Meta Layer
10/3/16 Salvador, BA 29
Estudo de Caso Análise de Dados do Genoma Humano
10/3/16 Salvador, BA 30
Contexto
10/3/16 Salvador, BA 31
Contexto
Aproximadamente de 300-‐600 mutações por geração
10/3/16 Salvador, BA 32
Evolução do custo por genoma
10/3/16 Salvador, BA 33
Evolução do custo por genoma
10/3/16 Salvador, BA 34
NextGen Sequencing (NGS)
10/3/16 Salvador, BA 35
Aplicações NGS
• Doenças hereditárias: – Mendelianas
• Mutações ou alterações em um único gene; – Complexas
• Muitos genes e variantes envolvidos;
• Mutações somáticas – Estão na origem de certos cânceres; – Não são transmitidas à descendência.
10/3/16 Salvador, BA 36
Genética Clínica
10/3/16 Salvador, BA 37
Genomika Diagnósticos
10/3/16 Salvador, BA 38
• Um dos laboratórios mais avançados em clínica genética do Brasil e o primeiro localizado na região Norte e Nordeste.
Genomika Diagnósticos
10/3/16 Salvador, BA 39
Processo de Análise
10/3/16 Salvador, BA 40
Nosso workflow da bioinformática
10/3/16 Salvador, BA 41
O Genoma em um arquivo
10/3/16 Salvador, BA 42
O Genoma em um arquivo
10/3/16 Salvador, BA 43
O Genoma em um arquivo
10/3/16 Salvador, BA 44
Busca de variantes
10/3/16 Salvador, BA 45
Bases de dados genéticos
10/3/16 Salvador, BA 46
Bases de dados genéticos
• Dificuldades: – Variedades de acesso; – Diversas estruturas; – Falta de padronização; – Controle de versões; – Bases públicas e privadas.
10/3/16 Salvador, BA 47
Bases de dados genéticos
• Dificuldades: – Uso extensivo de planilhas; – Compartilhamento de dados sensíveis; – Visualização de informação (arquivos podem chegar até 30
mil variantes com diversos atributos); – Reanálise dos dados (laudos negativos podem ser
reavaliados); – Suporte para múltiplas anotações.
10/3/16 Salvador, BA 48
Bases de dados genéticos
10/3/16 Salvador, BA 49
Implementação
• Etapa 1: Esquema de unificação dos dados: – GenDB
• Etapa 2: Anotador de variantes clínicas: – ClinGen
10/3/16 Salvador, BA 50
Implementação
• Tecnologias envolvidas: – Python 2.7 e 3.4 – PostgreSQL 9.4 – Django 1.8 e 1.9 – Django Rest Framework 3.0 – Celery 3.0
10/3/16 Salvador, BA 51
GenDB – Visão Geral
XML, TXT, VCF
10/3/16 Salvador, BA 52
GenDB + Arquitetura de Referência
10/3/16 Salvador, BA 53
GenDB: Esquema
10/3/16 Salvador, BA 54
GenDB: API
10/3/16 Salvador, BA 55
ClinGen: Anotação de variantes
• Desafio diário: mais de 50 banco de dados minerados, alguns deles com mais de 1.000.000 variantes para serem analisados.
• Soluções de anotação existentes: – Não são flexíveis; – Interfaces em linhas de comando; – Alto custo;
10/3/16 Salvador, BA 56
ClinGen
10/3/16 Salvador, BA 57
Contribuições Tempo de reanálise para um exame de exoma completo
10/3/16 Salvador, BA 58
Método
Preparação e anotação de dados
pelo Eme da bioinformáEca
Análise dos especialistas
Total (por pacientes)
Tradicional ≅1h 1 à 2 dias 24 à 48 h
Proposto < 30min ≈2h 3h*
*Sistema já pode realizar a anotação automágca quando uma nova atualização nas bases de dados ocorrer.
Contribuições
Gerenciamento de grandes volumes de dados heterogêneos: • Uma plataforma independente de modelo para acesso de grandes volumes
de dados heterogêneos.
Suporte a decisões clínicas • Integração de diversas fontes de dados genéticos: OMIM, ClinVar,
RefGene, Esp6500, LOVD, ExAC65000, 1000Genomes, SegDup e HPO; • Melhoria do processo de análise de dados (Anotação).
10/3/16 Salvador, BA 59
Futuro
10/3/16 Salvador, BA 60
Desafios e Oportunidadesc
Gerenciamento de grandes volumes de dados heterogêneos: – Variedade: +50 bases mineradas +1.000.000 variantes – Heterogeneidade: Diversos modelos e estruturas
• Falta de padronização – IHC:
• Técnicas de visualização de dados • Interfaces amigáveis
10/3/16 Salvador, BA 61
A Centralized Platform for Access of Heterogeneous Data on Human
Genome Repositories for Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia
[email protected], [email protected]
10/3/16 Salvador, BA 63