a centralized platform for access of heterogeneous data on human genome repositories for supporting...

63
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia [email protected], [email protected] 10/3/16 Salvador, BA 1

Upload: andreza-leite

Post on 13-Apr-2017

62 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

A Centralized Platform for Access of Heterogeneous Data on Human

Genome Repositories for Supporting Clinical Decisions

Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia

[email protected], [email protected]

10/3/16   Salvador,  BA   1  

Page 2: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Agenda •  Motivação e problema •  Objetivo •  Abordagens existentes •  Estudo de Caso •  Contribuições •  Desafios e Oportunidades

10/3/16   Salvador,  BA   2  

Page 3: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Mainframes  

PC  

Redes  

Nuvem  

10/3/16   Salvador,  BA   3  

Page 4: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

“Era da Conectividade”

10/3/16   Salvador,  BA   4  

Page 5: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

O universo digital dobra a cada 2anos

Em 2011 o mundo criou um escalonamento de

1.8 zettabytes de dados

1.800.000.000.000.000.000.000 Zetta Exa Peta Tera Giga Mega Kilo Byte

10/3/16   Salvador,  BA   5  

Page 6: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

2011  1.8  ZB  

2020  50x  

+90ZB  

Crescimento  da  Informação  

10/3/16   Salvador,  BA   6  

Page 7: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

≠ Tipos e Fontes 2011   2020  

 +50x  

 

+75x    Recipientes  de  Informação  -­‐1.5x  profissionais  de  TI  

10/3/16   Salvador,  BA   7  

Page 8: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

 VARIEDADE  Fontes  de  dados  

 

Produção    mudança  

VELOCIDADE  

Tamanho    dos  dados  VOLUME  

 

 VERACIDADE  

Qualidades    diferentes  

 

Big    Data    

10/3/16   Salvador,  BA   8  

Page 9: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Gerenciar... ...Unificada e em Tempo Real

Ou quase

10/3/16   Salvador,  BA   9  

Page 10: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

O que está causando esta avalanche?

10/3/16   Salvador,  BA   10  

Page 11: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Objetivo

Auxiliar o gerenciamento (acesso e armazenamento) de grandes conjuntos de dados heterogêneos

•  Definir um modelo de dados que possa ser empregado para expressar de maneira unificada grandes conjuntos de dados heterogêneos, distribuídos e não intrinsecamente relacionados;

•  Projetar e implementar uma plataforma que irá oferecer acesso de forma padronizada a dados de diversos tipos e fontes de armazenamento

10/3/16   Salvador,  BA   11  

Page 12: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

É necessário...

Lidar com técnicas de integração sob várias perspectivas: •  Questões técnicas

•  Representacionais

10/3/16   Salvador,  BA   12  

Page 13: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Heterogeneidade

Técnico Representacional

Integração  de  dados  empresariais  

Adequação  conceitual  e  formal  

Master  data  management  

Transformação  de  dados  

Federar  fontes  e  

representações      

Técnicas  e  padrões  de  ETL  

Padrões  e  técnicas  de  integração  

Model  Management  

Modelos  de  dados  

Formalizar  problemas  de  tradução  

10/3/16   Salvador,  BA   13  

Page 14: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Ferramentas Relacionadas Caracterização e Comparação

10/3/16   Salvador,  BA   14  

Page 15: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Generalidade

2000   2003   2004   2005   2007   2009   2013   2015  BigData   Web  2.0   NoSQL  

Rondo   Clio   MIDST  

Chave  Valor  

Orientado  a  documento  

Família  de  coluna  

Relacional  

O.  Relacional  

O.  Objeto  

SmaSh  SOS  

Lenses  SMF  

10/3/16   Salvador,  BA   15  

Page 16: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Generalidade

2000   2003   2004   2005   2007   2009   2013   2015  

Chave  Valor  

Orientado  a  documento  

Família  de  coluna  

Relacional  

O.  Relacional  

O.  Objeto  

BigData   Web  2.0   NoSQL  

Rondo   Clio   MIDST   SmaSh  SOS  

Lenses  SMF  

10/3/16   Salvador,  BA   16  

Page 17: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Generalidade

2000   2003   2004   2005   2007   2009   2013   2015  

Chave  Valor  

Orientado  a  documento  

Família  de  coluna  

Relacional  

O.  Relacional  

O.  Objeto  

BigData   Web  2.0   NoSQL  

Rondo   Clio   MIDST   SmaSh  SOS  

Lenses  SMF  

10/3/16   Salvador,  BA   17  

Page 18: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Modelo para Unificação

2000   2003   2004   2005   2007   2009   2013   2015  

Modelo  global  

BigData   Web  2.0   NoSQL  

Rondo   Clio   MIDST   SmaSh  SOS  

Lenses  SMF  

10/3/16   Salvador,  BA   18  

Page 19: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Avaliação

2000   2003   2004   2005   2007   2009   2013   2015  

Benchmark  

Ambiente  real  

Método  formal  

BigData   Web  2.0   NoSQL  

Rondo   Clio   MIDST   SmaSh  SOS  

Lenses  SMF  

10/3/16   Salvador,  BA   19  

Page 20: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Proposta

Uma Plataforma para Acesso Uniforme de grandes volumes de dados heterogêneos (PAjU)

–  Independente de tipos e modelos de dados –  Escalável –  Em tempo (quase) real

10/3/16   Salvador,  BA   20  

Page 21: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Arquitetura de Referência

10/3/16   Salvador,  BA   21  

Page 22: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Batch Layer

Armazena um conjunto de dados mestre em constante crescimento e calcular funções arbitrárias sobre esse conjunto de dados

Persiste  os  dados   Visões  arbitrárias  

10/3/16   Salvador,  BA   22  

Page 23: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Batch Layer

10/3/16   Salvador,  BA   23  

Page 24: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Serving Layer

Realiza análises sobre os dados persistidos e disponibiliza através de visões distintas

Acesso  a  visões   Atualizada  pela  batch  

10/3/16   Salvador,  BA   24  

Page 25: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Serving Layer

10/3/16   Salvador,  BA   25  

Page 26: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Speed Layer

Produz visões em tempo real com base nos dados que recebe

Atualização  incremental   Isola  a  complexidade  

10/3/16   Salvador,  BA   26  

Page 27: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Speed Layer

10/3/16   Salvador,  BA   27  

Page 28: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Meta Layer

Realiza o gerenciamento da heterogeneidade provendo generalidade a plataforma

Unifica  acesso   Esquema  global  

10/3/16   Salvador,  BA   28  

Page 29: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Meta Layer

10/3/16   Salvador,  BA   29  

Page 30: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Estudo de Caso Análise de Dados do Genoma Humano

10/3/16   Salvador,  BA   30  

Page 31: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Contexto

10/3/16   Salvador,  BA   31  

Page 32: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Contexto

Aproximadamente    de  300-­‐600  mutações  por  geração  

10/3/16   Salvador,  BA   32  

Page 33: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Evolução do custo por genoma

10/3/16   Salvador,  BA   33  

Page 34: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Evolução do custo por genoma

10/3/16   Salvador,  BA   34  

Page 35: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

NextGen Sequencing (NGS)

10/3/16   Salvador,  BA   35  

Page 36: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Aplicações NGS

•  Doenças hereditárias: –  Mendelianas

•  Mutações ou alterações em um único gene; –  Complexas

•  Muitos genes e variantes envolvidos;

•  Mutações somáticas –  Estão na origem de certos cânceres; –  Não são transmitidas à descendência.

10/3/16   Salvador,  BA   36  

Page 37: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Genética Clínica

10/3/16   Salvador,  BA   37  

Page 38: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Genomika Diagnósticos

10/3/16   Salvador,  BA   38  

•  Um dos laboratórios mais avançados em clínica genética do Brasil e o primeiro localizado na região Norte e Nordeste.

Page 39: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Genomika Diagnósticos

10/3/16   Salvador,  BA   39  

Page 40: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Processo de Análise

10/3/16   Salvador,  BA   40  

Page 41: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Nosso workflow da bioinformática

10/3/16   Salvador,  BA   41  

Page 42: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

O Genoma em um arquivo

10/3/16   Salvador,  BA   42  

Page 43: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

O Genoma em um arquivo

10/3/16   Salvador,  BA   43  

Page 44: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

O Genoma em um arquivo

10/3/16   Salvador,  BA   44  

Page 45: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Busca de variantes

10/3/16   Salvador,  BA   45  

Page 46: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Bases de dados genéticos

10/3/16   Salvador,  BA   46  

Page 47: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Bases de dados genéticos

•  Dificuldades: –  Variedades de acesso; –  Diversas estruturas; –  Falta de padronização; –  Controle de versões; –  Bases públicas e privadas.

10/3/16   Salvador,  BA   47  

Page 48: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Bases de dados genéticos

•  Dificuldades: –  Uso extensivo de planilhas; –  Compartilhamento de dados sensíveis; –  Visualização de informação (arquivos podem chegar até 30

mil variantes com diversos atributos); –  Reanálise dos dados (laudos negativos podem ser

reavaliados); –  Suporte para múltiplas anotações.

10/3/16   Salvador,  BA   48  

Page 49: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Bases de dados genéticos

10/3/16   Salvador,  BA   49  

Page 50: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Implementação

•  Etapa 1: Esquema de unificação dos dados: –  GenDB

•  Etapa 2: Anotador de variantes clínicas: –  ClinGen

10/3/16   Salvador,  BA   50  

Page 51: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Implementação

•  Tecnologias envolvidas: –  Python 2.7 e 3.4 –  PostgreSQL 9.4 –  Django 1.8 e 1.9 –  Django Rest Framework 3.0 –  Celery 3.0

10/3/16   Salvador,  BA   51  

Page 52: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

GenDB – Visão Geral

XML,  TXT,  VCF  

10/3/16   Salvador,  BA   52  

Page 53: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

GenDB + Arquitetura de Referência

10/3/16   Salvador,  BA   53  

Page 54: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

GenDB: Esquema

10/3/16   Salvador,  BA   54  

Page 55: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

GenDB: API

10/3/16   Salvador,  BA   55  

Page 56: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

ClinGen: Anotação de variantes

•  Desafio diário: mais de 50 banco de dados minerados, alguns deles com mais de 1.000.000 variantes para serem analisados.

•  Soluções de anotação existentes: –  Não são flexíveis; –  Interfaces em linhas de comando; –  Alto custo;

10/3/16   Salvador,  BA   56  

Page 57: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

ClinGen

10/3/16   Salvador,  BA   57  

Page 58: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Contribuições Tempo de reanálise para um exame de exoma completo

10/3/16   Salvador,  BA   58  

Método  

Preparação  e  anotação  de  dados  

pelo  Eme  da  bioinformáEca  

Análise  dos  especialistas  

Total  (por  pacientes)  

Tradicional   ≅1h   1  à  2  dias   24  à  48  h  

Proposto   <  30min   ≈2h   3h*  

*Sistema  já  pode  realizar  a  anotação  automágca  quando  uma  nova  atualização  nas  bases  de  dados  ocorrer.  

Page 59: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Contribuições

Gerenciamento de grandes volumes de dados heterogêneos: •  Uma plataforma independente de modelo para acesso de grandes volumes

de dados heterogêneos.

Suporte a decisões clínicas •  Integração de diversas fontes de dados genéticos: OMIM, ClinVar,

RefGene, Esp6500, LOVD, ExAC65000, 1000Genomes, SegDup e HPO; •  Melhoria do processo de análise de dados (Anotação).

10/3/16   Salvador,  BA   59  

Page 60: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Futuro

10/3/16   Salvador,  BA   60  

Page 61: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Desafios e Oportunidadesc

Gerenciamento de grandes volumes de dados heterogêneos: –  Variedade: +50 bases mineradas +1.000.000 variantes –  Heterogeneidade: Diversos modelos e estruturas

•  Falta de padronização –  IHC:

•  Técnicas de visualização de dados •  Interfaces amigáveis

10/3/16   Salvador,  BA   61  

Page 62: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Obridada!

bit.ly/sbbd16 [email protected] [email protected]

10/3/16   Salvador,  BA   62  

Page 63: A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

A Centralized Platform for Access of Heterogeneous Data on Human

Genome Repositories for Supporting Clinical Decisions

Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia

[email protected], [email protected]

10/3/16   Salvador,  BA   63