big data and science

Click here to load reader

Post on 25-Jan-2017

438 views

Category:

Science

0 download

Embed Size (px)

TRANSCRIPT

  • DATA IS THE NEW SCIENCE

    DA

    TA

    IS

    TH

    E N

    EW

    SC

    IEN

    CE

    Giulia Annovi

    Universit degli Studi di Modena e Reggio Emilia 3 Dicembre 2015

  • ??COSA SONO COSA SONO I BIG DATAI BIG DATA

  • UN INSIEME DI DATI PI O MENO INTERCONNESSI E ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI, DANNO ORIGINE A STORIE

  • BIG DATA

  • USA: 32

    FRANCIA: 19GERMANIA: 15REGNO UNITO: 22

    ITALIA: 11

    CHI PARLA DI BIG DATA?

  • http://goo.gl/HrBywv1997

    I BIG DATA PRENDONO ORIGINE DALLE STELLE

    http://goo.gl/HrBywvhttp://goo.gl/HrBywv

  • Google

    https://www.google.it/trends/explore#q=big%20data

    MA SI PARLER DI LORO MOLTO PI TARDI

    https://www.google.it/trends/explore#q=big%20datahttps://www.google.it/trends/explore#q=big%20datahttps://www.google.it/trends/explore#q=big%20data

  • BANCHE: 29%

    INDUSTRIE: 21%

    MEDIA: 14%

    PA E SANIT: 9%

    CHI PRODUCE BIG DATA IN ITALIA

  • ENTRO IL 2020SI PREVEDE UN AUMENTO DEI BIG DATA

    DEL 4300%

  • I PUNTI CRITICII PUNTI CRITICI

  • IDENTITY PARADOX

  • TRASPARENCY PARADOX

  • POWER PARADOX

  • UNA QUESTIONE DIDIMENSIONI

    MA NON SOLO

  • BIG DATA E SCIENZABIG DATA E SCIENZA

  • TWITTER

    YOU TUBE

    ASTRONOMIA

    GENETICA

  • PRENDIAMO LE MISURE

  • Astronomical data is and has always been big data

  • IL FUTURO SAR RACCOGLIERE 30 Tb OGNI NOTTE

  • 20 PETABITE DI DATI 20 PETABITE DI DATI ALL'ANNOALL'ANNO

    https://www.openstack.org/user-stories/cern/

  • LA FISICA CI HA DATO UNA LENTE BLU PER GUARDARE I DATI: STATA, ALGORITMI E OPENESS

  • SE LA SCIENZA SE LA SCIENZA COMPRENDE COMPRENDE

    IL POTERE DEI DATIIL POTERE DEI DATI

  • Elaborazione

    Archiviazione

    Classificazione

    Condivisione

    Analisi

    Creazione tools

    Disseminazione

    EMBL-EBI

  • BIG DATA WORKER

  • PI DATI PI INFO

  • http://senseable.mit.edu/bbva/

  • RIDUCI

    RICICLA

    RIUSA

  • sostenibile e fattibile il coinvolgimento della popolazione?

    Integrazione con informazioni spaziali e ambientali

    Occorre trasformare le informazioni real time in previsione

    Facilitdi uso da parte degli utenti [https://www.influenzanet.eu/]

    Coinvolgimento di diverse figure professionali: data scientist, comunicatori scientifici oltre a medici, agenzie di sorveglianza, informatici,ricercatori

  • BIG DATA E BIOLOGIABIG DATA E BIOLOGIA

  • http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685

    http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685

  • EMBL-EBI

  • 3Omics: http://3omics.cmdm.tw/

    LA NECESSIT DI FARE SINTESI

  • Metscape: http://metscape.ncibi.org/

    DI VISUALIZZARE

    60 MILA

  • 2 5 8

    33

  • http://www.personalgenomes.org/harvard/data

  • http://www.ncbi.nlm.nih.gov/Traces/sra/

    http://www.ncbi.nlm.nih.gov/Traces/sra/http://www.ncbi.nlm.nih.gov/Traces/sra/

  • FARMACOLOGIA OPEN

    CONTRO IL CANCRO

  • https://clinicaltrials.gov

    MONITORARE I TRIALS CLINICI

  • Require that all drug trials in Europe are registered before they begin on the publicly accessible EU clinical trials register.

    Require that a summary of the results from these trials is published on the register within a year of the trials end.

    Require that a summary understandable to a lay person of what was found in the trial is published on the register.

    Establish a new publicly accessible EU clinical trials register, to be set up and run by the European Medicines Agency.

    Impose financial penalties on anyone running a clinical trial who does not adhere to these new laws.

  • LE MALATTIE INFETTIVE

    7 su 355

    SorveglianzaPrevisione andamento epidemia

  • Letteratura

    WebGenBank

  • http://www.healthmap.org/en/

    Aggregatori di news online (google news), testimonianze, discussioni curate da esperti (PROMED) e report ufficiali (WHO)

  • http://www.gbif.org/

    UN MIX DI DATI PER L'ECOLOGIA

    PROBLEMI SE: i dati non correttamente georeferenziati; insieme di dati solo relativi a un certo luogo; classificazioni tassonomiche errate; problemi di denominazione; preconcetti in fase di campionamento

  • http://www.supersmart-project.org/

    SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in pi di caricare i propri dai personali.

  • http://www.csmon-life.eu/

  • https://www.zooniverse.org/

  • VALIDARE

    DISEGNARE NUOVI ESPERIMENTI

    INTERPRETARE

    AMPLIARE IL CAMPIONE

    RIDURRE GLI ESPERIMENTI

    CREARE MODELLI

  • BIOLOGO OGGIBIOLOGO OGGI

  • INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER

    L'ANALISI DEI DATI, INSTALLARE E LANCIARE SOFTWARE, NAVIGARE TRAMITE LINEA DI COMANDO, COMPARARE VARI TOOL DI ANALISI, SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,

    MANEGGIARE GRANDI DATA SET

  • RAW DATA AND METADATA

    STORE SEPARATELY

  • STABILISCI LO SCOPO DEL TUO PROGETTO

    SERVE PER DIRIGERE I CALCOLINELLA GIUSTA TRAIETTORIA

  • UN'ANALISI

    TROPPI SOFTWARE

  • Controllare

    La SENSIBILIT DELL'ANALISI: quanto i dati sono differenti cambiando software e variabili interne

    Di aver REGISTRATO TUTTI i passaggi e le variazioni

    Di aver INDIVIDUATO LA VARIABILE pi importante del dataset

    Individuare le variabili non importanti

    Fare la PROVA DEL NOVE per i propri risultati

    Procurarsi un campione di dati di CONTROLLO, di cui si conosce il risultato atteso

  • RIPRODUCI

    GitHub, GitLab, BitBucket, or R

    ArXiv or PeerJ

  • BeautifulTechnnical

    Exciting

    BUT WHAT DOESIT MEAN?

  • LE APPLICAZIONI LE APPLICAZIONI L FUORIL FUORI

  • GLI OSPEDALI HANNO BISOGNO DI DATI PER MONITORARE LE PROPRIE PERFORMANCE, CAPIRE DOVE MIGLIORARE I SERVIZI, RISPARMIARE

    IN CLINICA OGGI VENGONO CREATI ALGORITMI CAPACI DI MONITORARE I PAZIENTI E RICONOSCERE I SEGNALI DI RISCHIO

    LE CASE FARMACEUTICHE HANNO INIZIATO A CONDIVIDERE DATI RELATIVI A FARMACI E RISPOSTE ALLE TERAPIE

    I PAZIENTI FANNO PREVENZIONE E SI MONITORANO DA SOLI TRAMITE LA TECNOLOGIA. IN QUESTO MODO PERO' FORNISCONO ANCHE DATI

  • http://doveticuri.mitecube.com/

    http://doveticuri.mitecube.com/http://doveticuri.mitecube.com/

  • http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapped

    http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mappedhttp://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapped

  • GUARDANDO I DATASET

    GENETICI DERIVATI DA

    CIRCA 2500 PAZIENTI

    AFFETTI DA DIABETE, SONO

    STATI INDIVIDUATI TRE

    SOTTOTIPI DI DIABETE TIPO

    2, CON IMPLICAZIONI

    DIVERSE PER LA SALUTE,

    CHE PERO' NON ERANO MAI

    STATE INDIVIDUATE DAL

    PUNTO DI VISTA CLINICO.

  • OASIS IL SENSORE CHE MONITORA LA FISIOLOGIA DELLE PERSONE E DELL'AMBIENTE

  • My recommendation to the next generation of scientists

    to be competitive is to establish a broad

    interdisciplinary foundation

    of math and science as well as strong communication skills

    Michael C. Schatz

  • Bibliografia e sitografia

    Big data

    Il mercato italiano analytics vale 790 milioni di euro Il sole 24 ore

    THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King

    Guide to open access EU Commission 2015

    #Scidata15: Big data: Challenges create opportunities blog Nature

    Malattie infettive:

    Surveillance Sans Frontires: Internet-Based Emerging Infectious Disease Intelligence and the HealthMap ProjectJohn S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl

    Big Data Opportunities for Global Infectious Disease SurveillanceSimon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein

    The quantified self: Fundamental disruption in big data science and biological discovery - M Swan

    http://www.ilsole24ore.com/art/tecnologie/2015-11-26/il-mercato-italiano-analytics-vale-790-milioni-euro-crescono-ma-non-sfondano-big-data-145640.shtml?uuid=ACENDrhB&fromSearchhttp://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdfhttp://blogs.nature.com/naturejobs/2015/11/18/scidata15-big-data-challenges-create-opportunitieshttp://online.liebertpub.com/doi/full/10.1089/big.2012.0002http://www.ilsole24ore.com/art/tecnologie/2015-11-26/il-mercato-italiano-analytics-vale-790-milioni-euro-crescono-ma-non-sfondano-big-data-145640.shtml?uuid=ACENDrhB&fromSearchhttp://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdfhttp://blogs.nature.com/naturejobs/2015/11/18/scidata15-big-data-challenges-create-opportunitieshttp://online.liebertpub.com/doi/full/10.1089/big.2012.0002

  • Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression dataAlla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian Athey, and Gilbert S. Omenn

    Metabolomics Workbench: An international repository for metabolomics data and metadata, metabolite standards, protocols, tutorials and training, and analysis toolsManish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar Subramaniam

    SIGNOR: a database of causal relationships between biological entitiesLivia Perfetto et al.

    Wired Co.UK 23andMe sharing data with big pharma

    Biological data sciences in genome research- Michael C. Schatz

    An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project Consortium

    Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,

    Big Data: Astronomical or Genomical? - Zachary D. Stephens et al

    Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao

    Big universe, big data, astronomical opportunities The Guardian

    http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3268237/http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3268237/http://nar.oxfordjournals.org/content/early/2015/10/13/nar.gkv1042.fullhttp://nar.oxfordjournals.org/content/early/2015/10/13/nar.gkv1042.fullhttp://nar.oxfordjournals.org/content/early/2015/10/13/nar.gkv1048.fullhttp://www.wired.co.uk/news/archive/2015-01/13/23andme-teams-with-big-pharmahttp://genome.cshlp.org/content/25/10/1417.fullhttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC3439153/http://www.sciencedirect.com/science/article/pii/S1672022914001041http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4494865/http://datascience.codata.org/articles/10.5334/dsj-2015-011/http://www.theguardian.com/science/across-the-universe/2015/jun/25/big-universe-big-data-astronomical-opportunityhttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC3268237/http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3268237/http://nar.oxfordjournals.org/content/early/2015/10/13/nar.gkv1042.fullhttp://nar.oxfordjournals.org/content/early/2015/10/13/nar.gkv1042.fullhttp://nar.oxfordjournals.org/content/early/2015/10/13/nar.gkv1048.fullhttp://www.wired.co.uk/news/archive/2015-01/13/23andme-teams-with-big-pharmahttp://genome.cshlp.org/content/25/10/1417.fullhttp://www.ncbi.nlm.nih.gov/pmc/articles/PMC3439153/http://www.sciencedirect.com/science/article/pii/S1672022914001041http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4494865/http://datascience.codata.org/articles/10.5334/dsj-2015-011/http://www.theguardian.com/science/across-the-universe/2015/jun/25/big-universe-big-data-astronomical-opportunity

  • Clinical trials: clearer rules, better protection for patients

    Big Pharma Opens New Chapter On Big Data Collaboration Forbes

    The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Data for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer Kald Abdallaha et al.

    Open source data a boon to malaria research- Emily Mullin

    SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al

    Data sharing: Fewer experiments, more knowledge Nature Blog

    4 big reasons why healthcare needs data science 7Data

    Identification of type 2 diabetes subgroups through topological analysis of patient similarityLi Li1, Wei-Yi Cheng

    OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO

    Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal

    http://www.europarl.europa.eu/news/en/news-room/content/20140331IPR41186/html/Clinical-trials-clearer-rules-better-protection-for-patientshttp://www.forbes.com/sites/danmunro/2014/04/08/big-pharma-opens-new-chapter-on-big-data-collaboration/http://theoncologist.alphamedpress.org/content/20/5/459.fullhttp://theoncologist.alphamedpress.org/content/20/5/459.fullhttp://www.fiercebiotechit.com/story/open-source-data-boon-malaria-research/2013-07-29https://peerj.com/preprints/501.pdfhttp://blogs.nature.com/naturejobs/2015/10/21/data-sharing-fewer-experiments-more-knowledge?WT.mc_id=TWT_NatureJobshttp://www.7wdata.be/article-data/article-bigdata/4-big-reasons-why-healthcare-needs-data-science/http://stm.sciencemag.org/content/7/311/311ra174https://www.indiegogo.com/projects/oasis-a-networked-device-to-monitor-your-health-and-the-earth-s-too#/http://www.plosbiology.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pbio.1002303&representation=PDFhttp://www.europarl.europa.eu/news/en/news-room/content/20140331IPR41186/html/Clinical-trials-clearer-rules-better-protection-for-patientshttp://www.forbes.com/sites/danmunro/2014/04/08/big-pharma-opens-new-chapter-on-big-data-collaboration/http://theoncologist.alphamedpress.org/content/20/5/459.fullhttp://theoncologist.alphamedpress.org/content/20/5/459.fullhttp://www.fiercebiotechit.com/story/open-source-data-boon-malaria-research/2013-07-29https://peerj.com/preprints/501.pdfhttp://blogs.nature.com/naturejobs/2015/10/21/data-sharing-fewer-experiments-more-knowledge?WT.mc_id=TWT_NatureJobshttp://www.7wdata.be/article-data/article-bigdata/4-big-reasons-why-healthcare-needs-data-science/http://stm.sciencemag.org/content/7/311/311ra174https://www.indiegogo.com/projects/oasis-a-networked-device-to-monitor-your-health-and-the-earth-s-too#/http://www.plosbiology.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pbio.1002303&representation=PDF

  • DATA IS THE NEW SCIENCE

    DA

    TA

    IS

    TH

    E N

    EW

    SC

    IEN

    CE

    Giulia Annovi

    Universit degli Studi di Modena e Reggio Emilia 3 Dicembre 2015

  • ??COSA SONO COSA SONO I BIG DATAI BIG DATA

    Cosa sono secondo voi i big data? Se dovessimo definirli con un brain storming quali parole scegliereste?

  • UN INSIEME DI DATI PI O MENO INTERCONNESSI E ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI, DANNO ORIGINE A STORIE

    I big data sono un insieme complesso di numeri, algoritmi, Rilevazioni che finiscono per raccontarci una storia. Sono grafici che divetano parole

  • BIG DATA

    Un'altra definizione romantica di big data li assimila Al pane affettato. Come l'invenzione del pane affettatoHa cambiato il modo di mangiare, ha permesso di sfamare Pi persone con una sola pagnotta, cos anceh i big data Si possono affettare e possono dare innumerevoli informazioni

  • I big data sono definiti tramite 3V: volume (hanno un volume cos grande che stata una sfida anche per le grandi compagnie tecnologiche maneggiarli), grande variet (non sono solo dati strutturati ma un ampio range di dati digitali), e alta velocit (quella a cui i dati sono generati e trasmessi). Esistono per altre V per definirli: la vaghezza (quello che rende i BD vaghi li rende anche esatti e certi: per conoscere la conoscenza devi conoscere anche l'inconoscibile. I BD raccolgono tutto); vendibili; vaticini; voracit; veridicit (la qualit o la perdita della qualit dei dati matters data la grande variet con cui si presentano)Fare business oggi con i big data significa includere errori e confusione. Ma la variet, il volume e la velocit tendono a superare la presenza si questi errori. La casualit e l'universalit sono importanti, mentre la confusione pu essere tollerata.

  • USA: 32

    FRANCIA: 19GERMANIA: 15REGNO UNITO: 22

    ITALIA: 11

    CHI PARLA DI BIG DATA?

    Dove vanno di moda? Soprattutto in India uno sei termini pi citati nelle ricerche di google. In Italia non suscitano ancora grandissimo interesse rispetto ad altri paesi europei. Gli stati uniti sono a quota 32 su 100. A questo si aggiungono aree del tutto escluse da questo discorso (es regioni africane)

  • http://goo.gl/HrBywv1997

    I BIG DATA PRENDONO ORIGINE DALLE STELLE

    Nel 1997 si avuta la prima occasione per parlare di big data: ma la storia poi continua da vent'anni.Negli anni successivi venne creato il substrato su cui i big data si sono sviluppati: ovvero le infrastrutture capaci di supportarliNel 2009 avviene un'altra piccola rivoluzione con l'introduzione dei linked data, cio con il concetto che i dati in rete devono essere tra loro interconnessi per fornire maggiori informazioni Un momento in cui si incomincia a riflettere criticamente sui big data il 2012, perch in quell'anno esce Critical Question for Big Data.

  • Google

    https://www.google.it/trends/explore#q=big%20data

    MA SI PARLER DI LORO MOLTO PI TARDI

    l termine Big Data, secondo google trends, incominciato ad apparire nel tardo 2010. Sebbene il termine big data nei trends delle parole pi ricercate sia in declino perch un concetto difficile da definire, i dati raccolti sono sempre pi

  • BANCHE: 29%

    INDUSTRIE: 21%

    MEDIA: 14%

    PA E SANIT: 9%

    CHI PRODUCE BIG DATA IN ITALIA

    In Italia i big data sono soprattutto diffusi nelle banche (29%), seguiti dalle industrie (21%), dai media (14 %) e per IL 9% dalla PA e sanit. Di minor importanza sono i big data che riguardano i servizi (8%), la GDO (8%), le assicurazioni (5%)

  • ENTRO IL 2020SI PREVEDE UN AUMENTO DEI BIG DATA

    DEL 4300%

    I big data saranno lo strumento del futuro per prendere data driven decision making.Per il futuro si prevede un aumento dei big data del 4300% andare al 2020Ci serviranno per monitorare e quindi per conservare risorse preziose (biodiversit); per tracciare malattie e curare infezioni (es ebola, influenza); per vivere in modo pi sicuro. Quindi i big data non sono solo per le aziende.

  • I PUNTI CRITICII PUNTI CRITICI

  • IDENTITY PARADOX

    Reclamano il fatto di voler identificare, ma di fatto appiattiscono la societ. Non considerano l'individuo, ma piuttosto il comportamento di massa [il paradosso dell'identit]

  • TRASPARENCY PARADOX

    Chiedono a noi di fare tutto nella massima trasparenza. Qualsiasi cosa facciamo tracciabile, qualsiasi acquisto, qualsiasi click, qualsiasi contatto. Eppure i dati raccolti non sono per noi accessibili. Questo anche per un motivo di privacy, ma governi e istituzioni dovrebbero domandarsi come rispondere a tale problema.

  • POWER PARADOX

    Infine c' il paradosso del potere: il fatto di avere le informazioni accessibili ci sembra ci dia un grosso potere. Pensiamo alla primavera araba: tutto stato organizzato tramite i social network, ma il potere dei social network non nelle nostre mani, non controllato da noi. Basta che ci levino questo strumento che noi non ne siamo pi in possesso.

  • UNA QUESTIONE DIDIMENSIONI

    MA NON SOLO

    Un'altra criticit legata ai big data la dimensione, Lo spazio che occupano. Si stima che ogni giorno vengano prodotti 2.5 quintilioni di bytes (cio 2.5 seguito da 18 zero!).

    Un altro problema potrebbe essere lagato al fatto che i dati raccolti potrebbero andare perduti per l'obsolescenza dei formati

  • BIG DATA E SCIENZABIG DATA E SCIENZA

  • TWITTER

    YOU TUBE

    ASTRONOMIA

    GENETICA

    Che differenza c' tra i big data raccolti da twitter youtube l'astronomia e la biologia? Twitter e youtube sono attivi dal 2005-2006 rispettivamente e sono utilizzati quotidianamente da milioni di utenti. L'astronomia sono 20 anni che raccoglie big data. Eppure la biologia in quanto a record resta la prima. Oggi per i dati genetici prodotti dai 20 maggiori istituti si richiede l'uso di 100 petabites all'anno, contro gli 0,5 di twitter e esattamente come youtube.

  • PRENDIAMO LE MISURE

    Confrontando gli ordini di grandezza ecco quanti dati vengono Conservati.Qui sotto invece vediamo la figura di quanti exabites saranno Necessari andare al 2025. Come vedete, se adesso youtube usa la stessa quantit di byte Del genoma, fra 10 anni il volume dei dati sar di gran lunga Superiore.

    Perch pensiamo una cosa del genere?

  • Qante paia di basi contiene il genoma umano? 3 miliardi di bp Si pensa che possano essere sequenziate 35 petabasi all'anno.In futuro si potr arrivare a 2 petabasi

    I problemi connessi all'uso dei big data in biologia riguardano lo storage perch sono una grande quantit, la capacit di processamento (ad esempio allineare le sequenze di due genomi implica l'utilizzo di circa 100-CPU ore.

    Nel 2014 abbiamo raggiunto i 250 mila genomi umani sequenziati (secondo una stima del MIT) in tutto il mondo. Nel 2017 raggiungeremo 1,6 milioni di genomi

    Bene, considerate che ogni 4 basi sequenziate occupiamo un bite.

  • Astronomical data is and has always been big data

    Ma prima di insistere sulla biologia, perch questa viene Confrontata con l'astronomia?Perch come dice il Guardian ha sempre prodotto big data.

  • IL FUTURO SAR RACCOGLIERE 30 Tb OGNI NOTTE

    Ecco i dati prodotti dall'astronomia: Gli astronomi che usano il telescopio Keplero prendono informazioni riguardo a 200,000 stelle ogni 30 secondi, cosa che ha reso possibile la scoperta del primo pianeta simile alla terra fuori dal sistema solare. Lo SDSS uno dei database aperti accessibili con la maggior quantit di dati, ma non nulla al confronto con quello che verr lanciato nei prossimi anni, l'LSST che avr la possibilit di raccogliere 30 Tb ogni notte.

  • 20 PETABITE DI DATI 20 PETABITE DI DATI ALL'ANNOALL'ANNO

    Un altro ambito che stato fondamentale per lo sviluppo deiBig data stata sicuramente la fisica.

    al CERN vengon prodotti 20 petabite di dati ogni anno. Hanno creato un'ifrastruttura: la worldwide LHC computing grid che stata in grado di raccogliere elaborare e analizzare tutti i dati prodotti. I dati sono stati messi nel cloud tramite openstack e sono accessibili

  • LA FISICA CI HA DATO UNA LENTE BLU PER GUARDARE I DATI: STATA, ALGORITMI E OPENESS

    I dati grezzi per evento generato al CERN sono circa 1 milione di bite. Per secondo si producono circa 600 milioni di eventi. Il Worldwide LHC Computing Grid maneggia questa montagna di dati in due stadi. Primo fa partire un algoritmo che seleziona gli eventi pi significativi. Lo stesso principio dovrebbe essere abbracciato anche da altre scienze. Poi gli stessi dati sono analizzati statisticamente una volta ripuliti e questo pu portare a risultati migliori. Pulire i dati significa rimuovere i duplicati, le voci parziali, i valori nulli, concatenare i dati, o separarli in pi righe o pi colonne, aggregare i risultati. Il CERN anche caratterizzato dalla cultura dell'openess: c' un servizio di cloud in cui i dati possono esser condivisi con una Bring Your Own Device (BYOD) policy per assicurare che la propriet intellettuale venga rispettata Se guardiamo il mondo attraverso un vetro blu, lo vediamo blu. Ecco perch importante scegliere il corretto metodo statistico. La pioniera in questo stata la fisica

  • SE LA SCIENZA SE LA SCIENZA COMPRENDE COMPRENDE

    IL POTERE DEI DATIIL POTERE DEI DATI

  • Equesto un altro problema della scienza in genere: una volta Che gli scienziati hanno i dati devono decidere cosa farne: Condividerli oppure mantenerli segreti fino alla pubblicazione. La condivisione poi implica la definizione di standard affinch I dati siano confrontabili e soprattutto occorre stabilire una policy Per garantire la prpriet intellettuale

  • Elaborazione

    Archiviazione

    Classificazione

    Condivisione

    Analisi

    Creazione tools

    Disseminazione

    EMBL-EBI

    Questa una figura tratta dal sito dell'EMBL che Dimostra come i dati vengano processati una volta che sono Affidati a questo grande ente di bioinformatica.

    Gli istituti come l'EBI lavoreranno sempre di pi in futuro per assicurare anche la privacy sui dati. Ad esempio potrebbero creare team interni capaci di rielaborare i dati crudi solo a fini di presentazione degli stessi

  • BIG DATA WORKER

    Come si pu vedere dunque big data implica anche nuoveFigure professionali le cui caratteristiche sono molto varie. stato stimato che in futuro ci sar bisogno dalle 150 mila alle 190 mila unit.

  • PI DATI PI INFO

    Altro fattore che genarano questi dati l'enorma aumento del traffico su web

  • http://senseable.mit.edu/bbva/

    Questo un esempio di come mettendo in relazione i dati e visualizzandoli correttamente si possano trarre molte informazioni. Ad esempio dai dati raccolti in real time durante la pasqua 2011 in Spagna uscito questo video. Pensate se si potesse fare qualcosa del genere monitorando gli scompensi che avvengono nei 15 giorni che prevengono l'infarto. Che cosa accadrebbe se si misurasse la qualit del sonno come dato predittivo per l'insorgenza del diabete?

  • RIDUCI

    RICICLA

    RIUSA

    Eppure anche per i dati scientifici vale la regola delle 3R: riduci ricicla riusa. Condividere i dati non vuol dire solo salvare dei soldi ma anche l'ambiente perch riduce la quantit di esperimenti necessari. Questo accelerer anche l'aumento della conoscenza generata, diminuendo il tempo sprecato a costruire dataset equivalenti

  • sostenibile e fattibile il coinvolgimento della popolazione?

    Integrazione con informazioni spaziali e ambientali

    Occorre trasformare le informazioni real time in previsione

    Facilitdi uso da parte degli utenti [https://www.influenzanet.eu/]

    Coinvolgimento di diverse figure professionali: data scientist, comunicatori scientifici oltre a medici, agenzie di sorveglianza, informatici,ricercatori

    La scienza poi rispetto agli altri campi deve chiedersi queste coser

  • BIG DATA E BIOLOGIABIG DATA E BIOLOGIA

  • Nel caso della biologia ci sono diversi modi di approcciarsi ai dati C' l'analisi tradizionale dei prorpri campioni, del paziente. La scienza Hypothesis driven, m potrebbe diventare data driven. Tuttavia la tecnica ci ha messo a disposizione la possibilit di produrre una grande quantit di datiCi sono le analisi che riguardano le componenti cellulari, le omics. Queste per hanno lo svantaggio dei costi della ricerca (es il sequenziamento) e il costo di immagazzinamento dei dati. In pi richiedono un certo numero di campioni.Ci sono -omics accessibili gi al pubblico: i progetti pi noti sono 23and Me per scoprire il proprio assetto cromosomico; ubiome per avere l'analisi del proprio microbioma; talking20 per avere l'analisi del sangue fai da te. Infine c' la medicina ove i dati li raccoglie direttamente il paziente.

  • http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685

  • EMBL-EBI

    Queste sono le banche dati tradizionali che sono state create dallo sviluppo delle omics.il fatto pi rilevante accaduto nell'ambito della genetica negli ultimi 20 anni stato il sequenziamento dell'interno genoma. Nei prossimi vent'anni ci aspettiamo di sequenziare un miliardo di genomi. La velocit con cui acquisiamo queste informazioni legata al fatto che le macchine e le tecniche si sono enormemente sviluppate: DNA sequencing instruments, super-resolution digital microscopy, mass spectrometry, magnetic resonance imagery, or even satellite imagery used for studying biological systems with greater throughput and resolution than ever before. Tuttavia manca la capacit di queste macchine di interpretare i dati.

  • I dati biologici hanno qualcosa in pi rispetto agli altri big data: sono gerarchici perch generati a diversi livelli (molecolare, cellulare, fisiologico) sono eterogenei perch sono generati con metodi differenti (genetica, fisiologia, patologia, imaging) sono complessi (i dati possono essere registrati simultaneamente da informazioni multi-livello e da migliaia di cellule e sono dinamici, cio associati a processi che cambiano nel tempo. Occorre dunque individuare le forze che governano e le relazioni causali tra gli elementi biologici per fare un uso completo dei big data e per decifrare i meccanismi che governano processi o malattie come il cancro, il diabete o l'Alzheimer.

  • Oggi non ci limitiamo al sequenziamento del genoma: una tecnica applicabile anche con una spesa relativamente ridotta rispetto all'inizio. Il vero problema come rilevare i meccanismi esserenziali dei sistemi biologici, andando a rimuovere il rumore di fondo dei dati.

    Si creano database sempre pi comprensivi, che raccolgono informazioni tratte da diverse tecniche sperimentali, come mass spectrometry (MS) e nuclear magnetic resonance spectrometry (NMR), con dati che raccolgono 20 differenti specie, che coprono le maggiori categorie tassonomiche. .

  • 3Omics: http://3omics.cmdm.tw/

    LA NECESSIT DI FARE SINTESI

    Oggi si sta andando nella direzione della sintesi, verso piattaforme che integrano dati tra loro in relazione, anche perch spesso pu essere complicato fare una relazione tra un sistema di classificazione e l'altro. Ci sono quindi database che mettono insieme informazioni provenienti dalla letteratura, dalla genomica, dalla proteomica e le visualizzano nei loro rapporti e relazioni.

  • Metscape: http://metscape.ncibi.org/

    DI VISUALIZZARE

    60 MILA

    Spesso all'interno dei database sono compresi anche tools statistici che consentono l'elaborazione dei dati o di visualizzazione delle relazioni.

  • La vera sfida dei big data il passaggio dagli studi associativi agli studi causativi. E in questo importante la biologia computazionale, quella che crea modelli. Lo studio delle interazioni piuttosto che dei singoli elementi cattura le componenti inosservate del network e le dinamiche. Quindi sia per gli aspetti teorici che clinici, i big data in biologia si stanno eveolvendo dalle singole molecole verso le molecole multiple, a quelle associate a quelle interattive. E lospostamento dell'interesse anche dovuto all'avvento dei big data. Ci sono poi sistemi che tentano di fare sintesi tra diversi database, come ad esempio SIGNOR ( SIGnaling Network Open Resource) che si occupa di interazioni tra molecole o meglio di attivazioni di segnale che fanno accadere o che impediscano che accada cose nelle cellule. Anche nella rappresentazione di questi segnali ci sono due modelli: i modelli logici vs i modella basati sulle reazioni. I pathway sono rappresentati come una catena di reazioni chimiche dove ogni variante di un certo componente assegnata a un nodo. Intervengono poi elementi regolatori per favorire il passaggio da un nodo all'altro. Di fatto questi modelli rappresentano l'equazione differenziale di una reazione chimica.Nei modelli logici le molecole sono connesse tutte con nodi, che rappresentano anche le interazioni regolatorie. Lo stato di ogni nodo dipende da quello che gli sta a monte. SIGNOR segue 12 000 relazioni causali tra i componenti cellulari.

  • Quantified self data Servono a tracciare le caratteristiche di un individuo in generale o per monitorare e magari curare una patologia o per aumentare performace fisiche (pensiamo alle app che tracciano i nostri percorsi a piedi o in bici) o mentali.Il 66% degli americani usa sistemi tipo questi per monitorare la propria dieta, il proprio peso o parametri legati alla salute. Questi fanno parte dei small data che comunque sono troppo larghi e difficili da maneggiare per il singolo utente, che ha bisogno di tools (spesso online) capaci di misurare correttamente e visualizzare. Inoltre sono parametri interessanti anche perch raccolti direttamente dall'utente. In questo tipo di rilevazione gli individui realizzano studi, applicando i risultati per migliorare la propria vita. Ci sono -omics accessibili gi al pubblico: i progetti pi noti sono 23and Me per scoprire il proprio assetto cromosomico; ubiome per avere l'analisi del proprio microbioma; talking20 per avere l'analisi del sangue fai da te.

  • 2 5 8

    33

    I vantaggi della QS science: permette una raccolta random di dati, permette una raccolta di un gran numero di dati, questo tipo di ricerca pu fornire nuove idee alla ricerca tradizionale; serve a stratificare la popolazione in diverse categorie; unisce insieme diverse categorie di scienze come la biologia, la statistica, i big data, la capacit di calcolo, la sociologia. Potrebbe diventare sempre pi importante per profilare l'eterogeneit dei tumori prime e durante la chemoterapia.

  • http://www.personalgenomes.org/harvard/data

    Anche per la raccolta di questi dati ci sono problemi di accessibilit e usabilit: ad esempio sono accessibili solo i dati di personal genome, un progetto di Harvard e dell'American Gut project, mentre altri dati sono accessibili solo sotto supervisione dei ricercatori come in MyZeo: questo perch a volte sono i ricercatori ad essere restii nel condividere i propri dati, in altri casi perch occorre rispettare la privacy del paziente. Altri problemi riguardano poi le caratteristiche del dato: ogni dato raccolto dovrebbe essere sempre accompagnato da un file che potremmo chiamare di metadati che ci dice come i dati sono stati raccolti, in quali condizioni e quali sono le caratteristiche del paziente. Resta poi da aggiungere che servirebbe un gruppo di confronto, il cos detto campione sano chedeve essere scelto opportunamente come in ogni fase sperimentale. Anche dalla parte dell'utente ad esempio ci deve essere automazione, facilit, ricompensa per poter partecipare.

  • http://www.ncbi.nlm.nih.gov/Traces/sra/

    Qui si vede l'effetto nel caso dei dati gentici: in molti studi sono derivati da un'attivit social

  • FARMACOLOGIA OPEN

    CONTRO IL CANCRO

    C' anche un aspetto applicativo dei big data, come ad esempio la scoperta di nuovi farmaci. Anche l'apertura delle banche dati delle case farmaceutiche un fatto sorico spesso voluto addirittura dai governi per accellerare le scoperte in tale ambito. Ne sono un esempio le azioni intraprese per la terapia del cancro: ci sono due approcci principali: quello di he patients like me che si associato a una casa farmaceutica per poter raccogliere informazioni direttamente dai pazienti. In con questo metodo sono gi 2000 le malattie monitorate tramite le informazioni rilasciate dai pazienti. Nel caso di the project data sphere sono invece stati uniti i database di diverse case farmaceutiche: ci sono per ora pi di 900 utenti autorizzati che hanno accesso a 49 dataset che rappresentano 27000 pazienti che vivono in una vasta area e con differenti tipi di tumori. Un caso analogo si avuto con l'apertura dei dati relativi alla malaria: iniziato da una casa farm,aceutica poi si sono formati proprio banche dati dedicate come a esempio malaria box

  • https://clinicaltrials.gov

    MONITORARE I TRIALS CLINICI

    Oltre a queste cose c' anche un sito internet che segue invece i trials di farmaci che si stanno verificando in questo momento. ClinicalTrials.gov una risorsa del web che fornisca ai pazienti e ai loro familiari, ai medici, ai ricercatori e al pubblico un accesso facile alle informazioni sugli studi clinici pubblici e privati, di una vasta gamma di patologie e condizioni. Il sito web curato da National Library of Medicine (NLM) e dal National Institutes of Health (NIH).ClinicalTrials.gov contiene anche voci che descrivono studi osservazionali e forniscono anche informazioni su farmaci al di fuori dei trial clinici.

  • Require that all drug trials in Europe are registered before they begin on the publicly accessible EU clinical trials register.

    Require that a summary of the results from these trials is published on the register within a year of the trials end.

    Require that a summary understandable to a lay person of what was found in the trial is published on the register.

    Establish a new publicly accessible EU clinical trials register, to be set up and run by the European Medicines Agency.

    Impose financial penalties on anyone running a clinical trial who does not adhere to these new laws.

    Questa cosa di interesse perch questo che l'Europa ha richiesto in merito agli studi clinici e solo portai come questo possono fare il tentativo di rispondere a questi bisogni

  • LE MALATTIE INFETTIVE

    7 su 355

    SorveglianzaPrevisione andamento epidemia

    I dati scientifici possono essere mescolati anche con altre informazioni. Facciamo un esempio della malattiei infettive. nel 2013 si diceva che solo 7 malattie su 355 infettive sono state mappate. Se si acquisissero conoscenze geografiche pi precise nella distribuzione delle malattie si otterrebbe maggiore sorveglianza e una pi precisa capacit previsionale

  • Letteratura

    WebGenBank

    Nel caso delle mappe fatte in precedenza come nel caso della dengue, prima si rilevavano le informazioni a partire dalla letteratura dal web report o da genbank. Poi queste si localizzano. Per inferenza si deducono le aree non infette. Infine si sovrappongono dati spaziali (ad esempio le temperature o le piogge) in questo modo possibile prevedere qual la localizzazione pi probabile di un virus. Ma questo, come si capisce, rende le cose poco aggiornate.

  • http://www.healthmap.org/en/

    Aggregatori di news online (google news), testimonianze, discussioni curate da esperti (PROMED) e report ufficiali (WHO)

    La mappa di HealthMap attiva dal 2006. Il sistema studiato per l'estrazione, la categorizzazione, la filtrazione, e l'integrazione dei report, facilitando l'amministrazione delle informazioni e la rapidit nella rilevazione. Occorre che i dati identifichino correttamente a) la malattia e la sua localizzaione (b) la rilevanza della cosa segnalata, cio se corrisponde davvero a un'epidemia (c) occorre raggruppare segnalazioni simili rimuovendo i duplicati. Una volta che il rapporto stato creato automaticamente poi intervengono curatori che ne controllano la significativit.

  • http://www.gbif.org/

    UN MIX DI DATI PER L'ECOLOGIA

    PROBLEMI SE: i dati non correttamente georeferenziati; insieme di dati solo relativi a un certo luogo; classificazioni tassonomiche errate; problemi di denominazione; preconcetti in fase di campionamento

    Gli stessi dati possono essere facilmente integrati negli studi ecologici o per preservare la biodiversit. Attraverso la rilevazione di dati come il tempo e lo spazio possibile seguire i processi ecologici e quindi stimare i limiti dei territori, le relazioni tra le specie la divergenza nel tempoSUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in pi di caricare i propri dai personali. Global Biodiversity Information Facility (GBIF; http://www.gbif.org), il principale portale per la raccolta dati da diverse localit. Aggrega dati relativi alla storia naturale, e di specie osservate. E orma conta l' 85% (c. 381 milioni) di dati georeferenziati.Ci possono essere cinque problemi che possono impedire la diffusione di un cos vasto ammontare di dati: i dati non correttamente georeferenziati; insieme di dati solo relativi a un certo luogo; classificazioni tassonomiche errate; problemi di denominazione e preconcetti in fase di campionamento

  • http://www.supersmart-project.org/

    SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in pi di caricare i propri dai personali.

    SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in pi di caricare i propri dai personali.

  • http://www.csmon-life.eu/

    CSMON-LIFE (Citizen Science MONitoring) il primo progetto italiano di citizen science sulla biodiversit, finanziato in Italia dalla Commissione Europea nellambito del programma LIFE+. Liniziativa prevede la partecipazione del grande pubblico e si propone di coinvolgere i cittadini nello studio, nella gestione e nella conservazione della biodiversit, creando unattiva collaborazione tra i cittadini, la comunit scientifica e le istituzioni. Alla base del progetto ci sono 4 concetti fondamentali, che costituiscono i pilastri della citizen science:coinvolgimento (dei cittadini)comprensione (delle problematiche legate alla conservazione della natura)collaborazione (nello sviluppo di soluzioni efficaci, in quanto condivise)cambiamento (dei nostri comportamenti nei confronti dellambiente)

  • https://www.zooniverse.org/

    Zooniverse si espande anche in altri campi

    Occorre per sempre Bisogna per tener conto dell'effettiva capacit di coinvolgere le persone in questo processo che pu essere di raccolta attiva (crowdsourcing) o passiva. Occorre poi considerare l'affidabilit di questi dati.Nel caso delle mappe generate in modo passivo o attivo (crowdsourcing) necessario che il dato sia affidabile e quindi che gli venga dato un peso in base all'affidabilit o a altri parametri statisticiPoi bisogna che venga coinvolta in modo opportuno la popolazione e che vengano coinvolte diverse figure professionali.

  • VALIDARE

    DISEGNARE NUOVI ESPERIMENTI

    INTERPRETARE

    AMPLIARE IL CAMPIONE

    RIDURRE GLI ESPERIMENTI

    CREARE MODELLI

    I big data in ambito scientifico servono per l'interpretazione dei risultati, per disegnare nuovi esperimenti, per capire in quale direzione deve andare la ricerca. I big data potrebbero servire per validare dati ottenuti in laboratorio, per ampliare il proprio campione. Inoltre servono perch la condivisione dei dati potrebbe ridurre il numero di esperimenti e aumentare la velocit nel processo dicreazione della conoscenza. Il fatto di avere dai aperti e disponibili e in grandi quantit pu aiutare la biologia di sistema, che teorizza i processi cellulari, tramite modelli matematici in modo da rappresentare quello che avviene in natura con algoritmi. Perch usare questi sitemi? Perch spesso non possibile seguire questo tipo di reazioni in vivo o in vitro.

  • MA per fare questo cosa occorre? Di fatto che vengano assicurati tutti questi passaggi.

  • BIOLOGO OGGIBIOLOGO OGGI

  • INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER

    L'ANALISI DEI DATI, INSTALLARE E LANCIARE SOFTWARE, NAVIGARE TRAMITE LINEA DI COMANDO, COMPARARE VARI TOOL DI ANALISI, SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,

    MANEGGIARE GRANDI DATA SET

  • RAW DATA AND METADATA

    STORE SEPARATELY

  • STABILISCI LO SCOPO DEL TUO PROGETTO

    SERVE PER DIRIGERE I CALCOLINELLA GIUSTA TRAIETTORIA

  • UN'ANALISI

    TROPPI SOFTWARE

  • Controllare

    La SENSIBILIT DELL'ANALISI: quanto i dati sono differenti cambiando software e variabili interne

    Di aver REGISTRATO TUTTI i passaggi e le variazioni

    Di aver INDIVIDUATO LA VARIABILE pi importante del dataset

    Individuare le variabili non importanti

    Fare la PROVA DEL NOVE per i propri risultati

    Procurarsi un campione di dati di CONTROLLO, di cui si conosce il risultato atteso

  • RIPRODUCI

    GitHub, GitLab, BitBucket, or R

    ArXiv or PeerJ

  • BeautifulTechnnical

    Exciting

    BUT WHAT DOESIT MEAN?

  • LE APPLICAZIONI LE APPLICAZIONI L FUORIL FUORI

  • GLI OSPEDALI HANNO BISOGNO DI DATI PER MONITORARE LE PROPRIE PERFORMANCE, CAPIRE DOVE MIGLIORARE I SERVIZI, RISPARMIARE

    IN CLINICA OGGI VENGONO CREATI ALGORITMI CAPACI DI MONITORARE I PAZIENTI E RICONOSCERE I SEGNALI DI RISCHIO

    LE CASE FARMACEUTICHE HANNO INIZIATO A CONDIVIDERE DATI RELATIVI A FARMACI E RISPOSTE ALLE TERAPIE

    I PAZIENTI FANNO PREVENZIONE E SI MONITORANO DA SOLI TRAMITE LA TECNOLOGIA. IN QUESTO MODO PERO' FORNISCONO ANCHE DATI

  • http://doveticuri.mitecube.com/

  • http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapped

  • GUARDANDO I DATASET

    GENETICI DERIVATI DA

    CIRCA 2500 PAZIENTI

    AFFETTI DA DIABETE, SONO

    STATI INDIVIDUATI TRE

    SOTTOTIPI DI DIABETE TIPO

    2, CON IMPLICAZIONI

    DIVERSE PER LA SALUTE,

    CHE PERO' NON ERANO MAI

    STATE INDIVIDUATE DAL

    PUNTO DI VISTA CLINICO.

  • OASIS IL SENSORE CHE MONITORA LA FISIOLOGIA DELLE PERSONE E DELL'AMBIENTE

  • My recommendation to the next generation of scientists

    to be competitive is to establish a broad

    interdisciplinary foundation

    of math and science as well as strong communication skills

    Michael C. Schatz

  • Bibliografia e sitografia

    Big data

    Il mercato italiano analytics vale 790 milioni di euro Il sole 24 ore

    THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King

    Guide to open access EU Commission 2015

    #Scidata15: Big data: Challenges create opportunities blog Nature

    Malattie infettive:

    Surveillance Sans Frontires: Internet-Based Emerging Infectious Disease Intelligence and the HealthMap ProjectJohn S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl

    Big Data Opportunities for Global Infectious Disease SurveillanceSimon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein

    The quantified self: Fundamental disruption in big data science and biological discovery - M Swan

  • Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression dataAlla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian Athey, and Gilbert S. Omenn

    Metabolomics Workbench: An international repository for metabolomics data and metadata, metabolite standards, protocols, tutorials and training, and analysis toolsManish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar Subramaniam

    SIGNOR: a database of causal relationships between biological entitiesLivia Perfetto et al.

    Wired Co.UK 23andMe sharing data with big pharma

    Biological data sciences in genome research- Michael C. Schatz

    An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project Consortium

    Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,

    Big Data: Astronomical or Genomical? - Zachary D. Stephens et al

    Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao

    Big universe, big data, astronomical opportunities The Guardian

  • Clinical trials: clearer rules, better protection for patients

    Big Pharma Opens New Chapter On Big Data Collaboration Forbes

    The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Data for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer Kald Abdallaha et al.

    Open source data a boon to malaria research- Emily Mullin

    SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al

    Data sharing: Fewer experiments, more knowledge Nature Blog

    4 big reasons why healthcare needs data science 7Data

    Identification of type 2 diabetes subgroups through topological analysis of patient similarityLi Li1, Wei-Yi Cheng

    OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO

    Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal

    Diapositiva 1Diapositiva 2Diapositiva 3Diapositiva 4Diapositiva 5Diapositiva 6Diapositiva 7Diapositiva 8Diapositiva 9Diapositiva 10Diapositiva 11Diapositiva 12Diapositiva 13Diapositiva 14Diapositiva 15Diapositiva 16Diapositiva 17Diapositiva 18Diapositiva 19Diapositiva 20Diapositiva 21Diapositiva 22Diapositiva 23Diapositiva 24Diapositiva 25Diapositiva 26Diapositiva 27Diapositiva 28Diapositiva 29Diapositiva 30Diapositiva 31Diapositiva 32Diapositiva 33Diapositiva 34Diapositiva 35Diapositiva 36Diapositiva 37Diapositiva 38Diapositiva 39Diapositiva 40Diapositiva 41Diapositiva 42Diapositiva 43Diapositiva 44Diapositiva 45Diapositiva 46Diapositiva 47Diapositiva 48Diapositiva 49Diapositiva 50Diapositiva 51Diapositiva 52Diapositiva 53Diapositiva 54Diapositiva 55Diapositiva 56Diapositiva 57Diapositiva 58Diapositiva 59Diapositiva 60Diapositiva 61Diapositiva 62Diapositiva 63Diapositiva 64Diapositiva 65Diapositiva 66Diapositiva 67Diapositiva 68Diapositiva 69Diapositiva 70Diapositiva 71Diapositiva 72Diapositiva 73Diapositiva 74Diapositiva 75Diapositiva 76Diapositiva 1Diapositiva 2Diapositiva 3Diapositiva 4Diapositiva 5Diapositiva 6Diapositiva 7Diapositiva 8Diapositiva 9Diapositiva 10Diapositiva 11Diapositiva 12Diapositiva 13Diapositiva 14Diapositiva 15Diapositiva 16Diapositiva 17Diapositiva 18Diapositiva 19Diapositiva 20Diapositiva 21Diapositiva 22Diapositiva 23Diapositiva 24Diapositiva 25Diapositiva 26Diapositiva 27Diapositiva 28Diapositiva 29Diapositiva 30Diapositiva 31Diapositiva 32Diapositiva 33Diapositiva 34Diapositiva 35Diapositiva 36Diapositiva 37Diapositiva 38Diapositiva 39Diapositiva 40Diapositiva 41Diapositiva 42Diapositiva 43Diapositiva 44Diapositiva 45Diapositiva 46Diapositiva 47Diapositiva 48Diapositiva 49Diapositiva 50Diapositiva 51Diapositiva 52Diapositiva 53Diapositiva 54Diapositiva 55Diapositiva 56Diapositiva 57Diapositiva 58Diapositiva 59Diapositiva 60Diapositiva 61Diapositiva 62Diapositiva 63Diapositiva 64Diapositiva 65Diapositiva 66Diapositiva 67Diapositiva 68Diapositiva 69Diapositiva 70Diapositiva 71Diapositiva 72Diapositiva 73Diapositiva 74Diapositiva 75Diapositiva 76