big data and science

152
DATA IS THE NEW SCIENCE DATA IS THE NEW SCIENCE Giulia Annovi Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015

Upload: giulia-annovi

Post on 25-Jan-2017

441 views

Category:

Science


0 download

TRANSCRIPT

DATA IS THE NEW SCIENCE

DA

TA

IS

TH

E N

EW

SC

IEN

CE

Giulia Annovi

Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015

??COSA SONO COSA SONO I BIG DATAI BIG DATA

UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI, DANNO ORIGINE A STORIE

BIG DATA

USA: 32

FRANCIA: 19GERMANIA: 15REGNO UNITO: 22

ITALIA: 11

CHI PARLA DI BIG DATA?

http://goo.gl/HrBywv1997

I BIG DATA PRENDONO ORIGINE DALLE STELLE

Google

https://www.google.it/trends/explore#q=big%20data

MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI

BANCHE: 29%

INDUSTRIE: 21%

MEDIA: 14%

PA E SANITÀ: 9%

CHI PRODUCE BIG DATA IN ITALIA

ENTRO IL 2020SI PREVEDE UN AUMENTO DEI BIG DATA

DEL 4300%

I PUNTI CRITICII PUNTI CRITICI

IDENTITY PARADOX

TRASPARENCY PARADOX

POWER PARADOX

È UNA QUESTIONE DIDIMENSIONI

MA NON SOLO

BIG DATA E SCIENZABIG DATA E SCIENZA

TWITTER

YOU TUBE

ASTRONOMIA

GENETICA

PRENDIAMO LE MISURE

Astronomical data is and has always been “big data”

IL FUTURO SARÀ RACCOGLIERE 30 Tb OGNI NOTTE

20 PETABITE DI DATI 20 PETABITE DI DATI ALL'ANNOALL'ANNO

LA FISICA CI HA DATO UNA LENTE BLU PER GUARDARE I DATI: STATA, ALGORITMI E OPENESS

SE LA SCIENZA SE LA SCIENZA COMPRENDE COMPRENDE

IL POTERE DEI DATIIL POTERE DEI DATI

Elaborazione

Archiviazione

Classificazione

Condivisione

Analisi

Creazione tools

Disseminazione

EMBL-EBI

BIG DATA WORKER

PIÚ DATI PIÚ INFO

http://senseable.mit.edu/bbva/

RIDUCI

RICICLA

RIUSA

È sostenibile e fattibile il coinvolgimento della popolazione?

Integrazione con informazioni spaziali e ambientali

Occorre trasformare le informazioni real time in previsione

Facilitàdi uso da parte degli utenti [https://www.influenzanet.eu/]

Coinvolgimento di diverse figure professionali: data scientist, comunicatori scientifici oltre a medici, agenzie di sorveglianza, informatici,ricercatori

BIG DATA E BIOLOGIABIG DATA E BIOLOGIA

EMBL-EBI

3Omics: http://3omics.cmdm.tw/

LA NECESSITÀ DI FARE SINTESI

Metscape: http://metscape.ncibi.org/

DI VISUALIZZARE

60 MILA

2 5 8

33

http://www.personalgenomes.org/harvard/data

FARMACOLOGIA OPEN

CONTRO IL CANCRO

https://clinicaltrials.gov

MONITORARE I TRIALS CLINICI

Require that all drug trials in Europe are registered before they begin on the publicly accessible EU clinical trials register.

Require that a summary of the results from these trials is published on the register within a year of the trial’s end.

Require that a summary understandable to a lay person of what was found in the trial is published on the register.

Establish a new publicly accessible EU clinical trials register, to be set up and run by the European Medicines Agency.

Impose financial penalties on anyone running a clinical trial who does not adhere to these new laws.

LE MALATTIE INFETTIVE

7 su 355

➔Sorveglianza➔Previsione andamento epidemia

Letteratura

WebGenBank

http://www.healthmap.org/en/

Aggregatori di news online (google news), testimonianze, discussioni curate da esperti (PROMED) e report ufficiali (WHO)

http://www.gbif.org/

UN MIX DI DATI PER L'ECOLOGIA

PROBLEMI SE:● i dati non correttamente georeferenziati; ● insieme di dati solo relativi a un certo luogo; ● classificazioni tassonomiche errate; ● problemi di denominazione;● preconcetti in fase di campionamento

http://www.supersmart-project.org/

SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali.

http://www.csmon-life.eu/

https://www.zooniverse.org/

VALIDARE

DISEGNARE NUOVI ESPERIMENTI

INTERPRETARE

AMPLIARE IL CAMPIONE

RIDURRE GLI ESPERIMENTI

CREARE MODELLI

BIOLOGO OGGIBIOLOGO OGGI

● INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER

L'ANALISI DEI DATI,

● INSTALLARE E LANCIARE SOFTWARE,

● NAVIGARE TRAMITE LINEA DI COMANDO,

● COMPARARE VARI TOOL DI ANALISI,

● SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,

MANEGGIARE GRANDI DATA SET

RAW DATA AND METADATA

STORE SEPARATELY

STABILISCI LO SCOPO DEL TUO PROGETTO

SERVE PER DIRIGERE I CALCOLINELLA GIUSTA TRAIETTORIA

UN'ANALISI

TROPPI SOFTWARE

Controllare

La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti cambiando software e variabili interne

Di aver REGISTRATO TUTTI i passaggi e le variazioni

Di aver INDIVIDUATO LA VARIABILE più importante del dataset

Individuare le variabili non importanti

Fare la PROVA DEL NOVE per i propri risultati

Procurarsi un campione di dati di CONTROLLO, di cui si conosce il risultato atteso

RIPRODUCI

GitHub, GitLab, BitBucket, or R

ArXiv or PeerJ

BeautifulTechnnical

Exciting

BUT WHAT DOESIT MEAN?

LE APPLICAZIONI LE APPLICAZIONI LÀ FUORILÀ FUORI

GLI OSPEDALI HANNO BISOGNO DI DATI PER MONITORARE LE PROPRIE PERFORMANCE, CAPIRE DOVE MIGLIORARE I SERVIZI, RISPARMIARE

IN CLINICA OGGI VENGONO CREATI ALGORITMI CAPACI DI MONITORARE I PAZIENTI E RICONOSCERE I SEGNALI DI RISCHIO

LE CASE FARMACEUTICHE HANNO INIZIATO A CONDIVIDERE DATI RELATIVI A FARMACI E RISPOSTE ALLE TERAPIE

I PAZIENTI FANNO PREVENZIONE E SI MONITORANO DA SOLI TRAMITE LA TECNOLOGIA. IN QUESTO MODO PERO' FORNISCONO ANCHE DATI

GUARDANDO I DATASET

GENETICI DERIVATI DA

CIRCA 2500 PAZIENTI

AFFETTI DA DIABETE, SONO

STATI INDIVIDUATI TRE

SOTTOTIPI DI DIABETE TIPO

2, CON IMPLICAZIONI

DIVERSE PER LA SALUTE,

CHE PERO' NON ERANO MAI

STATE INDIVIDUATE DAL

PUNTO DI VISTA CLINICO.

OASIS – IL SENSORE CHE MONITORA LA FISIOLOGIA DELLE PERSONE E DELL'AMBIENTE

“My recommendation to the next generation of scientists

to be competitive is to establish a broad

interdisciplinary foundation

of math and science as well as strong communication skills”

Michael C. Schatz

Bibliografia e sitografia

Big data

Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore

THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King

Guide to open access – EU Commission – 2015

#Scidata15: Big data: Challenges create opportunities – blog Nature

Malattie infettive:

Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the HealthMap ProjectJohn S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl

Big Data Opportunities for Global Infectious Disease SurveillanceSimon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein

The quantified self: Fundamental disruption in big data science and biological discovery - M Swan

Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression dataAlla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian Athey, and Gilbert S. Omenn

Metabolomics Workbench: An international repository for metabolomics data and metadata, metabolite standards, protocols, tutorials and training, and analysis toolsManish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar Subramaniam

SIGNOR: a database of causal relationships between biological entitiesLivia Perfetto et al.

Wired Co.UK 23andMe sharing data with big pharma

Biological data sciences in genome research- Michael C. Schatz

An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project Consortium

Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,

Big Data: Astronomical or Genomical? - Zachary D. Stephens et al

Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao

Big universe, big data, astronomical opportunities – The Guardian

Clinical trials: clearer rules, better protection for patients

Big Pharma Opens New Chapter On Big Data Collaboration– Forbes

The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Data for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer Kald Abdallaha et al.

Open source data a boon to malaria research- Emily Mullin

SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al

Data sharing: Fewer experiments, more knowledge– Nature Blog

4 big reasons why healthcare needs data science – 7Data

Identification of type 2 diabetes subgroups through topological analysis of patient similarityLi Li1, Wei-Yi Cheng

OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO

Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal

DATA IS THE NEW SCIENCE

DA

TA

IS

TH

E N

EW

SC

IEN

CE

Giulia Annovi

Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015

??COSA SONO COSA SONO I BIG DATAI BIG DATA

Cosa sono secondo voi i big data? Se dovessimo definirli con un brain storming quali parole scegliereste?

UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI, DANNO ORIGINE A STORIE

I big data sono un insieme complesso di numeri, algoritmi, Rilevazioni che finiscono per raccontarci una storia. Sono grafici che divetano parole

BIG DATA

Un'altra definizione romantica di big data li assimila Al pane affettato. Come l'invenzione del pane affettatoHa cambiato il modo di mangiare, ha permesso di sfamare Più persone con una sola pagnotta, così anceh i big data Si possono affettare e possono dare innumerevoli informazioni

I big data sono definiti tramite 3V: volume (hanno un volume così grande che è stata una sfida anche per le grandi compagnie tecnologiche maneggiarli), grande varietà (non sono solo dati strutturati ma un ampio range di dati digitali), e alta velocità (quella a cui i dati sono generati e trasmessi). Esistono però altre V per definirli: la vaghezza (quello che rende i BD vaghi li rende anche esatti e certi: per conoscere la conoscenza devi conoscere anche l'inconoscibile. I BD raccolgono tutto); vendibili; vaticini; voracità; veridicità (la qualità o la perdita della qualità dei dati matters data la grande varietà con cui si presentano)Fare business oggi con i big data significa includere errori e confusione. Ma la varietà, il volume e la velocità tendono a superare la presenza si questi errori. La casualità e l'universalità sono importanti, mentre la confusione può essere tollerata.

USA: 32

FRANCIA: 19GERMANIA: 15REGNO UNITO: 22

ITALIA: 11

CHI PARLA DI BIG DATA?

Dove vanno di moda? Soprattutto in India è uno sei termini più citati nelle ricerche di google. In Italia non suscitano ancora grandissimo interesse rispetto ad altri paesi europei. Gli stati uniti sono a quota 32 su 100. A questo si aggiungono aree del tutto escluse da questo discorso (es regioni africane)

http://goo.gl/HrBywv1997

I BIG DATA PRENDONO ORIGINE DALLE STELLE

Nel 1997 si è avuta la prima occasione per parlare di big data: ma la storia poi continua da vent'anni.Negli anni successivi venne creato il substrato su cui i big data si sono sviluppati: ovvero le infrastrutture capaci di supportarliNel 2009 avviene un'altra piccola rivoluzione con l'introduzione dei linked data, cioè con il concetto che i dati in rete devono essere tra loro interconnessi per fornire maggiori informazioni Un momento in cui si incomincia a riflettere criticamente sui big data è il 2012, perché in quell'anno esce Critical Question for Big Data.

Google

https://www.google.it/trends/explore#q=big%20data

MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI

l termine Big Data, secondo google trends, è incominciato ad apparire nel tardo 2010. Sebbene il termine big data nei trends delle parole più ricercate sia in declino perché è un concetto difficile da definire, i dati raccolti sono sempre più

BANCHE: 29%

INDUSTRIE: 21%

MEDIA: 14%

PA E SANITÀ: 9%

CHI PRODUCE BIG DATA IN ITALIA

In Italia i big data sono soprattutto diffusi nelle banche (29%), seguiti dalle industrie (21%), dai media (14 %) e per IL 9% dalla PA e sanità. Di minor importanza sono i big data che riguardano i servizi (8%), la GDO (8%), le assicurazioni (5%)

ENTRO IL 2020SI PREVEDE UN AUMENTO DEI BIG DATA

DEL 4300%

I big data saranno lo strumento del futuro per prendere data driven decision making.Per il futuro si prevede un aumento dei big data del 4300% andare al 2020Ci serviranno per monitorare e quindi per conservare risorse preziose (biodiversità); per tracciare malattie e curare infezioni (es ebola, influenza); per vivere in modo più sicuro. Quindi i big data non sono solo per le aziende.

I PUNTI CRITICII PUNTI CRITICI

IDENTITY PARADOX

Reclamano il fatto di voler identificare, ma di fatto appiattiscono la società. Non considerano l'individuo, ma piuttosto il comportamento di massa [il paradosso dell'identità]

TRASPARENCY PARADOX

Chiedono a noi di fare tutto nella massima trasparenza. Qualsiasi cosa facciamo è tracciabile, qualsiasi acquisto, qualsiasi click, qualsiasi contatto. Eppure i dati raccolti non sono per noi accessibili. Questo anche per un motivo di privacy, ma governi e istituzioni dovrebbero domandarsi come rispondere a tale problema.

POWER PARADOX

Infine c'è il paradosso del potere: il fatto di avere le informazioni accessibili ci sembra ci dia un grosso potere. Pensiamo alla primavera araba: tutto è stato organizzato tramite i social network, ma il potere dei social network non è nelle nostre mani, non è controllato da noi. Basta che ci levino questo strumento che noi non ne siamo più in possesso.

È UNA QUESTIONE DIDIMENSIONI

MA NON SOLO

Un'altra criticità legata ai big data è la dimensione, Lo spazio che occupano. Si stima che ogni giorno vengano prodotti 2.5 quintilioni di bytes (cioè 2.5 seguito da 18 zero!).

Un altro problema potrebbe essere lagato al fatto che i dati raccolti potrebbero andare perduti per l'obsolescenza dei formati

BIG DATA E SCIENZABIG DATA E SCIENZA

TWITTER

YOU TUBE

ASTRONOMIA

GENETICA

Che differenza c'è tra i big data raccolti da twitter youtube l'astronomia e la biologia? Twitter e youtube sono attivi dal 2005-2006 rispettivamente e sono utilizzati quotidianamente da milioni di utenti. L'astronomia sono 20 anni che raccoglie big data. Eppure la biologia in quanto a record resta la prima. Oggi per i dati genetici prodotti dai 20 maggiori istituti si richiede l'uso di 100 petabites all'anno, contro gli 0,5 di twitter e esattamente come youtube.

PRENDIAMO LE MISURE

Confrontando gli ordini di grandezza ecco quanti dati vengono Conservati.Qui sotto invece vediamo la figura di quanti exabites saranno Necessari andare al 2025. Come vedete, se adesso youtube usa la stessa quantità di byte Del genoma, fra 10 anni il volume dei dati sarà di gran lunga Superiore.

Perché pensiamo una cosa del genere?

Qante paia di basi contiene il genoma umano? 3 miliardi di bp Si pensa che possano essere sequenziate 35 petabasi all'anno.In futuro si potrà arrivare a 2 petabasi

I problemi connessi all'uso dei big data in biologia riguardano lo storage perché sono una grande quantità, la capacità di processamento (ad esempio allineare le sequenze di due genomi implica l'utilizzo di circa 100-CPU ore.

Nel 2014 abbiamo raggiunto i 250 mila genomi umani sequenziati (secondo una stima del MIT) in tutto il mondo. Nel 2017 raggiungeremo 1,6 milioni di genomi

Bene, considerate che ogni 4 basi sequenziate occupiamo un bite.

Astronomical data is and has always been “big data”

Ma prima di insistere sulla biologia, perché questa viene Confrontata con l'astronomia?Perché come dice il Guardian ha sempre prodotto big data.

IL FUTURO SARÀ RACCOGLIERE 30 Tb OGNI NOTTE

Ecco i dati prodotti dall'astronomia: Gli astronomi che usano il telescopio Keplero prendono informazioni riguardo a 200,000 stelle ogni 30 secondi, cosa che ha reso possibile la scoperta del primo pianeta simile alla terra fuori dal sistema solare. Lo SDSS è uno dei database aperti accessibili con la maggior quantità di dati, ma non è nulla al confronto con quello che verrà lanciato nei prossimi anni, l'LSST che avrà la possibilità di raccogliere 30 Tb ogni notte.

20 PETABITE DI DATI 20 PETABITE DI DATI ALL'ANNOALL'ANNO

Un altro ambito che è stato fondamentale per lo sviluppo deiBig data è stata sicuramente la fisica.

al CERN vengon prodotti 20 petabite di dati ogni anno. Hanno creato un'ifrastruttura: la worldwide LHC computing grid che è stata in grado di raccogliere elaborare e analizzare tutti i dati prodotti. I dati sono stati messi nel cloud tramite openstack e sono accessibili

LA FISICA CI HA DATO UNA LENTE BLU PER GUARDARE I DATI: STATA, ALGORITMI E OPENESS

I dati grezzi per evento generato al CERN sono circa 1 milione di bite. Per secondo si producono circa 600 milioni di eventi. Il Worldwide LHC Computing Grid maneggia questa montagna di dati in due stadi. Primo fa partire un algoritmo che seleziona gli eventi più significativi. Lo stesso principio dovrebbe essere abbracciato anche da altre scienze. Poi gli stessi dati sono analizzati statisticamente una volta ripuliti e questo può portare a risultati migliori. Pulire i dati significa rimuovere i duplicati, le voci parziali, i valori nulli, concatenare i dati, o separarli in più righe o più colonne, aggregare i risultati. Il CERN è anche caratterizzato dalla cultura dell'openess: c'è un servizio di cloud in cui i dati possono esser condivisi con una Bring Your Own Device (BYOD) policy per assicurare che la proprietà intellettuale venga rispettata Se guardiamo il mondo attraverso un vetro blu, lo vediamo blu. Ecco perché è importante scegliere il corretto metodo statistico. La pioniera in questo è stata la fisica

SE LA SCIENZA SE LA SCIENZA COMPRENDE COMPRENDE

IL POTERE DEI DATIIL POTERE DEI DATI

Equesto è un altro problema della scienza in genere: una volta Che gli scienziati hanno i dati devono decidere cosa farne: Condividerli oppure mantenerli segreti fino alla pubblicazione. La condivisione poi implica la definizione di standard affinché I dati siano confrontabili e soprattutto occorre stabilire una policy Per garantire la prprietà intellettuale

Elaborazione

Archiviazione

Classificazione

Condivisione

Analisi

Creazione tools

Disseminazione

EMBL-EBI

Questa è una figura tratta dal sito dell'EMBL che Dimostra come i dati vengano processati una volta che sono Affidati a questo grande ente di bioinformatica.

Gli istituti come l'EBI lavoreranno sempre di più in futuro per assicurare anche la privacy sui dati. Ad esempio potrebbero creare team interni capaci di rielaborare i dati crudi solo a fini di presentazione degli stessi

BIG DATA WORKER

Come si può vedere dunque big data implica anche nuoveFigure professionali le cui caratteristiche sono molto varie. È stato stimato che in futuro ci sarà bisogno dalle 150 mila alle 190 mila unità.

PIÚ DATI PIÚ INFO

Altro fattore che genarano questi dati è l'enorma aumento del traffico su web

http://senseable.mit.edu/bbva/

Questo è un esempio di come mettendo in relazione i dati e visualizzandoli correttamente si possano trarre molte informazioni. Ad esempio dai dati raccolti in real time durante la pasqua 2011 in Spagna è uscito questo video. Pensate se si potesse fare qualcosa del genere monitorando gli scompensi che avvengono nei 15 giorni che prevengono l'infarto. Che cosa accadrebbe se si misurasse la qualità del sonno come dato predittivo per l'insorgenza del diabete?

RIDUCI

RICICLA

RIUSA

Eppure anche per i dati scientifici vale la regola delle 3R: riduci ricicla riusa. Condividere i dati non vuol dire solo salvare dei soldi ma anche l'ambiente perché riduce la quantità di esperimenti necessari. Questo accelererà anche l'aumento della conoscenza generata, diminuendo il tempo sprecato a costruire dataset equivalenti

È sostenibile e fattibile il coinvolgimento della popolazione?

Integrazione con informazioni spaziali e ambientali

Occorre trasformare le informazioni real time in previsione

Facilitàdi uso da parte degli utenti [https://www.influenzanet.eu/]

Coinvolgimento di diverse figure professionali: data scientist, comunicatori scientifici oltre a medici, agenzie di sorveglianza, informatici,ricercatori

La scienza poi rispetto agli altri campi deve chiedersi queste coser

BIG DATA E BIOLOGIABIG DATA E BIOLOGIA

Nel caso della biologia ci sono diversi modi di approcciarsi ai dati C'è l'analisi tradizionale dei prorpri campioni, del paziente. La scienza è Hypothesis driven, m potrebbe diventare data driven. Tuttavia la tecnica ci ha messo a disposizione la possibilità di produrre una grande quantità di datiCi sono le analisi che riguardano le componenti cellulari, le omics. Queste però hanno lo svantaggio dei costi della ricerca (es il sequenziamento) e il costo di immagazzinamento dei dati. In più richiedono un certo numero di campioni.Ci sono -omics accessibili già al pubblico: i progetti più noti sono 23and Me per scoprire il proprio assetto cromosomico; ubiome per avere l'analisi del proprio microbioma; talking20 per avere l'analisi del sangue fai da te. Infine c'è la medicina ove i dati li raccoglie direttamente il paziente.

http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-timeline/#27685

EMBL-EBI

Queste sono le banche dati tradizionali che sono state create dallo sviluppo delle omics.il fatto più rilevante accaduto nell'ambito della genetica negli ultimi 20 anni è stato il sequenziamento dell'interno genoma. Nei prossimi vent'anni ci aspettiamo di sequenziare un miliardo di genomi. La velocità con cui acquisiamo queste informazioni è legata al fatto che le macchine e le tecniche si sono enormemente sviluppate: DNA sequencing instruments, super-resolution digital microscopy, mass spectrometry, magnetic resonance imagery, or even satellite imagery used for studying biological systems with greater throughput and resolution than ever before. Tuttavia manca la capacità di queste macchine di interpretare i dati.

I dati biologici hanno qualcosa in più rispetto agli altri big data: sono gerarchici perché generati a diversi livelli (molecolare, cellulare, fisiologico) sono eterogenei perché sono generati con metodi differenti (genetica, fisiologia, patologia, imaging) sono complessi (i dati possono essere registrati simultaneamente da informazioni multi-livello e da migliaia di cellule e sono dinamici, cioè associati a processi che cambiano nel tempo. Occorre dunque individuare le forze che governano e le relazioni causali tra gli elementi biologici per fare un uso completo dei big data e per decifrare i meccanismi che governano processi o malattie come il cancro, il diabete o l'Alzheimer.

Oggi non ci limitiamo al sequenziamento del genoma: una tecnica applicabile anche con una spesa relativamente ridotta rispetto all'inizio. Il vero problema è come rilevare i meccanismi esserenziali dei sistemi biologici, andando a rimuovere il rumore di fondo dei dati.

Si creano database sempre più comprensivi, che raccolgono informazioni tratte da diverse tecniche sperimentali, come mass spectrometry (MS) e nuclear magnetic resonance spectrometry (NMR), con dati che raccolgono 20 differenti specie, che coprono le maggiori categorie tassonomiche. .

3Omics: http://3omics.cmdm.tw/

LA NECESSITÀ DI FARE SINTESI

Oggi si sta andando nella direzione della sintesi, verso piattaforme che integrano dati tra loro in relazione, anche perché spesso può essere complicato fare una relazione tra un sistema di classificazione e l'altro. Ci sono quindi database che mettono insieme informazioni provenienti dalla letteratura, dalla genomica, dalla proteomica e le visualizzano nei loro rapporti e relazioni.

Metscape: http://metscape.ncibi.org/

DI VISUALIZZARE

60 MILA

Spesso all'interno dei database sono compresi anche tools statistici che consentono l'elaborazione dei dati o di visualizzazione delle relazioni.

La vera sfida dei big data è il passaggio dagli studi associativi agli studi causativi. E in questo è importante la biologia computazionale, quella che crea modelli. Lo studio delle interazioni piuttosto che dei singoli elementi cattura le componenti inosservate del network e le dinamiche. Quindi sia per gli aspetti teorici che clinici, i big data in biologia si stanno eveolvendo dalle singole molecole verso le molecole multiple, a quelle associate a quelle interattive. E lospostamento dell'interesse è anche dovuto all'avvento dei big data. Ci sono poi sistemi che tentano di fare sintesi tra diversi database, come ad esempio SIGNOR ( SIGnaling Network Open Resource) che si occupa di interazioni tra molecole o meglio di attivazioni di segnale che fanno accadere o che impediscano che accada cose nelle cellule. Anche nella rappresentazione di questi segnali ci sono due modelli: i modelli logici vs i modella basati sulle reazioni. I pathway sono rappresentati come una catena di reazioni chimiche dove ogni variante di un certo componente è assegnata a un nodo. Intervengono poi elementi regolatori per favorire il passaggio da un nodo all'altro. Di fatto questi modelli rappresentano l'equazione differenziale di una reazione chimica.Nei modelli logici le molecole sono connesse tutte con nodi, che rappresentano anche le interazioni regolatorie. Lo stato di ogni nodo dipende da quello che gli sta a monte. SIGNOR segue 12 000 relazioni causali tra i componenti cellulari.

Quantified self data Servono a tracciare le caratteristiche di un individuo in generale o per monitorare e magari curare una patologia o per aumentare performace fisiche (pensiamo alle app che tracciano i nostri percorsi a piedi o in bici) o mentali.Il 66% degli americani usa sistemi tipo questi per monitorare la propria dieta, il proprio peso o parametri legati alla salute. Questi fanno parte dei small data che comunque sono troppo larghi e difficili da maneggiare per il singolo utente, che ha bisogno di tools (spesso online) capaci di misurare correttamente e visualizzare. Inoltre sono parametri interessanti anche perché raccolti direttamente dall'utente. In questo tipo di rilevazione gli individui realizzano studi, applicando i risultati per migliorare la propria vita. Ci sono -omics accessibili già al pubblico: i progetti più noti sono 23and Me per scoprire il proprio assetto cromosomico; ubiome per avere l'analisi del proprio microbioma; talking20 per avere l'analisi del sangue fai da te.

2 5 8

33

I vantaggi della QS science: permette una raccolta random di dati, permette una raccolta di un gran numero di dati, questo tipo di ricerca può fornire nuove idee alla ricerca tradizionale; serve a stratificare la popolazione in diverse categorie; unisce insieme diverse categorie di scienze come la biologia, la statistica, i big data, la capacità di calcolo, la sociologia. Potrebbe diventare sempre più importante per profilare l'eterogeneità dei tumori prime e durante la chemoterapia.

http://www.personalgenomes.org/harvard/data

Anche per la raccolta di questi dati ci sono problemi di accessibilità e usabilità: ad esempio sono accessibili solo i dati di personal genome, un progetto di Harvard e dell'American Gut project, mentre altri dati sono accessibili solo sotto supervisione dei ricercatori come in MyZeo: questo perché a volte sono i ricercatori ad essere restii nel condividere i propri dati, in altri casi perché occorre rispettare la privacy del paziente. Altri problemi riguardano poi le caratteristiche del dato: ogni dato raccolto dovrebbe essere sempre accompagnato da un file che potremmo chiamare di metadati che ci dice come i dati sono stati raccolti, in quali condizioni e quali sono le caratteristiche del paziente. Resta poi da aggiungere che servirebbe un gruppo di confronto, il così detto campione sano chedeve essere scelto opportunamente come in ogni fase sperimentale. Anche dalla parte dell'utente ad esempio ci deve essere automazione, facilità, ricompensa per poter partecipare.

http://www.ncbi.nlm.nih.gov/Traces/sra/

Qui si vede l'effetto nel caso dei dati gentici: in molti studi sono derivati da un'attività social

FARMACOLOGIA OPEN

CONTRO IL CANCRO

C'è anche un aspetto applicativo dei big data, come ad esempio la scoperta di nuovi farmaci. Anche l'apertura delle banche dati delle case farmaceutiche è un fatto sorico spesso voluto addirittura dai governi per accellerare le scoperte in tale ambito. Ne sono un esempio le azioni intraprese per la terapia del cancro: ci sono due approcci principali: quello di he patients like me che si è associato a una casa farmaceutica per poter raccogliere informazioni direttamente dai pazienti. In con questo metodo sono già 2000 le malattie monitorate tramite le informazioni rilasciate dai pazienti. Nel caso di the project data sphere sono invece stati uniti i database di diverse case farmaceutiche: ci sono per ora più di 900 utenti autorizzati che hanno accesso a 49 dataset che rappresentano 27000 pazienti che vivono in una vasta area e con differenti tipi di tumori. Un caso analogo si è avuto con l'apertura dei dati relativi alla malaria: iniziato da una casa farm,aceutica poi si sono formati proprio banche dati dedicate come a esempio malaria box

https://clinicaltrials.gov

MONITORARE I TRIALS CLINICI

Oltre a queste cose c'è anche un sito internet che segue invece i trials di farmaci che si stanno verificando in questo momento. ClinicalTrials.gov è una risorsa del web che fornisca ai pazienti e ai loro familiari, ai medici, ai ricercatori e al pubblico un accesso facile alle informazioni sugli studi clinici pubblici e privati, di una vasta gamma di patologie e condizioni. Il sito web è curato da National Library of Medicine (NLM) e dal National Institutes of Health (NIH).ClinicalTrials.gov contiene anche voci che descrivono studi osservazionali e forniscono anche informazioni su farmaci al di fuori dei trial clinici.

Require that all drug trials in Europe are registered before they begin on the publicly accessible EU clinical trials register.

Require that a summary of the results from these trials is published on the register within a year of the trial’s end.

Require that a summary understandable to a lay person of what was found in the trial is published on the register.

Establish a new publicly accessible EU clinical trials register, to be set up and run by the European Medicines Agency.

Impose financial penalties on anyone running a clinical trial who does not adhere to these new laws.

Questa cosa è di interesse perché è questo che l'Europa ha richiesto in merito agli studi clinici e solo portai come questo possono fare il tentativo di rispondere a questi bisogni

LE MALATTIE INFETTIVE

7 su 355

➔Sorveglianza➔Previsione andamento epidemia

I dati scientifici possono essere mescolati anche con altre informazioni. Facciamo un esempio della malattiei infettive. nel 2013 si diceva che solo 7 malattie su 355 infettive sono state mappate. Se si acquisissero conoscenze geografiche più precise nella distribuzione delle malattie si otterrebbe maggiore sorveglianza e una più precisa capacità previsionale

Letteratura

WebGenBank

Nel caso delle mappe fatte in precedenza come nel caso della dengue, prima si rilevavano le informazioni a partire dalla letteratura dal web report o da genbank. Poi queste si localizzano. Per inferenza si deducono le aree non infette. Infine si sovrappongono dati spaziali (ad esempio le temperature o le piogge) in questo modo è possibile prevedere qual è la localizzazione più probabile di un virus. Ma questo, come si capisce, rende le cose poco aggiornate.

http://www.healthmap.org/en/

Aggregatori di news online (google news), testimonianze, discussioni curate da esperti (PROMED) e report ufficiali (WHO)

La mappa di HealthMap è attiva dal 2006. Il sistema è studiato per l'estrazione, la categorizzazione, la filtrazione, e l'integrazione dei report, facilitando l'amministrazione delle informazioni e la rapidità nella rilevazione. Occorre che i dati identifichino correttamente a) la malattia e la sua localizzaione (b) la rilevanza della cosa segnalata, cioè se corrisponde davvero a un'epidemia (c) occorre raggruppare segnalazioni simili rimuovendo i duplicati. Una volta che il rapporto è stato creato automaticamente poi intervengono curatori che ne controllano la significatività.

http://www.gbif.org/

UN MIX DI DATI PER L'ECOLOGIA

PROBLEMI SE:● i dati non correttamente georeferenziati; ● insieme di dati solo relativi a un certo luogo; ● classificazioni tassonomiche errate; ● problemi di denominazione;● preconcetti in fase di campionamento

Gli stessi dati possono essere facilmente integrati negli studi ecologici o per preservare la biodiversità. Attraverso la rilevazione di dati come il tempo e lo spazio è possibile seguire i processi ecologici e quindi stimare i limiti dei territori, le relazioni tra le specie la divergenza nel tempoSUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali. Global Biodiversity Information Facility (GBIF; http://www.gbif.org),è il principale portale per la raccolta dati da diverse località. Aggrega dati relativi alla storia naturale, e di specie osservate. E orma conta l' 85% (c. 381 milioni) di dati georeferenziati.Ci possono essere cinque problemi che possono impedire la diffusione di un così vasto ammontare di dati: i dati non correttamente georeferenziati; insieme di dati solo relativi a un certo luogo; classificazioni tassonomiche errate; problemi di denominazione e preconcetti in fase di campionamento

http://www.supersmart-project.org/

SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali.

SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali.

http://www.csmon-life.eu/

CSMON-LIFE (Citizen Science MONitoring) è il primo progetto italiano di citizen science sulla biodiversità, finanziato in Italia dalla Commissione Europea nell’ambito del programma LIFE+. L’iniziativa prevede la partecipazione del grande pubblico e si propone di coinvolgere i cittadini nello studio, nella gestione e nella conservazione della biodiversità, creando un’attiva collaborazione tra i cittadini, la comunità scientifica e le istituzioni. Alla base del progetto ci sono 4 concetti fondamentali, che costituiscono i pilastri della citizen science:coinvolgimento (dei cittadini)comprensione (delle problematiche legate alla conservazione della natura)collaborazione (nello sviluppo di soluzioni efficaci, in quanto condivise)cambiamento (dei nostri comportamenti nei confronti dell’ambiente)

https://www.zooniverse.org/

Zooniverse si espande anche in altri campi

Occorre però sempre Bisogna però tener conto dell'effettiva capacità di coinvolgere le persone in questo processo che può essere di raccolta attiva (crowdsourcing) o passiva. Occorre poi considerare l'affidabilità di questi dati.Nel caso delle mappe generate in modo passivo o attivo (crowdsourcing) è necessario che il dato sia affidabile e quindi che gli venga dato un peso in base all'affidabilità o a altri parametri statisticiPoi bisogna che venga coinvolta in modo opportuno la popolazione e che vengano coinvolte diverse figure professionali.

VALIDARE

DISEGNARE NUOVI ESPERIMENTI

INTERPRETARE

AMPLIARE IL CAMPIONE

RIDURRE GLI ESPERIMENTI

CREARE MODELLI

I big data in ambito scientifico servono per l'interpretazione dei risultati, per disegnare nuovi esperimenti, per capire in quale direzione deve andare la ricerca. I big data potrebbero servire per validare dati ottenuti in laboratorio, per ampliare il proprio campione. Inoltre servono perché la condivisione dei dati potrebbe ridurre il numero di esperimenti e aumentare la velocità nel processo dicreazione della conoscenza. Il fatto di avere dai aperti e disponibili e in grandi quantità può aiutare la biologia di sistema, che teorizza i processi cellulari, tramite modelli matematici in modo da rappresentare quello che avviene in natura con algoritmi. Perché usare questi sitemi? Perché spesso non è possibile seguire questo tipo di reazioni in vivo o in vitro.

MA per fare questo cosa occorre? Di fatto che vengano assicurati tutti questi passaggi.

BIOLOGO OGGIBIOLOGO OGGI

● INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER

L'ANALISI DEI DATI,

● INSTALLARE E LANCIARE SOFTWARE,

● NAVIGARE TRAMITE LINEA DI COMANDO,

● COMPARARE VARI TOOL DI ANALISI,

● SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,

MANEGGIARE GRANDI DATA SET

RAW DATA AND METADATA

STORE SEPARATELY

STABILISCI LO SCOPO DEL TUO PROGETTO

SERVE PER DIRIGERE I CALCOLINELLA GIUSTA TRAIETTORIA

UN'ANALISI

TROPPI SOFTWARE

Controllare

La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti cambiando software e variabili interne

Di aver REGISTRATO TUTTI i passaggi e le variazioni

Di aver INDIVIDUATO LA VARIABILE più importante del dataset

Individuare le variabili non importanti

Fare la PROVA DEL NOVE per i propri risultati

Procurarsi un campione di dati di CONTROLLO, di cui si conosce il risultato atteso

RIPRODUCI

GitHub, GitLab, BitBucket, or R

ArXiv or PeerJ

BeautifulTechnnical

Exciting

BUT WHAT DOESIT MEAN?

LE APPLICAZIONI LE APPLICAZIONI LÀ FUORILÀ FUORI

GLI OSPEDALI HANNO BISOGNO DI DATI PER MONITORARE LE PROPRIE PERFORMANCE, CAPIRE DOVE MIGLIORARE I SERVIZI, RISPARMIARE

IN CLINICA OGGI VENGONO CREATI ALGORITMI CAPACI DI MONITORARE I PAZIENTI E RICONOSCERE I SEGNALI DI RISCHIO

LE CASE FARMACEUTICHE HANNO INIZIATO A CONDIVIDERE DATI RELATIVI A FARMACI E RISPOSTE ALLE TERAPIE

I PAZIENTI FANNO PREVENZIONE E SI MONITORANO DA SOLI TRAMITE LA TECNOLOGIA. IN QUESTO MODO PERO' FORNISCONO ANCHE DATI

http://doveticuri.mitecube.com/

http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapped

GUARDANDO I DATASET

GENETICI DERIVATI DA

CIRCA 2500 PAZIENTI

AFFETTI DA DIABETE, SONO

STATI INDIVIDUATI TRE

SOTTOTIPI DI DIABETE TIPO

2, CON IMPLICAZIONI

DIVERSE PER LA SALUTE,

CHE PERO' NON ERANO MAI

STATE INDIVIDUATE DAL

PUNTO DI VISTA CLINICO.

OASIS – IL SENSORE CHE MONITORA LA FISIOLOGIA DELLE PERSONE E DELL'AMBIENTE

“My recommendation to the next generation of scientists

to be competitive is to establish a broad

interdisciplinary foundation

of math and science as well as strong communication skills”

Michael C. Schatz

Bibliografia e sitografia

Big data

Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore

THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King

Guide to open access – EU Commission – 2015

#Scidata15: Big data: Challenges create opportunities – blog Nature

Malattie infettive:

Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the HealthMap ProjectJohn S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl

Big Data Opportunities for Global Infectious Disease SurveillanceSimon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein

The quantified self: Fundamental disruption in big data science and biological discovery - M Swan

Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression dataAlla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian Athey, and Gilbert S. Omenn

Metabolomics Workbench: An international repository for metabolomics data and metadata, metabolite standards, protocols, tutorials and training, and analysis toolsManish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar Subramaniam

SIGNOR: a database of causal relationships between biological entitiesLivia Perfetto et al.

Wired Co.UK 23andMe sharing data with big pharma

Biological data sciences in genome research- Michael C. Schatz

An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project Consortium

Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,

Big Data: Astronomical or Genomical? - Zachary D. Stephens et al

Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao

Big universe, big data, astronomical opportunities – The Guardian

Clinical trials: clearer rules, better protection for patients

Big Pharma Opens New Chapter On Big Data Collaboration– Forbes

The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Data for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer Kald Abdallaha et al.

Open source data a boon to malaria research- Emily Mullin

SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al

Data sharing: Fewer experiments, more knowledge– Nature Blog

4 big reasons why healthcare needs data science – 7Data

Identification of type 2 diabetes subgroups through topological analysis of patient similarityLi Li1, Wei-Yi Cheng

OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO

Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal