Reproducible Research


Come sono percepiti i dati?

In questi ultimi mesi sono stati pubblicati diversi post ed articoli sui dati, più del solito. Qualcuno vede i dati quasi come la panacea universale, altri come una deformazione di pochi “freddi” individui, altri ancora con preoccupazione ed allarmismo, non ultimi quelli che li vedono come una arma politica o di controllo.

La vignetta iniziale di questo articolo è abbastanza conosciuta al pari della più famosa frase di Ronald Coase e la rappresenta bene:

“if you torture the data long enough, it will confess to anything”

Il senso è che i dati si possono rigirare a piacimento per far in modo che dicano tutto ed il contrario di tutto. Questo confermerebbe dunque le paure accennate inizialmente.


Trapano e Coltello

In un momento in cui stiamo andando verso una società “Data Driven” e tutti parlano di sicurezza e disponibilità dei dati è quindi necessario concentrarsi un attimo sul trapano e sul coltello mostrati nella vignetta iniziale e del motivo per cui sono importanti, forse più dei dati stessi.

I dati, di per sé, non fanno nulla di male se raccolti correttamente, se sono di qualità, non distorti, puliti ed anonimizzati. Chiunque abbia lavorato con l’analisi dati può capire bene a cosa ci si riferisce ed a quanto tempo si perde in questi aspetti. Sono però la capacità e l’esperienza di usare correttamente gli algoritmi, la capacità di analisi e soprattutto l’etica e la trasparenza di chi elabora i dati che fanno la differenza. Importa dunque come gestiamo ed analizziamo i dati (Trapano e Martello) quasi più del dato stesso.

Prendiamo un esempio “di moda” che forse consente di capire meglio cosa si intende (semplifichiamo solo un pochino). Il famoso numero di riproduzione (indice epidemiologico R0-Rt ) non ha un unico modo per essere calcolato, ci sono diverse tecniche che si basano su teorie diverse e molte varianti: bayes, attack rate, anzianità di contagiati e popolazione, gamma e beta di SIR.

Non dimentichiamo quindi che la differenza tra prendere una decisione o l’altra (es: passare alla fase successiva di una pandemia o meno) può dipendere anche dalla scelta di un algoritmo e da pochi centesimi di variazione del risultato o margine d’errore.


Riproducibilità dei risultati e trasparenza

Probabilmente la vera parola d’ordine è, oggi più che mai, “riproducibilità dei risultati”, ovvero, condivisione di tutto il processo che si attua sui dati (algoritmi adottati, ipotesi fatte, studi pregressi a cui ci si riferisce, codice sorgente utilizzato…) magari condito anche da una sana oggettività. Dare quindi modo a chiunque di poter rieseguire esattamente lo stesso procedimento realizzato e di consentirne la valutazione a terzi.

Il processo è ben descritto dalla Johns Hopkins University con il seguente diagramma che, da un lato, parte dal dato ed arriva alla pubblicazione (autore), dall’altro, parte dalla pubblicazione ad arriva al dato (lettore).

Reproducible Research (Johns Hopkins University)

Convenienza o obiettività?

Per concludere dobbiamo quindi tornare all’etica, si sceglie in base alla convenienza o in base all’obiettività?

Il dato e la sua elaborazione sono anche supporto alla decisione e quindi a maggior ragione l’etica e la trasparenza sono un dovere, soprattutto in ambito istituzionale.