Dati FAIR – OA@unito.it

Una buona gestione dei dati è la base per una buona ricerca scientifica. Con “dati” si intendono «tutti i materiali che i ricercatori raccolgono, generano e usano durante tutte le fasi del processo di ricerca» (ALLEA report Sustainable and FAIR Data Sharing in the Humanities, 2020). Tutte le discipline sono quindi interessate, non solo le scienze esatte.

I dati devono essere

gestiti e conservati correttamente (anche solo per mero interesse personale, per una ricerca più efficiente)
resi FAIR
se possibile, aperti (facendo attenzione alla complessa normativa sui dati)

Guardate questo brevissimo video, che mostra in modo divertente tutti i peggiori incubi derivanti da una gestione scorretta dei propri dati.

Questo corso elearning in tre brevi video spiega i fondamenti di una corretta gestione dei dati e della loro “FAIRificazione”.

1. Gestione dei dati

Conviene imparare a gestire correttamente i propri dati fin dall’inizio di una nuova ricerca.

Tecniche semplici quali nominare i file in modo corretto, gestire le diverse versioni, mantenere e aggiornare una documentazione (es. per gli acronimi utilizzati), conservarli in più copie, possono rendere la ricerca più fluida ed efficace. Il corso Essentials4data – libero e gratuito online – è ricchissimo di spunti e suggerimenti utili. La Data Management Expert Guide dell’infrastruttura CESSDA è un altro utilissimo strumento.

Lo strumento principale per una corretta gestione dei dati è il Data Management Plan (DMP). Il DMP è un documento strutturato, vivo – va aggiornato periodicamente nelle diverse fasi della ricerca – e obbliga a pensare in modo strategico ai propri dati, ponendosi domande sui formati, i metadati utili a descrivere il dataset, le licenze, la conservazione…

Chi fosse finanziato in Horizon2020 e in Horizon Europe ricordi che il DMP è un deliverable del progetto e va consegnato entro i primi sei mesi. Potrebbe interessarvi la sezione Come scrivere un Data Management Plan.

2. Dati FAIR

Per poter essere riusabili, a maggior ragione quando la EOSC – European Open Science Cloud – sarà una realtà per la ricerca e l’innovazione in Europa, i dati devono essere strutturati secondo i principi FAIR: Findable, Accessible, Interoperable, Reusable.

In questo video Luiz Bonino (GoFAIR) spiega in dettaglio i principî e la loro attuazione pratica, e in questa Guida How to FAIR trovate informazioni di base sui principi FAIR e su come adattarli al vostro tipo di dati.

Verificate i vostri dati con questa breve checklist manuale: sono già FAIR? O provate a testare la vostra conoscenza dei principi e degli strumenti FAIR con FAIRaware.

Se invece cercate un sistema automatico che verifichi quanto sono FAIR i vostri dati (in questo caso è sufficiente inserire il DOI del dataset) potete provare uno degli strumenti elencati in FAIRassist.

F = Findable

I dati devono essere Reperibili, ossia identificati attraverso metadati appropriati [etichette che descrivono autore, titolo, data, provenienza…] e identificativi univoci e persistenti [URL stabili cui corrisponderà per sempre quella risorsa]:

esistono metadati per disciplina, per meglio descrivere specifici materiali.
l’identificativo univoco più diffuso è il DOI (Digital Object Identifier), assegnato per esempio da DataCite e utilizzato in archivi quali Zenodo.

Per essere reperibili, i dati vanno conservati per almeno 10 anni in un archivio che offra garanzie. Zenodo è l’archivio del CERN di Ginevra accessibile a tutti. Archivi disciplinari possono essere trovati su Re3data-Registry of data repositories, mentre FAIR sharing offre anche un elenco di standards e policies.

Per motivi di sicurezza, i dati vanno conservati in molteplici copie e in ambienti sicuri anche durante la ricerca, non solo al termine. Diverse soluzioni sono possibili (in questa tabella a cura di RDNL i pro e i contro), solitamente gli Atenei offrono alcune opzioni. Dataverse, Protocols.io e Figshare offrono soluzioni quali creare gruppi di ricerca che condividano dati e commenti durante lo svolgimento della ricerca stessa.

A = Accessible

I dati devono essere Accessibili, il che non significa “aperti”. È semplicemente necessario sapere come arrivare ai dati e come poterli eventualmente scaricare. Possono essere previsti sistemi di autenticazione e/o accordi di rieservatezza. Il principio deve essere “as open as possible, as closed as necessary”.

I metadati descrittivi giocano di nuovo un ruolo fondamentale, anche per segnalare la necessità di particolari protocolli di trasmissione (diversi da http://) o la presenza di API – Application programming Interface.

Idealmente, per essere Accessibili, i dati dovrebbero essere salvati in formati non proprietari, non compressi, non criptati, con standard documentati. Nella scelta di un formato, occorre tenere conto di alcune caratteristiche.

Esempi di formati preferiti:

Containers: TAR, GZIP, ZIP
Databases: XML, CSV
Geospatial: SHP, DBF, GeoTIFF, NetCDF
Moving images: MOV, MPEG, AVI, MXF
Sounds: WAVE, AIFF, MP3, MXF
Statistics: ASCII, DTA, POR, SAS, SAV
Still images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
Tabular data: CSV
Text: XML, PDF/A, HTML, ASCII, UTF-8
Web archive: WARC

Alcuni archivi inoltre assicurano la conservazione solo per alcuni formati (es. DANS, l’archivio olandese): di questo va tenuto conto fin dall’inizio del progetto.

I = Interoperable

Per essere Interoperabili, i dati vanno descritti utilizzando standard e ontologie adottate dalla comunità di riferimento.

Uno strumento prezioso in questo senso è il registro FAIRsharing.

R = Reusable

Per poter essere Riusabili, i dati devono avere una licenza d’uso e una documentazione adeguata.

In mancanza di una licenza, i dati sono inutilizzabili. Sui dati, di per sé, non esiste diritto d’autore (per saperne di più, Dati e diritti) perché il diritto tutela solo la forma espressiva con cui l’informazione è presentata, non l’informazione in sé. Le banche dati sono protette dal cosiddetto “diritto sui generis” (Direttiva 96/9/CE e artt. 102 bis e 102 ter della Legge 633/1941 sul Diritto d’autore), che tutela l’investimento economico del costitutore della banca dati più che l’originalità.

Quindi:

sui semplici dati, la licenza che si consiglia di usare è CC0 (Creative Commons Zero), ovvero il “rilascio in pubblico dominio”. Significa che il creatore rinuncia formalmente alla paternità intellettuale – che nel caso dei dati, come abbiamo visto, non ha comunque per legge. Associare una licenza CC0 non significa rinunciare alle buone regole di una corretta etica scientifica, per cui va sempre attribuito il credito al lavoro che si sta riutilizzando. È possibile aggiungere una richiesta formale di attribuzione di credito.
utilizzare la Licenza CC-BY, che richiede esplicitamente l’attribuzione, potrebbe essere una forzatura giuridica.

Tutti i dettagli, oltre a chiarimenti ulteriori sul perché non utilizzare una Licenza NC-Non Commercial, si trovano nel Factsheet di Creative Commons su Open Science.

Per capire la complessità degli aspetti legali della gestione dei dati può essere utile leggere Labastida-Margoni, Licensing FAIR data for reuse, 2020

Chi avesse particolari esigenze può consultare Alex Ball, How to licence research data, 2014

La documentazione da associare ai dati comprende ogni elemento utile alla loro comprensione e riuso: la provenienza, gli strumenti o i software con cui sono stati generati, i protocolli… Sarebbe buona norma depositare anche i software (es. in GitHub) e i protocolli (es. in Protocols.io).

Esistono strumenti che facilitano la documentazione dei dati via via che la ricerca viene condotta.

Gli OpenLabNotebooks sono strumenti innovativi e aperti per tracciare l’intero ciclo di vita di un esperimento: contengono testi, dati, software, protocolli. Per saperne di più…

3. Dati aperti

I dati FAIR possono essere aperti: ricordiamo che “Accessibile” non è sinonimo di “Aperto”, possono esserci dati FAIR chiusi per ragioni di sicurezza o di privacy.

Il principio attualmente vigente in Europa nell’ambito dei progetti finanziati dalla Commissione è «as open as possible, as closed as necessary» (EU Competitiveness Council Conclusions 9029, 18 maggio 2018).

Il primo requisito per rendere aperti i dati è ovviamente aprirli anche dal punto di vista giuridico, rilasciandoli con una Licenza Open.

Tutti i progetti finanziati in Horizon2020 e in Horizon Europe hanno l’obbligo di rendere aperti i dataset che supportano i risultati della ricerca.

Si possono rendere pubblici i dati:

depositandoli in un archivio aperto, es. Zenodo, Dryad, Figshare [con il vantaggio che viene loro assegnato un identificativo univoco e divengono citabili]
pubblicandoli come dataset in un Data Journal: sono riviste che pubblicano unicamente dataset con le relative schede di descrizione

Poiché i dati stanno diventando sempre più un oggetto a sé stante, esistono precise regole di citazione.

I vantaggi dei dati aperti sono descritti bene in questo video: maggiore trasparenza, limitazione delle frodi, accresciuta riproducibilità, possibilità di creare nuovi servizi…

Vantaggi

Una corretta gestione dei dati e un buon Data Management Plan

rende la vostra ricerca più trasparente
rende i vostri dati accessibili
vi fa risparmiare tempo al momento della redazione di un articolo
riduce il rischio di perdere i dati
facilita la condivisione e il riuso (non dimentichiamo che si tratta di dati prodotti con fondi pubblici)
aumenta le citazioni [Drachen, T.M. et al., (2016). Sharing data increases citations. LIBER Quarterly. 26(2), pp.67–82]

Per imparare di più:

The Turing way, manuale per aprire ogni passo della ricerca e renderla riproducibile

Manage, improve and open up your data, corso libero Parthenos project

Essentials4data, corso libero e gratuito [a pagamento se si vuole certificato finale]

Research data management and sharing, MOOC su COURSERA [a pagamento solo se si vuole il certificato finale]

Open Science Toolkit – FOSTER project: un modulo per ogni esigenza

Open Science training handbook, un manuale per ogni aspetto della Open Science

Open Data essentials, corso gratuito

Open data handbook, per i dati del settore pubblico (oltre che quelli della ricerca)

A guide to formal ontologies, Parthenos project

Burrow, S. , Margoni, T. and McCutcheon, V. (2018) Introduction to Ownership of Rights in Research Data. CREATe, University of Glasgow, 2018

OpenAIRE, How do I license research data, How do I know if my research data are protected?, Can I reuse someone else’s data (2018)