Text and Data Mining – OA@unito.it

L’estrazione dei dati – o del contenuto testuale -, text e data mining, comprende quattro passaggi:

si fa una ricerca e si trova il materiale pertinente,
lo si scarica e copia in formato leggibile alla macchina,
le informazioni vengono strutturate
infine vengono estratti e raggruppati i dati.

Il text e data mining permette di “liberare” i fatti dalla letteratura scientifica e creare nuova conoscenza, come sostiene Peter Murray-Rust in questi due video sul suo progetto Content Mine.

Il caso del virus Zika è esemplare per dimostrare l’utilità di questa tecnica.

Purtroppo, c’è un problema legato al secondo passaggio. Per poter estrarre i dati, è necessario copiare gli articoli su una macchina, e questo configura secondo gli editori commerciali una violazione dei contratti con cui le biblioteche hanno acquisito a caro prezzo (milioni di euro/anno) l’accesso.

Il diritto di leggere è il diritto di estrarre i dati, sostiene Peter Murray-Rust. Gli atenei hanno già acquisito i diritti sul materiale in abbonamento.

Gli editori inizialmente sostenevano addirittura che si dovesse pagare una seconda volta, perché i contratti attuali sono solo per la lettura dell’occhio umano e non delle macchine.

Ora chiedono che il ricercatore acceda ai dati non copiandoli ma attraverso un’applicaizone. Peter Murray-Rust ha dimostrato tutti i difetti di questa pratica, dalle limitazioni di riuso alla scarsa sicurezza informatica.

Nel mese di novembre 2015, un caso concreto ha opposto un ricercatore dell’Università di Tilburg, Chris Hartgerink, e l’editore Elsevier, che ha minacciato di bloccare l’accesso a tutto il campus a causa degli scarichi massicci di articoli compiuti dal ricercatore.

Per questo è importante la riforma del copyright che si sta discutendo a livello europeo, e che deve prevedere una eccezione proprio per il text e data mining. Qualche passo avanti è stato fatto, ma restano ancora alcuni nodi insoluti, come spiega la parlamentare europea Julia Reda.

A oggi, in Europa solo la Gran Bretagna ha un’eccezione per il text e data mining, mentre paesi come gli Sati Uniti e il Giappone non hanno alcuna restrizione.

Le compagnie basate in quei paesi possono estratte ogni tipo di informazione. Ognuno vede quanto questo possa impattare, negativamente, sulla competitività dell’Europa. Il rapporto Value and benefits of text mining fornisce tutte le cifre utili – per un valore di miliardi di dollari – a comprendere meglio lo svantaggio in cui l’Europa si verrebbe a trovare, dal punto di vista economico oltre che scientifico.