Metodologia - Toscana Open Research

ToscanaOpenResearch si basa su una piattaforma per l’integrazione e l’accesso a dati eterogenei, basato su tecnologie semantiche e su formati standard per l’interoperabilità, ossia i Linked Open Data (LOD).

Nella realizzazione del portale è stato utilizzato il sistema ONTOP (ontop.inf.unibz.it/) , con un approccio open source ‘basato su ontologie’ (Ontology-based Data Access and Integration – OBDA/I), che è basato su database relazionali e che realizza uno SPARQL endpoint (linguaggio utilizzato per “interrogare” i dataset integrati in formato RDF).

L’integrazione dei dati attraverso un’ontologia di dominio consente agli utenti di interrogare i dati attraverso delle “query” (interrogazioni) senza dover passare attraverso la terminologia tecnica legata all’organizzazione fisica dei database e alla loro complessa struttura interna.

L’esistenza di un’ontologia di dominio, compliant con gli standard mondiali (VIVO) ed europei (CERIF), totalmente aperta e adattata al contesto italiano, è un aspetto di unicità. Le componenti funzionali del sistema rendono la buona pratica in grado di offrire un monitoraggio e un’analisi costantemente aggiornata (ogni volta che il dato aperto originale è aggiornato, il sistema si aggiorna automaticamente).

Il sistema informativo permette inoltre una serie di benchmark in tempo reale funzionali a mappare l’ecosistema delle competenze e specializzazioni regionali sull’alta formazione, ricerca e innovazione.

Per favorire l’utilizzo e l’interoperabilità dei dati, facilitare la possibilità di estrarre e analizzare informazioni provenienti da diversi sistemi di classificazione, ToscanaOpenResearch utilizza una classificazione basata su tre livelli informativi:

Combinando differenti classificazioni nazionali (es. Consiglio Universitario Nazionale – CUN, Settore Scientifico-Disciplinare -SSD) ed europee (European Research Council -ERC, aree bibliometriche);
Classificando (text mining) le informazioni dagli abstract di progetti e pubblicazioni;
Realizzando analisi verticali utilizzando “vocabolari” semantici.

In particolare, combinare classificazioni diverse permette di mettere in relazione informazioni quali il personale di ricerca (associato alla classificazione CUN) con il numero pubblicazioni (classificate per aree bibliometriche) e con il numero di progetti europei (associati alla classificazione ERC) grazie alla combinazione di classificazioni nazionali ed europee.

Maggiori dettagli sono disponibili nel manuale d’utilizzo, disponibile a questo link.
Per qualsiasi commento o feedback, è possibile mandare una mail al seguente indirizzo: staff@toscanaopenresearch.it.

L’attività di sviluppo di Toscanaopenresearch è il risultato di un processo guidato dalla Regione Toscana, affiancata da IRPET, FST e da un partner tecnico, Siris Academic.

Ad oggi sono stati integrati principalmente dati aperti provenienti:

Sono disponibili dati provenienti da banche dati open nazionali, europee e a scala mondiale;
Sono stati integrati una serie di ulteriori dati attraverso protocolli di collaborazione (es. MIUR, per l’integrazione dei dati CTN/PRIN 2012 nel perimetro toscano, dati AlmaLaurea nel perimetro toscano, dati forniti da alcuni enti di ricerca con sede in Toscana, come CNR, INFN, INGV, INAF).
Per la parte relativa alle pubblicazioni, il sistema utilizza banche dati bibliometriche non open, ma è già predisposto per una facile integrazione con i dati di CINECA-IRIS.

Approfondimento – L’analisi semantica del “portafoglio della ricerca”

I riassunti delle pubblicazioni, le descrizioni dei brevetti, gli obiettivi dei progetti di R&I, ecc. contengono una ricchezza di informazioni testuali che descrivono in dettaglio le sfide correnti, i progressi proposti o dimostrati e l’impatto previsto del processo innovativo.

Nuovi metodi di utilizzo delle tecniche di processamento del linguaggio naturale (NLP dall’inglese Natural Language Processing) possono oggi essere utilizzati per sfruttare tale ricchezza semantica e caratterizzare i portafogli di ricerca a supporto della presa di decisioni strategiche. Gli approcci semantici sono strumenti potenti per la mappatura dei campi scientifici e tecnologici perché consentono di:

analizzare ogni documento individualmente, evitando potenziali confusioni legate alla tassonomia;
costruire perimetri semantici ad hoc dei campi di interesse, incrociando le tassonomie, per consentire l’analisi trasversale di più fonti di dati contemporaneamente;
analizzare sistematicamente i documenti in perimetri geografici personalizzati, consentendo così il benchmarking e le relative analisi di specializzazione.

Questi tipi di analisi possono essere sia “orizzontali”, cioè senza un focus tematico predefinito, sia “verticali”, cioè mirate ad uno specifico tema di interesse. Più precisamente, da un lato si parla di modellazione tematica (topic modelling) come tecnica per estrarre temi di ricerca e caratterizzare i portafogli di ricerca, e dall’altro dello sviluppo e l’applicazione di vocabolari controllati per analizzare la ricerca su una specifica area di interesse (es. Obiettivi di Sviluppo Sostenibile – SDGs – o Beni Culturali). A tal fine, nel contesto di ToscanaOpenResearch sono impiegate entrambe le tecniche, ed è stata sviluppata una metodologia per costruire rapidamente ed efficacemente vocabolari controllati a partire da una prima serie di termini rilevanti.