Descrizione dell'appalto
Progettazione, sviluppo, installazione, test e manutenzione di una piattaforma di software modulare che implementi ed estenda la metodologia di modellazione di grafi della conoscenza eXtreme Design con strumenti di deep learning e large language model finalizzati alla costruzione di grafi della conoscenza semantici a partire da sorgenti eterogenee strutturate (ad es. database relazionali), semi-strutturate (ad as. CSV) e non strutturate (ad es. linguaggio naturale). La piattaforma risultante permetterà
● l’integrazione con sistemi di estrazione della conoscenza finalizzati:
- alla generazione di ontologie a partire da requisiti espressi mediante competency question o scenari d’uso del knowledge graph in linguaggio naturale;
- al popolamento automatico di un grafo della conoscenza a partire da corpora testuali.
● la validazione dei grafi della conoscenza attraverso unit testing volto a validare aspetti strutturali, logici e funzionali dei grafi stessi
● l’integrazione con i linguaggi dichiarativi standard per la mappatura di sorgenti eterogenee strutturate (ad es. database relazionali) e semi-strutturate (ad as. CSV) fornendo
- un motore per l’esecuzione di regole di mappatura;
- un’interfaccia basata su applicativo Web per l’editing di regole di mappatura di facile utilizzo;
- esperimenti sulla generazione automatica di regole di mappatura dati in input una sorgente di dati ed una rete di ontologie.
La piattaforma sarà il cuore del sistema di ingegneria della conoscenza nell’ambito del progetto “FOSSR: Fostering Open Science in Social Science Research”, il cui obiettivo è la creazione di una infrastruttura di ricerca distribuita atta a offrire strumenti e servizi di supporto alla comunità scientifica nell'ambito delle scienze sociali. L’infrastruttura di ricerca che sarà realizzata coinvolgerà altre infrastrutture di ricerca esistenti coordinate dal CNR, quali CESSDA, RISIS e SHARE, oltre a usufruire di dati statistici provenienti da ISTAT. Per raggiungere tale scopo verrà progettato un Cloud Italiano per l’Open Science, seguendo le linee guida del progetto “European Open Science Cloud”, in cui integrare servizi innovativi relativi alla raccolta, all’analisi e alla cura dei dati, seguendo i principi FAIR (Findable, Accessible, Interoperable, Reusable).
La piattaforma dovrà essere sviluppata e configurata avvalendosi delle apparecchiature hardware in fase di acquisizione, che saranno installate in quattro data center (nodi) dislocati in sedi differenti del CNR.