Negli ultimi anni, le principali attività di ricerca del gruppo di lavoro Distributed Computing sono state legate al mondo del cloud computing open source e, nello specifico, si sono toccati temi legati alla virtualizzazione delle risorse, alle Infrastructure as a Service, alle architetture scalabili e alla memorizzazione dei dati in ambienti distribuiti.
Nello specifico, all’interno di CSP sono stati svolti degli studi sui sistemi di memorizzazione differenti dai tradizionali file system e dai database relazionali, esplorando settori come i file system distribuiti (dove i dati vengono suddivisi su più nodi, presenti su macchine diverse), gli object store (sistemi scalabili con una gestione web-based per la memorizzazione dei dati, con accesso da dispositivi mobili tramite app e da thin client in generale), i database NOSQL (basi di dati che adottano sistemi di gestione della consistenza dei dati differenti dai tradizionali RDBMS, particolarmente adatti ad ambienti distribuiti), NewSQL (database relazionali che si basano sui pregi del mondo NOSQL mantenendo la compatibilità e gli standard offerti dal mondo SQL) e i Linked Open Data (una modalità di pubblicazione di dati strutturati affinché risultino interoperabili fra loro e liberamente interrogabili e scaricabili).
Questi strumenti di memorizzazione stanno diventando sempre più diffusi e importanti perché permettono di gestire i cosiddetti Big Data, cioè enormi quantitativi di informazioni di tipologie e formati diversi fra loro. Oggi, infatti, la vera sfida riguarda proprio i grandi volumi di dati, la pura quantità (e velocità di crescita) delle informazioni che vengono prodotte quotidianamente e che risultano problematiche da gestire anche per il database più potente al mondo. Parlando di Big Data, però, le difficoltà non si limitano semplicemente alla memorizzazione dei dati ma anche alla loro analisi in tempi accettabili dove, sempre più frequentemente, si parla di analisi in real-time; è, infatti, sempre più importante prendere delle decisioni corrette e intraprendere azioni significative in tempi rapidi.
Attualmente, le principali attività di ricerca sul tema Distributed Computing si concentrano proprio su queste tematiche, analizzando gli in-memory database (basi di dati che utilizzano prevalentemente la memoria RAM dell’elaboratore per gestire i dati, offrendo una notevole velocità di esecuzione delle operazioni), la big data analytics e, più in generale, le tecniche innovative per migliorare e semplificare tutti quegli aspetti che, in precedenza, rientravano sotto i nomi di business intelligence, data mining e data warehousing.