Gestione dei dati e dei sistemi

Il curriculum “Gestione dei Dati e dei Sistemi” (Data & Systems Management) è costituito da diverse discipline che hanno lo scopo di fornire agli studenti le conoscenze necessarie per affrontare le sfide della complessità e dell’interdipendenza, sempre più presenti in molti settori quali l'energia, i trasporti, la salute, la finanza e le reti sociali (social networks).

I sistemi sono insiemi di parti interdipendenti e dinamiche che devono essere opportunamente sia analizzate (per essere comprese) sia progettate (per essere utili). Grazie allo sviluppo della tecnologia, la dimensione e la complessità dei sistemi è in forte aumento, insieme alla loro capacità di generare grandi quantità di dati. La gestione ed elaborazione di questi dati può portare ad una migliore comprensione dei fenomeni e ad una migliore capacità di progettare le strategie più efficaci per governarli. La comprensione dei dati e lo sviluppo di modelli adeguati (cioè modelli che sono abbastanza complessi per descrivere compiutamente il fenomeno in esame e abbastanza semplici per essere di uso pratico) sono quindi fondamentali per affrontare le sfide emergenti.

La gestione dei dati e dei sistemi è quindi necessaria per affrontare in modo efficiente e appropriato qualsiasi tipo di problema. Cinque sono le fasi principali che vengono di solito implementate. In primo luogo vengono raccolti i dati provenienti da fonti diverse per recuperare tutte le informazioni utili per formulare una buona soluzione. Quindi il problema è descritto in linguaggio naturale, rendendo esplicite tutte le decisioni da effettuare e tutti gli aspetti da prendere in considerazione. In seguito il problema è formulato in termini matematici attraverso un modello analitico, ad esempio un modello di ottimizzazione descritto da un insieme di variabili di decisione, vincoli, e una funzione obiettivo. I modelli di simulazione vengono invece presi in considerazione quando l'approccio analitico risulta essere non praticabile. Una volta che tutti i dati e il modello appropriato sono soddisfacentemente integrati, è possibile ottenere una soluzione al problema, se questa esiste. Infine la soluzione viene validata per assicurarsi che sia d’interesse in un contesto reale e non solo limitata all’aspetto teorico.

Lo sviluppo di questi cinque passi sono solo alcune tra le diverse attività che verrano affrontate in questo curriculum. Corsi come algoritmi e strutture dati, banche dati (database), machine learning e data mining, forniranno gli strumenti e le metodologie per raccogliere, organizzare e analizzare i dati. Corsi come complessità e crittografia permetteranno inoltre di gestire i dati che richiedono di essere criptati, una questione questa di grande importanza e attualità nel settore dell’ICT. Tematiche quali la teoria dei sistemi e del controllo, il controllo ottimo e robusto, l’ottimizzazione, l’identificazione e controllo, permetteranno allo studente di avere  un’approfondita conoscenza del campo della teoria delle decisioni e del controllo dei sistemi dinamici. 

Il curriculum di gestione dei dati e sistemi ha una natura metodologica a carattere fortemente interdisciplinare e si rivolge a numerosissime applicazioni partiche, che vanno dalla gestione dell’ energia al controllo del traffico e alla robotica, solo per citarne alcuni. Per dare un’idea dei progetti che sono stati sviluppati da docenti che terranno i loro corsi in questo curriculum e che sono strettamente legati alla gestione dei dati e dei sistemi, vengono di seguito presentati due esempi.

 

 

 

Il primo progetto di ricerca è un’applicazione di tecniche di ottimizzazione alla gestione del traffico aereo. Nell'ambito del progetto europeo SATURN (www.saturn-sesar.eu)realizzato in collaborazione con le Università di Westminster, Bruxelles (ULB) e Belgrado, diversi modelli matematici vengono sviluppati per studiare come il traffico aereo possa essere ridistribuito mesi prima del giorno in cui avvengono le operazioni di volo al fine di ridurre la congestione dello spazio aereo e, di conseguenza, i ritardi dei voli. Un approccio si basa sulla tariffazione della congestione, cioè si studia in quale modo sia possibile ridistribuire il traffico aumentando le tariffe che una compagnia aerea deve pagare per volare attraverso una zona congestionata. Questo approccio è pienamente conforme alle normative europee che impongono ad ogni compagnia aerea di pagare le spese per i servizi di navigazione aerea per tutti i suoi voli nello spazio aereo europeo. Un altro approccio si propone di ridistribuire i voli centralmente, andando ad assegnare un orario di partenza quanto più vicino a quello richiesto dalla compagnia aerea, o minimizzando costi operativi delle compagnie aeree. Questi modelli, tuttavia, non sarebbero molto più di un bello studio matematico se non fosse stato possibile applicarli a dati reali di volo. Quindi, basandosi su dati reali dei voli forniti da Eurocontrol (l'organizzazione europea per la sicurezza della navigazione aerea), che descrivono sia la struttura dello spazio aereo e degli aeroporti, sia i piani di volo, è stato creato un database geografico contenente tutte queste informazioni. I dati grezzi sono stati poi oggetto di complesse manipolazioni e trasformazioni per poter essere utilizzati come input dei modelli matematici. Questi sono in grado di analizzare il comportamento di tutti i voli operati in Europa in un solo giorno, cioè circa 30000 voli. Questo porta a modelli con circa 50000 vincoli e 6 milioni di variabili, che vengono risolti in circa cinque minuti su un server standard. Ne consegue che decisioni ottimali o vicine all’ottimo per tutti questi voli possono essere prese in tempi computazionali assolutamente ragionevoli. Le grandi dimensioni di questi problemi richiedono strutture dati appropriate e la possibilità di prendere le giuste decisioni che non siano né troppo dettagliate né troppo semplici. Affinché, inoltre, i modelli possano essere eseguiti su più istanze associate a diversi giorni, il database geografico deve contenere una quantità ancora maggiore di dati, ad esempio la rappresentazione delle traiettorie complete di centinaia di migliaia di voli. Una volta che il modello matematico è risolto e si sono ottenuti i primi risultati, sono necessarie ulteriori elaborazioni di grandi quantità di dati per una loro corretta analisi. In questo ambiente complesso, si è stati in grado di proporre alcune soluzioni per ridurre la congestione dello spazio aereo, i ritardi dei voli, e i relativi costi. Questo lavoro è stato presentato a numerose conferenze internazionali in Europa e negli Stati Uniti.

Il secondo esempio è l'identificazione del modello di una fornace elettrica (Electric Arc Furnace - EAF). Le EAF sono largamente impiegate nel processo di produzione dell'acciaio e la loro corretta regolazione è di importanza fondamentale per limitare il consumo energetico e l'inquinamento, nonché per garantire una produzione di qualità elevata (fusione verde). Dal punto di vista termochimico, una EAF è molto complicata. Anche se i meccanismi e le reazioni chimiche sono ben noti, la mancanza di conoscenza di molti parametri fisici che sono specifici di ciascuna fornace, rende praticamente impossibile costruire un modello fisico preciso adatto per le simulazioni e le previsioni. Tuttavia un modello è necessario per la regolazione. L’identificazione del modello è il processo attraverso il quale vengono generati dei modelli dinamici dai dati raccolti durante il funzionamento dell'impianto. In questo caso particolare, l'obiettivo del modello è quello di prevedere le emissioni di gas (O2, CO, CO2 e H2O) sulla base di alcune variabili misurate.

I dati sono composti da 50 serie temporali corrispondenti a 50 colate di un forno EAF, appartenenti ad una stessa famiglia (cioè con materiale ed una produzione simili). Per ciascuno di essi, sono state acquisite 19 variabili, quali potenza, temperature, concentrazioni e così via.

Nel corso di una colata vengono eseguite le successive fasi operative dell’EAF (preparazione, fusione, raffinazione e maschiatura). Ognuno di questi passaggi deve essere ben descritto dal modello. Per tale ragione in questo studio si è proposto di utilizzare per ogni fase un modello dinamico lineare diverso per descrivere l'intera evoluzione dinamica del forno attraverso un approccio multi-modello. Impiegando le cosiddette tecniche di identificazione a scatola nera è stato possibile identificare il modello (o, meglio, la famiglia di modelli) in grado di predire il comportamento delle uscite (emissioni gas) con una precisione soddisfacente. Questa famiglia di modelli può essere impiegata per la regolazione, ad esempio utilizzando il cosiddetto Model Predictive Control.