Cosa sono i dati sintetici e come potrebbero cambiare la nostra idea di privacy

Cosa sono i dati sintetici e come potrebbero cambiare la nostra idea di privacy

La digitalizzazione estrema della società ha condotto in poco tempo a una vera “datificazione” dell’esistenza umana. Secondo Statista, solo nel 2020 sono stati creati, utilizzati e archiviati nel mondo oltre 64 zettabyte (ZB) di dati (nel 2010 erano appena 2 ZB) e si prevede che nel 2025 supereremo i 180 ZB. Per dare una dimensione tangibile a questi numeri, si stima che ci vorrebbero 250 miliardi di DVD per fare uno ZB. Del resto, sono le nostre stesse abitudini digitali a generare grandissimi volumi di informazioni; stando alle indagini di Domo, nel 2022 ogni minuto sono state lanciate quasi 6 milioni di ricerche su Google (nel 2013 erano 2 milioni), caricate 500 ore di video su YouTube (48 nel 2013) e inviate più di 231 milioni di e-mail (contro i 204 del 2013). Nulla di sorprendente se si considera che, come ha calcolato NordVPN, gli italiani trascorrono oltre trent’anni della propria vita online.

Al tempo stesso, l’iperproduzione e condivisione di dati, molto spesso di natura personale, ha innescato una crescente apprensione per la tutela della privacy. Nel 2018, pochi mesi prima dell’applicazione del nuovo regolamento europeo in materia (il GDPR), una ricerca di PHD Italia raccontava di circa sei italiani su dieci preoccupati per la propria privacy online. Dato salito all’80% secondo uno studio di GfK Sinottica del 2020. Per un’indagine di OpenText del 2022, invece, un italiano su tre non si fida del modo in cui le aziende trattano i dati. E i timori aumentano con l’inarrestabile diffusione dell’intelligenza artificiale (IA), che si nutre proprio di dati per apprendere e migliorare costantemente: dal Cisco 2021 Consumer Privacy Survey emerge che il 56% degli intervistati è preoccupato per come le aziende impiegano gli algoritmi intelligenti.

Le norme per proteggere la riservatezza dei cittadini esistono da diversi anni e i risultati non mancano: Atlas VPN ha calcolato che nel 2021 le sanzioni irrogate ai sensi del GDPR hanno superato un miliardo di euro. Al contempo, sono diverse le tecnologie allo studio per rafforzare la tutela della privacy e garantire che il trattamento di dati personali avvenga in maniera lecita e corretta. In questo senso, la sintetizzazione di dati rappresenta una delle più promettenti soluzioni in circolazione, tanto che in molti si domandano se la prossima frontiera nella protezione della privacy saranno proprio i synthetic data.

Cosa sono i dati sintetici e perché se ne parla tanto

Secondo un recente studio condotto da Grand View Research, il mercato globale dei synthetic data nel 2022 supererà i 163 milioni di dollari (nel 2021 erano poco più di 123 milioni) e si prevede che entro il 2030 arriverà a 1,79 miliardi. Non si tratta però di un concetto nato ora. In molti, infatti, rintracciano la prima menzione del termine in un articolo del 1993 pubblicato sulle pagine del Journal of Official Statistics da Donald B. Rubin, professore di statistica di Harvard alle prese con l’analisi dei dati di un censimento.

In parole semplici, i synthetic data sono dati creati artificialmente a partire da dati reali tramite l’impiego dell’IA. Si tratta, cioè, di dati che non sono raccolti a partire da un’interazione con il mondo reale e che tuttavia, a guardarli, sembrano in tutto e per tutto simili a dati autentici, riferiti a persone esistenti. Più precisamente, attraverso la data synthetization si producono “in provetta” database artificiali che presentano proprietà statistiche estremamente simili, se non identiche, a quelle dei dati di partenza: ciò significa che una medesima indagine condotta sul dataset iniziale e sui synthetic data generati dall’intelligenza artificiale produrrà risultati perfettamente sovrapponibili. Questo è possibile grazie all’impiego di algoritmi di tipo generativo, addestrati su dati reali del tipo di interesse, in grado di apprendere e poi replicare in un nuovo database sintetico le caratteristiche statistiche dei dati di partenza.

Un esempio

Immaginiamo di prendere un vecchio album di figurine, con le foto, il nome, la nazionalità di ogni calciatore del campionato e le sue statistiche, come le reti segnate, il numero di cartellini o i minuti giocati. Decidiamo quindi di elaborare alcune statistiche, ad esempio l’incidenza dell’età rispetto alla capacità di andare in gol, la percentuale di giocatori stranieri o il numero di calciatori mancini. Annotati i risultati della ricerca, immaginiamo ora di sottoporre il nostro album a un processo di sintetizzazione. L’algoritmo, dopo aver analizzato le informazioni del primo albo e averne appreso le caratteristiche intrinseche e rilevanti, ci consegnerà un nuovo album di figurine, questa volta però riferito a un campionato che non esiste, giocato tra squadre a noi sconosciute e fra calciatori con caratteristiche e volti mai visti prima. Il tutto senza poter rintracciare a prima vista alcuna correlazione con le informazioni e le immagini dell’album originale. Se tuttavia decidessimo di ripetere la stessa indagine statistica, a partire però dall’album sintetizzato, i risultati sarebbero incredibilmente simili – se non spesso indistinguibili – a quelli appuntati in precedenza.

Come vengono usati i dati sintetici oggi

Tramite la data synthetization si possono dunque realizzare dati di qualunque tipo, dai semplici testi alfanumerici a suoni, video e immagini. È famoso, ad esempio, l’esperimento This Person Does Not Exist, una galleria online di volti umani prodotti artificialmente mediante una Generative Adversarial Network (GAN). Le GANs sono solo una delle tecniche adottate per creare dati sintetici, spesso classificati in diverse tipologie sulla base di specifici parametri, oltre a poter essere impiegati in combinazione con dati reali. In un recente studio è stato dimostrato come l’utilizzo di dataset composti al 90% da dati sintetici e al 10% da dati reali è in grado di fornire prestazioni quasi equivalenti a un training (vale a dire il processo di apprendimento da parte degli algoritmi di intelligenza artificiale) effettuato esclusivamente con dati reali.

Amazon, per esempio, sfrutta i dati sintetici per addestrare Alexa (e in particolare i suoi sistemi di Natural Language Understanding) e per allenare l’intelligenza artificiale al servizio degli acquisti nei negozi fisici. American Express, invece, con i synthetic data sta perfezionando modelli di IA per il rilevamento delle frodi. Obiettivo perseguito anche da Anthem nel settore assicurativo. C’è poi J.P. Morgan, che se ne avvale per sviluppare algoritmi intelligenti per i servizi finanziari, mentre Illumina ha avviato una partnership al fine di produrre synthetic data per la ricerca genomica. In John Deere con i fake data si fa il training dei sistemi di IA dei trattori a guida autonoma, per insegnare alle macchine a distinguere le piante infestanti da quelle sane e spruzzare così il diserbante solo sulle prime. Proprio nel settore delle self-driving car i dati sintetici hanno trovato una fiorente diffusione. Ricorrono infatti a questi tecnologia Tesla, Uber, Google e numerosi altri grandi nomi del mercato (e di recente anche i ricercatori del MIT hanno lanciato un simulatore data driven per lo sviluppo della guida autonoma).

Perché usare dati sintetici?

Di esempi ce ne sarebbero molti altri. Si pensi all’uso dei synthetic data nel settore sanitario o addirittura in ambito bellico, come nel caso dell’IA allenata su dati sintetici per scoprire i crimini di guerra in Siria. Uno dei principali impieghi di questa tecnologia – che è altresì uno dei motivi per i quali sta riscuotendo molti consensi – è l’addestramento dell’intelligenza artificiale. Ciò è dovuto, innanzitutto, alla difficoltà di reperire un numero sufficiente di dati per il training di sistemi basati sul machine learning. Secondo uno studio di RAND Corporation, i veicoli autonomi dovrebbero essere guidati in strada per centinaia di milioni di miglia, talvolta anche per centinaia di miliardi di miglia, prima di poter dimostrare che siano davvero sicuri. L’oggettiva impossibilità di raccogliere dati di guida effettivi per insegnare all’IA di una self-driving car come comportarsi di fronte all’infinito numero di scenari da affrontare nel mondo reale può essere superata proprio grazie a dati prodotti sinteticamente nell’ambito di sempre più evoluti strumenti di simulazione. Lo stesso vale per l’allenamento di qualunque algoritmo che richieda dati complicati da trovare o da utilizzare (si pensi al settore sanitario). Così Gartner prevede che entro il 2024 il 60% dei dati impiegati per sviluppare progetti di IA e di analisi sarà generato sinteticamente e che entro il 2030 i synthetic data metteranno completamente in secondo piano i dati reali nello sviluppo dei modelli di intelligenza artificiale.

Non si tratta però solo della quantità di dati, ma anche della loro qualità. Molto spesso, infatti, il training delle macchine intelligenti è frenato dalla difficoltà di reperire dati facilmente processabili dalle stesse. Uno studio condotto da Alegion ha svelato che il 96% delle aziende è incappata in problemi relativi alla qualità e all’etichettatura dei dati per l’allenamento degli algoritmi di machine learning. In questo caso i dati sintetici presentano l’indubbio vantaggio di poter essere concepiti fin dall’inizio con caratteristiche rispondenti alle esigenze del singolo algoritmo. In altre parole, essere creati ad hoc. Allo stesso modo, l’intervento diretto nel processo di genesi dei database di addestramento consentirebbe ai programmatori di correggere eventuali imperfezioni o carenze nei dataset di partenza, in modo da evitare che, nel processo di apprendimento, l’IA sviluppi dei pregiudizi. I bias sono infatti una delle più discusse incognite nello sviluppo delle macchine intelligenti e già in passato non sono passati inosservati i casi di algoritmi discriminatori o razzisti.

I dati sintetici come tecnologia per ripensare la privacy

Al cuore dello sviluppo e del successo dei synthetic data c’è però anche un altro importante fattore, quello della protezione della privacy. La sintetizzazione di dati permette, difatti, di aumentare il livello di tutela dei dati di natura personale e, quindi, a maggior ragione, dei diritti individuali. Non a caso viene inclusa nella famiglia delle cosiddette privacy-enhancing technologies (PETs). Nel corso del processo di data synthetization, infatti, l’algoritmo generativo – se adeguatamente impostato – non replica né mantiene alcun collegamento diretto con gli elementi identificativi del database iniziale. In questo modo non è possibile ricondurre i dati di sintesi a quelli originali dai quali sono stati creati e, dunque, alle persone a cui si riferiscono. Tornando al nostro esempio, questo significa che le foto e le caratteristiche fisiche o di gioco delle figurine prodotte sinteticamente non saranno ricollegabili a nessuno dei giocatori presenti nell’album reale, eppure la distribuzione statistica dei due dataset rimarrà estremamente simile, se non addirittura identica.

Ecco dunque spiegato in poche parole il senso della potenziale rivoluzione portata dai synthetic data. Da un lato, le persone potranno beneficiare di una maggiore protezione della privacy, in quanto i dati sintetizzati non presentano elementi in grado di identificarle direttamente. Dall’altro, aziende e pubbliche amministrazioni detentrici dei dati potranno innalzare il livello di conformità alla normativa sulla data protection, potendo al tempo stesso contare su dati qualitativamente e quantitativamente utili e statisticamente rilevanti, soprattutto nell’ottica di addestrare i propri modelli di IA. Se si considera poi che un uso particolarmente evoluto delle tecniche di sintetizzazione, magari combinato con altre PETs, potrebbe anche condurre all’elaborazione di veri e propri dati anonimi – in quanto tali esclusi dall’ambito di applicazione del GDPR e, più in generale, della normativa sulla tutela della privacy – si capisce ancor di più il grande interesse generato da questa tecnologia. Gartner prevede che entro il 2025 i synthetic data ridurranno la raccolta dei dati personali dei clienti, permettendo di evitare il 70% delle sanzioni per violazioni delle norme sulla privacy.

Cosa aspettarsi in futuro

La corsa ai dati sintetici è soltanto all’inizio, ma i primi risultati non mancano. In un studio pubblicato quest’anno, i ricercatori del MIT hanno dimostrato che un modello di machine learning per la classificazione delle immagini allenato con dei synthetic data può competere con uno addestrato su dati reali. Sempre dal MIT, in un’altra ricerca del 2022, arriva la prova che in alcuni casi i modelli allenati su dati sintetici possono essere persino più accurati di quelli il cui training è avvenuto su real data.

Al tempo stesso, mancano ancora molti passi al traguardo, sia in termini di sviluppo tecnico, sia con riferimento agli aspetti più prettamente giuridici (in particolare, se e a quali condizioni i synthetic data potranno essere considerati dati anonimi). Come per ogni altra tecnologia emergente, occorrerà quindi andare avanti con gli studi e la sperimentazione, per comprenderne fino in fondo gli effettivi impatti e risolverne gli eventuali risvolti negativi o problematici.

Nel frattempo, però, il mercato dei synthetic data continua a crescere, al pari della curiosità e della considerazione di istituzioni e media. Il Garante europeo della protezione dei dati, ha inserito i dati sintetici tra gli emerging technology trends per il 2021/2022 e per il 2022/2023. Di synthetic data si parla anche nella proposta di Artificial Intelligence Act, il nuovo regolamento sull’IA attualmente al vaglio delle istituzioni UE. Non mancano poi i riconoscimenti del MIT Technology Review – il quale ha incluso la sintetizzazione di dati tra le dieci più importanti tecnologie innovative per il 2022 – e di Forbes – che invece l’ha inserita tra i cinque Data Science Trends dello stesso anno – . Con queste premesse, il futuro della privacy potrebbe davvero essere sintetico.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *