Con 3 secondi della nostra voce l’IA ci farà dire cose che non abbiamo mai detto

Con 3 secondi della nostra voce l’IA ci farà dire cose che non abbiamo mai detto

In un futuro non troppo lontano, le parole non ci apparterranno più. Saranno generate da un’intelligenza artificiale come quella, rivoluzionaria, appena annunciata dai ricercatori di Microsoft. Si chiama VALL-E e promette di replicare la voce di una persona a partire da un ‘sample’ di soli tre secondi. Il tutto conservando (miracolosamente) il timbro, il tono e l’emotività di chi parla.

Microsoft sostiene che VALL-E potrà avere un impatto considerevole su tutte le applicazioni che già oggi sono in grado di trasformare una frase di testo in un discorso parlato. L’impatto aumenta se si considera che VALL-E potrà essere associato a strumenti come ChatGpt di OpenAI, vale a dire un’intelligenza artificiale che può generare un testo credibile e interessante a partire da una semplice domanda scritta.

La differenza con i metodi text-to-speech che conosciamo è enorme. A differenza di altri modelli, che sintetizzano la voce manipolando le caratteristiche della forme d’onda, VALL-E genera codec audio direttamente a partire dal testo e dai sample sonori.


Inoltre ciò che cambia è il tempo necessario alla produzione del file sonoro. Per sintetizzare una voce, in genere, a un software servono diverse ore di ascolto del parlato che si intende replicare. Con VALL-E il tempo di allenamento è praticamente azzerato: si sottopongono solo tre secondi di registrazione e, a partire da questi, si può ottenere un discorso personalizzato di alta qualità, contenente parole che una persona non ha mai detto.

Il ‘training’ di VALL-E, in realtà, è stato fatto a priori. Microsoft ha addestrato il nuovo sintetizzatore vocale grazie a una libreria audio fornita da Meta: LibriLight è un punto di riferimento popolare per l’allenamento dell’ASR (automatic speech recognition): contiene 60.000 ore di parlato in inglese, principalmente letture di audiolibri di dominio pubblico disponibili su LibriVox.

Microsoft, tuttavia, ha anche specificato un possibile tallone d’achille di VALL-E: per ottenere buoni risultati, la voce nel campione di tre secondi deve essere simile a una di quelle presenti nella libreria Meta. Ma visto che su LibriLight gli speaker sono circa 7.000, c’è una buona possibilità che la voce che si intende replicare trovi una corrispondenza adegauata.

La cosa straordinaria è che si può riprodurre fedelmente anche il sottofondo e le interferenze sonore che si mescolano alla voce nei sample di 3 secondi originali. Questo vuol dire che VALL-E, se richiesto, può clonare la voce di una persona che sta parlando in un ristorante, oppure al telefono, ricostruendo l’ambiente in cui si è stata registrata.


Nella pagina che espone la ricerca, Microsoft ha pubblicato degli esempi sorprendenti del lavoro di VALL-E. Ogni esempio presenta la frase che si intende far leggere alla voce sintetica, il campione con la voce originale (Speaker Prompt), la frase di testo letta dalla voce originale (Ground Truth) e infine la frase di testo letta da VALL-E.

È interessante notare come VALL-E sia in grado anche di riprodurre lo stato emotivo della voce originale, così come evidenziato sezione di esempi relativi alla Speaker’s Emotion Maintenance: toni associabili alla rabbia, alla noia o al disgusto vengono replicati alla perfezione usando tutt’altre parole rispetto a quelle sottoposte attraverso il sample della voce originale di 3 secondi.

Come abbiamo già avuto modo di sottolineare nei mesi scorsi, quando una popolare app ha permesso di replicare la voce di personaggi illustri come Giorgia Meloni e Silvio Berlusconi, l’utilizzo di un software – come VALL-E – che fa dire a qualcuno cose che non ha mai detto implica dei rischi. Che  vanno al di là del diritto di cronaca, o di satira.

La possibilità che uno strumento miracoloso in grado di risparmiarci la voce – e magari di generare a partire da solo testo dei fantastici podcast –  si trasformi, nelle mani sbagliate, in una fabbrica di deepfake, non è da escludere.

Microsoft ha deciso di non fornire, per ora, il codice di VALL-E per una sperimentazione pubblica. I ricercatori conoscono benissimo i potenziali danni sociali che questa tecnologia potrebbe arrecare. E infatti chiedono uno sviluppo e un uso responsabili di tale strumento.

L’euforia per i progressi dell’intelligenza artificiale, nel frattempo, si accompagna a possibili nuovi investimenti in un periodo in cui le Big Tech sembravano mettere a freno costi e impiego.

Proprio Microsoft sembra essere intenzionata a investire 10 miliardi di dollari in OpenAI, la società che un tempo era no-profit e che ora invece insegue la monetizzazione del suo strumento più potente: ChatGpt, l’intelligenza artificiale in grado di colloquiare in modo naturale con gli utenti e di fornire risposte alle loro domande in modo sorprendentemente ‘umano’.

Il Ceo di OpenAI è Sam Altman, ex presidente di Y Combinator, uno degli acceleratori di startup più famosi al mondo. Tra i co-fondatori di OpenAI c’è anche Elon Musk.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *