I ricercatori di Microsoft hanno presentato un nuovo software di intelligenza artificiale in grado di sintetizzare qualunque voce umana partendo da un audio registrato di soli 3 secondi.

VALL-E, questo il nome del software text-to-speech, partendo da una registrazione di 3 secondi è in grado di sintetizzare l’audio della persona interessata e di leggere qualunque testo cercando di imitare il tono del parlante. Le implicazioni per questo software sono molteplici, come per esempio la possibilità di modificare alcune registrazioni aggiungendo frasi non dette inizialmente o la creazione di contenuti audio originali che abbiano un tono di voce più realistico.

Ecco come funziona VALL-E

Sul sito di esempio creato in occasione da Microsoft potete ascoltare VALL-E in azione. Nella tabella è possibile mettere a confronto diverse sezioni: “Speaker Prompt” è l’audio di 3 secondi della voce reale registrata, “Ground Truth” è invece una registrazione di una frase più lunga effettuata sempre dalla stessa persona, “Baseline” è un esempio di voce sintetizzata creata da un software text-to-speech tradizionale mentre “VALL-E” è il risultato ottenuto da questa intelligenza artificiale basandosi soltanto sull’audio iniziale di 3 secondi.

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 1

Microsoft ha creato VALL-E partendo da una tecnologia chiamata EnCoded, presentata da Meta lo scorso anno, che analizza il tono di voce di una persona e lo suddivide in diversi componenti chiamati token, i quali vengono elaborati e confrontati con la libreria audio di Meta (che contiene oltre seimila ore di inglese parlato) creando una voce sintetizzata che cerca di imitare il più possibile la naturalezza e il timbro del parlante originale.

Oltre a imitare il timbro e la tonalità della voce, VALL-E è in grado di capire anche il contesto in cui l’audio è stato registrato, riuscendo per esempio a simulare una voce al telefono se la registrazione originale è appunto presa da una chiamata.

Le implicazioni per un software di questo genere sono molteplici e Microsoft lo sa: onde evitare l’uso illegale di questa intelligenza artificiale – si pensi per esempio ad un utilizzo improprio in cui una persona si finge qualcun altro – i ricercatori americani non hanno reso disponibile il codice per tutti e stanno studiando un modo per evitare problemi di questo genere procedendo con lo sviluppo.

Potrebbe interessarti anche: Microsoft Bing potrebbe integrare ChatGPT per sfidare la ricerca di Google