Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi

I ricercatori di Microsoft hanno presentato un nuovo software di intelligenza artificiale in grado di sintetizzare qualunque voce umana partendo da un audio registrato di soli 3 secondi.

VALL-E, questo il nome del software text-to-speech, partendo da una registrazione di 3 secondi è in grado di sintetizzare l’audio della persona interessata e di leggere qualunque testo cercando di imitare il tono del parlante. Le implicazioni per questo software sono molteplici, come per esempio la possibilità di modificare alcune registrazioni aggiungendo frasi non dette inizialmente o la creazione di contenuti audio originali che abbiano un tono di voce più realistico.

🛍️ Black Friday, ultimo giorno di offerte ➡️

Offerta -26%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 1

Apple MacBook Air 13'', M4 (2025)

849€ invece di 1149€

Amazon

Offerta -31%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 2

DREAME H15 Mix 7-In-1

619€ invece di 899€

Amazon

Offerta -24%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 3

MSI Cyborg 15, 16/512GB, RTX

869€ invece di 1149€

Amazon

Offerta -33%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 4

Xiaomi Smart Band 10

33.67€ invece di 49.99€

Amazon

Offerta -35%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 5

ECOVACS DEEBOT T80 OMNI

499€ invece di 769€

Amazon

Offerta -30%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 6

TCL 55T69C 55” QLED

250.32€ invece di 359€

Amazon

Offerta -15%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 7

Lenovo LOQ 15'', RTX5070, 32GB/1TB

1439€ invece di 1699€

Amazon

Offerta -31%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 8

DREAME L40 Ultra AE, 19.000 Pa

479€ invece di 699€

Amazon

Offerta -34%

Questa IA di Microsoft può imparare a simulare qualunque voce umana in 3 secondi 9

TV LG OLED AI B5 48''

659€ invece di 999€

Amazon

Ecco come funziona VALL-E

Sul sito di esempio creato in occasione da Microsoft potete ascoltare VALL-E in azione. Nella tabella è possibile mettere a confronto diverse sezioni: “Speaker Prompt” è l’audio di 3 secondi della voce reale registrata, “Ground Truth” è invece una registrazione di una frase più lunga effettuata sempre dalla stessa persona, “Baseline” è un esempio di voce sintetizzata creata da un software text-to-speech tradizionale mentre “VALL-E” è il risultato ottenuto da questa intelligenza artificiale basandosi soltanto sull’audio iniziale di 3 secondi.

Microsoft ha creato VALL-E partendo da una tecnologia chiamata EnCoded, presentata da Meta lo scorso anno, che analizza il tono di voce di una persona e lo suddivide in diversi componenti chiamati token, i quali vengono elaborati e confrontati con la libreria audio di Meta (che contiene oltre seimila ore di inglese parlato) creando una voce sintetizzata che cerca di imitare il più possibile la naturalezza e il timbro del parlante originale.

Oltre a imitare il timbro e la tonalità della voce, VALL-E è in grado di capire anche il contesto in cui l’audio è stato registrato, riuscendo per esempio a simulare una voce al telefono se la registrazione originale è appunto presa da una chiamata.

Le implicazioni per un software di questo genere sono molteplici e Microsoft lo sa: onde evitare l’uso illegale di questa intelligenza artificiale – si pensi per esempio ad un utilizzo improprio in cui una persona si finge qualcun altro – i ricercatori americani non hanno reso disponibile il codice per tutti e stanno studiando un modo per evitare problemi di questo genere procedendo con lo sviluppo.

Potrebbe interessarti anche: Microsoft Bing potrebbe integrare ChatGPT per sfidare la ricerca di Google