Oltre a OpenAI (e Microsoft) con ChatGPT e simili, Google con Bard, e altri colossi con soluzioni più e meno popolari, anche Meta sta investendo molto nel campo dell’intelligenza artificiale. Dopo aver festeggiato i traguardi raggiunti con la sua IA vocale capace di riconoscere oltre 4000 lingue, ne presenta un’altra, Voicebox, sempre legata al settore vocale, ma in questo caso di tipo generativo, una sorta di TTS (text to speech) ma più capace e versatile.

È ad esempio in grado di generare sintesi vocali con campioni audio brevissimi, sa modificare registrazioni già fatte per migliorarle riducendo rumori o eliminando interruzioni, intuisce cosa manca e lo ricrea, e può garantire inoltre un parlato più fedele alla realtà, grazie a un processo di addestramento inconsueto per i modelli di sintesi vocale.

Come funziona e che può fare Meta Voicebox

Voicebox è un modello di intelligenza artificiale generativa di Meta che nasce come strumento di generazione vocale, di editing e di campionamento, utile per tante cose, fra cui rendere il più naturale possibile le voci degli assistenti virtuali, dei personaggi del metaverso, ma anche come strumento per migliorare le sintesi audio per le persone ipovedenti o per i creators.

Questa nuova IA di Meta fa quel che fanno ChatGPT o Dall-E, ma invece di generare del testo o delle immagini, crea dei file audio in base al testo che l’utente le fornisce. Fin qui nulla di trascendentale considerando che tecnologie simili esistono da svariati anni e vengono usate da tempo per dare voce ai navigatori o agli assistenti vocali. Ma ciò che distingue Voicebox dagli altri modelli di sintesi vocale, sta principalmente nel fatto che l’addestramento che necessita è notevolmente meno dispendioso.

Meta ha usato per questo le registrazioni audio e le trascrizioni di una serie di audiolibri scritti in inglese, francese, spagnolo, tedesco, polacco e portoghese, documenti audio non specialistici della durata di oltre 50 mila ore. Nonostante questo approccio meno studiato cioè non improntato, come di norma, sul parlato reale preparato espressamente per l’addestramento di modelli simili, Meta ha riportato che le sintesi vocali generate sono molto più efficaci e semplici da creare, ad esempio rispetto a Vall-E di Microsoft.

Voicebox è stato addestrato inoltre per prevedere un segmento vocale mancante sulla base del discorso circostante e sulla trascrizione stessa, capacità che può tornare utile nella generazione del parlato e nella modifica di file audio già creati, per evitare di ricreare l’intero file. Ad esempio nel caso in cui una parte della registrazione audio contenga delle parole pronunciate male, ci sia del rumore di fondo (un abbaio o lo squillo di un cellulare), questa IA di Meta è in grado di identificare il segmento e di sostituirne il contenuto ricreando la parte mancante.

Può inoltre produrre una lettura del testo in inglese, francese, tedesco, spagnolo, polacco e portoghese fornendogli un campione del discorso e un testo, anche quando le lingue di questi ultimi due elementi non coincidono. E considerando l’addestramento di Voicebox basato su dati di vario genere in queste sei lingue citate, è in grado di generare un audio più fedele al parlato reale, a tutto vantaggio di futuri usi, per gli assistenti virtuali, per la creazione di contenuti, ma anche per chatbot, pazienti con danni alle corde vocali, persone ipovedenti, e altro ancora. Ecco alcuni esempi:

Meta ha detto che per motivi di sicurezza questa nuova intelligenza artificiale non è al momento disponibile per il pubblico. Quindi non è ancora possibile provarla, anche se si può curiosare fra i video dimostrativi pubblicati nel comunicato stampa, che contiene fra l’altro anche un documento di ricerca relativo al programma.

Forse ti sei perso: La legge europea sull’intelligenza artificiale prende forma e MusicGen è l’IA di Meta che trasforma il testo in musica, anche “ispirata”