OpenAI, società che si occupa di ricerca e sviluppo nel campo dell’intelligenza artificiale salita alla ribalta in seguito alla creazione di ChatGPT, ha da pochi giorni mostrato Voice Engine, l’ultimo modello nato nei laboratori di San Francisco.

Si tratta di un modello di intelligenza artificiale da testo a voce che, a partire da un audio di appena 15 secondi, è in grado di ricreare (o clonare) una voce umana che potrà così leggere qualsiasi cosa, aggiungendo anche espressività al parlato. OpenAI ha mostrato alcuni esempi di applicazioni e ha condiviso alcuni timori che avrebbero frenato il rilascio del modello su larga scala, a causa di problematiche di sicurezza e di abuso.

La sintesi vocale: un po’ di contesto

La sintesi vocale, detta anche text-to-speech (TTS), è una tecnologia che trasforma un testo scritto in audio, leggendo con una voce sintetizzata ciò che viene fornito come input testuale, tenendo anche conto dei segni di punteggiatura.

Negli anni la sintesi vocale ha fatto passi da gigante, migliorando dal punto di vista della qualità (soprattutto della voce sintetizzata, sempre più simile a quella umana) e diventando ormai uno strumento abbastanza concreto con cui abbiamo a che fare quasi giornalmente, ad esempio quando utilizziamo un’app di traduzione (e ci facciamo leggere una frase in un’altra lingua) o quando utilizziamo un assistente vocale (come Amazon Alexa, Siri o Google Assistant).

Con l’avvento dell’intelligenza artificiale, la sintesi vocale è divenuta ancora più performante, grazie a modelli di deep learning che permettono al software di ricreare voci ancora più realistiche e, addirittura, di imitare voci umane esistenti a partire da piccoli campioni di audio.

Voice Engine di OpenAI clona la voce con 15 secondi di audio

Proprio in tal senso si inserisce Voice Engine, un modello di sintesi vocale basato sull’intelligenza artificiale, messo a punto da OpenAI, che è in grado di creare voci sintetiche a partire da un segmento audio registrato di appena 15 secondi. La società statunitense lavora a questo progetto già da un paio d’anni ma ha recentemente condiviso i risultati di un’anteprima su piccola scala del modello, sollevando anche alcuni dubbi sull’impiego di questa tecnologia su larga scala.

OpenAI è impegnata a sviluppare un’intelligenza artificiale sicura e ampiamente vantaggiosa. Oggi condividiamo informazioni preliminari e risultati di un’anteprima su piccola scala di un modello chiamato Voice Engine, che utilizza l’input di testo e un singolo campione audio di 15 secondi per generare un parlato dal suono naturale che ricorda da vicino l’oratore originale. È interessante notare che un piccolo modello con un singolo campione di 15 secondi può creare voci emotive e realistiche.

Abbiamo sviluppato per la prima volta Voice Engine alla fine del 2022 e lo abbiamo utilizzato per alimentare le voci preimpostate disponibili nell’API di sintesi vocale, nonché ChatGPT Voice and Read Aloud. Allo stesso tempo, stiamo adottando un approccio cauto e informato verso una versione più ampia a causa del potenziale uso improprio della voce sintetica. Speriamo di avviare un dialogo sull’impiego responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità. Sulla base di queste conversazioni e dei risultati di questi test su piccola scala, prenderemo una decisione più informata su se e come implementare questa tecnologia su larga scala.

I primi esempi di applicazione di Voice Engine

OpenAI ha iniziato a testare il modello Voice Engine in forma privata (“con un gruppo di partner fidati“) alla fine del 2023 e, come anticipato, ha fornito alcuni esempi di come potrebbe essere sfruttato il modello in maniera positiva su svariati ambiti. Ovviamente, una volta inserita una voce come traccia audio di riferimento, questa potrà essere clonata e utilizzata per la sintesi vocale in più lingue.

  • Fornire assitenza alla lettura
    • Esempio realizzato da Age of Learning (società di tecnologia educativa dedicata al successo accademico dei bambini).
    • Vengono sfruttati Voice Engine e GPT-4 per creare risposte personalizzate in tempo reale per interagire con gli studenti.
  • Tradurre contenuti
    • Esempio realizzato da HeyGen (piattaforma di narrazione visiva basata sull’IA che crea avatar personalizzati per contenuti di marketing del prodotto o demo di vendite).
    • In questo caso, viene sfruttato Voice Engine per la traduzione video, in modo da raggiungere un pubblico globale.
    • È interessante notare che, nella traduzione, viene mantenuto l’accento originale della traccia audio (ad esempio, se la traccia originale proviene da un utente francese, anche il parlato “sintetico” in un’altra lingua manterrebbe le caratteristiche tipiche del parlato francese).
  • Divulgare informazioni sanitarie di base in ambienti remoti
    • Esempio realizzato da Dimagi (impresa sociale globale che ha come obiettivo quello di fornire l’accesso ai servizi sanitari essenziali, come l’allattamento al seno o la nutrizione dei bambini, alle comunità che risiedono in luoghi remoti, abattendo le barriere linguistiche).
    • Vengono sfruttati Voice Engine e GPT-4 per fornire un feedback interattivo nella lingua originaria dei destinatari (incluse lingue come swahili o sheng).
  • Supporto ai pazienti con disabilità comunicativa
    • Esempio realizzato da Livox (app di comunicazione alternativa basata sull’IA che consente alle persone con disabilità di comunicare).
    • Grazie a Voice Engine, i pazienti affetti da disabilità comunicativa possono parlare con voci non robotiche e in molte lingue.
  • Aiutare i pazienti a recuperare la voce
    • Esempio realizzato da Lifespan (sistema sanitario senza fini di lucro che funge da principale affiliato didattico della facoltà di medicina della Brown University e che sta esplorando gli usi dell’IA in contesto clinico).
    • La società ha avviato un programma pilota che offre Voice Engine a soggetti con eziologie oncologiche o neurologiche per disturbi del linguaggio: l’obiettivo è quello di ripristinare la voce di un paziente che ha perso la capacità di parlare.
    • Viene riportato anche un successo del programma pilota: grazie all’audio di un video registrato per un progetto scolastico, alcuni medici sono stati in grado di ripristinare la voce di un giovane paziente che non era più in grado di parlare a causa di un tumore al cervello.

Nel caso in cui siate interessati ad ascoltare le tracce usate come riferimento e i contenuti generati, caso per caso, vi rimandiamo alla pagina dedicata sul sito ufficiale di OpenAI.

I possibili rischi di Voice Engine

Chiunque abbia 15 secondi di voce registrata di qualcuno potrebbe effettivamente clonarla grazie a Voice Engine e utilizzare questa voce clonata per usi impropri, come truffe telefoniche o l’autenticazione a conti bancari particolari che prevedono l’autenticazione vocale come metodo di autenticazione.

La stessa OpenAI ammette che la generazione di discorsi con voci sintetizzate che ricalcano voci umane di persone reali può comportare rischi piuttosto seri. Per questo, la società non ha ancora avviato il rilascio su larga scala del modello, cercando di eseguire test circoscritti con partner che accettino specifiche politiche di utilizzo: tra queste rientrano il divieto di rappresentazione di un altro individuo o di un’altra organizzazione senza consenso o diritto legale e la comunicazione chiara del fatto che le voci siano generate dall’intelligenza artificiale; inoltre, la rappresentazione potrà essere effettuata esclusivamente con il consenso esplicito e informato dell’oratore ogirinale (colui che fornisce la traccia originale).

La società ha anche inserito svariate misure di sicurezza a Voice Engine, come il monitoraggio proattivo del modo di utilizzo del modello di sintesi vocale e l’implementazione di una filigrana (in ogni campione vocale) che permetta il tracciamento di qualsiasi traccia audio generata tramite il modello. In futuro potrebbe anche arrivare una sorta di lista di voci (soprattutto di personaggi di spicco) che non potranno essere clonate.

Quali saranno i prossimi passi?

Per OpenAI, tutto ciò rappresenta la naturale continuazione al percorso di comprensione di ciò che è possibile fare con l’intelligenza artificiale. L’obiettivo di questa dimostrazione in antperima è sottolineare il potenziare e la necessità di rafforzare la capacità della società di reggere l’urto con modelli di IA generativa sempre piàù convincenti.

OpenAI incoraggia anche alcuni spunti interessanti per spianare il terreno a tecnologie come Voice Engine: eliminare (gradualmente) l’autenticazione vocale per l’accesso a conti bancari e altre informazioni sensibili; realizzare norme per proteggere l’uso della voce di un individuo in applicazioni di IA; educare le masse a comprendere capacità e limiti, nel bene (usi benevoli) e nel male (usi impropri) dell’IA; accelerare lo sviluppo di tecniche per tracciare l’origine dei contenuti audiovisivi.

Allo stato attuale, quindi, Voice Engine rimane una tecnologia sorprendente ma limitata a partner selezionati e il rilascio su larga scala è lontano.

Potrebbero interessarti anche: L’IA per i video Sora di OpenAI arriverà entro fine anno e OpenAI potrebbe rilasciare GPT-5 prima del previsto