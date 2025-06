OpenAI continua ad affinare le capacità multimodali di ChatGPT, e lo fa con un nuovo aggiornamento significativo della Modalità Vocale Avanzata, introdotta per la prima volta lo scorso anno in concomitanza con il debutto del modello GPT-4o; dopo un primo affinamento arrivato a inizio anno, che aveva già migliorato accenti e ridotto le interruzioni nelle conversazioni vocali, la funzionalità riceve oggi un upgrade sostanziale che porta il livello di realismo e naturalezza vocale a nuovi standard.

Parlare con ChatGPT non è mai stato così umano

Per chi non la conoscesse, vale la pena ricordare che la Modalità Vocale Avanzata si basa sull’uso di modelli multimodali nativi, come GPT-4o, ed è capace di rispondere agli input audio in un tempo che oscilla tra i 232 millisecondi e i 320 millisecondi, valori che rientrano ampiamente nella soglia di una normale conversazione umana.

Con l’ultimo aggiornamento rilasciato però, l’interazione vocale compie un passo in avanti importante anche dal punto di vista espressivo; secondo quanto comunicato dalla stessa azienda le risposte vocali di ChatGPT sono ora caratterizzate da un’intonazione più morbida e da una cadenza più realistica, con l’aggiunta di pause naturali, enfasi nei punti giusti ed espressività più precisa in alcune emozioni complesse, come ad esempio l’empatia o persino il sarcasmo.

Insomma, grazie all’ultimo update conversare con ChatGPT è molto più simile all’avere una conversazione con un altro essere umano, grazie non solo a voci più naturali, ma anche a un comportamento più credibile, coerente e coinvolgente nel flusso della conversazione.

Oltre ai miglioramenti espressivi OpenAI ha integrato nella Modalità Vocale Avanzata anche una funzione di traduzione in tempo reale; in pratica gli utenti possono semplicemente chiedere a ChatGPT di iniziare una traduzione vocale da una lingua all’altra, da quel momento l’intero dialogo prosegue nella modalità traduzione attiva, fino a quando non si chiederà esplicitamente di interromperla.

Una novità che di fatto riduce, se non elimina del tutto, la necessità di utilizzare app dedicate per la traduzione vocale simultanea, soprattutto in contesti quotidiani o durante viaggi all’estero; un assist importante anche per l’inclusività e l’accessibilità.

Come spesso accade quando si tratta di aggiornamenti corposi e complessi, anche in questo caso non mancano alcune limitazioni note, che OpenAI ha voluto segnalare con trasparenza; nello specifico:

in alcune voci si possono percepire variazioni impreviste nel tono o nell’altezza , che riducono temporaneamente la coerenza audio generale

, che riducono temporaneamente la coerenza audio generale persistono rare allucinazioni in modalità vocale, con la generazione di suoni indesiderati come pubblicità, rumori simili a musica o frasi incomprensibili

Si tratta comunque di problematiche marginali già note al team di sviluppo, e su cui si sta lavorando per migliorare la gestione nelle prossime iterazioni; l’obbiettivo dichiarato resta quello di abbattere sempre di più il confine tra interazione uomo-macchina e conversazione naturale, portando le IA vocali a un livello tale da sembrare veri e propri interlocutori umani.

Al momento, la nuova versione della Modalità Vocale Avanzata è disponibile solo per gli utenti paganti di ChatGPT, ma nulla esclude che in futuro possa essere estesa, almeno parzialmente, anche agli utenti free; nel frattempo, chi ha già accesso alla funzione può godersi una delle esperienze vocali più avanzate mai offerte da un assistente IA.