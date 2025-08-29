OpenAI ha annunciato la disponibilità pubblica di gpt-realtime, il suo modello vocale più avanzato di sempre, insieme a un importante aggiornamento della Realtime API, che esce dalla fase di anteprima e diventa accessibile a tutti gli sviluppatori.

Dopo una lunga fase di test iniziata lo scorso ottobre, il servizio è pronto per un utilizzo su larga scala e porta con sé miglioramenti sostanziali sia sul fronte delle prestazioni che su quello delle funzionalità, con l’obbiettivo dichiarato di rendere le interazioni vocali con l’intelligenza artificiale più fluide, naturali e vicine a una conversazione reale.

Voce più naturale e intelligenza superiore grazie a gpt-realtime e Realtime API di OpenAI

Il nuovo modello gpt-realtime si distingue per la capacità di generare risposte vocali rapide e con un tono più realistico, superando le pipeline complesse basate su più modelli e puntando invece su un approccio unificato; questo permette di ridurre sensibilmente la latenza e di rendere più credibile l’esperienza di dialogo, grazie anche alla possibilità di personalizzare lo stile di voce secondo necessità, ad esempio chiedendo all’assistente di parlare in modo empatico oppure con un particolare accento. OpenAI ha inoltre introdotto due nuove voci esclusive, Cedar e Marin, andando a migliorare anche le soluzioni già disponibili nelle versioni precedenti.

Sul piano tecnico, il modello dimostra una comprensione più sofisticata del linguaggio parlato, riconosce segnali non verbali come risate o pause, è in grado di cambiare lingua all’interno della stessa frase e gestisce con maggiore precisione sequenze complesse come numeri di telefono o codici alfanumerici. Non sorprende dunque che nei benchmark interni i progressi siano stati notevoli, con un salto dal 65,6% all’82,8% nel test Big Bench Audio e miglioramenti analoghi in scenari legati al rispetto delle istruzioni e alla chiamata di funzioni complesse.

Anche la Realtime API è stata profondamente arricchita e ora integra strumenti pensati per rendere la vita più semplice agli sviluppatori. Tra le novità più significative troviamo il supporto remoto MCP, che consente di collegare rapidamente nuovi strumenti senza doverli integrare manualmente, la possibilità di fornire immagini come input all’interno della conversazione e perfino l’integrazione del protocollo SIP (Session Initiation Protocol), che apre alla gestione di chiamate telefoniche tradizionali tramite l’intelligenza artificiale.

Non meno importanti sono le funzioni di riutilizzo dei prompt, utili per velocizzare le sessioni ricorrenti, e una migliore gestione asincrona delle chiamate, che permette di proseguire la conversazione senza interruzioni anche durante processi più lunghi.

OpenAI ha voluto ribadire inoltre l’attenzione per sicurezza e privacy: l’API include controlli automatici per prevenire abusi e impersonificazioni dannose, mentre agli sviluppatori viene lasciata la possibilità di gestire i dati direttamente all’interno dell’Unione Europea, nel rispetto delle normative vigenti.

Infine, c’è un aspetto che farà piacere a molti, il nuovo modello gpt-realtime e l’API aggiornata non solo sono disponibili da subito per tutti, ma arrivano anche con una riduzione dei costi pari al 20% rispetto alla versione precedente gpt-4o-realtime-preview, rendendo più conveniente l’adozione per chi vuole integrare queste tecnologie nei propri servizi.

Con gpt-realtime e con la nuova API Realtime, OpenAI compie un passo decisivo per portare gli agenti vocali fuori dai laboratori di ricerca e dentro applicazioni e prodotti concreti; l’esperienza d’uso si fa più rapida, naturale e intelligente, con implicazioni che vanno dall’assistenza clienti alle app di produttività, fino agli assistenti personali che potranno finalmente avvicinarsi a una conversazione autentica.

Gli utenti e gli sviluppatori dovranno dunque attendersi nei prossimi mesi un’accelerazione significativa sul fronte delle interazioni vocali, con scenari che fino a ieri sembravano fantascienza ma che ora iniziano a diventare una realtà concreta.