L’intelligenza artificiale ha fatto passi da gigante negli ultimi anni, ma una delle limitazioni più grandi è stata l’incapacità dei sistemi di percepire e interagire con il mondo reale come facciamo noi esseri umani. Tutto ciò sta per cambiare con gli ultimi aggiornamenti di ChatGPT, uno dei chatbot più avanzati presenti sul mercato, creato da OpenAI.

ChatGPT è stato rilasciato sul finire dello scorso anno (qui il nostro approfondimento caricato su YouTube) e ha rapidamente conquistato l’attenzione di milioni di persone in tutto il mondo grazie alla sua capacità di tenere conversazioni sorprendentemente naturali e fornire risposte dettagliate su un’ampia varietà di argomenti. Uno dei pochi limiti del programma riguardava proprio l’interazione tra software e utilizzatore, limitata al solo testo digitato, che rendeva il chatbot piuttosto disconnesso dal mondo reale.

ChatGPT sarà in grado di rispondere a voce molto presto

Ora OpenAI ha annunciato nuove capacità di elaborazione vocale e visiva per ChatGPT che consentono di avere conversazioni vocali bidirezionali con l’IA e mostrare immagini per ottenere risposte contestualizzate. Si tratta di una svolta epocale per l’IA conversazionale che la avvicina moltissimo alle capacità umane.

 

La nuova funzionalità vocale permette di parlare con ChatGPT proprio come si farebbe con un’altra persona. È possibile porre domande, fare commenti o chiedere consigli e a tutte queste richieste ChatGPT è in grado di rispondere con una voce sintetizzata ma incredibilmente realistica e naturale. Le voci sono generate da un nuovo modello text-to-speech sviluppato appositamente da OpenAI e sono basate su campioni vocali di veri attori professionisti.

ChatGPT potrà interagire con le immagini caricate dall’utente

La vera novità che potrebbe cambiare in modo radicale le modalità di ricerca e analisi delle informazioni online riguarda la possibilità del chatbot di interagire con le immagini caricate in chat direttamente dall’utente. In particolare, la nuova funzione di elaborazione delle immagini consente di mostrare foto e immagini a ChatGPT per ottenere spiegazioni e descrizioni contestualizzate.

Ad esempio, si può scattare una foto della dispensa e del frigorifero e chiedere consigli su cosa cucinare in base agli alimenti disponibili, oppure mostrare il grafico di un report aziendale e chiedere un’analisi approfondita. È persino possibile evidenziare dettagli specifici nelle immagini per focalizzare l’attenzione dell’IA; si pensi, ad esempio, ad un problema meccanico della propria auto: tramite una semplice foto del motore della propria auto e degli attrezzi in proprio possesso il chatbot di OpenAI sarebbe in grado di dare consigli passo passo su come procedere per la riparazione.

 

DALL-E 3 sarà in grado di generare immagini ancora più dettagliate

Le novità in casa OpenAI non finiscono qui. È recente la notizia del rilascio di DALL-E 3, la nuova versione del sistema di intelligenza artificiale sviluppato da OpenAI in grado di generare immagini partendo da semplici descrizioni testuali.

La nuova versione promette un salto di qualità notevole rispetto alle precedenti iterazioni, con una comprensione del linguaggio naturale e una precisione nella generazione delle immagini mai vista prima. Il sistema è ora molto più abile nel cogliere sfumature e dettagli dalle descrizioni fornite dagli utenti, traducendole in maniera fedele in immagini. Questa è la descrizione fornita direttamente dall’azienda:

DALL-E 3 è capace di comprendere molte più sfumature e dettagli rispetto ai nostri sistemi precedenti, consentendoti di tradurre facilmente le tue idee in immagini eccezionalmente accurate.

Ciò è stato reso possibile integrando DALL-E 3 direttamente con ChatGPT, il chatbot basato su IA sviluppato da OpenAI per la generazione di testo conversazionale. ChatGPT può fungere da partner creativo, elaborando prompt dettagliati a partire da brevi descrizioni fornite dall’utente. Ad esempio, descrivendo l’idea di un logo per un ristorante di ramen in montagna, ChatGPT genererà un testo molto specifico che guiderà l’intelligenza artificiale nella creazione di immagini aderenti alla richiesta.

I sistemi text-to-image moderni hanno la tendenza a ignorare parole o descrizioni, forzando gli utenti a imparare l’ingegneria dei prompt. DALL-E 3 rappresenta un enorme passo in avanti per la nostra abilità di generare immagini che aderiscono esattamente al testo da voi fornito.

L’integrazione con ChatGPT rende l’uso di DALL-E 3 accessibile anche a chi non ha grande dimestichezza nello scrivere e ‘ingegnerizzare’ prompt che guidino efficacemente i sistemi di intelligenza artificiale visiva. Sarà sufficiente una breve frase per ottenere risultati eccellenti.

Naturalmente non mancano funzionalità avanzate di controllo e modifica: sarà possibile chiedere a ChatGPT di perfezionare i prompt in base ai risultati ottenuti da DALL-E 3, in un processo iterativo molto semplice ed efficace.

Per quanto riguarda la sicurezza, OpenAI ha implementato misure per limitare la capacità di DALL-E 3 di generare contenuti inappropriati o dannosi. Ad esempio il sistema si rifiuterà di generare immagini di persone famose nominate esplicitamente o opere d’arte nello stile di artisti viventi; inoltre gli artisti potranno richiedere l’esclusione preventiva delle proprie opere. Ecco il paragrafo dell’annuncio di OpenAI:

DALL-E 3 è progettato per rifiutare le richieste che chiedono un’immagine nello stile di un artista vivente. Inoltre, i creatori possono escludere le loro immagini dalle sessioni di addestramento dei nostri modelli futuri.

Quando saranno disponibili le ultime novità di ChatGPT

La buona notizia è che tutte queste innovazioni di cui vi abbiamo parlato saranno disponibili molto presto. L’integrazione di DALL-E 3 con ChatGPT è prevista per ottobre, ma solo per gli utenti che hanno sottoscritto l’abbonamento a ChatGPT Plus.

Le nuove funzionalità vocali e di interazione con le immagini verranno rilasciate ancora più rapidamente: OpenAI ha annunciato che queste due aggiunte verranno lanciate progressivamente nelle prossime due settimane, inizialmente per gli utenti di ChatGPT Plus e Enterprise e successivamente per tutti gli altri, compresi gli sviluppatori.

Prevediamo che l’accesso a tutte queste nuove funzioni sarà presto disponibile anche tramite API, il che permetterebbe agli sviluppatori di integrarle nei loro software e servizi per sfruttare al massimo le ultime novità riguardanti l’intelligenza artificiale.

Potrebbero interessarti anche: Amazon scommette sull’intelligenza artificiale: pronti 4 miliardi per AnthropicCome evitare che Meta usi i tuoi dati personali per addestrare la sua IA generativa