Annunciato ChatGPT Images 2.0 ed è impressionante: risolti i problemi di testo nelle immagini AI

Solo due anni fa, chiedere a un modello AI di generare il menù di un ristorante messicano significava ritrovarsi con piatti inventati come “enchuita”, “churiros” e “burrto”. Oggi, con ChatGPT Images 2.0, lo stesso prompt produce qualcosa che potrebbe tranquillamente essere affisso in una trattoria senza che nessuno noti nulla di strano. Il salto in avanti è reale, e OpenAI lo definisce un vero e proprio “step change” rispetto a tutto ciò che è venuto prima.

Segui TuttoTech.net su Google Discover

Pubblicità-34%

Amazon

roborock Qrevo S Pro

389,99€~~589,99€~~

Vai all'offerta

Ufficiale ChatGPT Images 2.0

Il nuovo modello, disponibile da oggi per tutti gli utenti ChatGPT inclusi quelli dei piani gratuiti, porta con sé una serie di miglioramenti profondi che riguardano non solo la qualità visiva ma anche la capacità di ragionare sulle immagini prima di generarle. È la prima volta che OpenAI integra capacità di ragionamento (Thinking) in un modello di generazione visiva, permettendogli di fare cose come cercare informazioni sul web, produrre più varianti da un singolo prompt e verificare i propri output prima di consegnarli.

Alla base di questo salto c’è un problema tecnico storico: i generatori di immagini AI hanno sempre avuto difficoltà con il testo perché i modelli di diffusione ricostruiscono le immagini a partire dal rumore, e le scritte occupano una porzione così piccola dei pixel che il modello fatica ad apprenderle correttamente. Come spiegò Asmelash Teka Hadgu, fondatore di Lesan AI, il sistema impara i pattern che coprono la maggioranza dei pixel, lasciando il testo in secondo piano. I ricercatori hanno esplorato alternative come i modelli autoregressivi, che funzionano più come un LLM e formulano previsioni su come debba apparire un’immagine. OpenAI, tuttavia, non ha voluto rivelare quale architettura alimenti Images 2.0, declinando la domanda durante il briefing con la stampa.

Quello che è certo è il risultato pratico: il modello riesce ora a renderizzare testo piccolo, iconografie, elementi di interfaccia utente e composizioni dense con una fedeltà che le versioni precedenti non avrebbero nemmeno avvicinato. La risoluzione massima raggiunge i 2K, gli aspect ratio supportati vanno dal 3:1 al 1:3, e in un unico passaggio è possibile ottenere fino a otto output distinti dallo stesso prompt, mantenendo continuità stilistica tra i risultati. Per chi lavora su storyboard, campagne di brand o serie di grafiche per i social media, questo risolve un flusso di lavoro che in precedenza richiedeva di generare e assemblare immagini una alla volta.

Vale la pena ricordare che il modello non è arrivato del tutto a sorpresa: nelle settimane precedenti al lancio ufficiale, ChatGPT Images 2.0 era già comparso su LM Arena AI, la piattaforma di test di terze parti usata da OpenAI e altri grandi provider per raccogliere feedback preliminare, dove circolava con il nome in codice “duct tape“.

In questi esempi gli abbiamo chiesto di generare una pagina di fumetto di 6 scene in stile Naruto, e di realizzare un menu grafico fornendo testualmente il menu di una trattoria milanese. Nel terzo esempio invece gli abbiamo chiesto di selezionare 3 portate e fare una locandina in giapponese. Task portati a termine con un risultato impeccabile (per l’immagine in giapponese, aspettiamo il feedback di qualcuno che conosca il giapponese 🙂 ).

Annunciato ChatGPT Images 2.0 ed è impressionante: risolti i problemi di testo nelle immagini AI 1

Annunciato ChatGPT Images 2.0 ed è impressionante: risolti i problemi di testo nelle immagini AI 2

Annunciato ChatGPT Images 2.0 ed è impressionante: risolti i problemi di testo nelle immagini AI 3

Testo, lingue non latine e scenari d’uso

Uno degli ambiti in cui il nuovo modello mostra i progressi più significativi è la gestione delle lingue non latine. OpenAI dichiara “guadagni significativi” nella capacità di comprendere e renderizzare testo in giapponese, coreano, cinese, hindi e bengali, accompagnati da una comprensione più profonda delle specificità visive di ciascuna lingua. Questo apre scenari concreti come il game prototyping, lo storyboarding localizzato o la produzione di materiali grafici per mercati asiatici, senza dover ricorrere a post-produzione manuale per correggere il testo.

Il knowledge cutoff del modello è aggiornato a dicembre 2025, il che gli permette di gestire attività end-to-end che vanno dalla scrittura creativa all’analisi fino alla composizione grafica, attingendo a un bagaglio di conoscenze relativamente recente. Questo, però, significa anche che prompt basati su eventi o tendenze più recenti potrebbero produrre risultati meno accurati.

Nei test condotti prima del lancio pubblico, il modello ha dimostrato buona padronanza di stili grafici esigenti, come il pixel art dei giochi Pokémon per Game Boy Advance, e ha saputo generare una sequenza manga di quattro pagine con una narrazione visiva coerente. La generazione di immagini complesse richiede qualche minuto in più rispetto a una semplice risposta testuale, ma il risultato di un fumetto a più pannelli rimane nell’ordine dei pochi minuti, il che lo rende pratico per chi ha necessità creative reali.

Sono disponibili due versioni del modello: Instant e Thinking. La versione Thinking, più potente, è riservata agli abbonati ai piani a pagamento, che avranno accesso anche a output di qualità superiore. L’accesso base è incluso in tutti i livelli, compreso quello gratuito. OpenAI ha inoltre reso disponibile il modello tramite API con il nome gpt-image-2, con prezzi variabili in base alla qualità e alla risoluzione degli output richiesti, e lo ha integrato nell’app Codex, che proprio la settimana scorsa aveva ricevuto un aggiornamento con generazione di immagini integrata.

Il lancio avviene in un contesto competitivo sempre più affollato: poche settimane fa Anthropic ha presentato il proprio assistente visivo Claude Design, mentre già a febbraio 2026 Google aveva rilasciato Nano Banana 2 con funzionalità simili di testo integrato nelle immagini. OpenAI si muove quindi in un mercato in rapida evoluzione, dove la capacità di gestire testo complesso e composizioni precise sta diventando il nuovo terreno di confronto tra i grandi modelli visivi.

Seguici su:Facebook YouTube Google Discover Google, come Fonte PreferitaInstagram TikTok