Dopo il “momento GPT-1 per i video” rappresentato dal primo Sora nel febbraio 2024, OpenAI ha presentato ufficialmente Sora 2, un modello di generazione video e audio che promette un balzo in avanti paragonabile al salto che GPT-3.5 ha rappresentato nel linguaggio naturale. Contestualmente, l’azienda ha lanciato anche una nuova applicazione social per iOS, chiamata semplicemente Sora, che integra il modello e introduce funzionalità inedite come i cameo digitali degli utenti.

Fisica simulata, controllo creativo e più stili visivi con Sora 2 di OpenAI

Rispetto al predecessore, Sora 2 è stato progettato per rappresentare meglio le leggi della fisica e il comportamento realistico degli oggetti; dove i modelli precedenti tendevano a forzare la realtà pur di eseguire un prompt (si pensi al pallone da basket che si teletrasporta nel canestro dopo un tiro sbagliato), Sora 2 si comporta in modo molto più naturale, se un giocatore fallisce, la palla rimbalza davvero sul tabellone.

Questa capacità di modellare anche il fallimento, e non solo il successo, è ritenuta fondamentale da OpenAI per avvicinarsi a sistemi di intelligenza artificiale in grado di simulare il mondo fisico in maniera coerente; in questo senso, il modello è in grado di riprodurre scene complesse come routine di ginnastica olimpica, salti mortali in paddleboard che rispettano le dinamiche di galleggiamento e rigidità, o addirittura tripli axel eseguiti da avatar virtuali.

Un altro passo in avanti importante riguarda la controllabilità, con Sora 2 i creatori possono impartire istruzioni articolate che si estendono su più inquadrature, mantenendo coerente lo stato del mondo nel corso del video. Lo stesso vale per lo stile visivo, dal realismo cinematografico all’estetica anime, il modello si adatta alle esigenze del prompt con maggiore precisione rispetto al passato.

Non si tratta solo di immagini, Sora 2 genera anche audio sincronizzato, includendo dialoghi, effetti sonori e paesaggi sonori realistici, per un risultato che si avvicina sempre più a una simulazione multimediale completa.

OpenAI lancia l’app Sora per iOS

In parallelo al lancio del modello, OpenAI ha annunciato la nuova app Sora per iOS, al momento disponibile solo negli Stati Uniti e in Canada (con espansione prevista nei prossimi mesi); l’app introduce una dinamica sociale che ricorda TikTok, ma con un focus esplicito sulla creazione piuttosto che sul consumo passivo.

Tra le funzioni più innovative spiccano i cameo: gli utenti possono registrare un breve video e un campione audio per creare una versione digitale di sé stessi (o dei propri amici, previo consenso), da inserire in qualsiasi scena generata da Sora 2; in questo modo, è possibile immergersi in ambienti virtuali mantenendo la propria voce e il proprio aspetto, con un livello di fedeltà sorprendente.

Non manca la possibilità di remixare le creazioni di altri utenti, interagendo con i trend in modo collaborativo. Per ora i video hanno una durata massima di 10 secondi, ma OpenAI lascia intendere che questa limitazione potrebbe cambiare in futuro.

Consapevole dei rischi legati al fenomeno dello scrolling infinito, alla dipendenza e alla diffusione di contenuti falsificati, OpenAI ha annunciato una serie di misure preventive:

  • feed personalizzato -> basato su algoritmi controllabili tramite linguaggio naturale, con check-in periodici sul benessere degli utenti
  • limiti per gli adolescenti -> un tetto predefinito al numero di generazioni giornaliere, con controlli parentali integrati in ChatGPT
  • tutela dei cameo -> ogni utente mantiene il pieno controllo sulla propria immagine digitale, con la possibilità di revocare permessi o rimuovere video in qualsiasi momento
  • restrizioni sui contenuti -> al momento non è possibile generare personaggi pubblici senza consenso, né contenuti espliciti o estremi

L’app Sora è già scaricabile su iOS (nei Paesi sopra menzionati), ma l’accesso avviene tramite invito; ogni utente ottiene quattro inviti da condividere con gli amici, a conferma del focus sociale della piattaforma. Dopo l’accesso, è possibile usare gratuitamente Sora 2 con limiti generosi, mentre gli utenti ChatGPT Pro possono accedere alla versione Sora 2 Pro di qualità superiore direttamente da sora.com; OpenAI ha confermato inoltre l’intenzione di rilasciare il modello tramite API, aprendo le porte a integrazioni esterne.

Secondo gli addetti ai lavori, Sora 2 segna l’inizio di una nuova era per la generazione video basata sull’IA, non solo uno strumento creativo, ma un vero e proprio simulatore di mondo in grado di rispettare regole fisiche, mantenere la coerenza narrativa e integrare elementi reali.

Gli utenti dovranno attendere la distribuzione a livello globale, e probabilmente una futura versione Android, ma è chiaro che OpenAI intende posizionare Sora non solo come un modello di punta, ma come una piattaforma sociale capace di cambiare il modo in cui ci esprimiamo online.