Negli ultimi anni abbiamo assistito a un’evoluzione rapidissima dei modelli di intelligenza artificiale generativa, soprattutto sul fronte delle immagini statiche, dove oggi bastano pochi prompt per ottenere risultati spesso indistinguibili dalla realtà. Il discorso cambia, però, quando si passa ai video: nonostante i progressi, la maggior parte dei sistemi attuali è ancora fortemente limitata nella durata delle clip, che raramente superano i 20-30 secondi prima di degradare in qualcosa di incoerente.
Il problema ha un nome ben preciso, noto da tempo agli addetti ai lavori, ovvero deriva (o drift), ed è proprio su questo punto che interviene il nuovo lavoro dei ricercatori del VITA Lab (Visual Intelligence for Transportation) dell’EPFL di Losanna, che hanno sviluppato un approccio capace di spingere la generazione video ben oltre i limiti temporali attuali, aprendo la strada a filmati di diversi minuti, o potenzialmente senza vincoli di durata.
Indice:
Cos’è la deriva e perché rovina i video generativi
Per capire la portata della novità è utile fare un passo indietro. I modelli di generazione video funzionano, nella maggior parte dei casi, in modo sequenziale: ogni fotogramma viene generato a partire da quello precedente. Il problema è che eventuali imperfezioni (un volto leggermente deformato, un oggetto sfocato, una prospettiva incoerente) non vengono corrette, ma anzi amplificate nel tempo.
Il risultato è che, fotogramma dopo fotogramma, il video perde coerenza logica e visiva, fino a trasformarsi in una sequenza casuale di forme e colori. Come spiega il professor Alexandre Alahi, responsabile del VITA Lab, il nodo centrale è che questi modelli vengono addestrati quasi esclusivamente su dati perfetti, mentre nel mondo reale devono convivere con input imperfetti.
Il riciclo degli errori per insegnare alle macchine a sbagliare
L’intuizione dei ricercatori dell’EPFL è tanto semplice quanto controintuitiva: invece di evitare gli errori, insegnare all’IA a conviverci. Il metodo sviluppato prende il nome di retraining by error recycling (riaddestramento tramite riciclo degli errori).
Il processo funziona così:
- il modello genera inizialmente un video
- gli errori vengono misurati, calcolando la differenza tra ciò che il modello produce e ciò che dovrebbe produrre secondo diverse metriche
- questi errori vengono memorizzati e riemessi intenzionalmente durante le fasi successive di addestramento
In questo modo, l’IA è costretta a operare in condizioni più realistiche, imparando a recuperare e stabilizzarsi anche partendo da input imperfetti; un po’ come addestrare un pilota in mezzo a una tempesta invece che in un cielo sempre sereno.
Stable Video Infinity: video coerenti per minuti (o più)
Questo approccio è alla base di Stable Video Infinity (SVI), il sistema sviluppato dal team dell’EPFL. A differenza dei modelli tradizionali, che iniziano a sgretolarsi dopo pochi secondi, SVI è in grado di generare video coerenti e di alta qualità della durata di diversi minuti, mantenendo continuità visiva e logica.
Un aspetto tutt’altro che secondario è che il metodo non richiede enormi quantità di dati aggiuntivi né una potenza di calcolo fuori scala, rendendo la soluzione potenzialmente adottabile anche in contesti più ampi rispetto alla sola ricerca accademica.
Il progetto è open source su GitHub e ha già attirato un interesse significativo da parte della community, migliaia di stelle sul repository, ampia diffusione online e una presentazione ufficiale prevista per ICLR 2026, una delle conferenze più importanti nel campo del machine learning.
LayerSync e l’IA che si corregge dall’interno
Accanto a SVI, i ricercatori del VITA Lab hanno sviluppato anche LayerSync, un metodo complementare che applica lo stesso principio del riciclo degli errori non solo all’output visivo, ma anche alla logica interna del modello.
In pratica, le parti del modello che comprendono meglio il significato delle immagini guidano le altre durante l’addestramento, permettendo all’IA di autocorreggersi dall’interno, senza bisogno di dati extra o modelli esterni. Il risultato è un apprendimento più rapido e contenuti di qualità superiore, non solo per i video, ma anche per immagini e audio, in un’ottica sempre più multimodale.
Prospettive future
Le implicazioni di questo lavoro vanno ben oltre la semplice generazione di video più lunghi, sistemi come Stable Video Infinity e LayerSync potrebbero avere un impatto diretto su settori come produzione audiovisiva, animazione, videogiochi e, più in generale, sulla progettazione di sistemi autonomi più sicuri e affidabili, capaci di interagire con gli esseri umani senza deragliare al primo errore.
Se finora il limite temporale è stato uno dei principali freni alla diffusione dei video generativi, l’approccio del VITA Lab suggerisce che il problema non fosse tanto evitare gli errori, quanto insegnare all’IA a gestirli e, a quanto pare, la strada imboccata potrebbe essere quella giusta.
- OpenAI avvia i test della pubblicità su ChatGPT e prepara una svolta finanziaria
- Lo Stato di New York propone una moratoria di tre anni sui nuovi data center
- OpenAI presenta Frontier: la piattaforma per portare davvero gli agenti IA al lavoro in azienda
- Oracle vuole raccogliere fino a 50 miliardi di dollari nel 2026 per i data center IA
I nostri contenuti da non perdere:
- 🔝 Importante: Recensione Tineco PURE ONE STATION S5 Pro, difficile trovare di meglio
- 💰 Risparmia sulla tecnologia: segui Prezzi.Tech su Telegram, il miglior canale di offerte
- 🏡 Seguici anche sul canale Telegram Offerte.Casa per sconti su prodotti di largo consumo

