Finora Google non è stato un protagonista in termini di generazione di video in base a un testo, il cosiddetto “prompt”, ma la situazione potrebbe cambiare con Lumiere.

Lumiere utilizza un nuovo modello di intelligenza artificiale chiamato Space-Time-U-Net (STUNet) che è in grado di capire dove si trovano gli elementi in un video e come si muovono e cambiano simultaneamente nel tempo.

Basandosi sul prompt, Lumiere crea la scena stimando dove si sposteranno gli oggetti all’interno di ogni fotogramma, generando più fotogrammi che danno vita al movimento.

Lumiere sembra in grado di creare video realistici

In base alle clip dimostrative lo strumento sperimentale di Google sembra voler competere con Runway, Stable Video Diffusion o Emu di Meta. Ecco un video che mostra cosa può fare al momento Lumiere.

Nel video si vede che Lumiere sarà utilizzabile anche come strumento di editing per animare le foto o rimpiazzare alcuni elementi animati nei video.

Lumiere consentirà anche di realizzare video in uno stile specifico fornendo allo strumento un’immagine di riferimento, tuttavia Google osserva che “esiste il rischio di uso improprio per la creazione di contenuti falsi o dannosi con questa tecnologia”, ma non è noto in che modo la società affronterà la questione.

Alcune clip sono meno entusiasmanti di altre, tuttavia i progressi fatti da Google rispetto a Imagen Video del 2022 si vedono eccome. Per rendersi conto basta vedere come era la tecnologia text-to-video di Google guardando le clip sottostanti.

GIF animata che mostra esempi del generatore di immagini di Google

Potrebbe interessarti: L’alternativa italiana a ChatGPT sicura, open source e di qualità: Modello Italia