DeepMind, il laboratorio di ricerca sull’intelligenza artificiale di Google, ha affermato che sta lavorando allo sviluppo di una tecnologia basata sull’IA per creare colonne sonore per i video. DeepMind ha infatti affermato di ritenere questa nuova tecnologia un elemento essenziale per la realizzazione dei media generati con l’utilizzo dell’IA.

Offerta
-39%

AMD RYZEN 7 7800X3D

Coupon: TUTTOA30

218€ invece di 359€
Offerta
-39%

Nintendo Switch OLED

Coupon: TUTTOA30 + sconto a carrello selezionando pagamento PayPal

194€ invece di 319€
Offerta
-31%

Insta360 X4 Air Action Camera

Coupon: TUTTOA30 + sconto a carrello selezionando pagamento PayPal

274€ invece di 399€
Offerta
-32%

Xiaomi Pad Mini

Coupon: TUTTOA45

341€ invece di 499€
Offerta
-38%

OnePlus Buds 4

Coupon: ITAS07

49€ invece di 79€
Offerta
-30%

Apple AirPods Pro 3, ANC

Coupon: TUTTOA30 + sconto a carrello selezionando pagamento PayPal

187€ invece di 269€

Che cos’è la tecnologia V2A di DeepMind

Il laboratorio di ricerca di Google ha compiuto recentemente degli enormi passi avanti nello sviluppo di questo innovativo utilizzo dell’IA. Nonostante abbia dichiarato che tutti i modelli di IA sviluppati per la creazione di video non sono ancora in grado di realizzare degli effetti sonori sincronizzati con i video generati, il laboratorio sta sviluppando un nuovo approccio per superare questo enorme ostacolo. DeepMind sta infatti lavorando all’implementazione della tecnologia V2A (abbreviazione di “Video-to-Audio”), che consente di abbinare la descrizione di una qualsiasi colonna sonora con ogni tipologia di video, così da creare dialoghi, musiche ed effetti sonori coerenti con il video in questione.

Il modello di IA che alimenta V2A è stato addestrato con un’ampissima combinazione di suoni, trascrizioni di dialoghi e clip video. In questo modo, infatti, grazie a questa particolare forma di addestramento, la tecnologia V2A ha imparato ad associare diverse tipologie di audio a molte scene visive, rispondendo così alle informazioni fornite nelle trascrizioni o nelle varie annotazioni. A oggi, però, DeepMind non ha ancora chiarito pubblicamente se i dati di addestramento della nuova tecnologia sviluppata fossero protetti da copyright.

Segui l'Intelligenza Artificiale su Telegram, ricevi news e offerte per primo

Offerta

AMD RYZEN 7 7800X3D

Coupon: TUTTOA30

218€ invece di 359€
-39%

Quali sono le differenze rispetto agli altri modelli IA

In ogni caso, gli strumenti di generazione del suono basati sull’IA non sono certo una novità. A tal proposito, infatti, settimana scorsa, la startup Stability IA ne ha rilasciato uno, mentre ElevenLabs ne ha lanciato un altro a maggio. Inoltre, anche i modelli per creare effetti sonori nei video sono già stati ampiamente sviluppati. Per esempio, Microsoft ha sviluppato un modello capace di generare video in cui i personaggi al suo interno cantano e parlano a partire da un’immagine fissa.

DeepMind, tuttavia, sostiene che la sua tecnologia V2A è unica, in quanto, a differenza degli altri modelli sviluppati finora, è in grado di comprendere anche i pixel “più grezzi” di un video e di sincronizzarli con un suono coerente. Però, questa nuova forma di tecnologia non è certamente perfetta. Infatti, dato che il modello non è ancora stato allenato su molti video in cui sono presenti, ad esempio, distorsioni (come il video della navicella spaziale riportato), non crea certo un audio di qualità particolarmente elevata per questi ultimi. Pertanto, considerato che DeepMind dovrà ancora lavorare a lungo per sviluppare il pieno potenziale della tecnologia V2A, ha dichiarato che non permetterà ancora al pubblico di utilizzarla liberamente.