In occasione della conferenza Computer Vision and Pattern Recognition 2022, il team creativo e di ricerca di NVIDIA ha presentato una nuova ricerca legata ad un particolare uso dell’intelligenza artificiale che consente di trasformare le foto in oggetti tridimensionali.

Sfruttando la tecnologia 3D MoMa, frutto della ricerca, il team del colosso statunitense ha creato un video dimostrativo in stile jazz per rendere omaggio alla sede 2022 della CVPR, ovvero New Orleans (lo trovate in fondo all’articolo).

NVIDIA 3D MoMa: ecco la tecnologia che trasforma le foto in oggetti 3D

Non poteva che ricadere sul jazz la scelta per il video dimostrativo con cui NVIDIA ha presentato, alla CVPR 2022, una nuova tecnologia, frutto di una lunga ricerca, che consente di trasformare immagini bidimensionali (ovvero comuni fotografie) in oggetti 3D. Il motivo della scelta è legato al fatto che la CVPR 2022 si svolge a New Orleans, città del jazz per antonomasia.

Questa tecnologia consentirà in futuro ai creator di produrre oggetti 3D partendo da una semplice foto, in pochissimo tempo, sfruttando l’intelligenza artificiale. Il metodo, chiamato NVIDIA 3D MoMa, consentirà ad architetti, designer, artisti concettuali e sviluppatori di giochi di importare rapidamente un oggetto in un motore grafico per lavorarci su a tutto tondo.

Prima di addentrarci nel funzionamento di questa nuova tecnologia, vi rimandiamo al documento alla base del 3D MoMa, che verrà presentato domani, 22 giugno 2022, all’interno di una sessione di questa importantissima conferenza sull’intelligenza artificiale (letteralmente, CVPR sta per Computer Vision e Riconoscimento degli Schemi).

La jazz band virtuale, ricostruita con NVIDIA 3D MoMa grazie all'intelligenza artificiale

Estrarre oggetti 3D da immagini 2D

NVIDIA 3D MoMa è una pipeline di servizi e prodotti per il rendering inverso, una tecnica che consente di ricostruire un modello 3D di un oggetto o di una scena partendo da una serie di foto e che, da tempo, viene ritenuto il Santo Graal che unisce i mondi della computer vision e della computer grafica. Di seguito vi riportiamo le parole di David Luebke, vicepresidente della ricerca grafica di NVIDIA:

Formulando ogni parte del processo di rendering inverso come una componente accelerata da una GPU, NVIDIA 3D MoMa utilizza i macchinari di IA più moderni e la potenza di calcolo grezza di NVIDIA per produrre rapidamente oggetti 3D che i creator possono importare, modificare ed estendere senza riscontrare limitazioni negli strumenti esistenti.”

Per rivelarsi utile ad un professionista, un oggetto 3D deve possedere una forma che possa essere inserita negli strumenti di uso comune (motori di gioco, modellatori 3D, renderizzatori cinematografici): la forma giusta è un triangolo con materiali texturizzati (mesh triangolari), linguaggio comune sfruttato dai vari strumenti 3D.

Ricostruzione 3D (mesh triangolari) di una tromba

L’obiettivo dello studio è quello di abbattere le tempistiche di cui, attualmente, i creator necessitano per la produzione di oggetti 3D attraverso complesse tecniche di fotogrammetria. La nuova ricerca portata avanti da NVIDIA, supera il precedente lavoro sui campi neurali e consente di generare modelli di mesh triangolari su una singola GPU NVIDIA Tensor Core: l’output del lavoro svolto dal metodo NVIDIA 3D MoMa sarà poi compatibile coi motori grafici 3D e con gli strumenti di modellazione più diffusi e coi quali i creator hanno familiarità.

Il flusso di lavoro comprende tre caratteristiche: modello di mesh 3D, materiali, illuminazione. Il primo è immaginabile come un modello 3D costituito da triangoli di cartapesta; in questo step, gli sviluppatori possono modificare l’oggetto per adattarlo alla visione che più li convinca. I materiali, invece, sono delle texture bidimensionali che si sovrapporranno alle mesh 3D, come se diventassero la pelle dell’oggetto. Infine, l’illuminazione della scena, stimata dal metodo 3D MoMa di NVIDIA, consente ai creator di intervenire sull’illuminazione degli oggetti in qualsiasi momento.

È possibile aggiungere nuovi oggetti in qualsiasi scena, anche complessa

Come anticipato in apertura, per mostrare le capacità di 3D MoMa, il team di ricerca e creatività di NVIDIA ha realizzato un video a tema jazz: per farlo, hanno iniziato raccogliendo circa 100 immagini, catturate da diverse angolazioni, dei cinque strumenti che compongono una jazz band (tromba, trombone, sassofono, batteria, clarinetto).

È stato NVIDIA 3D MoMa a ricostruire rappresentazioni 3D (come mesh) di ogni strumento a partire dalle immagini 2D. Il team di ricerca ha quindi estratto gli strumenti dalle scene originali per importarli nella piattaforma di simulazione 3D proprietaria NVIDIA Omniverse per modificarli.

NVIDIA Research consentirà ai creator di trasformare foto in oggetti 3D 1

NVIDIA sottolinea e ribadisce che il frutto della ricostruzione 3D tramite il proprio metodo può essere facilmente personalizzato nei materiali, nella forma, nella luce. Per dimostrare ciò, il team di sviluppo ha preso il modello della tromba e ha convertito istantaneamente la plastica (materiale originale delle foto catturate) in oro, marmo, legno e sughero. I creator avranno libero sfogo, potendo inserire gli oggetti in qualsiasi scena virtuale, semplice o complessa che sia.

A tal proposito, NVIDIA ha inserito gli strumenti della jazz band in una scatola Cornell (un comune test grafico per verificare la qualità del rendering), dimostrando che gli strumenti virtuali reagiscono alla luce alla stregua di come farebbero gli oggetti nel mondo fisico. In conclusione, vi lasciamo al video dimostrativo con cui il colosso statunitense ha mostrato le potenzialità della nuova tecnologia.

Potrebbe interessarti anche: La storia dell’intelligenza artificiale senziente e dell’ingegnere Google sospeso