Neuralangelo Research reconstruit des scènes 3D

Neuralangelo Research reconstruit des scènes 3D

Neuralangelo, un nouveau modèle d’IA de NVIDIA Research pour la reconstruction 3D à l’aide de réseaux de neurones, transforme des clips vidéo 2D en structures 3D détaillées, générant des répliques virtuelles réalistes de bâtiments, de sculptures et d’autres objets du monde réel.

Comme Michel-Ange sculptant des visions époustouflantes et réalistes à partir de blocs de marbre, Neuralangelo génère des structures 3D avec des détails et des textures complexes. Les professionnels de la création peuvent ensuite importer ces objets 3D dans des applications de conception, les éditer davantage pour les utiliser dans l’art, le développement de jeux vidéo, la robotique et les jumeaux numériques industriels.

La capacité de Neuralangelo à traduire les textures de matériaux complexes – y compris les bardeaux de toit, les vitres et le marbre lisse – des vidéos 2D aux actifs 3D dépasse considérablement les méthodes précédentes. La haute fidélité rend ses reconstructions 3D plus faciles pour les développeurs et les professionnels de la création afin de créer rapidement des objets virtuels utilisables pour leurs projets à l’aide de séquences capturées par des smartphones.

“Les capacités de reconstruction 3D offertes par Neuralangelo seront un énorme avantage pour les créateurs, les aidant à recréer le monde réel dans le monde numérique”, a déclaré Ming-Yu Liu, directeur principal de la recherche et co-auteur de l’article. “Cet outil permettra éventuellement aux développeurs d’importer des objets détaillés – qu’il s’agisse de petites statues ou de bâtiments massifs – dans des environnements virtuels pour des jeux vidéo ou des jumeaux numériques industriels.”

Dans une démo, les chercheurs de NVIDIA ont montré comment le modèle pouvait recréer des objets aussi emblématiques que le David de Michel-Ange et aussi banals qu’un camion à plateau. Neuralangelo peut également reconstruire l’intérieur et l’extérieur des bâtiments, comme en témoigne un modèle 3D détaillé du parc sur le campus de NVIDIA Bay Area.

Le modèle de rendu neuronal voit en 3D

Les modèles d’IA antérieurs pour reconstruire des scènes 3D ont eu du mal à capturer avec précision les motifs de texture répétitifs, les couleurs homogènes et les fortes variations de couleur. Neuralangelo adopte des primitives graphiques neuronales instantanées, la technologie derrière NVIDIA Instant NeRF, pour aider à capturer ces détails plus fins.

À l’aide d’une vidéo 2D d’un objet ou d’une scène filmée sous différents angles, le modèle sélectionne plusieurs images qui capturent différents points de vue, comme un artiste envisageant un sujet sous plusieurs angles pour avoir une idée de la profondeur, de la taille et de la forme.

Une fois la position de la caméra déterminée pour chaque image, l’IA de Neuralangelo crée une représentation 3D approximative de la scène, comme un sculpteur commençant à ciseler la forme du sujet.

Le modèle optimise ensuite le rendu pour affiner les détails, tout comme un sculpteur taille minutieusement la pierre pour imiter la texture d’un tissu ou d’une figure humaine.

Le résultat final est un objet 3D ou une scène à grande échelle qui peut être utilisée dans des applications de réalité virtuelle, des jumeaux numériques ou le développement de robots.

Retrouvez NVIDIA Research au CVPR, du 18 au 22 juin

Neuralangelo est l’un des près de 30 projets de NVIDIA Research qui seront présentés à la conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR), qui se tiendra du 18 au 22 juin à Vancouver. Les articles couvrent des sujets tels que l’estimation de pose, la reconstruction 3D et la génération de vidéos.

L’un de ces projets, DiffCollage, est une méthode de diffusion qui crée du contenu à grande échelle, y compris une longue orientation paysage, un panorama à 360 degrés et des images animées en boucle. Lorsqu’il est alimenté avec un ensemble de données d’entraînement d’images avec un rapport d’aspect standard, DiffCollage traite ces images plus petites comme des sections d’un visuel plus grand, comme des morceaux d’un collage. Cela permet aux modèles de diffusion de générer un contenu volumineux cohérent sans être formé sur des images de la même échelle.

La technique peut également transformer des invites textuelles en séquences vidéo, démontrées à l’aide d’un modèle de diffusion pré-entraîné qui capture le mouvement humain :

En savoir plus sur NVIDIA Research sur CVPR.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*