NVIDIA Research annonce les avancées de l’IA chez NeurIPS

Les chercheurs de NVIDIA collaborent avec des centres universitaires du monde entier pour faire progresser l’IA générative, la robotique et les sciences naturelles. Plus d’une douzaine de ces projets seront partagés lors de NeurIPS, l’une des plus grandes conférences mondiales sur l’IA.
Organisé du 10 au 16 décembre à la Nouvelle-Orléans, NeurIPS rassemble des experts en IA générative, en apprentissage automatique, en vision par ordinateur et bien plus encore. Parmi les innovations présentées par NVIDIA Research figurent de nouvelles techniques permettant de transformer du texte en images, des photos en avatars 3D et des robots spécialisés en machines aux multiples talents.
« NVIDIA Research continue de stimuler les progrès dans ce domaine, notamment des modèles d’IA génératifs qui transforment le texte en images ou en parole, des agents d’IA autonomes qui apprennent plus rapidement de nouvelles tâches et des réseaux neuronaux qui calculent la physique complexe », a déclaré Jan Kautz, vice-président de l’apprentissage et de l’apprentissage. recherche sur la perception chez NVIDIA. « Ces projets, souvent réalisés en collaboration avec des sommités du monde universitaire, contribueront à accélérer les développeurs de mondes virtuels, de simulations et de machines autonomes. »
Imaginez ceci : améliorer les modèles de diffusion texte-image
Les modèles de diffusion sont devenus le type de modèle d’IA génératif le plus populaire pour transformer du texte en images réalistes. Les chercheurs de NVIDIA ont collaboré avec des universités sur plusieurs projets faisant progresser les modèles de diffusion qui seront présentés à NeurIPS.
- Un article accepté comme présentation orale se concentre sur l’amélioration de la capacité des modèles d’IA génératifs à comprendre le lien entre les mots modificateurs et les entités principales dans les invites de texte. Alors que les modèles texte-image existants demandés pour représenter une tomate jaune et un citron rouge peuvent générer de manière incorrecte des images de citrons jaunes et de tomates rouges, le nouveau modèle analyse la syntaxe de l’invite d’un utilisateur, encourageant un lien entre une entité et ses modificateurs pour fournir une représentation visuelle plus fidèle de l’invite.
- SceneScape, un nouveau framework utilisant des modèles de diffusion pour créer de longues vidéos de scènes 3D à partir d’invites textuelles, sera présenté sous forme d’affiche. Le projet combine un modèle texte-image avec un modèle de prédiction de profondeur qui aide les vidéos à conserver des scènes plausibles avec une cohérence entre les images – générant des vidéos de musées d’art, de maisons hantées et de châteaux de glace (photo ci-dessus).
- Une autre affiche décrit des travaux qui améliorent la façon dont les modèles texte-image génèrent des concepts rarement vus dans les données de formation. Les tentatives de génération de telles images aboutissent généralement à des visuels de mauvaise qualité qui ne correspondent pas exactement à l’invite de l’utilisateur. La nouvelle méthode utilise un petit ensemble d’images d’exemple qui aident le modèle à identifier les bonnes graines – des séquences de nombres aléatoires qui guident l’IA pour générer des images à partir des classes rares spécifiées.
- Une troisième affiche montre comment un modèle de diffusion texte-image peut utiliser la description textuelle d’un nuage de points incomplet pour générer des parties manquantes et créer un modèle 3D complet de l’objet. Cela pourrait aider à compléter les données de nuages de points collectées par les scanners lidar et d’autres capteurs de profondeur pour les applications de robotique et d’IA de véhicules autonomes. Les images collectées sont souvent incomplètes car les objets sont analysés sous un angle spécifique. Par exemple, un capteur lidar monté sur un véhicule ne scannerait qu’un seul côté de chaque bâtiment lorsque la voiture circule dans une rue.
Développement du personnage : avancées dans les avatars de l’IA
Les avatars IA combinent plusieurs modèles d’IA génératifs pour créer et animer des personnages virtuels, produire du texte et le convertir en parole. Deux posters NVIDIA présentés à NeurIPS présentent de nouvelles façons de rendre ces tâches plus efficaces.
- Une affiche décrit une nouvelle méthode pour transformer une image de portrait unique en un avatar de tête 3D tout en capturant les détails, notamment les coiffures et les accessoires. Contrairement aux méthodes actuelles qui nécessitent plusieurs images et un processus d’optimisation fastidieux, ce modèle permet une reconstruction 3D haute fidélité sans optimisation supplémentaire lors de l’inférence. Les avatars peuvent être animés soit avec des blendshapes, qui sont des représentations de maillage 3D utilisées pour représenter différentes expressions faciales, soit avec un clip vidéo de référence dans lequel les expressions faciales et les mouvements d’une personne sont appliqués à l’avatar.
- Une autre affiche réalisée par des chercheurs de NVIDIA et des collaborateurs universitaires fait progresser la synthèse texte-parole sans tir avec P-Flow, un modèle d’IA générative capable de synthétiser rapidement une parole personnalisée de haute qualité à partir d’une invite de référence de trois secondes. P-Flow présente une meilleure prononciation, une meilleure ressemblance humaine et une meilleure similitude entre les locuteurs et les locuteurs par rapport à ses homologues récents à la pointe de la technologie. Le modèle peut convertir presque instantanément du texte en parole sur un seul GPU NVIDIA A100 Tensor Core.
Percées de la recherche en apprentissage par renforcement et robotique
Dans les domaines de l’apprentissage par renforcement et de la robotique, les chercheurs de NVIDIA présenteront deux affiches mettant en avant les innovations qui améliorent la généralisabilité de l’IA à différentes tâches et environnements.
- La première propose un cadre pour développer des algorithmes d’apprentissage par renforcement capables de s’adapter à de nouvelles tâches tout en évitant les pièges courants du biais de gradient et de l’inefficacité des données. Les chercheurs ont montré que leur méthode, qui comporte un nouveau méta-algorithme capable de créer une version robuste de n’importe lequel modèle d’apprentissage par méta-renforcement – a bien fonctionné sur plusieurs tâches de référence.
- Un autre projet réalisé par un chercheur de NVIDIA et des collaborateurs universitaires aborde le défi de la manipulation d’objets en robotique. Les modèles d’IA antérieurs qui aident les mains robotiques à saisir et à interagir avec des objets peuvent gérer des formes spécifiques mais ont du mal avec des objets invisibles dans les données d’entraînement. Les chercheurs introduisent un nouveau cadre qui estime à quel point les objets de différentes catégories sont géométriquement similaires – tels que les tiroirs et les couvercles de casseroles dotés de poignées similaires – permettant au modèle de se généraliser plus rapidement à de nouvelles formes.
Science suralimentée : physique, climat et soins de santé accélérés par l’IA
Les chercheurs de NVIDIA chez NeurIPS présenteront également des articles sur les sciences naturelles, couvrant les simulations physiques, les modèles climatiques et l’IA pour les soins de santé.
- Pour accélérer la dynamique des fluides computationnelle pour les simulations 3D à grande échelle, une équipe de chercheurs de NVIDIA a proposé une architecture d’opérateur neuronal qui combine précision et efficacité de calcul pour estimer le champ de pression autour des véhicules – la première méthode de dynamique des fluides computationnelle basée sur l’apprentissage profond sur un site industriel. référence automobile standard et à grande échelle. La méthode a permis d’obtenir une accélération 100 000 fois supérieure sur un seul GPU NVIDIA Tensor Core par rapport à un autre solveur basé sur GPU, tout en réduisant le taux d’erreur. Les chercheurs peuvent intégrer le modèle dans leurs propres applications à l’aide de la bibliothèque open source de neuroopérateurs.
- Un consortium de climatologues et de chercheurs en apprentissage automatique issus d’universités, de laboratoires nationaux, d’instituts de recherche, d’Allen AI et de NVIDIA ont collaboré sur ClimSim, un ensemble de données massif pour la recherche climatique basée sur la physique et l’apprentissage automatique qui sera partagé lors d’une présentation orale à NeurIPS. L’ensemble de données couvre le globe sur plusieurs années à haute résolution – et les émulateurs d’apprentissage automatique construits à l’aide de ces données peuvent être connectés aux simulateurs climatiques opérationnels existants pour améliorer leur fidélité, leur exactitude et leur précision. Cela peut aider les scientifiques à produire de meilleures prévisions sur les tempêtes et autres événements extrêmes.
- Les stagiaires de NVIDIA Research présentent une affiche présentant un algorithme d’IA qui fournit des prédictions personnalisées des effets du dosage des médicaments sur les patients. À l’aide de données réelles, les chercheurs ont testé les prédictions du modèle concernant la coagulation sanguine pour les patients ayant reçu différentes doses d’un traitement. Ils ont également analysé les prédictions du nouvel algorithme concernant les niveaux d’antibiotiques vancomycine chez les patients ayant reçu le médicament – et ont constaté que la précision des prédictions s’améliorait considérablement par rapport aux méthodes précédentes.
Recherche NVIDIA comprend des centaines de scientifiques et d’ingénieurs dans le monde entier, avec des équipes axées sur des sujets tels que l’IA, l’infographie, la vision par ordinateur, les voitures autonomes et la robotique.
Laisser un commentaire