Réussir le test : NVIDIA turbocharge la formation sur l’IA générative dans les benchmarks MLPerf

Réussir le test : NVIDIA turbocharge la formation sur l’IA générative dans les benchmarks MLPerf

La plateforme d’IA de NVIDIA a placé la barre plus haut en matière de formation à l’IA et de calcul haute performance dans les derniers tests de référence du secteur MLPerf.

Parmi les nombreux nouveaux records et jalons, celui de l’IA générative se démarque : NVIDIA Eos – un supercalculateur d’IA alimenté par 10 752 GPU NVIDIA H100 Tensor Core et un réseau NVIDIA Quantum-2 InfiniBand – a réalisé un test de formation basé sur un modèle GPT-3 avec 175 milliards de paramètres entraînés sur un milliard de jetons en seulement 3,9 minutes.

Cela représente un gain de près de 3 fois par rapport aux 10,9 minutes, le record établi par NVIDIA lors de l’introduction du test il y a moins de six mois.

Le benchmark utilise une partie de l’ensemble complet de données GPT-3 derrière le service populaire ChatGPT qui, par extrapolation, Eos pourrait désormais s’entraîner en seulement huit jours, 73 fois plus rapide qu’un système de pointe antérieur utilisant 512 GPU A100.

L’accélération du temps de formation réduit les coûts, économise de l’énergie et accélère la mise sur le marché. C’est une lourde tâche de rendre les grands modèles de langage largement disponibles afin que chaque entreprise puisse les adopter avec des outils comme NVIDIA NeMo, un cadre de personnalisation des LLM.

Dans un nouveau test d’IA générative de ce cycle, 1 024 GPU à architecture NVIDIA Hopper ont complété un test de formation basé sur le modèle texte-image à diffusion stable en 2,5 minutes, plaçant la barre haute pour cette nouvelle charge de travail.

En adoptant ces deux tests, MLPerf renforce son leadership en tant que norme industrielle pour mesurer les performances de l’IA, puisque l’IA générative est la technologie la plus transformatrice de notre époque.

La mise à l’échelle du système s’envole

Les derniers résultats sont dus en partie à l’utilisation du plus grand nombre d’accélérateurs jamais appliqués à un benchmark MLPerf. Les 10 752 GPU H100 ont largement dépassé l’évolution de la formation en IA en juin, lorsque NVIDIA a utilisé 3 584 GPU Hopper.

La mise à l’échelle 3x du nombre de GPU a permis une mise à l’échelle 2,8x des performances, un taux d’efficacité de 93 % grâce en partie aux optimisations logicielles.

Une mise à l’échelle efficace est une exigence clé de l’IA générative, car les LLM croissent d’un ordre de grandeur chaque année. Les derniers résultats montrent la capacité de NVIDIA à relever ce défi sans précédent, même pour les plus grands centres de données du monde.

Graphique de mise à l'échelle quasi linéaire des GPU H100 sur la formation MLPerf

Cette réussite est due à une plate-forme complète d’innovations en matière d’accélérateurs, de systèmes et de logiciels qu’Eos et Microsoft Azure ont utilisée lors du dernier cycle.

Eos et Azure ont tous deux utilisé 10 752 GPU H100 dans des soumissions distinctes. Ils ont atteint 2 % des mêmes performances, démontrant l’efficacité de l’IA NVIDIA dans les déploiements de centres de données et de cloud public.

Tableau d'enregistrement de la mise à l'échelle d'Azure dans la formation MLPerf

NVIDIA s’appuie sur Eos pour un large éventail de tâches critiques. Il contribue à faire progresser des initiatives telles que NVIDIA DLSS, un logiciel d’infographie de pointe basé sur l’IA, et des projets de recherche NVIDIA tels que ChipNeMo, des outils d’IA générative qui aident à concevoir des GPU de nouvelle génération.

Avancées dans toutes les charges de travail

NVIDIA a établi plusieurs nouveaux records lors de ce tour en plus de progresser dans l’IA générative.

Par exemple, les GPU H100 étaient 1,6 fois plus rapides que les modèles de recommandation de formation précédents largement utilisés pour aider les utilisateurs à trouver ce qu’ils recherchent en ligne. Les performances ont été multipliées par 1,8 sur RetinaNet, un modèle de vision par ordinateur.

Ces augmentations proviennent d’une combinaison de progrès en matière de logiciels et de matériel informatique à plus grande échelle.

NVIDIA était une fois de plus la seule entreprise à exécuter tous les tests MLPerf. Les GPU H100 ont démontré les performances les plus rapides et la plus grande évolutivité dans chacun des neuf benchmarks.

Liste de six nouveaux enregistrements NVIDIA dans la formation MLPerf

Les accélérations se traduisent par des délais de commercialisation plus rapides, une réduction des coûts et des économies d’énergie pour les utilisateurs qui forment des LLM massifs ou les personnalisent avec des frameworks comme NeMo pour les besoins spécifiques de leur entreprise.

Onze fabricants de systèmes ont utilisé la plate-forme NVIDIA AI dans leurs soumissions lors de ce cycle, notamment ASUS, Dell Technologies, Fujitsu, GIGABYTE, Lenovo, QCT et Supermicro.

Les partenaires NVIDIA participent à MLPerf car ils savent qu’il s’agit d’un outil précieux pour les clients évaluant les plates-formes et les fournisseurs d’IA.

Les références HPC se développent

Dans MLPerf HPC, une référence distincte pour les simulations assistées par IA sur supercalculateurs, les GPU H100 ont fourni des performances jusqu’à deux fois supérieures aux GPU NVIDIA A100 Tensor Core lors du dernier cycle HPC. Les résultats ont montré des gains jusqu’à 16 fois supérieurs depuis le premier cycle MLPerf HPC en 2019.

Le benchmark comprenait un nouveau test qui entraîne OpenFold, un modèle qui prédit la structure 3D d’une protéine à partir de sa séquence d’acides aminés. OpenFold peut effectuer en quelques minutes un travail vital pour les soins de santé qui prenait auparavant des semaines ou des mois aux chercheurs.

Comprendre la structure d’une protéine est essentiel pour trouver rapidement des médicaments efficaces, car la plupart des médicaments agissent sur les protéines, la machinerie cellulaire qui aide à contrôler de nombreux processus biologiques.

Dans le test MLPerf HPC, les GPU H100 ont entraîné OpenFold en 7,5 minutes. Le test OpenFold est une partie représentative de l’ensemble du processus de formation AlphaFold qui durait il y a deux ans 11 jours en utilisant 128 accélérateurs.

Une version du modèle OpenFold et du logiciel utilisé par NVIDIA pour le former sera bientôt disponible dans NVIDIA BioNeMo, une plateforme d’IA générative pour la découverte de médicaments.

Plusieurs partenaires ont soumis des propositions sur la plateforme NVIDIA AI lors de ce cycle. Ils comprenaient Dell Technologies et les centres de calcul intensif de l’Université de Clemson, le Texas Advanced Computing Center et, avec l’aide de Hewlett Packard Enterprise (HPE), le Lawrence Berkeley National Laboratory.

Des références bénéficiant d’un large soutien

Depuis leur création en mai 2018, les critères MLPerf bénéficient d’un large soutien de la part de l’industrie et du monde universitaire. Les organisations qui les soutiennent incluent Amazon, Arm, Baidu, Google, Harvard, HPE, Intel, Lenovo, Meta, Microsoft, NVIDIA, l’Université de Stanford et l’Université de Toronto.

Les tests MLPerf sont transparents et objectifs, afin que les utilisateurs puissent s’appuyer sur les résultats pour prendre des décisions d’achat éclairées.

Tous les logiciels utilisés par NVIDIA sont disponibles dans le référentiel MLPerf, afin que tous les développeurs puissent obtenir les mêmes résultats de classe mondiale. Ces optimisations logicielles sont continuellement intégrées dans des conteneurs disponibles sur NGC, le hub logiciel de NVIDIA pour les applications GPU.

En savoir plus sur MLPerf et les détails de ce tour.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*