L’IA générative prédit les séquences génétiques des variantes du COVID

Un grand modèle linguistique largement acclamé pour les données génomiques a démontré sa capacité à générer des séquences génétiques qui ressemblent étroitement aux variantes réelles du SRAS-CoV-2, le virus à l’origine du COVID-19.
Appelé GenSLMs, le modèle, qui a remporté l’année dernière le prix spécial Gordon Bell pour la recherche sur le COVID-19 basée sur le calcul haute performance, a été formé sur un ensemble de données de séquences nucléotidiques – les éléments constitutifs de l’ADN et de l’ARN. Il a été développé par des chercheurs de l’Argonne National Laboratory, de NVIDIA, de l’Université de Chicago et de nombreux autres collaborateurs universitaires et commerciaux.
Lorsque les chercheurs ont examiné les séquences nucléotidiques générées par les GenSLM, ils ont découvert que les caractéristiques spécifiques des séquences générées par l’IA correspondaient étroitement aux sous-variantes réelles d’Eris et de Pirola qui prévalaient cette année – même si l’IA n’était formée que sur COVID. -19 génomes de virus de la première année de la pandémie.
“Le processus génératif de notre modèle est extrêmement naïf, dépourvu de toute information ou contrainte spécifique sur ce à quoi devrait ressembler une nouvelle variante de COVID”, a déclaré Arvind Ramanathan, chercheur principal du projet et biologiste informatique à Argonne. “La capacité de l’IA à prédire les types de mutations génétiques présentes dans les souches récentes de COVID – même si elle n’a vu que les variantes Alpha et Beta pendant l’entraînement – est une solide validation de ses capacités.”
En plus de générer ses propres séquences, les GenSLM peuvent également classer et regrouper différentes séquences du génome COVID en distinguant les variantes. Dans une démo bientôt disponible sur NGC, la plateforme de logiciels accélérés de NVIDIA, les utilisateurs peuvent explorer les visualisations de l’analyse par GenSLM des modèles évolutifs de diverses protéines du génome viral du COVID.
Lire entre les lignes et découvrir des modèles évolutifs
Une caractéristique clé des GenSLM est leur capacité à interpréter de longues chaînes de nucléotides — représentées par des séquences des lettres A, T, G et C dans l’ADN, ou A, U, G et C dans l’ARN — de la même manière qu’un LLM formé sur Le texte anglais interpréterait une phrase. Cette capacité permet au modèle de comprendre la relation entre les différentes zones du génome, qui, dans les coronavirus, comprend environ 30 000 nucléotides.
Dans la démo, les utilisateurs pourront choisir parmi huit variantes différentes du COVID pour comprendre comment le modèle d’IA suit les mutations dans diverses protéines du génome viral. La visualisation représente les couplages évolutifs entre les protéines virales, mettant en évidence les extraits du génome susceptibles d’être observés dans une variante donnée.
“Comprendre comment différentes parties du génome co-évoluent nous donne des indices sur la façon dont le virus peut développer de nouvelles vulnérabilités ou de nouvelles formes de résistance”, a déclaré Ramanathan. “L’examen de la compréhension du modèle quant aux mutations particulièrement fortes dans une variante peut aider les scientifiques dans des tâches en aval, comme déterminer comment une souche spécifique peut échapper au système immunitaire humain.”
GenSLMs a été formé sur plus de 110 millions de séquences du génome procaryote et affiné avec un ensemble de données mondial d’environ 1,5 million de séquences virales COVID à l’aide de données open source du Centre de ressources en bioinformatique bactérienne et virale. À l’avenir, le modèle pourrait être affiné sur les génomes d’autres virus ou bactéries, permettant ainsi de nouvelles applications de recherche.
Pour entraîner le modèle, les chercheurs ont utilisé des superordinateurs alimentés par GPU NVIDIA A100 Tensor Core, notamment le système Polaris d’Argonne, Perlmutter du ministère américain de l’Énergie et Selene de NVIDIA.
Le prix spécial Gordon Bell de l’équipe de recherche GenSLMs a été décerné l’année dernière lors de la conférence sur le supercalcul SC22. Lors du SC23 de cette semaine, à Denver, NVIDIA partage une nouvelle gamme de travaux révolutionnaires dans le domaine du calcul accéléré. Consultez le calendrier complet.
NVIDIA Research comprend des centaines de scientifiques et d’ingénieurs dans le monde entier, avec des équipes axées sur des sujets tels que l’IA, l’infographie, la vision par ordinateur, les voitures autonomes et la robotique. Apprenez-en davantage sur NVIDIA Research et abonnez-vous aux actualités NVIDIA sur la santé.
Image principale, gracieuseté de Bharat Kale du Laboratoire national d’Argonne.
Cette recherche a été soutenue par le projet Exascale Computing (17-SC-20-SC), un effort collaboratif du Bureau scientifique du DOE des États-Unis et de la National Nuclear Security Administration. La recherche a été soutenue par le DOE par l’intermédiaire du National Virtual Biotechnology Laboratory, un consortium de laboratoires nationaux du DOE axés sur la réponse au COVID-19, avec un financement de la loi Coronavirus CARES.
Laisser un commentaire