Qu’est-ce que la génération augmentée par récupération

Qu’est-ce que la génération augmentée par récupération

Pour comprendre les dernières avancées en matière d’IA générative, imaginez une salle d’audience.

Les juges entendent et tranchent les affaires en fonction de leur compréhension générale du droit. Parfois, une affaire – comme une poursuite pour faute professionnelle ou un conflit de travail – nécessite une expertise particulière, c’est pourquoi les juges envoient des greffiers dans une bibliothèque de droit, à la recherche de précédents et de cas spécifiques qu’ils peuvent citer.

Comme un bon juge, les grands modèles de langage (LLM) peuvent répondre à une grande variété de requêtes humaines. Mais pour fournir des réponses faisant autorité citant des sources, le modèle a besoin d’un assistant pour effectuer des recherches.

Le greffier de l’IA est un processus appelé génération augmentée par récupération, ou RAG en abrégé.

L’histoire du nom

Patrick Lewis, auteur principal de l’article de 2020 qui a inventé le terme, s’est excusé pour l’acronyme peu flatteur qui décrit désormais une famille croissante de méthodes dans des centaines d’articles et des dizaines de services commerciaux qui, selon lui, représentent l’avenir de l’IA générative.

Patrick Lewis

“Nous aurions certainement réfléchi davantage au nom si nous avions su que notre travail allait devenir si répandu”, a déclaré Lewis dans une interview depuis Singapour, où il partageait ses idées avec une conférence régionale de développeurs de bases de données.

“Nous avions toujours prévu d’avoir un nom plus joli, mais quand est venu le temps d’écrire l’article, personne n’avait de meilleure idée”, a déclaré Lewis, qui dirige maintenant une équipe RAG au sein de la startup d’IA Cohere.

Alors, qu’est-ce que la génération augmentée par récupération ?

La génération augmentée par récupération est une technique permettant d’améliorer la précision et la fiabilité des modèles d’IA génératifs avec des faits extraits de sources externes.

En d’autres termes, cela comble une lacune dans le fonctionnement des LLM. Sous le capot, les LLM sont des réseaux de neurones, généralement mesurés par le nombre de paramètres qu’ils contiennent. Les paramètres d’un LLM représentent essentiellement les modèles généraux de la façon dont les humains utilisent les mots pour former des phrases.

Cette compréhension approfondie, parfois appelée connaissance paramétrée, rend les LLM utiles pour répondre à des invites générales à la vitesse de la lumière. Cependant, il ne convient pas aux utilisateurs qui souhaitent approfondir un sujet d’actualité ou plus spécifique.

Combiner les ressources internes et externes

Lewis et ses collègues ont développé une génération augmentée par récupération pour relier les services d’IA générative à des ressources externes, en particulier celles riches en détails techniques les plus récents.

L’article, avec des coauteurs de l’ancien Facebook AI Research (maintenant Meta AI), de l’University College de Londres et de l’Université de New York, a qualifié RAG de « recette de réglage fin à usage général » car il peut être utilisé par presque tous les LLM pour se connecter avec pratiquement toute ressource externe.

Bâtir la confiance des utilisateurs

La génération augmentée par récupération donne aux modèles des sources qu’ils peuvent citer, comme des notes de bas de page dans un document de recherche, afin que les utilisateurs puissent vérifier toutes les affirmations. Cela renforce la confiance.

De plus, cette technique peut aider les modèles à dissiper toute ambiguïté dans une requête utilisateur. Cela réduit également la possibilité qu’un modèle fasse une mauvaise supposition, un phénomène parfois appelé hallucination.

Un autre grand avantage de RAG est qu’il est relativement simple. Un blog de Lewis et de trois des coauteurs de l’article indique que les développeurs peuvent mettre en œuvre le processus avec seulement cinq lignes de code.

Cela rend la méthode plus rapide et moins coûteuse que le recyclage d’un modèle avec des ensembles de données supplémentaires. Et il permet aux utilisateurs d’échanger à chaud de nouvelles sources à la volée.

Comment les gens utilisent la génération augmentée par récupération

Grâce à la génération augmentée par la récupération, les utilisateurs peuvent essentiellement avoir des conversations avec des référentiels de données, ouvrant ainsi la voie à de nouveaux types d’expériences. Cela signifie que les applications pour RAG pourraient représenter plusieurs fois le nombre d’ensembles de données disponibles.

Par exemple, un modèle d’IA générative complété par un index médical pourrait être d’une grande aide pour un médecin ou une infirmière. Les analystes financiers bénéficieraient d’un assistant lié aux données de marché.

En fait, presque toutes les entreprises peuvent transformer leurs manuels techniques ou politiques, leurs vidéos ou leurs journaux en ressources appelées bases de connaissances qui peuvent améliorer les LLM. Ces sources peuvent permettre des cas d’utilisation tels que l’assistance client ou sur le terrain, la formation des employés et la productivité des développeurs.

C’est en raison de ce vaste potentiel que des entreprises telles qu’AWS, IBM, Glean, Google, Microsoft, NVIDIA, Oracle et Pinecone adoptent RAG.

Premiers pas avec la génération augmentée par récupération

Pour aider les utilisateurs à démarrer, NVIDIA a développé une architecture de référence pour la génération augmentée par récupération. Il comprend un exemple de chatbot et les éléments dont les utilisateurs ont besoin pour créer leurs propres applications avec cette nouvelle méthode.

Le flux de travail utilise NVIDIA NeMo, un framework pour développer et personnaliser des modèles d’IA génératifs, ainsi que des logiciels tels que NVIDIA Triton Inference Server et NVIDIA TensorRT-LLM pour exécuter des modèles d’IA génératifs en production.

Les composants logiciels font tous partie de NVIDIA AI Enterprise, une plate-forme logicielle qui accélère le développement et le déploiement d’une IA prête pour la production avec la sécurité, le support et la stabilité dont les entreprises ont besoin.

Obtenir les meilleures performances pour les flux de travail RAG nécessite d’énormes quantités de mémoire et de calcul pour déplacer et traiter les données. La superpuce NVIDIA GH200 Grace Hopper, avec ses 288 Go de mémoire rapide HBM3e et ses 8 pétaflops de calcul, est idéale : elle peut offrir une accélération 150 fois supérieure à l’utilisation d’un processeur.

Une fois que les entreprises se sont familiarisées avec RAG, elles peuvent combiner une variété de LLM disponibles dans le commerce ou personnalisés avec des bases de connaissances internes ou externes pour créer une large gamme d’assistants qui aident leurs employés et leurs clients.

RAG ne nécessite pas de centre de données. Les LLM font leurs débuts sur les PC Windows, grâce au logiciel NVIDIA qui permet aux utilisateurs d’accéder à toutes sortes d’applications même sur leurs ordinateurs portables.

Le graphique montre l'exécution de RAG sur un PC
Un exemple d’application pour RAG sur un PC.

Les PC équipés de GPU NVIDIA RTX peuvent désormais exécuter certains modèles d’IA localement. En utilisant RAG sur un PC, les utilisateurs peuvent créer un lien vers une source de connaissances privée – qu’il s’agisse d’e-mails, de notes ou d’articles – pour améliorer les réponses. L’utilisateur peut alors être sûr que sa source de données, ses invites et ses réponses restent privées et sécurisées.

Un blog récent fournit un exemple de RAG accéléré par TensorRT-LLM pour Windows pour obtenir rapidement de meilleurs résultats.

L’histoire de la génération augmentée par récupération

Les racines de cette technique remontent au moins au début des années 1970. C’est à ce moment-là que les chercheurs en recherche d’informations ont prototype ce qu’ils ont appelé des systèmes de questions-réponses, des applications qui utilisent le traitement du langage naturel (NLP) pour accéder au texte, initialement sur des sujets restreints tels que le baseball.

Les concepts derrière ce type d’exploration de texte sont restés assez constants au fil des années. Mais les moteurs d’apprentissage automatique qui les pilotent se sont considérablement développés, augmentant ainsi leur utilité et leur popularité.

Au milieu des années 1990, le service Ask Jeeves, aujourd’hui Ask.com, a popularisé les questions-réponses avec sa mascotte de valet bien habillé. Watson d’IBM est devenu une célébrité à la télévision en 2011 lorsqu’il a battu haut la main deux champions humains au Péril! jeu télévisé.

Photo de Ask Jeeves, un des premiers services Web de type RAG

Aujourd’hui, les LLM portent les systèmes de questions-réponses à un tout autre niveau.

Aperçus d’un laboratoire de Londres

L’article phare de 2020 est arrivé alors que Lewis poursuivait un doctorat en PNL à l’University College de Londres et travaillait pour Meta dans un nouveau laboratoire d’IA de Londres. L’équipe cherchait des moyens d’intégrer davantage de connaissances dans les paramètres d’un LLM et utilisait un benchmark qu’elle avait développé pour mesurer ses progrès.

S’appuyant sur des méthodes antérieures et inspiré par un article de chercheurs de Google, le groupe « avait cette vision convaincante d’un système entraîné qui avait un index de récupération au milieu, afin qu’il puisse apprendre et générer n’importe quel texte que vous vouliez », se souvient Lewis. .

Photo d'IBM Watson gagnant le "Péril" Émission de télévision, popularisant un service d'IA de type RAG
Le système de questions-réponses d’IBM Watson est devenu une célébrité lorsqu’il a remporté gros dans le jeu télévisé Jeopardy !

Lorsque Lewis a connecté au travail en cours un système de récupération prometteur d’une autre équipe Meta, les premiers résultats ont été étonnamment impressionnants.

« Je l’ai montré à mon superviseur et il m’a dit : ‘Whoa, remporte la victoire. Ce genre de chose n’arrive pas très souvent, car ces flux de travail peuvent être difficiles à configurer correctement du premier coup », a-t-il déclaré.

Lewis attribue également les contributions majeures des membres de l’équipe Ethan Perez et Douwe Kiela, respectivement de l’Université de New York et de Facebook AI Research.

Une fois terminé, le travail, exécuté sur un cluster de GPU NVIDIA, a montré comment rendre les modèles d’IA génératifs plus fiables et plus fiables. Depuis, il a été cité dans des centaines d’articles qui ont amplifié et étendu les concepts dans ce qui continue d’être un domaine de recherche actif.

Comment fonctionne la génération augmentée par récupération

À un niveau élevé, voici comment une note technique NVIDIA décrit le processus RAG.

Lorsque les utilisateurs posent une question à un LLM, le modèle d’IA envoie la requête à un autre modèle qui la convertit au format numérique afin que les machines puissent la lire. La version numérique de la requête est parfois appelée intégration ou vecteur.

Diagramme NVIDIA montrant comment RAG fonctionne avec les LLM
La génération augmentée par récupération combine des LLM avec des modèles d’intégration et des bases de données vectorielles.

Le modèle d’intégration compare ensuite ces valeurs numériques aux vecteurs dans un index lisible par machine d’une base de connaissances disponible. Lorsqu’il trouve une ou plusieurs correspondances, il récupère les données associées, les convertit en mots lisibles par l’homme et les renvoie au LLM.

Enfin, le LLM combine les mots récupérés et sa propre réponse à la requête dans une réponse finale qu’il présente à l’utilisateur, citant potentiellement les sources trouvées par le modèle d’intégration.

Garder les sources à jour

En arrière-plan, le modèle d’intégration crée et met à jour en permanence des index lisibles par machine, parfois appelés bases de données vectorielles, pour les bases de connaissances nouvelles et mises à jour dès qu’elles deviennent disponibles.

Graphique d'un processus RAG décrit par LangChain
La génération augmentée par récupération combine des LLM avec des modèles d’intégration et des bases de données vectorielles.

De nombreux développeurs trouvent que LangChain, une bibliothèque open source, peut être particulièrement utile pour enchaîner des LLM, intégrer des modèles et des bases de connaissances. NVIDIA utilise LangChain dans son architecture de référence pour la génération augmentée par récupération.

La communauté LangChain fournit sa propre description d’un processus RAG.

Pour l’avenir, l’avenir de l’IA générative réside dans l’enchaînement créatif de toutes sortes de LLM et de bases de connaissances pour créer de nouveaux types d’assistants qui fournissent des résultats faisant autorité que les utilisateurs peuvent vérifier.

Découvrez l’utilisation de la génération augmentée par récupération avec un chatbot IA dans ce laboratoire NVIDIA LaunchPad.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*