RAG (Retrieval-Augmented Generation)

Le RAG, acronyme anglais de Retrieval-Augmented Generation (littéralement « génération augmentée par récupération »), désigne une architecture d’intelligence artificielle qui combine deux composants distincts : un moteur de recherche sémantique capable de retrouver des informations pertinentes dans une base de connaissances externe, et un grand modèle de langage (LLM, comme Claude, GPT ou Gemini) chargé de générer une réponse en langage naturel à partir de ces informations récupérées. Théorisée en 2020 par les chercheurs de Meta AI dans un article fondateur signé Patrick Lewis et ses collègues, cette technique est devenue à partir de 2023 l’un des paradigmes dominants pour fiabiliser les réponses des IA génératives, en particulier dans les usages professionnels où la justesse factuelle, la fraîcheur de l’information et la traçabilité des sources sont critiques.

Pourquoi le RAG est-il devenu incontournable ?

Les grands modèles de langage présentent par construction trois faiblesses bien documentées : ils hallucinent (inventent des informations fausses mais plausibles), leurs connaissances sont figées à leur date d’entraînement (le fameux knowledge cutoff), et ils ne peuvent pas accéder aux données privées d’une entreprise. Le RAG répond simultanément à ces trois limites en branchant le modèle sur une source de vérité externe, mise à jour en continu et contrôlée par l’utilisateur ou l’organisation.

Comment fonctionne une architecture RAG ?

Un pipeline RAG se déploie en deux temps distincts : une phase d’indexation (hors ligne) qui prépare la base documentaire, et une phase d’inférence (en ligne) qui se déclenche à chaque requête de l’utilisateur.

1. Phase d’indexation (préparation hors ligne)

  • Chunking : les documents sources (PDF, pages web, articles, transcriptions vidéo) sont découpés en fragments cohérents de quelques centaines de tokens.
  • Embedding : chaque fragment est transformé en un vecteur numérique de haute dimension par un modèle d’embedding spécialisé (par exemple text-embedding-3-large d’OpenAI ou voyage-3 de Voyage AI).
  • Stockage vectoriel : ces vecteurs sont enregistrés dans une base de données spécialisée (Pinecone, Weaviate, Qdrant, Chroma, pgvector) qui indexe la proximité sémantique entre eux pour permettre des recherches rapides.

2. Phase d’inférence (requête en temps réel)

  1. Vectorisation de la question : la requête de l’utilisateur est convertie en vecteur par le même modèle d’embedding que celui utilisé à l’indexation.
  2. Recherche sémantique : la base vectorielle retourne les k fragments les plus proches, généralement par calcul de la similarité cosinus.
  3. Construction du prompt augmenté : les fragments récupérés sont injectés dans le contexte du LLM, précédés d’une instruction du type « réponds uniquement à partir des éléments suivants ».
  4. Génération : le LLM produit une réponse fondée sur ces données récupérées, en citant idéalement ses sources.

Les avantages décisifs du RAG

  • Réduction drastique des hallucinations : la réponse est ancrée dans des documents réels et vérifiables.
  • Connaissance toujours fraîche : il suffit de réindexer la base pour mettre à jour le savoir du système, sans réentraîner le modèle.
  • Confidentialité : les données métier ne sortent pas de l’infrastructure de l’entreprise et ne nourrissent pas l’entraînement d’un modèle tiers.
  • Traçabilité : chaque affirmation peut être renvoyée à un document source précis (citation, lien direct, numéro de page).
  • Coût maîtrisé : pas besoin de fine-tuner un modèle, on travaille à poids constants en jouant uniquement sur le contexte fourni.

RAG vs Fine-tuning : quelle différence ?

Le fine-tuning consiste à réentraîner partiellement un modèle pour qu’il intègre de nouvelles connaissances dans ses poids ; il est coûteux, lent à mettre à jour et opaque sur l’origine des réponses générées. Le RAG, à l’inverse, laisse les poids du modèle intacts et fournit l’information à la volée : il est plus agile, plus transparent et plus économique pour la grande majorité des cas d’usage documentaires. Les deux approches peuvent d’ailleurs se combiner : on fine-tune le modèle pour qu’il maîtrise un ton, un style ou un format particulier, puis on lui fournit les faits via un système RAG.

Cas d’usage typiques en 2026

  • Assistants documentaires internes : wiki d’entreprise, base de connaissances technique, onboarding de nouveaux collaborateurs.
  • Chatbots de support client branchés en temps réel sur la documentation produit.
  • Recherche juridique, médicale ou financière avec citations vérifiables exigées par la conformité.
  • Agents conversationnels e-commerce connectés au catalogue, aux stocks et à l’historique des commandes.
  • Outils éditoriaux et SEO qui s’appuient sur un corpus interne d’articles pour générer des contenus cohérents avec la ligne éditoriale.

Limites et bonnes pratiques

Un RAG mal calibré peut produire des réponses incomplètes (mauvais découpage des chunks), redondantes (sources doublonnées) ou hors-sujet (recherche sémantique imprécise). Les pratiques actuelles recommandent d’ajouter un étage de reranking (modèles spécialisés comme Cohere Rerank ou Voyage Rerank), de soigner les métadonnées de chaque chunk (date, source, auteur, type de document), et de privilégier des stratégies de chunking sémantique plutôt que purement mécaniques par nombre de caractères. L’évaluation systématique via des frameworks comme Ragas ou TruLens est devenue une étape incontournable des projets professionnels sérieux.

L’évolution vers le RAG agentique

Depuis 2024-2025, le RAG « classique » cède progressivement la place à des approches plus sophistiquées : le RAG agentique (l’IA décide elle-même quand et comment chercher, et peut enchaîner plusieurs requêtes), le GraphRAG (basé sur des graphes de connaissances, popularisé par Microsoft Research) ou encore le RAG multimodal (images, vidéos et audio indexés au même titre que le texte). L’arrivée de protocoles ouverts comme le MCP (Model Context Protocol) d’Anthropic standardise par ailleurs la manière dont les modèles se connectent à des sources de données externes, ouvrant la voie à des architectures hybrides plus modulaires et interopérables.