RAG or not RAG: pourquoi les modèles à long contexte rendent le RAG obsolète

Le mythe du RAG, ou comment les entreprises ont tenté de donner une mémoire à leurs IA

Pendant près de deux ans, toute discussion sur l’intelligence artificielle en entreprise commençait par la même question : « On fait un RAG, non ? »

Cette phrase, devenue rituelle dans les services d’innovation, résumait une obsession collective : offrir de la mémoire aux grands modèles de langage (LLMs) incapables de lire plus d’une poignée de pages à la fois.

En 2022, GPT-4 ne pouvait traiter que 8 000 tokens — environ douze pages. Autant dire, rien. Pour les entreprises souhaitant exploiter leurs rapports annuels, bases documentaires ou archives juridiques, cette limite rendait l’IA presque aveugle.

La solution fut alors de greffer une mémoire externe : le Retrieval-Augmented Generation, ou RAG.

Le principe était ingénieux. On découpait les documents en petits morceaux, on créait des embeddings pour représenter leur sens, puis, lors d’une requête, le système retrouvait les passages pertinents et les injectait au modèle de langage pour produire une réponse enrichie.

En somme : un bricolage brillant, mais un bricolage tout de même.

RAG, ou la mémoire artificielle des débuts

Le RAG est né de la contrainte. Sa vocation : pallier la faible capacité de lecture des premiers modèles. En théorie, l’idée fonctionnait : relier un moteur de recherche sémantique à un modèle génératif. En pratique, cela revenait à assembler un système complexe, fragile, et souvent coûteux à maintenir.

Trois limites majeures ont rapidement émergé :

Complexité technique : découpage, vectorisation, re-ranking, maintenance des bases vectorielles.
Perte de cohérence : les textes fragmentés faisaient perdre la continuité du raisonnement.
Recherche imprécise : l’approche sémantique, par essence floue, pouvait trahir la rigueur attendue dans les contextes juridiques, médicaux ou financiers.

En somme, le RAG faisait illusion : il donnait l’impression d’une IA « experte », mais restait dépendant d’un ensemble de scripts et de pipelines souvent bricolés. Comme l’écrivait un ingénieur d’Elastic en 2024, « le RAG, c’était un peu comme apprendre à un perroquet à chercher ses notes avant de parler ».

L’arrivée des fenêtres de contexte géantes : un basculement silencieux

Tout a changé en 2024.

Claude, Gemini, Grok, puis GPT-4 Turbo ont étendu leurs fenêtres de contexte à des dimensions spectaculaires :

Claude : 200 000 tokens (environ 400 pages),
Gemini : 1 million,
Grok: 2 millions,
et certains prototypes atteignent déjà 10 millions de tokens, selon IBM Research.

Cette évolution marque un tournant : les LLMs ne se contentent plus de « mémoriser », ils lisent et relient.

Comme l’expliquait l’article d’IBM (« Larger Context Windows »), l’objectif n’est plus seulement d’élargir la mémoire, mais d’accroître la capacité de raisonnement sur des corpus longs, tout en préservant la cohérence logique.

En d’autres termes, les modèles ne se souviennent pas seulement des mots ; ils comprennent la structure du texte, détectent les liens entre sections, et suivent les références internes comme un chercheur feuilletant un rapport.

Claude Code : le symbole d’un changement de paradigme

Anthropic a ouvert la voie avec Claude Code.

Cette IA ne repose sur aucun RAG. Elle utilise simplement des outils de recherche internes — dont le célèbre grep, inventé en 1973 — pour naviguer dans des fichiers, suivre des références et comprendre le code comme un humain.

Cette approche démontre que le RAG n’est plus indispensable.

Avec une fenêtre de contexte élargie, l’IA peut lire un ensemble complet de fichiers, repérer les dépendances et restituer une réponse cohérente sans passer par une base vectorielle.

C’est un basculement culturel : on ne cherche plus à « retrouver » une information, mais à raisonner à partir d’un tout cohérent.

Les limites persistantes du RAG

Le papier de recherche publié sur arXiv en juillet 2024 (« RAGs vs LLMs with Long Context Windows ») synthétise les résultats de plusieurs expérimentations comparatives.

Sur des tâches de lecture analytique (résumé, QA complexe, synthèse documentaire), les modèles à long contexte surpassent les RAGs dans 80 % des cas, surtout lorsque le corpus présente une structure logique claire.

Le RAG conserve toutefois un intérêt dans trois situations :

Environnements contraints : quand le coût de calcul empêche d’utiliser des modèles à grande fenêtre.
Sources dynamiques : quand les données changent en continu (actualités, e-commerce).
Besoin d’indexation multi-sources : pour explorer plusieurs types de contenus hétérogènes (PDF, emails, bases de tickets).

Mais dès qu’il s’agit de compréhension contextuelle à large échelle, les long context models prennent l’avantage.

De la recherche à l’action : la fin de la « tuyauterie »

Les équipes de recherche d’Elastic résument ce tournant : « Nous sommes passés d’une ère de pipelines à une ère de compréhension directe. ». Autrement dit, les ingénieurs passent moins de temps à assembler la tuyauterie (chunking, vectorisation, appels API) et plus de temps à penser la valeur métier : comment utiliser l’IA pour comprendre, anticiper, décider. Dans l’ancien monde, les architectes de RAG jonglaient avec des centaines de paramètres : taille des chunks, distance vectorielle, scoring, mémoire contextuelle…

Dans le nouveau, l’IA peut ingérer un rapport annuel complet, détecter les incohérences, formuler un diagnostic et proposer un plan d’action.

La différence est qualitative : on passe d’un moteur de recherche augmentée à un assistant cognitif complet.

Ce que change la montée en puissance du long contexte

L’article d’IBM Research souligne trois impacts majeurs :

L’autonomie cognitive des IA : les modèles long-context peuvent raisonner sans support externe, ce qui réduit la dépendance aux architectures hybrides.
L’émergence de nouvelles interfaces : la recherche devient conversationnelle, l’utilisateur explore le savoir plutôt qu’il ne le requête.
La simplification des déploiements : moins d’infrastructure, moins de maintenance, moins de risques d’erreur de retrieval.

Ces gains s’accompagnent toutefois de défis : coût computationnel élevé, latence accrue, et nécessité de fiabiliser les mécanismes d’attention sélective (pour éviter que le modèle ne « se perde » dans un million de tokens).

Mais la tendance est claire : les IA apprennent à gérer le contexte à l’échelle humaine.

RAG et long contexte : vers une coexistence raisonnée

Faut-il enterrer le RAG ? Pas encore.

Comme souvent en technologie, la rupture n’est pas brutale : elle s’organise.

Les architectures hybrides RAG + long context gagnent en popularité. Elles permettent de combiner le meilleur des deux mondes :

Le RAG, pour filtrer et indexer rapidement de grandes bases documentaires.
Le long contexte, pour raisonner en profondeur sur les extraits pertinents.

IBM évoque déjà des Context-Aware RAGs : des systèmes capables d’ajuster dynamiquement la taille du contexte en fonction du besoin.

Le futur de l’IA d’entreprise ne sera donc pas un choix binaire entre RAG et long context, mais une orchestration intelligente des deux approches selon la tâche, le volume et le coût énergétique.

Les implications pour les entreprises

Pour les directions innovation et IT, le changement est stratégique.

Les projets RAG, souvent lancés à grands frais, devront être repensés : moins de pipeline, plus de compréhension.

Trois évolutions majeures se dessinent :

Réduction de la dette technique : moins de dépendance à des composants tiers (bases vectorielles, outils de ranking).
Renforcement de la souveraineté : les données restent dans le périmètre de l’entreprise, sans externalisation vers des systèmes de recherche externes.
Nouveaux cas d’usage : analyse de corpus complets (audits, diagnostics, conformité), création de knowledge copilots capables d’interpréter la documentation métier sans RAG.

À court terme, cette mutation bouleversera les modèles économiques des éditeurs spécialisés dans les pipelines RAG. À long terme, elle réoriente la R&D vers des IA plus contextuelles, plus explicables, et plus proches du raisonnement humain.

Et demain ? Vers la cognition augmentée

Les chercheurs du MIT et d’Anthropic prédisent une convergence entre mémoire contextuelle longue et raisonnement incrémental : les IA n’auront plus besoin de récupérer des fragments, elles se souviendront des interactions passées pour raisonner sur la durée.

On passera ainsi du retrieval-augmented generation au reasoning-augmented cognition : des systèmes capables de bâtir une compréhension dynamique du monde.

Le RAG aura alors joué son rôle : une étape transitoire dans la quête d’une IA capable non seulement de retrouver, mais de penser.

Du RAG à la raison

Le RAG a été une invention brillante, née d’une contrainte technique.

Mais l’innovation technologique avance vite, et les modèles à long contexte redéfinissent désormais les règles du jeu.

Comme le résumait récemment un ingénieur d’Anthropic :

« Le RAG, c’était la béquille des IA à courte mémoire. Aujourd’hui, elles marchent toutes seules. »

Le futur de l’IA ne consistera plus à retrouver l’information, mais à la comprendre dans toute sa complexité.

Et cette bascule, silencieuse mais radicale, pourrait bien marquer la fin d’une époque — celle des bricolages ingénieux, remplacés par l’avènement d’une véritable cognition artificielle.