Depuis plusieurs années, l’intelligence artificielle est évaluée à travers une série de benchmarks devenus familiers dans l’écosystème : MMLU, BIG-Bench, GSM8K, ARC. Ces batteries de tests ont joué un rôle décisif dans l’accélération des performances des modèles. Elles ont contribué à structurer la compétition technologique mondiale. Elles ont également façonné une représentation très spécifique de ce que signifie « un bon modèle » : un système capable de résoudre seul un grand nombre de problèmes standardisés, à partir de prompts statiques, dans un contexte dépourvu d’interaction.
Or cette représentation est aujourd’hui de plus en plus déconnectée des usages réels. Dans les entreprises, les administrations, les cabinets de conseil, les laboratoires de recherche ou les rédactions, l’IA n’agit presque jamais de manière isolée. Elle est sollicitée, orientée, corrigée, relancée. Elle s’impose comme un partenaire cognitif, davantage qu’un simple moteur de résolution autonome.
C’est précisément ce décalage que vient adresser l’étude de Christoph Riedl (Northeastern University) et Ben Weidmann (University College London), intitulée Quantifying Human–AI Synergy sep 2025.
Leur proposition est simple dans son principe, mais radicale dans ses implications.
Elle consiste à déplacer l’évaluation de l’IA depuis la performance autonome vers la performance collaborative. Ils mesurent donc ce que permet réellement un modèle lorsqu’il est intégré à une interaction humaine.
Ne plus demander seulement « que sait faire l’IA ? », mais « que devient un humain lorsqu’il travaille avec cette IA ? ».
Ce changement de perspective transforme profondément la notion même de performance.
Les auteurs partent d’un constat désormais largement partagé dans les sciences cognitives et les sciences sociales : l’intelligence, humaine comme artificielle, est interactive, contextuelle et distribuée. Le raisonnement complexe ne se déploie pas dans l’isolement. Il émerge dans l’échange, la reformulation, la confrontation de points de vue, l’itération. Les grands modèles de langage, s’inscrivent naturellement dans ce régime cognitif. Pourtant, les instruments d’évaluation dominants continuent de les traiter comme des entités solitaires.
Pour combler cette lacune, Riedl et Weidmann s’appuient sur ChatBench, une adaptation interactive du benchmark MMLU. Le protocole expérimental distingue trois situations : des humains qui répondent seuls, des modèles qui répondent seuls, et des binômes humain-IA qui résolvent les mêmes types de questions. Les domaines couverts sont les mathématiques, la physique et le raisonnement moral. L’échantillon comprend 667 participants humains, confrontés à 396 questions de difficulté variable, et travaillant soit avec GPT-4o, soit avec Llama-3.1-8B.
Ce dispositif permet une comparaison directe entre performance individuelle et performance collaborative. Mais l’apport essentiel de l’étude ne réside pas dans la simple juxtaposition de moyennes. Il tient dans l’architecture statistique mobilisée.
Ce dispositif permet de comparer simplement ce qu’une personne vaut seule et ce qu’elle vaut lorsqu’elle travaille avec une IA. Mais l’intérêt majeur de l’étude ne se limite pas à cette comparaison. Les auteurs utilisent une méthode statistique avancée qui sépare clairement plusieurs éléments : le niveau réel des utilisateurs, la difficulté des questions et la valeur ajoutée apportée par l’IA. Concrètement, ils mesurent d’un côté la capacité d’une personne à résoudre un problème seul, et de l’autre sa capacité lorsqu’elle travaille avec une IA. Ils tiennent aussi compte du fait que certaines questions sont plus difficiles que d’autres. Cela permet de calculer un indicateur clé : le « boost IA ». Il correspond au gain de performance obtenu grâce à l’IA pour un même utilisateur. Autrement dit, on ne regarde plus seulement si un modèle est performant, on mesure combien il améliore réellement le travail d’un humain.
On passe ainsi d’une logique de score brut à une logique de valeur ajoutée marginale.
Les premiers résultats sont sans ambiguïté. En moyenne, les humains seuls obtiennent environ 55,5 % de bonnes réponses, GPT-4o seul atteint 71 % et Llama-3.1-8B seul plafonne autour de 39 %. Mais lorsque les humains travaillent avec ces modèles, les performances changent de nature. Même le modèle le plus faible, Llama-3.1-8B, permet aux binômes humain–IA de dépasser largement la performance des humains seuls.
Plus encore, les binômes humain–GPT-4o obtiennent des scores supérieurs à GPT-4o travaillant seul. L’IA devient meilleure lorsqu’elle est insérée dans une interaction humaine. La qualité des réponses ne dépend pas uniquement des poids du réseau neuronal, elle émerge du couplage entre les capacités du modèle et celles de l’utilisateur.
L’étude va plus loin en comparant la capacité collaborative propre des modèles. Les auteurs contrôlent rigoureusement les différences de difficulté des tâches, d’aptitude individuelle et d’aptitude collaborative des utilisateurs. Ils estiment que Llama-3.1-8B procure en moyenne un boost de 23 points de pourcentage. GPT-4o, de son côté, procure un boost moyen de 29 points.
Les intervalles de crédibilité ne se recouvrent pas. GPT-4o possède donc une capacité d’amplification humaine supérieure. Cette notion de capacité collaborative du modèle constitue un changement conceptuel majeur. Jusqu’ici, les modèles étaient classés selon leur performance autonome. Désormais, une autre dimension devient mesurable : la capacité à rendre les humains meilleurs. Un deuxième résultat fondamental concerne la nature même des compétences mobilisées. Les auteurs testent explicitement si la performance individuelle et la performance collaborative reposent sur une unique aptitude latente ou sur deux aptitudes distinctes.
Travailler seul et travailler avec une IA mobilisent des compétences différentes. Cette observation invalide une hypothèse implicite largement répandue : les meilleurs experts seraient mécaniquement les meilleurs utilisateurs d’IA. En réalité, certaines personnes possèdent un fort potentiel collaboratif indépendamment de leur niveau de performance solo. Elles savent déléguer, formuler, évaluer, corriger, orchestrer. Ces compétences constituent un capital spécifique.
La question suivante devient alors centrale : qui bénéficie le plus de l’IA ?
L’analyse révèle un triptyque intéressant. D’abord, plus une tâche est difficile pour un humain seul, plus l’IA apporte de valeur. L’IA agit comme amplificateur cognitif sur les zones de forte charge mentale. Ensuite, les utilisateurs les plus compétents restent, en valeur absolue, les meilleurs performeurs lorsqu’ils travaillent avec l’IA. Les hiérarchies ne s’inversent pas. Enfin, les utilisateurs de plus faible niveau obtiennent un boost relatif plus important. L’IA réduit partiellement les écarts sans les supprimer.
Ces trois effets coexistent. Ils expliquent pourquoi certaines études concluent que l’IA favorise surtout les experts, tandis que d’autres observent un effet égalisateur. Les deux phénomènes sont réels, mais ils opèrent sur des métriques différentes.
Un facteur cognitif précis explique en grande partie les écarts de synergie : la Theory of Mind (ToM). C’est-à-dire la capacité à raisonner sur les états mentaux d’autrui. Dans le contexte humain-IA, cela revient à estimer ce que le modèle sait, ce qu’il ne sait pas, ce qu’il est susceptible d’interpréter, et comment il va réagir à une formulation donnée.
Les auteurs mesurent la ToM à partir des dialogues entre utilisateurs et IA, à l’aide d’outils d’analyse linguistique validés par annotation humaine. Ils montrent que la ToM ne prédit pas significativement la performance individuelle. En revanche, elle prédit fortement la performance collaborative. Autrement dit, comprendre l’IA comme agent informationnel est décisif pour en tirer parti.
Plus encore, la ToM opère à deux niveaux. Il existe un trait relativement stable : certains individus manifestent systématiquement des comportements de clarification, de contextualisation, d’ajustement progressif. Ces individus obtiennent des réponses IA de meilleure qualité. Mais on a également une dimension dynamique : chez un même utilisateur, lorsque l’expression de ToM est plus élevée sur une question donnée, la qualité de la réponse IA augmente. La synergie n’est donc pas seulement une propriété des personnes. Elle est aussi un état cognitif activable.
Ce point a des implications profondes. Il suggère que la qualité des sorties de l’IA dépend en partie de l’état mental de l’utilisateur, au même titre que de l’architecture du modèle. La performance devient un phénomène relationnel.
Les conséquences pour la conception des modèles sont majeures. Optimiser uniquement la capacité de raisonnement autonome apparaît insuffisant. On doit désormais optimiser la sensibilité aux intentions implicites. La gestion du contexte conversationnel, la faculté de s’adapter à des formulations imparfaites, la robustesse face aux corrections successives. En d’autres termes, il faut entraîner des modèles à collaborer.
Pour les entreprises, cette recherche déplace également les priorités.
Le choix d’un modèle ne peut plus se fonder uniquement sur des classements de benchmarks. Il doit intégrer des critères d’amplification humaine. La formation des salariés doit dépasser l’apprentissage de recettes de prompting pour introduire des compétences métacognitives : expliciter ses objectifs, structurer ses questions, évaluer de manière critique, itérer.
Le talent se redéfinit. Un collaborateur de niveau technique moyen, mais doté d’une forte capacité collaborative peut surpasser un expert solitaire mal à l’aise avec l’interaction. Les grilles de compétences traditionnelles deviennent incomplètes.
Plus largement, cette étude propose un renversement de paradigme. Pendant des décennies, l’IA a été évaluée comme un substitut potentiel à l’humain. La question implicite était : quand la machine fera-t-elle mieux que nous ? Le cadre proposé par Riedl et Weidmann reformule la question : dans quelles conditions l’assemblage humain-machine produit-il une intelligence supérieure à chacune de ses composantes ?
Ce glissement est décisif. Il ouvre la voie à une IA conçue non comme une entité autonome visant l’excellence solitaire, mais comme une infrastructure cognitive au service de l’intelligence collective.
L’enjeu n’est plus seulement de bâtir des modèles brillants, mais créer des modèles qui rendent les humains meilleurs.




