Les modèles de raisonnement o1-preview et o1 d’OpenAI ont égalé ou dépassé des médecins sur certaines tâches expérimentales de raisonnement clinique. La rupture ne réside pourtant pas dans le remplacement du praticien, mais dans l’émergence d’assistants susceptibles d’intervenir au cœur de la décision médicale.
Par Pascale Caron
Le débat sur l’IA médicale change de nature
Pendant des décennies, le raisonnement clinique a été considéré comme l’un des domaines les plus difficiles à automatiser. Un algorithme pouvait repérer une anomalie sur une image, calculer un score de risque ou comparer un résultat biologique à une norme. Mais établir un diagnostic à partir d’informations incomplètes, hiérarchiser plusieurs hypothèses et choisir l’examen suivant relevait encore de l’expertise humaine.
L’étude publiée le 30 avril 2026 dans Science par Peter G. Brodeur et ses collègues déplace cette frontière. Les chercheurs ont évalué les modèles OpenAI o1-preview et o1 sur plusieurs dimensions du raisonnement médical, en les comparant à des générations antérieures de modèles et à des centaines de professionnels de santé. Leur travail ne démontre pas qu’une intelligence artificielle peut exercer la médecine de manière autonome. Il montre, plus précisément, qu’un modèle de raisonnement peut égaler ou dépasser des médecins sur certaines tâches diagnostiques et décisionnelles, dans des conditions expérimentales définies.
Cette nuance est essentielle. Les titres annonçant une IA « meilleure que les médecins » simplifient à l’excès une réalité beaucoup plus intéressante. La publication signale moins la disparition du praticien que l’arrivée d’une nouvelle catégorie d’outils cognitifs. Pour les entrepreneurs, les MedTech et les établissements de santé, la question devient donc stratégique : comment transformer une performance de laboratoire en amélioration mesurable des soins ?
Une méthodologie plus exigeante que les benchmarks médicaux classiques
La plupart des évaluations médicales des grands modèles de langage ont longtemps reposé sur des questionnaires à choix multiples ou des examens professionnels. Ces tests mesurent surtout la restitution de connaissances. Or la médecine réelle exige autre chose : formuler un diagnostic différentiel, reconnaître les pathologies graves à ne pas manquer, actualiser une probabilité après un examen et proposer une conduite à tenir.
Les auteurs ont donc mobilisé plusieurs protocoles complémentaires. Ils ont d’abord utilisé 143 conférences clinicopathologiques du New England Journal of Medicine, des cas complexes qui servent depuis des décennies de référence pour tester les systèmes d’aide au diagnostic. Ils ont ensuite évalué la présentation du raisonnement sur 20 cas du programme NEJM Healer, puis la qualité des décisions de prise en charge sur des vignettes cliniques développées avec des experts. Une autre expérience a porté sur le raisonnement probabiliste. Enfin, l’équipe a testé o1, GPT-4o et deux médecins expérimentés sur 79 dossiers réels provenant des urgences du Beth Israel Deaconess Medical Center, à trois moments successifs du parcours du patient.
Cette dernière expérience est particulièrement importante. Les réponses étaient anonymisées et évaluées par deux médecins qui ignoraient si elles provenaient d’un humain ou d’une machine. Le modèle ne prenait pas directement en charge les patients. Il produisait un second avis à partir des données disponibles dans le dossier. Il s’agit donc d’une preuve de concept, mais d’une preuve de concept ancrée dans des données cliniques non structurées et réelles.
Des résultats qui imposent de regarder au-delà de l’effet d’annonce
Sur les 143 cas complexes du New England Journal of Medicine, o1-preview a inclus le bon diagnostic dans sa liste dans 78,3 % des cas. Sur les 70 cas déjà utilisés pour tester GPT-4, il a proposé un diagnostic exact ou très proche dans 88,6 % des cas, contre 72,9 % pour GPT-4. Lorsqu’il devait choisir l’examen diagnostique suivant, sa recommandation était jugée exactement correcte dans 87,5 % des situations et utile dans 11 % supplémentaires.
Les écarts sont encore plus marqués sur la présentation du raisonnement. Dans les cas NEJM Healer, o1-preview a obtenu un score parfait sur 78 évaluations sur 80, contre 47 sur 80 pour GPT-4, 28 sur 80 pour les médecins seniors et 16 sur 80 pour les internes. Sur cinq cas de prise en charge particulièrement complexes, son score médian atteignait 86 %, contre 42 % pour GPT-4, 41 % pour des médecins assistés par GPT-4 et 34 % pour des médecins utilisant des ressources conventionnelles.
Les dossiers d’urgences fournissent toutefois le résultat le plus directement lisible. À l’étape du triage, o1 a proposé un diagnostic exact ou très proche dans 65,8 % des cas, contre 54,4 % et 48,1 % pour les deux médecins. Après l’évaluation médicale, les taux atteignaient 69,6 % pour o1, contre 60,8 % et 50,6 %. Au moment de l’admission, o1 atteignait 79,7 %, contre 75,9 % et 68,4 %.
Ces chiffres sont impressionnants, mais ils ne doivent pas être isolés de leur contexte. L’étude ne conclut pas à une supériorité universelle de l’IA. Sur le raisonnement probabiliste, o1-preview n’a pas montré d’amélioration générale par rapport à GPT-4. De plus, plusieurs comparaisons reposent sur des contrôles historiques et sur un nombre limité de cas. La conclusion la plus solide est donc la suivante : les modèles de raisonnement progressent fortement sur certaines dimensions du diagnostic et de la prise en charge, mais cette progression reste hétérogène.
Ce que l’étude démontre, et ce qu’elle ne démontre pas
L’étude démontre qu’un modèle peut produire un raisonnement textuel de très haut niveau lorsqu’il reçoit un dossier clinique suffisamment structuré. Dans l’échantillon analysé, l’écart en faveur du modèle apparaît dès le premier point d’évaluation, lorsque les informations disponibles sont encore limitées. Ce résultat concerne toutefois la production d’un diagnostic différentiel à partir du dossier, et non l’ensemble du processus de triage. Cette capacité pourrait aider à élargir les hypothèses, à rappeler une pathologie rare ou à détecter une incohérence dans le raisonnement initial.
Elle ne démontre pas qu’un chatbot grand public constitue un dispositif médical. Elle ne prouve pas qu’un modèle peut remplacer l’examen physique, interroger correctement un patient, comprendre ses préférences, annoncer une mauvaise nouvelle ou arbitrer un conflit entre plusieurs objectifs thérapeutiques. Elle ne mesure pas non plus l’impact sur la mortalité, les complications, les délais de prise en charge ou les coûts.
Les auteurs reconnaissent d’autres limites. Les cinq expériences évaluent plusieurs composantes importantes du raisonnement clinique, sans couvrir toute la complexité de la pratique médicale. Les cas concernent surtout la médecine interne et les urgences. Les performances peuvent varier selon la spécialité, le profil des patients, la langue, le pays ou l’organisation des soins. L’expérience aux urgences évalue un second avis à des moments prédéfinis, non l’ensemble des décisions de triage, d’orientation et de traitement.
La question de la contamination des données demeure également ouverte. Les chercheurs n’ont pas observé de différence statistiquement significative entre les cas publiés avant et après la date de fin d’entraînement supposée du modèle. Ce contrôle réduit le doute, sans pouvoir l’éliminer entièrement. La prudence scientifique consiste donc à considérer ces résultats comme un signal robuste de capacité, non comme une validation clinique définitive.
Ce que cette étude révèle pour les entreprises
La santé constitue souvent un laboratoire des grandes transformations technologiques. Les exigences de qualité, de sécurité et de responsabilité y sont parmi les plus élevées. Lorsqu’une innovation commence à produire des résultats dans un environnement aussi exigeant, il est légitime de s’interroger sur ses implications dans d’autres secteurs.
Pour les entreprises, cette étude rappelle que l’intelligence artificielle n’est plus uniquement un outil de productivité. Elle devient progressivement un assistant de raisonnement capable de contribuer à des décisions complexes, sous supervision humaine.
Cette évolution concerne déjà de nombreux métiers.
Un avocat analyse une jurisprudence avant de construire une argumentation. Un auditeur identifie des anomalies dans des données financières. Un consultant confronte plusieurs hypothèses avant de recommander une stratégie. Un ingénieur compare différentes options techniques avant de retenir la plus pertinente.
Dans chacun de ces cas, la valeur ne provient pas uniquement de la connaissance. Elle résulte de la capacité à raisonner à partir d’informations parfois incomplètes.
L’enjeu stratégique ne consiste donc plus à demander si l’IA remplacera ces professionnels. Il consiste à déterminer quelles étapes de leur raisonnement pourront être assistées, accélérées ou enrichies, tout en maintenant la responsabilité humaine sur les décisions finales.
Pour les entrepreneurs, la valeur se déplace vers l’intégration
L’enseignement le plus important pour les entrepreneurs n’est pas qu’un modèle a obtenu un score supérieur. Il réside dans le déplacement de la chaîne de valeur. Lorsque les modèles généralistes deviennent capables de raisonner sur des problèmes médicaux complexes, l’avantage compétitif ne se situe plus uniquement dans l’accès au modèle. Il se construit dans l’intégration au dossier patient, l’ergonomie du poste de travail, la qualité des données, la supervision humaine et la mesure des résultats.
Les opportunités sont nombreuses. Un assistant peut proposer un diagnostic différentiel lors du triage, vérifier qu’une hypothèse grave n’a pas été oubliée, préparer une synthèse avant la visite ou suggérer les examens les plus discriminants. Dans une plateforme de télémédecine, il peut aider à orienter le patient vers le bon niveau de soins. Dans un établissement hospitalier, il peut constituer un second regard lorsque la pression temporelle et la charge cognitive augmentent le risque d’erreur.
Mais un produit crédible ne peut se limiter à une interface connectée à une API. Il doit définir une indication précise, identifier son utilisateur, expliciter le moment où l’outil intervient et mesurer le bénéfice attendu. Réduit-il le délai diagnostique ? Évite-t-il des examens inutiles ? Améliore-t-il la détection des situations graves ? Diminue-t-il les réadmissions ? Sans indicateur clinique ou organisationnel, la performance du modèle reste une démonstration sans modèle économique durable.
La même logique vaut pour les établissements. Un hôpital ne devrait pas commencer par sélectionner un modèle, mais par identifier une décision précise à améliorer, définir le risque acceptable, choisir des indicateurs de résultat et déterminer qui conserve l’autorité finale. Cette inversion de la démarche évite de transformer une innovation prometteuse en expérimentation sans impact mesurable.
La conception de l’interaction devient également décisive. Une IA trop affirmative peut renforcer un biais d’automatisation. Une IA trop prudente peut devenir inutilisable. L’enjeu est de présenter des hypothèses, un niveau d’incertitude et les éléments qui pourraient invalider la recommandation. Le produit doit soutenir le jugement clinique, non le court-circuiter.
Cette exigence est confirmée par l’essai randomisé publié en 2024 par Goh et ses collègues. L’accès à GPT-4 n’y a pas amélioré de manière statistiquement significative le raisonnement diagnostique de 50 médecins par rapport aux ressources conventionnelles, alors que le modèle utilisé seul obtenait un score supérieur dans le protocole. Le message est décisif pour les entreprises : une IA performante ne produit pas automatiquement une équipe humain-IA performante. La qualité de l’interface, la formation, le moment d’intervention et la capacité du professionnel à contester la recommandation déterminent une grande partie de la valeur réelle.
La conformité réglementaire devient un actif stratégique
En Europe, un logiciel d’IA destiné à un usage médical peut relever à la fois du règlement sur les dispositifs médicaux et de l’AI Act. Tous les logiciels médicaux utilisant l’IA ne sont cependant pas automatiquement classés à haut risque : la qualification dépend notamment de la finalité prévue, du rôle du système dans le produit et de la procédure d’évaluation de conformité applicable. Lorsqu’un système relève de cette catégorie, les exigences portent notamment sur la gestion des risques, la qualité des données, la documentation, l’information des utilisateurs et la supervision humaine. Les règles sur les dispositifs médicaux continuent, en parallèle, d’encadrer la qualification du logiciel, sa classification, son évaluation clinique et sa surveillance après commercialisation.
Le calendrier européen reste progressif. L’AI Act est entré en vigueur le 1er août 2024. Les obligations ne s’appliquent pas toutes à la même date et le calendrier des systèmes à haut risque liés à des produits couverts par la législation d’harmonisation de l’Union peut aller jusqu’au 2 août 2028, selon les dispositions transitoires et les instruments de mise en œuvre. Les dirigeants doivent donc suivre les textes applicables à leur cas d’usage plutôt que raisonner à partir d’une date unique.
Cette superposition ne doit pas être considérée uniquement comme un coût. Elle peut devenir une barrière à l’entrée favorable aux entreprises qui développent tôt une documentation solide, une traçabilité des versions, une stratégie de cybersécurité et un dispositif de suivi des performances. Dans la santé, la confiance réglementaire fait partie du produit.
Les responsabilités doivent aussi être définies. Qui répond d’une recommandation erronée ? Le fournisseur du modèle, l’éditeur de la solution, l’établissement ou le médecin ? À quel moment une mise à jour modifie-t-elle suffisamment le système pour imposer une nouvelle évaluation ? Ces questions ne se résolvent pas après le lancement. Elles doivent structurer l’architecture technique, les contrats et la gouvernance dès la conception.
Vers une médecine augmentée, sous condition de preuve
Cette étude ne décrit pas la fin du médecin. Elle annonce plutôt une médecine dans laquelle le praticien pourra confronter son raisonnement à une seconde analyse rapide, disponible en permanence et capable de parcourir un espace diagnostique très large. Le bénéfice potentiel est considérable, notamment dans les zones sous-dotées, les services saturés ou les situations rares.
La réussite dépendra toutefois de la manière dont les organisations absorberont cette capacité. Un modèle performant peut produire peu de valeur s’il augmente le nombre d’alertes, ralentit le travail ou brouille les responsabilités. À l’inverse, un outil moins spectaculaire peut transformer les soins s’il intervient au bon moment, avec une information fiable et une interface adaptée.
Les prochaines étapes devront donc être cliniques et organisationnelles. Les auteurs appellent à des essais prospectifs, à des études sur la collaboration entre humains et modèles et à des cadres de surveillance robustes. C’est là que se jouera la différence entre une avancée scientifique et une innovation réellement utile.
Ce que les dirigeants doivent retenir
L’étude publiée dans Science ne marque probablement pas le début d’une médecine sans médecins.
Elle marque davantage l’entrée de l’intelligence artificielle dans une nouvelle phase de son développement : celle du raisonnement. Cette évolution dépasse largement le secteur de la santé. Elle interroge tous les métiers où la création de valeur repose sur l’analyse, l’interprétation et la décision. Pour les entrepreneurs, la question n’est donc plus de savoir s’il faut utiliser une intelligence artificielle. Elle devient plus exigeante.
- Quels raisonnements peuvent être augmentés par l’IA ?
- Quels risques doivent continuer à relever exclusivement de l’humain ?
- Comment mesurer la valeur créée par cette collaboration ?
Les organisations qui répondront les premières à ces questions disposeront probablement d’un avantage concurrentiel durable. Non parce qu’elles auront choisi le meilleur modèle, mais parce qu’elles auront appris à intégrer l’intelligence artificielle là où elle crée réellement de la valeur.
Références principales
Brodeur, P. G., et al. (2026). Performance of a large language model on the reasoning tasks of a physician. Science, 392(6797), 524-527. DOI: 10.1126/science.adz4433.
Brodeur, P. G., et al. (2024). Superhuman performance of a large language model on the reasoning tasks of a physician. arXiv:2412.10849.
Cabral, S., et al. (2024). Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Internal Medicine, 184(5), 581-583.
Goh, E., et al. (2024). Large language model influence on diagnostic reasoning: a randomized clinical trial. JAMA Network Open, 7(10), e2440969.
Commission européenne. Artificial Intelligence in healthcare ; MDCG 2025-6, FAQ sur l’articulation entre les règlements relatifs aux dispositifs médicaux et l’AI Act ; AI Act, calendrier d’application et lignes directrices sur les systèmes à haut risque. Sources officielles consultées le 3 juillet 2026.
Commission européenne (2026). Guidelines for providers and deployers of AI high-risk systems ; Standardisation of the AI Act. Consulté le 3 juillet 2026.




