L’IA améliore-t-elle vraiment les soins? Ce que nous mesurons mal

Illustration aquarelle: clinicienne et patient âgé en entretien calme dans un environnement hospitalier.

La question inconfortable

Le 21 avril 2026, Nature Medicine a publié un court commentaire d’Anna Goldenberg et Jenna Wiens: “Is AI actually improving healthcare?”.

Leur réponse est simple, et dérangeante: dans de nombreux cas, on ne sait pas.

Le problème d’évaluation

Deux points:

1) On mesure ce qui est facile à mesurer.
AUROC, F1, accuracy restent utiles, mais ce ne sont pas des résultats cliniques en soi.
AUROC, en clair, mesure la capacité d’un modèle à distinguer patients malades et non malades.

2) Quand les outcomes bougent, l’attribution est souvent faible.
Une amélioration après déploiement vient-elle du modèle, d’un effet Hawthorne, d’un changement de workflow, d’une meilleure vigilance?

C’est le cœur méthodologique du sujet.

Le cas Epic Sepsis Model

En 2021, une validation externe à l’University of Michigan (JAMA Internal Medicine) a montré des performances cliniques décevantes (DOI): faible détection additionnelle et forte charge d’alertes.

Une analyse ultérieure en NEJM AI a suggéré qu’une partie du signal reflétait déjà le soupçon clinique existant (DOI).

Le modèle a été mis à jour depuis, mais la leçon reste: un outil peut être massivement déployé sans preuve prospective robuste de bénéfice patient.

Ambient scribes: signaux positifs, question ouverte

Les preuves sont plus encourageantes pour les scribes ambiants:

essai randomisé (NEJM AI) avec bénéfices sur temps de documentation (DOI)
étude QI multicentrique (JAMA Network Open) avec amélioration des marqueurs de burnout (DOI)

Mais les endpoints durs (mortalité, réadmissions, précision diagnostique) restent insuffisamment documentés.

Ce que cela implique en pratique

Trois checkpoints simples:

Avant: quel endpoint clinique concret veut-on améliorer?
Pendant: comment éviter l’alert fatigue (trop d’alertes -> équipes qui n’y prêtent plus attention), avec un threshold tuning rigoureux?
Après: audit continu: performance, population, dérive, workflow.

Conclusion

Le commentaire de Goldenberg et Wiens n’est pas anti-IA.
C’est un rappel méthodologique utile:

La question n’est pas « est-ce que le modèle impressionne? »
La question est « est-ce qu’il aide les patients? »

Sources et lectures complémentaires

Goldenberg A, Wiens J. Is AI actually improving healthcare? Nat Med 32, 1182–1183 (2026). DOI: 10.1038/s41591-026-04329-2
Wong A et al. External validation of a widely implemented proprietary sepsis prediction model in hospitalized patients. JAMA Intern Med (2021). DOI: 10.1001/jamainternmed.2021.2626
Kamran F et al. Evaluation of Sepsis Prediction Models before Onset of Treatment. NEJM AI (2024). DOI: 10.1056/AIoa2300032
Lukac PJ et al. Ambient AI scribes in clinical practice: A randomized trial. NEJM AI 2(12), 2025. DOI: 10.1056/AIoa2501000
Olson KD et al. Use of Ambient AI Scribes to Reduce Administrative Burden and Professional Burnout. JAMA Netw Open 8(10), 2025. DOI: 10.1001/jamanetworkopen.2025.34976
Joshi S et al. AI as an intervention: improving clinical outcomes relies on a causal approach to AI development and validation. JAMIA 32, 589–594 (2025). DOI: 10.1093/jamia/ocae301