Hilft KI im Spital wirklich? Was wir noch nicht sauber messen

Aquarell-Illustration: Ärztin und älterer Patient im ruhigen Gespräch im Klinikflur, mit dezenten digitalen Signalen im Hintergrund.

Die unbequeme Frage

Am 21. April 2026 erschien in Nature Medicine ein kurzer Kommentar von Anna Goldenberg und Jenna Wiens. Kurz, aber mit Sprengkraft. Der Titel lautet: “Is AI actually improving healthcare?”.

Die Antwort der beiden fällt ernüchternd aus: In vielen Fällen wissen wir es schlicht nicht.

Und genau das lässt uns nachdenken. KI ist längst im Alltag angekommen — in manchen Kliniken mehr, in anderen weniger: Risiko-Scores auf Station, Ambient-Scribes in der Sprechstunde, Vision-Modelle in der Bildgebung. Es wird investiert, pilotiert und ausgerollt. Aber die zentrale Frage bleibt erstaunlich oft offen: Wird die Versorgung für Patienten dadurch wirklich besser?

Das eigentliche Evaluationsproblem

Goldenberg und Wiens benennen zwei Probleme, die zusammenhängen:

1) Wir messen, was leicht messbar ist.
AUROC, F1, Accuracy sind sinnvoll, aber nur ein Teil der Wahrheit. Kurz gesagt: AUROC beschreibt, wie gut ein Modell Kranke von Nicht-Kranken trennt, Accuracy zeigt den Gesamtanteil richtiger Vorhersagen, und F1 balanciert Trefferquote und Verlässlichkeit bei den positiven Fällen. Das Problem: Diese Werte können hoch sein, auch wenn im klinischen Alltag kaum etwas besser wird. Ein Modell kann retrospektiv gut aussehen und trotzdem wenig verändern.

2) Wenn Outcomes besser werden, ist die Ursache oft unklar.
Sinkt die Sepsis-Mortalität nach Einführung eines Tools wirklich wegen des Algorithmus? Oder wegen parallel laufender Schulungen, geänderter Workflows oder erhöhter Aufmerksamkeit im Team? Kausalität sauber zu belegen ist schwierig — und wird noch zu selten konsequent umgesetzt.

Das ist kein methodisches Detail. Das ist der Kern der Debatte.

Das Lehrstück: Epic Sepsis Model

Das Epic Sepsis Model (ESM) ist dafür ein gutes Beispiel. Weit verbreitet, in Epic integriert, lange als Erfolgsgeschichte verkauft.

2021 publizierte die University of Michigan eine externe Validierung in JAMA Internal Medicine mit über 27’000 Patienten. Die Resultate waren deutlich: nur 7% der Sepsis-Fälle wurden zusätzlich erkannt, 67% wurden nicht erkannt, gleichzeitig wurden 18% aller Hospitalisierten alarmiert. Klinisch heisst das: viel Lärm, begrenzter Zusatznutzen.

2024 folgte in NEJM AI eine weitere Analyse (DOI). Die Arbeit legt nahe, dass ein Teil der Modellleistung daraus kam, bereits vorhandenen klinischen Verdacht mitzulesen — etwa über Orders und Verordnungen. Anders gesagt: Das Modell sagte teils nicht Sepsis früh voraus, sondern spiegelte den Verdacht, der im Team ohnehin schon da war.

Epic hat das Modell inzwischen angepasst. Der Punkt bleibt trotzdem: Ein Modell kann breit eingesetzt sein, ohne dass sein Patientennutzen prospektiv sauber belegt ist.

Ambient-Scribes: bessere Signale, offene Fragen

Bei Ambient-Scribes ist die Lage erfreulicher. Es gibt inzwischen randomisierte Evidenz.

Lukac et al. publizierten Ende 2025 in NEJM AI eine RCT mit 238 Ärztinnen und Ärzten (DAX vs. Nabla vs. Kontrolle; DOI). Nabla reduzierte die Dokumentationszeit signifikant; bei beiden Systemen zeigten sich Verbesserungen in sekundären Belastungs-Scores.

Parallel zeigte eine multizentrische QI-Studie von Olson et al. in JAMA Network Open bei 263 Clinicians einen Rückgang der Burnout-Prävalenz von 51.9% auf 38.8% nach 30 Tagen (DOI).

Das sind gute Nachrichten. Nur: Es sind noch nicht die harten Endpunkte, die wir am Ende wirklich wissen wollen. Burnout, Task Load und Dokumentationszeit sind relevant — aber sie ersetzen keine Daten zu Mortalität, Rehospitalisierung oder Diagnosesicherheit.

Was die Autorinnen fordern (und was sinnvoll ist)

Der Kommentar ist kein Anti-KI-Text. Im Gegenteil: Es geht um bessere Methodik.

Klinische Relevanz vor Benchmark-Ästhetik.
Bessere Outcome-Attribution statt einfacher Vorher-Nachher-Erzählung.
Prospektive, idealerweise randomisierte Evaluation.
Laufendes Monitoring nach dem Rollout.

Gerade der letzte Punkt wird oft unterschätzt: Populationen ändern sich, Workflows ändern sich, Modelle driften.

Was das für die Notfallmedizin heisst

Ich lese das mit gemischten Gefühlen — und das ist gut so.

Optimistisch, weil KI in der Notfallmedizin konkret helfen kann: Dokumentation entlasten, Muster schneller sichtbar machen, Prozesse standardisieren.

Skeptisch, weil wir im Alltag leicht in den Modus rutschen: Cooles neues Tool eingeführt, Projekt abgeschlossen, Haken dran. Genau da beginnt das Risiko. Die eigentliche Frage kommt erst danach: Hat sich für Patienten etwas messbar verbessert?

Drei praktische Prüfsteine:

Vor Einführung: Welcher klinische Endpunkt soll sich verbessern?
Während Nutzung: Wie verhindern wir Alert-Fatigue (also Alarmmüdigkeit, wenn zu viele Warnungen aufpoppen und irgendwann ignoriert werden)? Dazu gehört konsequentes Threshold-Tuning: Die Schwelle so einstellen und laufend nachjustieren, dass wirklich relevante Warnungen kommen — nicht dauernd Fehlalarme.
Nach Einführung: Funktioniert das Modell unter realen Bedingungen noch wie gedacht?

Fazit

Der Text von Goldenberg und Wiens ist kein Bremsklotz. Eher ein notwendiger Realitätscheck.

Die Frage ist nicht, ob ein Modell beeindruckend wirkt.
Die Frage ist, ob es Patienten hilft.

Und diese Antwort bekommen wir nicht aus AUROC allein (vereinfacht: ein Mass dafür, wie gut ein Modell Kranke von Nicht-Kranken trennt), sondern aus guter klinischer Evidenz.

Quellen und weiterführende Literatur

Goldenberg A, Wiens J. Is AI actually improving healthcare? Nat Med 32, 1182–1183 (2026). DOI: 10.1038/s41591-026-04329-2
Wong A et al. External validation of a widely implemented proprietary sepsis prediction model in hospitalized patients. JAMA Intern Med (2021). DOI: 10.1001/jamainternmed.2021.2626
Kamran F et al. Evaluation of Sepsis Prediction Models before Onset of Treatment. NEJM AI (2024). DOI: 10.1056/AIoa2300032
Lukac PJ et al. Ambient AI scribes in clinical practice: A randomized trial. NEJM AI 2(12), 2025. DOI: 10.1056/AIoa2501000
Olson KD et al. Use of Ambient AI Scribes to Reduce Administrative Burden and Professional Burnout. JAMA Netw Open 8(10), 2025. DOI: 10.1001/jamanetworkopen.2025.34976
Joshi S et al. AI as an intervention: improving clinical outcomes relies on a causal approach to AI development and validation. JAMIA 32, 589–594 (2025). DOI: 10.1093/jamia/ocae301