Fünf Dinge, die KI immer noch nicht kann — Reflexionen für Kliniker und IT-Pros

Aquarell-Illustration: Eine Person vor fünf transluzenten Schichten, die die strukturellen Grenzen von KI symbolisieren.

Die Werkzeuge sind dramatisch günstiger geworden. In den letzten zwei Jahren sind die Kosten für funktionierenden Code, plausible Texte und einsetzbare Anwendungen praktisch auf null gefallen. Das ist genuin nützlich — und es hat gleichzeitig eine Welle von Oberflächenprodukten erzeugt, die wie echte Produkte aussehen, aber vom Moment des nächsten Modell-Releases an verschwinden.

Wer in der Medizin oder in der IT-Infrastruktur arbeitet, kennt wahrscheinlich die Lücke zwischen dem Verkaufsversprechen und der Realität. Jedes Produkt kommt heute mit einem KI-Badge. Wenige haben einen nachhaltigen Plan über das nächste Foundation-Model-Release hinaus.

Hier ist eine praxisnahe Karte dessen, wo KI tatsächlich scheitert — fünf hartnäckige Lücken, die sich nicht mit grösseren Context-Windows oder schnellerer Inference schliessen lassen. Das sind keine Beschwerden über Geschwindigkeit oder Genauigkeit. Es sind strukturelle Grenzen. Sie zu kennen hilft, das Vertrauenswürdige vom teuren Autocomplete zu unterscheiden.

1. Verantwortlichkeit: Wer haftet, wenn etwas schieft?

Wenn ein KI-Tool einen Ratschlag generiert, der zu einem schlechten Ergebnis führt — wer ist verantwortlich?

In der klinischen Praxis bleibt die Antwort beim behandelnden Arzt. «Die KI hat es vorgeschlagen» ist keine Verteidigung in einem Haftpflichtprozess. Es ist keine Verteidigung in einem regulatorischen Verfahren. Die ärztliche Verantwortung verschwindet nicht, nur weil ein Modell an der Entscheidungsfindung beteiligt war. Das ist keine Hypothese — es ist bereits der Massstab, an dem klinische KI heute gemessen wird, und es ist der richtige Massstab.

Direkte Konsequenz für die Beschaffung: Jedes KI-Tool, das Sie evaluieren, stellt implizit eine Haftungsfrage. Was passiert, wenn es falsch liegt? Die Anbieter, die das durchdacht haben, geben eine gerade Antwort. Diejenigen, die es nicht können, sollten Sie misstrauen — nicht necessarily weil ihre Modelle schlecht sind, sondern weil sie nicht durchdacht haben, was bei Fehlern passiert.

Das gleiche gilt in der IT-Infrastruktur. Wenn Ihre Deployment-Pipeline stillschweigend Fehlkonfigurationen generiert, weil ein KI-Assistent Ihre Absicht falsch verstanden hat — wer haftet? In einer Regulierungslandschaft, die sich auf obligatorische KI-Incident-Meldungen zubewegt, ist diese Antwort relevant.

Die nachhaltige Frage ist nicht «Ist diese KI akkurat?» Sie lautet: «Wer ist verantwortlich für das, was sie falsch macht — und weiss er das?»

2. Kontext: Ihre Daten sind der eigentliche Burggraben

Eine generische KI ist per Definition generalistisch. Sie hat keinen Zugang zu Ihrer Patientenpopulation, Ihren institutionellen Protokollen, den spezifischen Abläufen Ihrer Abteilung oder den Konventionen, die Ihr Team über Jahre entwickelt hat.

Das ist kein Fehler. Es ist eine strukturelle Limitation. Kein Foundation Model — egal wie gross — weiss, was in Ihrem Klinikinformationssystem lebt, ausser Sie legen es dort hinein. Und wenn Ihr KI-Tool keinen guten Zugang zu diesem Kontext hat, gibt es Ihnen generische Empfehlungen in medizinischer Sprache.

Die Institutionen mit nachhaltiger Position in diesem Raum sind diejenigen, die die Kontext-Schicht besitzen und sorgfältig darüber nachdenken, wem sie Zugang gewähren. Epic ist nachhaltig nicht, weil die UI besser ist als die Konkurrenz, sondern weil sie die klinische Datengravity besitzt, die jeder KI-Anbieter braucht. Jedes Tool, das sich zwischen Kliniker und diesen Kontext setzen will, muss mehr bieten als ein besseres Modell — es muss Integration bieten, die den Workflow und die Verantwortungsstruktur respektiert.

Für IT-Pros bedeutet das: die KI-Differenzierungsschlacht ist zunehmend keine Frage des Modells. Sie ist eine Frage davon, wer die Datenpipeline zum Modell kontrolliert. Wenn Sie klinische KI-Tools entwickeln, ist die entscheidende Frage nicht «Welches Modell verwenden Sie?» Sie lautet: «Wer besitzt die Kontext-Schicht — und zu welchen Bedingungen greifen Sie darauf zu?»

Ein Modell ohne Ihren Kontext ist ein Chatbot. Ein Modell mit Ihrem Kontext ist ein klinisches Entscheidungsunterstützungssystem. Dieser Unterschied ist entscheidend.

3. Vertrauen: Verifikation in einer Welt voller KI-generierter Inhalte

Wir bewegen uns auf eine Welt zu, in der KI-generierter Code, Dokumentation und klinische Zusammenfassungen von menschlich produzierten nicht mehr zu unterscheiden sind. Die meisten werden in Ordnung sein. Einige werden subtil falsch sein, auf Arten, die schwer zu erkennen sind. Eine kleine Zahl wird aktiv irreführend sein.

Die Unternehmen und Tools, die zur Verifikationsschicht werden — diejenigen, die sagen können, dies tut was es vorgibt, und den Nachweis dafür erbringen — gewinnen überproportional. Das ist der Grund, warum Stripe über eine Billion Dollar an Transaktionen abwickelt: nicht weil die Gebührenstruktur besser wäre, sondern weil deren Zuverlässigkeit und Betrugsabwehr «powered by Stripe» zu einem Vertrauenssignal gemacht haben, von dem Institutionen abhängen.

Im Gesundheitswesen zeigt sich das als klinische KI-Validierung und Peer-Review. Tools, die prospektiv gegen Ihre Patientenpopulation validiert wurden, die dokumentierte Failure-Modes haben und diese Dokumentation zugänglich machen, sind im Vertrauensgeschäft. Tools, die mit einem Model Card und nichts sonst ausgeliefert werden, verkaufen Zugang zu einem Modell — nicht Verantwortung für dessen Outputs.

Für IT-Pros bei der Evaluation von KI-Tools: die Vertrauensfrage, die Sie immer stellen sollten, lautet: «Wie sieht Ihre Fehleranalyse aus?» Wenn ein Anbieter nicht zeigen kann, wo sein Tool versagt — und wie diese Fehler erkannt werden — wurde die Vertrauensarbeit nicht geleistet.

Im agentischen Zeitalter, wenn KI-Systeme autonom im Auftrag von Kliniker handeln, wird die Vertrauensschicht zur tragenden Wand. Jede Transaktion, jede Verordnung, jeder diagnostische Vorschlag muss auf einen verantwortlichen Menschen rückführbar sein.

4. Urteilsvermögen: Wissen, was man nicht automatisieren sollte

Wenn die Produktion von Text und Code praktisch kostenlos ist, wird das knappe Gut zum redaktionellen Urteilsvermögen — zu wissen, was man bauen sollte, was man automatisieren sollte und was man niemals an ein Modell delegieren sollte.

Hier wird klinische und technische Expertise nicht redundant, sondern unverzichtbar. Ein Modell kann Dutzende Behandlungswege in Sekunden generieren. Was es nicht kann, ist wissen, welcher davon zu diesem spezifischen Patienten passt, mit diesem spezifischen Komorbiditätsprofil, in diesem spezifischen institutionellen Kontext, mit diesen spezifischen Follow-up-Möglichkeiten. Das erfordert Urteilsvermögen, das zutiefst lokal, kontinuierlich aktualisiert und menschlich ist.

Das gleiche gilt in der Softwareentwicklung. Ein Modell kann eine vollständige Anwendung in Minuten generieren. Was es nicht sagen kann, ist ob man diese Anwendung überhaupt hätte bauen sollen, ob sie ein echtes Problem löst, das die Benutzer haben, und ob der Kompromiss aus Einführung und Wartungsaufwand den Nutzen rechtfertigt.

Das ist kein Argument gegen KI-gestützte Produktion. Es ist ein Argument für Klarheit darüber, was Urteilsvermögen ist und wo es angesiedelt ist. Die Tools, die IT-Pros und Kliniker effektiver machen, übernehmen die mechanische Arbeit — Dokumentationsentwürfe, Routine-Code, erste Literatursuchen — und überlassen die urteilsintensiven Entscheidungen den Menschen, die dafür verantwortlich sind.

Die besten KI-Tools machen Sie mehr zum Arzt, nicht weniger. Wenn Ihr KI-Tool Sie dazu verleitet, das Denken auszulassen, ist das ein Warnsignal.

5. Verbreitung: Die richtige Arbeit vor die richtigen Leute bringen

Sie können heute eine funktionierende klinische Dashboard, einen automatisierten Trialgorithmus oder eine abteilungsweite Analytics-Pipeline in Stunden generieren. Das Bauen war nie der Flaschenhals. Sie adoptieren zu lassen — Vertrauen zu gewinnen, in Workflows zu integrieren, Kollegen dazu zu bringen, es tatsächlich zu nutzen — das ist die eigentliche Arbeit.

Im Gesundheitswesen geschieht die Verbreitung klinischer Tools durch Guidelines, Peer-Netzwerke, institutionelle Beschaffung und, entscheidend, durch Peer-Validierung. Ein besseres Modell gewinnt keine Abteilung. Ein geschätzter Kollege, der sagt: «Ich benutze das seit sechs Monaten und es hat verändert, wie ich arbeite» — das gewinnt.

Die technische Parallele ist jedem vertraut, der versucht hat, ein neues Tool in einer Institution zu verankern: die raffinierteste Deployment-Infrastruktur der Welt ist wertlos, wenn das Team dem Tool nicht genug vertraut, um es zu benutzen. Der Flaschenhals für KI-Adoption in klinischen und technischen Settings ist fast nie die Modellqualität. Es ist die Verbreitungs- und Vertrauensschicht.

Für diejenigen, die Tools entwickeln: wenn Sie ein echtes Problem lösen, das echte Kliniker und IT-Pros haben, ist Ihre wichtigste Arbeit nach dem Release, es vor die Menschen zu bringen, die ehrlich validieren können. Diejenigen, die Ihnen sagen, es sei in spezifischen Punkten kaputt, sind wertvoller als diejenigen, die sagen, es sehe beeindruckend aus.

Der nachhaltigste Wettbewerbsvorteil in KI ist kein besseres Modell. Es ist eine Gemeinschaft von Benutzern, die dem Tool genug vertrauen, um ihren Workflow darum herum zu bauen.

Wie die Schichten zusammenpassen

Wenn Sie KI-Tools evaluieren oder entwickeln, geben Ihnen die fünf Lücken eine praktische Checkliste:

Verantwortlichkeit — Wer ist juristisch und professionell verantwortlich für die Outputs dieses Tools?
Kontext — Hat das Tool Zugang zu den Daten, die es braucht, um spezifisch zu sein, oder arbeitet es mit generischen Mustern?
Vertrauen — Wurde das Tool gegen reale Fälle validiert, einschliesslich seiner Failure-Modes?
Urteilsvermögen — Übernimmt das Tool die mechanische Arbeit und überlässt die schwierigen Entscheidungen den Menschen?
Verbreitung — Wurde es von Peers übernommen, deren Urteil Sie vertrauen?

Kein KI-Tool löst alle fünf. Die Tools, die es wert sind, benutzt zu werden — und die es wert sind, entwickelt zu werden — sind diejenigen, die ehrlich darlegen, welche Lücken sie schliessen und welche sie offen lassen.

Diese Klarheit ist selbst der Punkt. Die KI-Tools, die bestehen, sind nicht diejenigen, die klinisches oder technisches Urteilsvermögen ersetzen wollen. Es sind diejenigen, die die Menschen, die sie benutzen, besser in ihrem eigentlichen Job machen. Die fünf Lücken sind keine zu lösenden Probleme. Sie sind der Umriss dessen, wo menschliche Expertise tragend bleibt.

Hinweis: Dieser Artikel ist eine synthetisierende Analyse auf Basis aktueller KI-Plattformdynamiken und öffentlich verfügbarer Unternehmensinformationen. Angaben zu spezifischen Unternehmen reflektieren den öffentlichen Kenntnisstand. Das Framework ist eine interpretierende Synthese, keine akademische Arbeit.