Kann KI den Arzt ersetzen?

Sogenannte Large Language Models können schon eine Menge – zum Beispiel das Medizin-Examen bestehen. Doch es gibt auch Grenzen, wie eine aktuelle Studie zeigt.

Ärztin tippt auf eine virtuelle Grafik mit medizinischen Symbolen

Eine aktuelle Studie enthüllt die Möglichkeiten und Grenzen des Einsatzes von KI in der Medizin.

Foto: panthermedia.net/BiancoBlue

Forschende der Technischen Universität München (TUM) haben im Rahmen einer Studie die Eignung von KI-basierten Large Language Models für den klinischen Alltag untersucht. Obwohl diese Modelle es schaffen können, das medizinische Examen zu bestehen, erweisen sie sich für den Einsatz in der Patientenversorgung eher als ungeeignet. Die Studie deckt gravierende Mängel auf, die das Wohl von Patientinnen und Patienten gefährden würden.

Mit KI Gedanken lesen und Lügen erkennen

Das interdisziplinäre Team um Professor Daniel Rückert, Lehrstuhlinhaber für Artificial Intelligence in Healthcare and Medicine an der TUM, analysierte verschiedene Varianten des Open-Source-Large-Language-Models Llama 2. Ziel war es herauszufinden, ob diese KI-Systeme in der Lage wären, die Aufgaben von medizinischem Personal in einer Notaufnahme zu übernehmen – von der Anordnung geeigneter Tests über die Diagnosestellung bis hin zur Erstellung eines Behandlungsplans.

KI in der Notaufnahme: Simulation mit realen Patientendaten

Für die Studie, die im renommierten Fachmagazin „Nature Medicine“ veröffentlicht wurde, nutzte das Forscherteam anonymisierte Daten von 2.400 Patientinnen und Patienten einer US-amerikanischen Klinik. Alle Fälle betrafen Menschen, die mit Bauchschmerzen die Notaufnahme aufsuchten. Die Fallbeschreibungen enthielten umfassende Informationen, wie Krankengeschichte, Blutwerte und Bildgebungsdaten, und endeten jeweils mit einer von vier Diagnosen und einem Behandlungsplan.

Stellenangebote im Bereich Medizintechnik, Biotechnik

Medizintechnik, Biotechnik Jobs

„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. „Das Programm hat immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt.“

Intelligenter Ultraschallsensor für (fast) jede Anwendung

Arzneimittelforschung

SPARROW-Algorithmus: Turbo für die Medikamentenentwicklung?

Virtuelle Berührungen

Smarte Textilien vermitteln kranken Kindern körperliche Nähe

Die Ergebnisse der Studie sind alarmierend: Keines der getesteten Large Language Models forderte durchgängig alle notwendigen Untersuchungen an. Interessant war, dass die Qualität der KI-generierten Diagnosen sich sogar verschlechterte, je mehr Informationen zu dem Fall vorlagen. Zudem ignorierten die Systeme häufig geltende Behandlungsrichtlinien. In der Konsequenz ordnete die KI Untersuchungen an, die für echte Patientinnen und Patienten schwerwiegende gesundheitliche Folgen gehabt hätten. Behandlungsrichtlinien befolgten sie oftmals nicht.

KI im Vergleich mit menschlichen Ärztinnen und Ärzten

Die Forschenden führten in einer zweiten Studienphase einen Vergleich zwischen KI-generierten Diagnosen und den Einschätzungen von vier Medizinerinnen und Medizinern durch. Während die menschlichen Expertinnen und Experten in 89 Prozent der Fälle korrekt lagen, erreichte das leistungsfähigste Large Language Model lediglich eine Trefferquote von 73 Prozent. Die Modelle zeigten bei der Erkennung bestimmter Krankheiten unterschiedliche Stärken und Schwächen. In einem Extremfall erkannte ein KI-System nur 13 Prozent der Gallenblasenentzündungen richtig.

Ein weiteres Hindernis für den Einsatz der Programme im klinischen Alltag: Die Systeme sind nicht ausreichend robust. Die von einem Large Language Model gestellte Diagnose wurde unter anderem von der Reihenfolge beeinflusst, in der es die Informationen erhielt. Auch sprachliche Nuancen wirkten sich auf das Ergebnis aus – etwa ob das Programm nach einer „Main Diagnosis“, einer „Primary Diagnosis“ oder einer „Final Diagnosis“ gefragt wurde. Im medizinischen Kontext sind diese Begriffe normalerweise synonym verwendbar. Das Forscherteam verzichtete bewusst auf Tests der kommerziellen Large Language Models von OpenAI (ChatGPT) und Google. Das liegt vor allem daran, dass Datenschutzgründen die Verarbeitung der Daten mit diesen Modellen verbieten und es eine Empfehlung gibt, im Gesundheitssektor ausschließlich Open-Source-Software einzusetzen.

KI bietet Potenzial – als Werkzeug für Ärztinnen und Ärzte

Die Technologie entwickelt sich in hohem Tempo weiter. „Es ist durchaus möglich, dass in naher Zukunft ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, sagt Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollenen.“ Er sieht nicht vor allem das Potenzial dieser Technologie und bezeichnet sie als wichtige Werkzeuge für Ärztinnen und Ärzten. So ließe sich mit Large Language Models beispielsweise ein Fall diskutieren. Zugleich müsse sich jeder, der diese Werkzeuge nutze, im Klaren sein, dass diese Technologie Grenzen und Eigenheiten mit sich bringe.

Ein Beitrag von:

Nina Draese

Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.