Neue Werkzeuge 23.07.2024, 06:50 Uhr

Kann KI den Arzt ersetzen?

Sogenannte Large Language Models können schon eine Menge – zum Beispiel das Medizin-Examen bestehen. Doch es gibt auch Grenzen, wie eine aktuelle Studie zeigt.

Ärztin tippt auf eine virtuelle Grafik mit medizinischen Symbolen

Eine aktuelle Studie enthüllt die Möglichkeiten und Grenzen des Einsatzes von KI in der Medizin.

Foto: panthermedia.net/BiancoBlue

Forschende der Technischen Universität München (TUM) haben im Rahmen einer Studie die Eignung von KI-basierten Large Language Models für den klinischen Alltag untersucht. Obwohl diese Modelle es schaffen können, das medizinische Examen zu bestehen, erweisen sie sich für den Einsatz in der Patientenversorgung eher als ungeeignet. Die Studie deckt gravierende Mängel auf, die das Wohl von Patientinnen und Patienten gefährden würden.

Mit KI Gedanken lesen und Lügen erkennen

Das interdisziplinäre Team um Professor Daniel Rückert, Lehrstuhlinhaber für Artificial Intelligence in Healthcare and Medicine an der TUM, analysierte verschiedene Varianten des Open-Source-Large-Language-Models Llama 2. Ziel war es herauszufinden, ob diese KI-Systeme in der Lage wären, die Aufgaben von medizinischem Personal in einer Notaufnahme zu übernehmen – von der Anordnung geeigneter Tests über die Diagnosestellung bis hin zur Erstellung eines Behandlungsplans.

KI in der Notaufnahme: Simulation mit realen Patientendaten

Für die Studie, die im renommierten Fachmagazin „Nature Medicine“ veröffentlicht wurde, nutzte das Forscherteam anonymisierte Daten von 2.400 Patientinnen und Patienten einer US-amerikanischen Klinik. Alle Fälle betrafen Menschen, die mit Bauchschmerzen die Notaufnahme aufsuchten. Die Fallbeschreibungen enthielten umfassende Informationen, wie Krankengeschichte, Blutwerte und Bildgebungsdaten, und endeten jeweils mit einer von vier Diagnosen und einem Behandlungsplan.

Top Stellenangebote

Zur Jobbörse
Die Autobahn GmbH des Bundes-Firmenlogo
Experte (w/m/d) Vertrags- und Nachtragsmanagement Die Autobahn GmbH des Bundes
Fachhochschule Münster-Firmenlogo
Professur für "Antriebssysteme im Maschinenbau" (w/m/d) Fachhochschule Münster
Steinfurt Zum Job 
Pero AG-Firmenlogo
Sales Engineer (m/w/d) Pero AG
Königsbrunn, remote Zum Job 
Firmengruppe Max Bögl-Firmenlogo
Projektleiter (m/w/d) Planung Ingenieurbau Firmengruppe Max Bögl
Sengenthal Zum Job 
EGN Entsorgungsgesellschaft Niederrhein mbH-Firmenlogo
Projektmanager (m/w/d) Anlagenbau / Umwelttechnik EGN Entsorgungsgesellschaft Niederrhein mbH
Viersen Zum Job 
INGENIEURBÜRO ZAMMIT GmbH-Firmenlogo
Senior Projektleiter/-ingenieur TGA (m/w/d) INGENIEURBÜRO ZAMMIT GmbH
Hamburg Wasser-Firmenlogo
Ingenieur Elektrotechnik als Projektleiter EMSR (m/w/d) Hamburg Wasser
Hamburg Zum Job 
Hamburg Wasser-Firmenlogo
Projektleiterin als Ingenieurin Mittel- und Niederspannungstechnik (m/w/d) Hamburg Wasser
Hamburg-Rothenburgsort Zum Job 
Stadtverwaltung Frankenthal-Firmenlogo
Ingenieur / Techniker - Technische Rechnungsprüfung (m/w/d) Stadtverwaltung Frankenthal
Frankenthal (Pfalz) Zum Job 
ETS Efficient Technical Solutions GmbH-Firmenlogo
Technischer Systemplaner / CAD-Konstrukteur TGA (m/w/d) ETS Efficient Technical Solutions GmbH
Wuppertal Zum Job 
ETS Efficient Technical Solutions GmbH-Firmenlogo
Projektleiter (m/w/d) HKLS ETS Efficient Technical Solutions GmbH
Wuppertal Zum Job 
ETS Efficient Technical Solutions GmbH-Firmenlogo
Bauleiter / Obermonteur (m/w/d) HLKS ETS Efficient Technical Solutions GmbH
Wuppertal Zum Job 
Schleifring GmbH-Firmenlogo
Head of Sales für unsere Key Accounts (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
AllTerra Deutschland GmbH-Firmenlogo
Support Mitarbeiter Vermessungslösungen / Vermessungstechnik (m/w/d), 80-100 % (Wunstorf bei Hannover, Hamburg, Berlin oder Leipzig) AllTerra Deutschland GmbH
Berlin, Leipzig, Hamburg, Wunstorf bei Hannover Zum Job 
ME MOBIL ELEKTRONIK GMBH-Firmenlogo
Technischer Einkäufer (m/w/d) ME MOBIL ELEKTRONIK GMBH
Langenbrettach Zum Job 
Hamburger Hochbahn AG-Firmenlogo
Bauingenieur als Sachgebietsleiter - Betriebsservice U-Bahn, Bauprojekte (w/m/d) Hamburger Hochbahn AG
Hamburg Zum Job 
Sanofi-Aventis Deutschland GmbH-Firmenlogo
Traineeprogramm für Ingenieure (all genders) - befristet für 24 Monate Sanofi-Aventis Deutschland GmbH
Frankfurt am Main Zum Job 
Bundesanstalt für Immobilienaufgaben-Firmenlogo
Ingenieurin / Ingenieur im Bereich Umwelttechnik oder Geowissenschaftlerin / Geowissenschaftler (w/m/d) Bundesanstalt für Immobilienaufgaben
Berlin, Düsseldorf, Münster, Hannover Zum Job 
TITAN Umreifungstechnik GmbH & Co. KG-Firmenlogo
Mitarbeiter Montage Sondermaschinenbau - Mechanik (m/w/d) TITAN Umreifungstechnik GmbH & Co. KG
Schwelm Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur (w/m/d) für die Bauleitung und Bauüberwachung von Autobahnprojekten Die Autobahn GmbH des Bundes
Würzburg Zum Job 

„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. „Das Programm hat immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt.“

Die Ergebnisse der Studie sind alarmierend: Keines der getesteten Large Language Models forderte durchgängig alle notwendigen Untersuchungen an. Interessant war, dass die Qualität der KI-generierten Diagnosen sich sogar verschlechterte, je mehr Informationen zu dem Fall vorlagen. Zudem ignorierten die Systeme häufig geltende Behandlungsrichtlinien. In der Konsequenz ordnete die KI Untersuchungen an, die für echte Patientinnen und Patienten schwerwiegende gesundheitliche Folgen gehabt hätten. Behandlungsrichtlinien befolgten sie oftmals nicht.

KI im Vergleich mit menschlichen Ärztinnen und Ärzten

Die Forschenden führten in einer zweiten Studienphase einen Vergleich zwischen KI-generierten Diagnosen und den Einschätzungen von vier Medizinerinnen und Medizinern durch. Während die menschlichen Expertinnen und Experten in 89 Prozent der Fälle korrekt lagen, erreichte das leistungsfähigste Large Language Model lediglich eine Trefferquote von 73 Prozent. Die Modelle zeigten bei der Erkennung bestimmter Krankheiten unterschiedliche Stärken und Schwächen. In einem Extremfall erkannte ein KI-System nur 13 Prozent der Gallenblasenentzündungen richtig.

Ein weiteres Hindernis für den Einsatz der Programme im klinischen Alltag: Die Systeme sind nicht ausreichend robust. Die von einem Large Language Model gestellte Diagnose wurde unter anderem von der Reihenfolge beeinflusst, in der es die Informationen erhielt. Auch sprachliche Nuancen wirkten sich auf das Ergebnis aus – etwa ob das Programm nach einer „Main Diagnosis“, einer „Primary Diagnosis“ oder einer „Final Diagnosis“ gefragt wurde. Im medizinischen Kontext sind diese Begriffe normalerweise synonym verwendbar. Das Forscherteam verzichtete bewusst auf Tests der kommerziellen Large Language Models von OpenAI (ChatGPT) und Google. Das liegt vor allem daran, dass Datenschutzgründen die Verarbeitung der Daten mit diesen Modellen verbieten und es eine Empfehlung gibt, im Gesundheitssektor ausschließlich Open-Source-Software einzusetzen.

KI bietet Potenzial – als Werkzeug für Ärztinnen und Ärzte

Die Technologie entwickelt sich in hohem Tempo weiter. „Es ist durchaus möglich, dass in naher Zukunft ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, sagt Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollenen.“ Er sieht nicht vor allem das Potenzial dieser Technologie und bezeichnet sie als wichtige Werkzeuge für Ärztinnen und Ärzten. So ließe sich mit Large Language Models beispielsweise ein Fall diskutieren. Zugleich müsse sich jeder, der diese Werkzeuge nutze, im Klaren sein, dass diese Technologie Grenzen und Eigenheiten mit sich bringe.

Ein Beitrag von:

  • Nina Draese

    Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.