Neue Werkzeuge 23.07.2024, 06:50 Uhr

Kann KI den Arzt ersetzen?

Sogenannte Large Language Models können schon eine Menge – zum Beispiel das Medizin-Examen bestehen. Doch es gibt auch Grenzen, wie eine aktuelle Studie zeigt.

Ärztin tippt auf eine virtuelle Grafik mit medizinischen Symbolen

Eine aktuelle Studie enthüllt die Möglichkeiten und Grenzen des Einsatzes von KI in der Medizin.

Foto: panthermedia.net/BiancoBlue

Forschende der Technischen Universität München (TUM) haben im Rahmen einer Studie die Eignung von KI-basierten Large Language Models für den klinischen Alltag untersucht. Obwohl diese Modelle es schaffen können, das medizinische Examen zu bestehen, erweisen sie sich für den Einsatz in der Patientenversorgung eher als ungeeignet. Die Studie deckt gravierende Mängel auf, die das Wohl von Patientinnen und Patienten gefährden würden.

Mit KI Gedanken lesen und Lügen erkennen

Das interdisziplinäre Team um Professor Daniel Rückert, Lehrstuhlinhaber für Artificial Intelligence in Healthcare and Medicine an der TUM, analysierte verschiedene Varianten des Open-Source-Large-Language-Models Llama 2. Ziel war es herauszufinden, ob diese KI-Systeme in der Lage wären, die Aufgaben von medizinischem Personal in einer Notaufnahme zu übernehmen – von der Anordnung geeigneter Tests über die Diagnosestellung bis hin zur Erstellung eines Behandlungsplans.

KI in der Notaufnahme: Simulation mit realen Patientendaten

Für die Studie, die im renommierten Fachmagazin „Nature Medicine“ veröffentlicht wurde, nutzte das Forscherteam anonymisierte Daten von 2.400 Patientinnen und Patienten einer US-amerikanischen Klinik. Alle Fälle betrafen Menschen, die mit Bauchschmerzen die Notaufnahme aufsuchten. Die Fallbeschreibungen enthielten umfassende Informationen, wie Krankengeschichte, Blutwerte und Bildgebungsdaten, und endeten jeweils mit einer von vier Diagnosen und einem Behandlungsplan.

Top Stellenangebote

Zur Jobbörse
Staatliches Gewerbeaufsichtsamt Braunschweig-Firmenlogo
Ingenieur/-in / Naturwissenschaftler/-in (m/w/d) für den Einsatz im Bereich Medizintechnik/-Produkte Staatliches Gewerbeaufsichtsamt Braunschweig
Braunschweig Zum Job 
Aerologic GmbH-Firmenlogo
Engineer Aircraft Reliability & Maintenance Program (m/f/x) Aerologic GmbH
Schkeuditz Zum Job 
Seppeler Holding & Verwaltungs GmbH & Co. KG-Firmenlogo
Verfahrenstechniker / Ingenieur Verfahrenstechnik (m/w/d) Seppeler Holding & Verwaltungs GmbH & Co. KG
Rietberg Zum Job 
Hallesche Wasser und Stadtwirtschaft GmbH-Firmenlogo
Kalkulator Tiefbau (m/w/d) für den Bereich Wasser/Abwasser Hallesche Wasser und Stadtwirtschaft GmbH
Halle (Saale) Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur (w/m/d) konstruktiver Ingenieurbau Die Autobahn GmbH des Bundes
GSI Helmholtzzentrum für Schwerionenforschung GmbH-Firmenlogo
Ingenieur*in oder Physiker*in (d/m/w) GSI Helmholtzzentrum für Schwerionenforschung GmbH
Darmstadt Zum Job 
GSI Helmholtzzentrum für Schwerionenforschung GmbH-Firmenlogo
Ingenieur*innen (d/m/w) GSI Helmholtzzentrum für Schwerionenforschung GmbH
Darmstadt Zum Job 
noris network AG-Firmenlogo
Senior Datacenter Engineer / Elektroingenieur (m/w/d) - Fokus Infrastruktur & Systemstabilität noris network AG
Nürnberg Zum Job 
Landkreis Grafschaft Bentheim-Firmenlogo
Klimaschutzkoordinator*in (m/w/d) Landkreis Grafschaft Bentheim
Nordhorn Zum Job 
Netzgesellschaft Potsdam GmbH-Firmenlogo
Projektleiter / Bauleiter (m/w/d) Netzbau und Anlagenbau Strom Netzgesellschaft Potsdam GmbH
Potsdam Zum Job 
Infraserv GmbH & Co. Höchst KG-Firmenlogo
Ingenieur Messstellenbetrieb Erdgas, Wasser und Wärme (w/m/d) Infraserv GmbH & Co. Höchst KG
Frankfurt am Main Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur (w/m/d) Straßenbau - Außenstelle Hagen Die Autobahn GmbH des Bundes
MVV Biogas GmbH-Firmenlogo
Betriebsingenieur Biogas (m/w/d) MVV Biogas GmbH
Barby, Bernburg (Saale), Dresden, Wanzleben-Börde, Kroppenstedt, Staßfurt Zum Job 
Gemeinde Pullach i. Isartal-Firmenlogo
Mitarbeiter (m/w/d) für den technischen Bauunterhalt Gemeinde Pullach i. Isartal
Pullach i. Isartal Zum Job 
Schleifring GmbH-Firmenlogo
Vertriebsingenieur/ Projektleiter (m/w/d) Medizintechnik (CT) und Windkraft Asien Schleifring GmbH
Fürstenfeldbruck Zum Job 
Aarsleff Rohrsanierung GmbH-Firmenlogo
Bauleiter (m/w/d) Aarsleff Rohrsanierung GmbH
Röthenbach Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein-Firmenlogo
Bauingenieurin / Bauingenieur (w/m/d) für den Bereich Straßenbau Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein
Kiel, Flensburg, Rendsburg, Itzehoe, Lübeck Zum Job 
HAMBURG WASSER-Firmenlogo
Abteilungsleitung Kläranlage Prozessführung Abwasser (m/w/d) HAMBURG WASSER
Hamburg Zum Job 
TechnoCompound GmbH-Firmenlogo
Produktionsingenieur:in (m/w/d) TechnoCompound GmbH
Bad Sobernheim Zum Job 

„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. „Das Programm hat immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt.“

Die Ergebnisse der Studie sind alarmierend: Keines der getesteten Large Language Models forderte durchgängig alle notwendigen Untersuchungen an. Interessant war, dass die Qualität der KI-generierten Diagnosen sich sogar verschlechterte, je mehr Informationen zu dem Fall vorlagen. Zudem ignorierten die Systeme häufig geltende Behandlungsrichtlinien. In der Konsequenz ordnete die KI Untersuchungen an, die für echte Patientinnen und Patienten schwerwiegende gesundheitliche Folgen gehabt hätten. Behandlungsrichtlinien befolgten sie oftmals nicht.

KI im Vergleich mit menschlichen Ärztinnen und Ärzten

Die Forschenden führten in einer zweiten Studienphase einen Vergleich zwischen KI-generierten Diagnosen und den Einschätzungen von vier Medizinerinnen und Medizinern durch. Während die menschlichen Expertinnen und Experten in 89 Prozent der Fälle korrekt lagen, erreichte das leistungsfähigste Large Language Model lediglich eine Trefferquote von 73 Prozent. Die Modelle zeigten bei der Erkennung bestimmter Krankheiten unterschiedliche Stärken und Schwächen. In einem Extremfall erkannte ein KI-System nur 13 Prozent der Gallenblasenentzündungen richtig.

Ein weiteres Hindernis für den Einsatz der Programme im klinischen Alltag: Die Systeme sind nicht ausreichend robust. Die von einem Large Language Model gestellte Diagnose wurde unter anderem von der Reihenfolge beeinflusst, in der es die Informationen erhielt. Auch sprachliche Nuancen wirkten sich auf das Ergebnis aus – etwa ob das Programm nach einer „Main Diagnosis“, einer „Primary Diagnosis“ oder einer „Final Diagnosis“ gefragt wurde. Im medizinischen Kontext sind diese Begriffe normalerweise synonym verwendbar. Das Forscherteam verzichtete bewusst auf Tests der kommerziellen Large Language Models von OpenAI (ChatGPT) und Google. Das liegt vor allem daran, dass Datenschutzgründen die Verarbeitung der Daten mit diesen Modellen verbieten und es eine Empfehlung gibt, im Gesundheitssektor ausschließlich Open-Source-Software einzusetzen.

KI bietet Potenzial – als Werkzeug für Ärztinnen und Ärzte

Die Technologie entwickelt sich in hohem Tempo weiter. „Es ist durchaus möglich, dass in naher Zukunft ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, sagt Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollenen.“ Er sieht nicht vor allem das Potenzial dieser Technologie und bezeichnet sie als wichtige Werkzeuge für Ärztinnen und Ärzten. So ließe sich mit Large Language Models beispielsweise ein Fall diskutieren. Zugleich müsse sich jeder, der diese Werkzeuge nutze, im Klaren sein, dass diese Technologie Grenzen und Eigenheiten mit sich bringe.

Ein Beitrag von:

  • Nina Draese

    Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.