Künstliche Intelligenz 11.02.2025, 07:00 Uhr

Dieser Test weist die KI in ihre Schranken

Der neue Test „Humanity’s Last Exam“ bringt selbst fortschrittlichste KI-Modelle ins Straucheln. Was den Test so besonders macht und welche Lehren sich daraus für den Einsatz von künstlicher Intelligenz (KI) ziehen lassen.

Eine rauchender Prozessor

Da raucht auch KI der Kopf: Ein Test bringt Künstliche Intelligenz an ihre Grenzen.

Foto: PantherMedia / Sergiy Artsaba

Moderne KI-Systeme beeindrucken mit Leistungen in verschiedenen Bereichen, doch der kürzlich veröffentlichte Test „Humanity’s Last Exam“ deckt die Schwächen der Technologie auf. Entwickelt von den US-Organisationen Scale AI und dem Center for AI Safety (CAIS) unter Mitwirkung von rund 1.000 Expertinnen und Experten aus aller Welt, umfasst der Test 3.000 anspruchsvolle Fragen aus Wissenschaft und Forschung. Selbst Spitzenmodelle wie GPT-4 und Google Gemini erreichen dabei lediglich eine Erfolgsquote von weniger als zehn Prozent. Sören Möller, Materialwissenschaftler am Forschungszentrum Jülich ist einer der Mitautoren des Tests. Er kann die Hintergründe und Auswirkungen dieses ernüchternden Ergebnisses für die Weiterentwicklung und Anwendung von künstlicher Intelligenz einschätzen.

Die Entwicklung geeigneter Fragen für „Humanity’s Last Exam“ stellte sich als überraschend herausfordernd heraus, wie Möller berichtet. Anfängliche Aufgaben aus seinen Fachgebieten, Ionenstrahlanalytik und Strahlenschutz, konnten die KI-Modelle mühelos meistern. „Erst bei komplexeren mehrstufigen Aufgaben mit herausfordernder Logik konnte ich alle KI-Modelle an ihre Grenzen bringen.“ Der Test prüft im Kern, ob ein Large Language Model (LLM) wie ChatGPT4 in der Lage wäre, einen akademischen Abschluss auf Master- oder Promotionsniveau zu erlangen. Im Gegensatz zu bisherigen Benchmarks, die aufgrund der rasanten Fortschritte der KI-Technologie an Aussagekraft eingebüßt haben, bietet „Humanity’s Last Exam“ durch seine Komplexität ein zukunftsfähiges Maß für die Leistungsfähigkeit von LLMs.

Künstliche Intelligenz versagt bei akademischen Aufgaben

Die getesteten KI-Modelle schnitten nicht sonderlich gut ab: Keines der Systeme konnte mehr als zehn Prozent der Fragen korrekt beantworten. Dieser Kontrast zu den positiven Leistungen von LLMs in Bereichen wie Chatbots oder Übersetzungen wirft Fragen auf. Interessanterweise erzielte das kostengünstigere Modell DeepSeek-R1 bei Textaufgaben sogar bessere Ergebnisse als die für wissenschaftliche Zwecke optimierte Version von ChatGPT. Die Ursachen für das generelle Versagen der KI-Systeme bei „Humanity’s Last Exam“ sind noch nicht abschließend geklärt, Möller vermutet jedoch, dass es den Modellen an echten Denkfähigkeiten mangelt. Im Gegensatz zu Menschen können LLMs Probleme nicht zerlegen, Antworten konsistent prüfen oder auf mehreren Ebenen reflektieren.

Aktuelle Forschungsansätze versuchen, diese Defizite zu beheben. Konzepte wie „Mixture of Experts“, bei dem das LLM zunächst die Anfrage einsortiert und dann nur einen spezialisierten Teil seines neuralen Netzes zur Antwortgenerierung nutzt, versprechen Verbesserungen. Auch der Ansatz „Chains-of-Thought“, der LLMs zu einer begrenzten Selbstverifikation ihrer Antworten befähigt, zielt darauf ab, die Ergebnisqualität zu optimieren. Das vergleichsweise gute Abschneiden von DeepSeek-R1 und ChatGPT-o1, die diese Konzepte einbinden, deutet auf das Potenzial dieser Ansätze hin.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
TenneT TSO GmbH-Firmenlogo
Sachbearbeiter für Wandler in Umspannwerken (m/w/d) TenneT TSO GmbH
DICO Drinks GmbH-Firmenlogo
Projektmanager - Betriebsengineering (m/w/d) DICO Drinks GmbH
Hückelhoven Zum Job 
Emscher Lippe Energie GmbH-Firmenlogo
Teamleiter operativer Messstellenbetrieb (m/w/d) Emscher Lippe Energie GmbH
Gelsenkirchen Zum Job 
Stadtwerke Verkehrsgesellschaft Frankfurt am Main mbH-Firmenlogo
Konstruktionsingenieur:in EPLAN (d/m/w) Stadtwerke Verkehrsgesellschaft Frankfurt am Main mbH
Frankfurt am Main Zum Job 
PFISTERER Kontaktsysteme GmbH-Firmenlogo
Entwicklungsingenieur Hochspannungstechnik - HVDC (m/w/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 
Müller & Bleher Ulm GmbH & Co. KG-Firmenlogo
Projektleiter Elektrotechnik / Stromversorgung (m/w/d) Müller & Bleher Ulm GmbH & Co. KG
THOST Projektmanagement GmbH-Firmenlogo
Ingenieur*in / Projektmanager*in (m/w/d) in der Steuerung von Großprojekten im Bereich Energiewende THOST Projektmanagement GmbH
WITTENSTEIN motion control GmbH-Firmenlogo
Systemingenieur (w/m/d) WITTENSTEIN motion control GmbH
Igersheim-Harthausen Zum Job 
IMS Messsysteme GmbH-Firmenlogo
Sales Manager (m/w/i) Oberflächeninspektion IMS Messsysteme GmbH
Heiligenhaus Zum Job 
FFG Flensburger Fahrzeugbau Gesellschaft mbH-Firmenlogo
Konstrukteur (m/w/d) - Elektromechanik FFG Flensburger Fahrzeugbau Gesellschaft mbH
Flensburg Zum Job 
TÜV Technische Überwachung Hessen GmbH-Firmenlogo
Ausbildung Prüfingenieur/-in (m/w/d) bzw. Sachverständige/-r (m/w/d) für den Tätigkeitsbereich Fahrzeugprüfung und Fahrerlaubnisprüfung TÜV Technische Überwachung Hessen GmbH
Schlüchtern Zum Job 
Ostbayerische Technische Hochschule Amberg-Weiden (OTH)-Firmenlogo
Professur (m/w/d) der BesGr. W2 für das Lehrgebiet Solarenergie und Gebäudeautomation Ostbayerische Technische Hochschule Amberg-Weiden (OTH)
Wirtgen GmbH-Firmenlogo
Functional Safety Software Engineer (m/w/d) - für mobile Arbeitsmaschinen Wirtgen GmbH
Windhagen Zum Job 
WARO MSR-Technik GmbH-Firmenlogo
SPS-/DDC-Programmierer (m/w/d) und/oder DDC-Programmierer (m/w/d) WARO MSR-Technik GmbH
Lübeck Zum Job 
swa Netze GmbH-Firmenlogo
Elektroingenieur (m/w/d) Einspeiseanlagen mit Führungsperspektive swa Netze GmbH
Augsburg Zum Job 
WBS TRAINING-Firmenlogo
Lernbegleiter:in / Trainer:in für SPS-Programmierung (m/w/d) WBS TRAINING
Deutschland / Homeoffice Zum Job 
Prognost Systems GmbH-Firmenlogo
Spezialist für Maschinendiagnose im Technischen Support / Elektrotechniker / Maschinenbauer (m/w/d) Prognost Systems GmbH
Bundesamt für Bauwesen und Raumordnung (BBR)-Firmenlogo
Ingenieurinnen / Ingenieure (w/m/d) für Elektrotechnik Bundesamt für Bauwesen und Raumordnung (BBR)
HEINE Optotechnik GmbH & Co. KG-Firmenlogo
Ingenieur für Automatisierung und Robotik (m/w/d) HEINE Optotechnik GmbH & Co. KG
Gilching bei München Zum Job 

Grenzen von Künstlicher Intelligenz in der Wissenschaft

Das schlechte Ergebnis bei „Humanity’s Last Exam“ hat Konsequenzen für den Einsatz von KI in der Wissenschaft. Es liefert erstmals ein quantitatives Maß für die bisherige Skepsis gegenüber den Fähigkeiten von LLMs. Auch Erfahrungen aus dem Forschungszentrum Jülich, etwa mit KI-gestützten Verlagsprogrammen oder den Logikfähigkeiten von LLMs, zeichnen ein ernüchterndes Bild. Künstliche Intelligenz leistet bei wissenschaftlichem Zuarbeiten wie Programmierung oder Anbieterrecherchen bereits gute Dienste. „Das schlechte Abschneiden bei dem Test verdeutlicht aber: Wissenschaftliche Kernaufgaben wie das wissenschaftliche Schreiben, die Modellentwicklung oder die Dateninterpretation können LLMs momentan noch nicht zuverlässig erledigen“, sagt Möller.

Zwar sind die Fragen bei „Humanity’s Last Exam“ sehr anspruchsvoll und wohl auch für Menschen nicht vollständig lösbar, doch eine Erfolgsquote von 80 Prozent wäre ein wichtiges Zwischenziel für die KI-Entwicklung, bevor weitere Anwendungen in Betracht gezogen werden können. Möller vermutet, dass dafür noch erhebliche Änderungen an der Struktur von LLMs erforderlich sind, um komplexe Denkprozesse oder die Zerlegung von Aufgaben in einfachere Teilschritte zu ermöglichen.

Künstliche Intelligenz braucht neue Denkstrukturen

Trotz des schlechten Abschneidens bei „Humanity’s Last Exam“ zeigt der Test wichtige Entwicklungsmöglichkeiten für KI-Systeme auf. Um die Leistungsfähigkeit von LLMs weiter zu steigern, bedarf es neuer Ansätze zur Nachbildung menschlicher Denkstrukturen. Konzepte wie „Mixture of Experts“ und „Chains-of-Thought“ weisen dabei in die richtige Richtung, indem sie die Effizienz und Selbstverifikation von KI-Modellen verbessern. Es bleibt aber noch ein weiter Weg, bis Künstliche Intelligenz in der Lage sein wird, komplexe Probleme eigenständig zu zerlegen, Antworten konsistent zu prüfen und auf mehreren Ebenen zu reflektieren.

Ein Beitrag von:

  • Julia Klinkusch

    Julia Klinkusch ist seit 2008 selbstständige Journalistin und hat sich auf Wissenschafts- und Gesundheitsthemen spezialisiert. Seit 2010 gehört sie zum Team von Content Qualitäten. Ihre Themen: Klima, KI, Technik, Umwelt, Medizin/Medizintechnik.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.