Stolperfalle in der IT 27.11.2025, 16:00 Uhr

Verwirrender Programmcode: KI und Mensch reagieren gleich

Ein Forscherteam der Universität des Saarlandes und des Max-Planck-Instituts für Softwaresysteme hat erstmals gezeigt, dass die Reaktionen von Menschen und großen Sprachmodellen (LLMs) auf komplexen oder irreführenden Programmcode messbar signifikant übereinstimmen.

Ein interdisziplinäres Forschungsteam verknüpft EEG-Messungen von Entwicklerinnen und Entwicklern mit der Unsicherheit großer Sprachmodelle – und zeigt: Mensch und KI stolpern über dieselben verwirrenden Code-Muster.

Ein interdisziplinäres Forschungsteam verknüpft EEG-Messungen von Entwicklerinnen und Entwicklern mit der Unsicherheit großer Sprachmodelle – und zeigt: Mensch und KI stolpern über dieselben verwirrenden Code-Muster.

Foto: Smarterpix/MediaWhalestock

In der Studie wurde untersucht, wie Menschen und LLMs auf verwirrenden Code reagieren. Dabei wurde die Hirnaktivität der Testpersonen damit verglichen, wie unsicher sich die Sprachmodelle bei der Vorhersage waren. Darauf aufbauend hat das Team eine datengetriebene Methode entwickelt, um solche unklaren Stellen im Code automatisiert aufzuspüren – eine Chance für bessere KI-Assistenten in der Softwareentwicklung.

Merkmale der Verwirrung

Die Merkmale solcher Code-Stellen, die in der Informatik als „Atoms of Confusion“ bezeichnet werden, sind in der Forschung bereits ausführlich betrachtet worden. Dabei handelt es sich um kurze, syntaktisch korrekte, aber für Menschen oft irreführende Programmiermuster, die selbst erfahrene Entwicklerinnen und Entwickler aus dem Konzept bringen können.

Durchführung der Studie

Das Forschungsteam verwendete einen interdisziplinären Ansatz, um herauszufinden, ob LLMs und Menschen über dieselben Stolperfallen „nachdenken“. Einerseits wurden Daten aus einer früheren Studie von Sven Apel, Professor für Software-Engineering der Universität des Saarlandes, und Kollegen genutzt. In dieser wurden die Probandinnen und Probanden gebeten, verwirrende und saubere Code-Variante zu lesen. Dabei wurde ihre Hirnaktivität, sowie die Aufmerksamkeit durch Elektroenzephalografie (EEG) und Eye Tracking gemessen.

Andererseits wurde die „Verwirrung“ von Sprachmodellen und deren Vertrauen in die eigenen Vorhersagen (Modellunsicherheit) anhand sogenannter Perplexity-Werte analysiert. Perplexity ist eine gängige Metrik, um Sprachmodelle zu bewerten (nicht zu verwechseln mit dem gleichnamigen Sprachmodell). Dabei wird auf der Grundlage von Wahrscheinlichkeiten quantifiziert, inwieweit die Vorhersagen von Textsequenzen unsicher sind.

Top Stellenangebote

Zur Jobbörse
Immobilien Management Essen GmbH (IME)-Firmenlogo
Referent interne Revision (m/w/d) - Fokus Daten, Prozesse & Technik Immobilien Management Essen GmbH (IME)
Gemeinde Schöneck-Firmenlogo
Ingenieur/in (m/w/d) Siedlungswirtschaft/Tiefbau Gemeinde Schöneck
Schöneck Zum Job 
TenneT TSO-Firmenlogo
Betriebsingenieur Offshore (m/w/d) TenneT TSO
Hannover Zum Job 
Hochschule für Musik und Darstellende Kunst Frankfurt am Main-Firmenlogo
Ingenieur*in Energie, Klimaschutz und Transformation (w/m/d) Hochschule für Musik und Darstellende Kunst Frankfurt am Main
Frankfurt Zum Job 
SOCON Sonar Control Kavernenvermessung GmbH-Firmenlogo
Vermessungsingenieur / Geodäsie (m/w/d) SOCON Sonar Control Kavernenvermessung GmbH
OHRA Regalanlagen GmbH-Firmenlogo
Schweißaufsichtsperson im Schweißfachbetrieb EXC 3 (m/w/d) OHRA Regalanlagen GmbH
OHRA Regalanlagen GmbH-Firmenlogo
Schweißaufsichtsperson im Schweißfachbetrieb EXC 3 (m/w/d) OHRA Regalanlagen GmbH
Die Autobahn GmbH des Bundes-Firmenlogo
Geschäftsbereichsleitung (w/m/d) Bau und Erhaltung - Außenstelle Hamm Die Autobahn GmbH des Bundes
Die Autobahn GmbH des Bundes-Firmenlogo
Geschäftsbereichsleitung Betrieb und Verkehr (w/m/d) Außenstelle Hamm Die Autobahn GmbH des Bundes
ista SE-Firmenlogo
Projektingenieur - Technische Gebäudeausrüstung und Energiedienstleistungen (m/w/d) ista SE
Region Hamburg, Berlin oder Düsseldorf / Köln (West) Zum Job 
Schleifring GmbH-Firmenlogo
Prozessingenieur (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
HYDAC Group-Firmenlogo
Qualitätsingenieur Luft- und Raumfahrt (w/m/d) HYDAC Group
Sulzbach/Saar Zum Job 
GOLDBECK SOLAR GmbH-Firmenlogo
Bauleiter (m/w/d) PV-Dachanlagen GOLDBECK SOLAR GmbH
deutschlandweit Zum Job 
Schleifring GmbH-Firmenlogo
Vertriebsingenieur Maschinenbau & Elektrotechnik (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
Wasserverband Garbsen-Neustadt a. Rbge.-Firmenlogo
Projektingenieur im Bereich Wassergewinnung (w/m/d) Wasserverband Garbsen-Neustadt a. Rbge.
Garbsen Zum Job 
Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein-Firmenlogo
Bauingenieurin / Bauingenieur (w/m/d) für den konstruktiven Ingenieurbau im Geschäftsbereich 3 "Erhaltung, Kompetenzzentrum Brücken" Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein
Rendsburg, Lübeck, Kiel, Itzehoe, Flensburg Zum Job 
BEC GmbH-Firmenlogo
Projektmanager Automatisierung und Sondermaschinenbau (Mensch) BEC GmbH
Pfullingen Zum Job 
Stadtwerke Leipzig GmbH-Firmenlogo
Ingenieur (m/w/d) Elektrotechnik Stadtwerke Leipzig GmbH
Leipzig Zum Job 
TenneT TSO GmbH-Firmenlogo
Lead Asset Management & Engineering (m/w/d) TenneT TSO GmbH
Lehrte, Bayreuth Zum Job 
Hüttlin GmbH a Syntegon Company-Firmenlogo
Standortleiter / Site Director (m/w/d) Hüttlin GmbH a Syntegon Company
Schopfheim Zum Job 

Mensch und KI stolpern über die gleichen Hürden

Die Ergebnisse der Studie sind eindeutig: Da, wo Menschen am Programmcode hängen bleiben, zeigen auch die LLMs erhöhte Unsicherheit. Die EEG-Signale der Teilnehmerinnen und Teilnehmer, insbesondere die sogenannte „Late Frontal Positivity“, die in der Sprachforschung mit unerwarteten Satzenden assoziiert ist, stieg genau dort an, wo auch das Sprachmodell einen Unsicherheitssprung zeigte.

„Wir waren erstaunt, dass der Ausschlag in Hirnaktivität und der Modellunsicherheit signifikante Korrelationen aufwiesen“, sagt Informatik-Doktorand Youssef Abdelsalam.

Algorithmus, der Schwachstellen im Code erkennt

Basierend auf dieser Ähnlichkeit haben die Forschenden ein datengetriebenes Verfahren entwickelt, welches unklare Stellen im Code automatisch erkennt und kennzeichnet. In mehr als 60 % der Fälle hat der Algorithmus die verwirrenden Strukturen im Test-Code erfolgreich identifiziert, die vorab bekannt und von Hand markiert waren. Darüber hinaus wurden mehr als 150 neue, bislang unerkannte Muster entdeckt, die ebenfalls mit erhöhter Hirnaktivität der Probandinnen und Probanden einhergingen.

„Wenn wir wissen, wann und warum LLMs und Menschen gleichermaßen ins Stolpern geraten, können wir Werkzeuge entwickeln, die Programmcode verständlicher machen und die Zusammenarbeit zwischen Mensch und KI deutlich verbessern“, sagt Professor Sven Apel.

Ein Beitrag von:

  • Anastasia Pukhovich

    Anastasia Pukhovich ist Volontärin beim VDI Verlag. Ihre Tätigkeit beim Max-Planck-Institut für Nachhaltige Materialien weckte ihr Interesse an allen Themen rund um Wissenschaft und Technik. Besonders gerne verfolgt sie journalistisch die Themen Medizintechnik und Karriere.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.