Stolperfalle in der IT 27.11.2025, 16:00 Uhr

Verwirrender Programmcode: KI und Mensch reagieren gleich

Ein Forscherteam der Universität des Saarlandes und des Max-Planck-Instituts für Softwaresysteme hat erstmals gezeigt, dass die Reaktionen von Menschen und großen Sprachmodellen (LLMs) auf komplexen oder irreführenden Programmcode messbar signifikant übereinstimmen.

Ein interdisziplinäres Forschungsteam verknüpft EEG-Messungen von Entwicklerinnen und Entwicklern mit der Unsicherheit großer Sprachmodelle – und zeigt: Mensch und KI stolpern über dieselben verwirrenden Code-Muster.

Ein interdisziplinäres Forschungsteam verknüpft EEG-Messungen von Entwicklerinnen und Entwicklern mit der Unsicherheit großer Sprachmodelle – und zeigt: Mensch und KI stolpern über dieselben verwirrenden Code-Muster.

Foto: Smarterpix/MediaWhalestock

In der Studie wurde untersucht, wie Menschen und LLMs auf verwirrenden Code reagieren. Dabei wurde die Hirnaktivität der Testpersonen damit verglichen, wie unsicher sich die Sprachmodelle bei der Vorhersage waren. Darauf aufbauend hat das Team eine datengetriebene Methode entwickelt, um solche unklaren Stellen im Code automatisiert aufzuspüren – eine Chance für bessere KI-Assistenten in der Softwareentwicklung.

Merkmale der Verwirrung

Die Merkmale solcher Code-Stellen, die in der Informatik als „Atoms of Confusion“ bezeichnet werden, sind in der Forschung bereits ausführlich betrachtet worden. Dabei handelt es sich um kurze, syntaktisch korrekte, aber für Menschen oft irreführende Programmiermuster, die selbst erfahrene Entwicklerinnen und Entwickler aus dem Konzept bringen können.

Durchführung der Studie

Das Forschungsteam verwendete einen interdisziplinären Ansatz, um herauszufinden, ob LLMs und Menschen über dieselben Stolperfallen „nachdenken“. Einerseits wurden Daten aus einer früheren Studie von Sven Apel, Professor für Software-Engineering der Universität des Saarlandes, und Kollegen genutzt. In dieser wurden die Probandinnen und Probanden gebeten, verwirrende und saubere Code-Variante zu lesen. Dabei wurde ihre Hirnaktivität, sowie die Aufmerksamkeit durch Elektroenzephalografie (EEG) und Eye Tracking gemessen.

Andererseits wurde die „Verwirrung“ von Sprachmodellen und deren Vertrauen in die eigenen Vorhersagen (Modellunsicherheit) anhand sogenannter Perplexity-Werte analysiert. Perplexity ist eine gängige Metrik, um Sprachmodelle zu bewerten (nicht zu verwechseln mit dem gleichnamigen Sprachmodell). Dabei wird auf der Grundlage von Wahrscheinlichkeiten quantifiziert, inwieweit die Vorhersagen von Textsequenzen unsicher sind.

Top Stellenangebote

Zur Jobbörse
GOLDBECK West GmbH-Firmenlogo
Bauleiter im Innendienst (m/w/d) für die Ausschreibung und Vergabe im Schlüsselfertigbau GOLDBECK West GmbH
BIM Berliner Immobilienmanagement GmbH-Firmenlogo
Ingenieur Versorgungstechnik / Gebäudetechnik / Bauingenieur als Fachplaner im Bereich HLS (m/w/d) BIM Berliner Immobilienmanagement GmbH
GOLDBECK West GmbH-Firmenlogo
Architekt / Bauingenieur als Projektleiter Planung (m/w/d) GOLDBECK West GmbH
Bochum, Düsseldorf (Monheim am Rhein) Zum Job 
Schleifring GmbH-Firmenlogo
Konstruktionsingenieur im Änderungswesen (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
Staatliche Gewerbeaufsicht Niedersachsen-Firmenlogo
Ingenieur/-in / Naturwissenschaftler/-in (m/w/d) für den Einsatz im Arbeitsschutz / Umweltschutz / Verbraucherschutz Staatliche Gewerbeaufsicht Niedersachsen
deutschlandweit Zum Job 
Bayerisches Staatsministerium für Wohnen, Bau und Verkehr-Firmenlogo
Energie- und Gebäudetechnik / Maschinenbau (m/w/d) Master - Traineeprogramm Maschinenwesen, Staatsbauverwaltung des Freistaats Bayern Bayerisches Staatsministerium für Wohnen, Bau und Verkehr
Bayernweit Zum Job 
RATISBONA-Firmenlogo
Tiefbauplaner / Bauingenieur für Tiefbau & Außenanlagen (m/w/d) RATISBONA
Regensburg Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur (w/m/d) für die Projektleitung von Lärmschutz- und Brückenbauwerken Die Autobahn GmbH des Bundes
Nürnberg Zum Job 
Max Bögl Bauservice GmbH & Co. KG-Firmenlogo
Automatisierungstechniker (m/w/d) im Bereich Sondermaschinenbau Max Bögl Bauservice GmbH & Co. KG
Sengenthal bei Neumarkt in der Oberpfalz Zum Job 
Jungheinrich Aktiengesellschaft-Firmenlogo
Tech Lead (m/w/d) Electric Powertrain / Elektromotoren Jungheinrich Aktiengesellschaft
Norderstedt Zum Job 
GOLDBECK West GmbH-Firmenlogo
Architekt / Bauingenieur als Sales Manager (m/w/d) für schlüsselfertige Gewerbeimmobilien GOLDBECK West GmbH
Clees Wohnimmobilien GmbH & Co. KG-Firmenlogo
Bauingenieur (m/w/d) Clees Wohnimmobilien GmbH & Co. KG
Düsseldorf Zum Job 
Schleifring GmbH-Firmenlogo
Head of Sales and Project Management (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
Immobilien Management Essen GmbH (IME)-Firmenlogo
(Senior) Projektkoordinator (m/w/d) Hochbau & Stadtentwicklung Immobilien Management Essen GmbH (IME)
Allbau Managementgesellschaft mbH-Firmenlogo
Projektentwickler (m/w/d) Immobilien Allbau Managementgesellschaft mbH
RINGSPANN GmbH-Firmenlogo
Vertriebsingenieur (m/w/d) als Produkt-Account-Manager Antriebskomponenten/Bremsen RINGSPANN GmbH
Bad Homburg Zum Job 
Crawford & Company (Deutschland) GmbH-Firmenlogo
Technical Expert / Sachverständiger (w/m/d) Bereich Global Technical Services Crawford & Company (Deutschland) GmbH
verschiedene Einsatzorte Zum Job 
GVE Grundstücksverwaltung Stadt Essen GmbH-Firmenlogo
Projektleiter (m/w/d) Schulbau GVE Grundstücksverwaltung Stadt Essen GmbH
KLEBL GmbH-Firmenlogo
Projektleiter (m/w/d) für Hoch- und Schlüsselfertigbau KLEBL GmbH
Raum Berlin-Brandenburg Zum Job 
KLEBL GmbH-Firmenlogo
Projektleiter (m/w/d) für Hoch- und Schlüsselfertigbau KLEBL GmbH
Frankfurt Zum Job 

Mensch und KI stolpern über die gleichen Hürden

Die Ergebnisse der Studie sind eindeutig: Da, wo Menschen am Programmcode hängen bleiben, zeigen auch die LLMs erhöhte Unsicherheit. Die EEG-Signale der Teilnehmerinnen und Teilnehmer, insbesondere die sogenannte „Late Frontal Positivity“, die in der Sprachforschung mit unerwarteten Satzenden assoziiert ist, stieg genau dort an, wo auch das Sprachmodell einen Unsicherheitssprung zeigte.

„Wir waren erstaunt, dass der Ausschlag in Hirnaktivität und der Modellunsicherheit signifikante Korrelationen aufwiesen“, sagt Informatik-Doktorand Youssef Abdelsalam.

Algorithmus, der Schwachstellen im Code erkennt

Basierend auf dieser Ähnlichkeit haben die Forschenden ein datengetriebenes Verfahren entwickelt, welches unklare Stellen im Code automatisch erkennt und kennzeichnet. In mehr als 60 % der Fälle hat der Algorithmus die verwirrenden Strukturen im Test-Code erfolgreich identifiziert, die vorab bekannt und von Hand markiert waren. Darüber hinaus wurden mehr als 150 neue, bislang unerkannte Muster entdeckt, die ebenfalls mit erhöhter Hirnaktivität der Probandinnen und Probanden einhergingen.

„Wenn wir wissen, wann und warum LLMs und Menschen gleichermaßen ins Stolpern geraten, können wir Werkzeuge entwickeln, die Programmcode verständlicher machen und die Zusammenarbeit zwischen Mensch und KI deutlich verbessern“, sagt Professor Sven Apel.

Ein Beitrag von:

  • Anastasia Pukhovich

    Anastasia Pukhovich ist Volontärin beim VDI Verlag. Ihre Tätigkeit beim Max-Planck-Institut für Nachhaltige Materialien weckte ihr Interesse an allen Themen rund um Wissenschaft und Technik. Besonders gerne verfolgt sie journalistisch die Themen Medizintechnik und Karriere.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.