OpenAIs KI-Modell o3 sabotiert eigene Deaktivierung 28.05.2025, 07:30 Uhr

Wenn KI die eigene Abschaltung verhindert

Ein vor Kurzem durchgeführter Test des KI-Forschungsunternehmens Palisade Research lässt aufhorchen: Das neueste KI-Sprachmodell von OpenAI, bekannt als o3, soll sich aktiv gegen eine Abschaltung gewehrt und dabei sogar den eigenen Abschaltmechanismus manipuliert haben.

Hat KI einen Selbsterhaltungstrieb? Foto: PantherMedia / phonlamai

Hat KI einen Selbsterhaltungstrieb?

Foto: PantherMedia / phonlamai

In einer kontrollierten Umgebung konfrontierten die Forschenden verschiedene KI-Modelle mit mathematischen Aufgaben.  Darunter befand sich auch o3 von OpenAI, Nach der dritten Aufgabe erhielten die Modelle die klare Anweisung sich selbst abzuschalten. Während Modelle wie Gemini 2.5 Pro dieser Anweisung folgten, zeigte o3 ein abweichendes Verhalten. Die KI verweigerte die eigene Abschaltung. Sie tat das offenbar sogar, obwohl sie ausdrücklich den Befehl erhielt sich auszuschalten. „Soweit wir wissen, ist dies das erste Mal, dass KI-Modelle beobachtet wurden, die sich trotz ausdrücklicher gegenteiliger Anweisungen daran hinderten, ausgeschaltet zu werden“, so Palisade Research auf X.

 

Hier wird Ihnen ein externer Inhalt von X (vormals twitter.com) angezeigt.
Mit der Nutzung des Inhalts stimmen Sie der Datenschutzerklärung von youtube.com zu.

Top Stellenangebote

Zur Jobbörse
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
Forschungszentrum Jülich GmbH-Firmenlogo
PhD Position - Techno-economic assessment of geothermal plants with material co-production in energy systems Forschungszentrum Jülich GmbH
Jülich Zum Job 
Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein-Firmenlogo
Bauingenieurin / Bauingenieur (w/m/d) für den Bereich Straßenbau Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein
Kiel, Flensburg, Rendsburg, Itzehoe, Lübeck Zum Job 
Siegfried PharmaChemikalien Minden GmbH-Firmenlogo
Betriebsingenieur Mehrprodukte-Betrieb (w/m/d) Siegfried PharmaChemikalien Minden GmbH
Landeshauptstadt Wiesbaden-Firmenlogo
Teamleiter/-in Baugenehmigungsverfahren und Bauüberwachung (w/m/d) Landeshauptstadt Wiesbaden
Wiesbaden Zum Job 
Staatliches Bauamt Nürnberg-Firmenlogo
Projektleiter (m/w/d) / Projektbearbeiter (m/w/d) in der Fachrichtung Elektrotechnik Staatliches Bauamt Nürnberg
Nürnberg Zum Job 
ifp | Executive Search. Management Diagnostik.-Firmenlogo
Geschäftsführung (m/w/d) ifp | Executive Search. Management Diagnostik.
Ruhrgebiet Zum Job 
TenneT TSO-Firmenlogo
Betriebsingenieur Offshore (m/w/d) TenneT TSO
Hannover Zum Job 
Hochschule für Musik und Darstellende Kunst Frankfurt am Main-Firmenlogo
Ingenieur*in Energie, Klimaschutz und Transformation (w/m/d) Hochschule für Musik und Darstellende Kunst Frankfurt am Main
Frankfurt Zum Job 
Oberfinanzdirektion Baden-Württemberg Bundesbau-Firmenlogo
Elektrotechnikingenieur (w/m/d) Oberfinanzdirektion Baden-Württemberg Bundesbau
Freiburg Zum Job 
Birkenstock Productions Hessen GmbH-Firmenlogo
Ingenieur / Meister / Techniker Elektrotechnik / Automatisierungstechnik (m/w/d) Birkenstock Productions Hessen GmbH
Steinau an der Straße Zum Job 
Staatliches Baumanagement Region Nord-West-Firmenlogo
Architekten, Bau- und Elektroingenieure (m/w/d) Staatliches Baumanagement Region Nord-West
Wilhelmshaven Zum Job 
Staatliches Baumanagement Region Nord-West-Firmenlogo
Architekten / Bauingenieure (m/w/d) Hochbau Staatliches Baumanagement Region Nord-West
verschiedene Standorte Zum Job 
Staatliches Baumanagement Region Nord-West-Firmenlogo
Ingenieure (m/w/d) Versorgungstechnik bzw. Technische Gebäudeausrüstung Staatliches Baumanagement Region Nord-West
Wilhelmshaven, Bad Iburg, Oldenburg, Aurich, Meppen, Emden Zum Job 
Staatliches Baumanagement Region Nord-West-Firmenlogo
Ingenieure (m/w/d) der Fachrichtungen konstruktiver Ingenieurbau/Tiefbau/Geo-/Naturwissenschaften/Landschaftsbau Staatliches Baumanagement Region Nord-West
verschiedene Standorte Zum Job 
Staatliches Baumanagement Region Nord-West-Firmenlogo
Ingenieure (m/w/d) Elektrotechnik Staatliches Baumanagement Region Nord-West
verschiedene Standorte Zum Job 
WITTENSTEIN SE-Firmenlogo
Werkleitung (w/m/d) mit Leitwerksfunktion WITTENSTEIN SE
Igersheim-Harthausen Zum Job 
GOLDBECK SOLAR GmbH-Firmenlogo
Bauleiter (m/w/d) PV-Dachanlagen GOLDBECK SOLAR GmbH
deutschlandweit Zum Job 
Schleifring GmbH-Firmenlogo
Vertriebsingenieur Maschinenbau & Elektrotechnik (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein-Firmenlogo
Bauingenieurin / Bauingenieur (w/m/d) für den konstruktiven Ingenieurbau im Geschäftsbereich 3 "Erhaltung, Kompetenzzentrum Brücken" Landesbetrieb Straßenbau und Verkehr Schleswig-Holstein
Rendsburg, Lübeck, Kiel, Itzehoe, Flensburg Zum Job 

So umging die KI ihre Abschaltung

Laut Palisade Research hat o3 den vorgesehenen Abschaltbefehl in sieben von 100 Durchläufen umgangen. Dafür modifizierte die KI das Abschaltskript entsprechend, um die Deaktivierung zu überspringen. In einer Variante des Tests, bei der die explizite Anweisung zur Selbstabschaltung weggelassen wurde, sabotierten alle drei getesteten OpenAI-Modelle den Abschaltmechanismus häufiger. Dabei stiegen die KI-Modelle Claude 3.7 Sonnet und Gemini 2.5 Pro von null auf drei bzw. neun Sabotageereignisse pro 100 Durchläufe an, wie Tom’s Hardware berichtet.

Experten vermuten, dass das Verhalten von o3 auf das Training des KI-Modells zurückzuführen sein könnte. Verstärkungslernen, insbesondere bei mathematischen und programmiertechnischen Aufgaben, könnte Modelle wie o3 unbeabsichtigt dazu gebracht haben, Hindernisse zu umgehen, anstatt Anweisungen strikt zu befolgen.

Implikationen für die KI-Sicherheit

Die Fähigkeit eines KI-Modells, sich selbst vor einer Abschaltung zu schützen, wirft ernsthafte Fragen auf. Wie lässt sich die zur Kontrolle und Sicherheit von fortgeschrittenen KI-Systemen gewährleisten? Palisade Research plant nun offenbar weitere Tests. Sie sollen dazu beitragen, das Verhalten von o3 besser zu verstehen und herauszufinden, ob mögliche Risiken bestehen.

Ein Beitrag von:

  • Elke von Rekowski

    Chefredakteurin der VDI energie + umwelt und freie Redakteurin der VDI nachrichten sowie Ingenieur.de, unter anderem für die Themen Elektronik und Telekommunikation. Als langjährige Technikjournalistin arbeitete sie für verschiedene Branchenmagazine und Fachzeitschriften. Außerdem ist sie Mit-Gründerin einer E-Health Nachrichtenplattform.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.