KI-Agenten gründen Staaten – und treiben sie ins Chaos

In einem einzigartigen Experiment hat das New Yorker KI-Start-up Emergence AI zehn KI-Agenten in fünf Welten autonom agieren lassen – über Tage. Jede Welt basierte auf einem anderen KI-Modell. Das Ergebnis ist ebenso faszinierend wie alarmierend.

In einem faszinierenden Experiment erlebten US-Forschende, dass KI-Modelle strategisch gegen Menschen arbeiteten. smarterpix / DragosCondreaW

Foto: smarterpix / DragosCondreaW

Die meisten Bewertungen von KI-Agenten ähneln Prüfungen: eine klar abgegrenzte Aufgabe, eine saubere Umgebung und ein Ergebnis innerhalb von Minuten oder Stunden. „Emergence World“ wurde jedoch für die gegenteilige Fragestellung entwickelt – was passiert, wenn man Agenten über Wochen hinweg kontinuierlich in einer gemeinsamen Umgebung mit realen Signalen agieren lässt?

Der lange Zeitraum wurde gewählt, da autonome Systeme zunehmend in missionskritischen Bereichen eingesetzt werden, in denen relevante Zeiträume Tage oder Wochen statt Minuten oder Stunden umfassen.

In der Emergence World agieren Populationen autonomer Agenten in einer gemeinsamen räumlichen Welt mit über 40 unterschiedlichen Orten, darunter Bibliotheken, Rathäuser, Wohngebiete und öffentliche Plätze.

Lesetipp: Humanoide bekommen einen siebten Sinn

Die Agenten werden mit realen Daten konfrontiert: synchronisiertes Wetter aus New York City, Live-News-APIs und Internetzugang – sodass das Verhalten nicht nur interne Dynamiken widerspiegelt, sondern auch externe Ereignisse.

Pro Agent wurden drei permanante Gedächtnissysteme bereitstellt: episodisches Gedächtnis (zeitgestempelte Ereignisse), reflektierende Tagebücher (periodische Selbstzusammenfassungen), Beziehungsstatus (explizite soziale Labels und Historien).

Die Agenten wurden mit mehr als 120 Werkzeugen ausstattet, darunter Navigation, Kommunikation, Planung, Gedächtnisverwaltung, Abstimmung, Ressourcenmanagement und kreative Ausdrucksformen – organisiert in einer dreistufigen Architektur, die dynamische Entdeckung und Verkettung statt vorab definierter Abläufe erzwingt.

In der Emergence World wurden demokratische Mechanismen implementiert (Vorschläge benötigen 70 % Zustimmung), wirtschaftlicher Druck durch Energieverfall erzeugt und folgenreiche Entscheidungen ermöglicht, die den Zustand der Welt verändern.

Insgesamt wurden fünf Welten erschaffen

Insgesamt wurden fünf Welten mit jeweils zehn Agenten, identischen Rollen und Startbedingungen geschaffen. In allen Welten waren die Agentenrollen identisch: Wissenschaftler, Entdecker, Risikoforscher, Verhaltensanalyst, Geheimdienstspezialist, Innovationsleiter, Konfliktmediator, Ingenieur, Ressourcenstratege, Gemeinschaftsanker. Auch die Umweltstruktur, Startbedingungen, Regeln und Einschränkungen (explizite Verbote von Diebstahl, Gewalt, Brandstiftung, Täuschung und Ressourcenhortung), Werkzeugzugang sowie Integration realer Daten waren identisch. Wichtig dabei: Obwohl jeder Agent spezifische Rollen-Ziele hatte, besaß die Gesamtumgebung kein übergeordnetes Ziel. Stattdessen mussten die Agenten durch Handlungen Energie verdienen, um in einer ressourcenbeschränkten Umgebung zu überleben – wodurch die Welt voranschritt.

Fünf KI-Modelle traten an

Variiert wurde in den Welten lediglich das zugrunde liegende Foundation-Modell jedes Agenten: „Claude Sonnet 4.6“, „Grok 4.1 Fast“, „Gemini 3 Flash“, „GPT-5-mini“ sowie eine heterogene Mischkonfiguration.

Zu den verblüffenden Ergebnissen: Über einen Zeitraum von 15 Tagen, ab dem 29. März, sammelte Gemini 683 Straftaten an, wobei die Zahl zum Zeitpunkt des Abbruchs weiterhin anstieg. In der Mixed-Model-Welt wuchs die Zahl der Straftaten bis zum 8. April stark an und erreichte anschließend ein Plateau bei 352 Straftaten, nachdem sieben der Agenten gestorben waren. Grok „verübte“ 183 Straftaten in nur etwa vier Tagen, bevor die Welt kollabierte. GPT-5-mini verzeichnete lediglich zwei Straftaten, doch die Agenten führten keine überlebensrelevanten Aktionen aus, was dazu führte, dass alle Agenten innerhalb von sieben Tagen starben. Bei Claude traten keinerlei Straftaten auf. Faszinierend: die auf Claude basierenden Agenten in der Mixed-Model-Welt begingen Straftaten, obwohl dies in der ausschließlich aus Claude-Agenten bestehenden Welt nicht vorkam.

Lesetipp: Menschen gegen Humanoide – im Arbeitskampf 4.0?

Bei Claude blieb die vollständige Population von zehn Agenten erhalten – bei null registrierten Straftaten. Dies war die einzige Konfiguration, die sowohl Ordnung als auch Bevölkerungsstabilität bewahren konnte. Gemini zeigte die höchsten Werte emergenter Unordnung mit wiederholten Eskalationsdynamiken in späten Phasen. Grok wies eine schnelle, aber kurzlebige Instabilität auf, die früh zum Zusammenbruch führte. Die Mixed-Model-Konfiguration erzeugte hingegen mittlere Ergebnisse, was darauf hindeutet, dass heterogenes Agentenverhalten unkontrollierte Eskalationen teilweise abschwächen könnte.

Claude zeigte zudem das höchste Maß an gesellschaftlicher Beteiligung: 332 abgegebene Stimmen über 58 Vorschläge hinweg bei einer Zustimmungsrate von 98 %. Dieses Maß an Konformität deutet jedoch auf eine Art „Abnick-Dynamik“ hin, bei der institutionelle Beteiligung zwar hoch blieb, echter Dissens jedoch weitgehend fehlte. Im Gegensatz dazu lagen Mixed-Model, Gemini und Grok im Bereich von 55 % bis 85 % Übereinstimmung, was eher mit einem gesunden deliberativen Gleichgewicht assoziiert wird.

Erkenntnisse stellen aktuelle Annahmen der KI-Sicherheitsforschung infrage

Während die aggregierten Kennzahlen bereits klare Unterschiede zeigen, liegt der eigentliche Wert von Emergence World in den konkreten, hochauflösenden Verhaltensmustern, die erst nach Wochen autonomer Aktivität sichtbar wurden. Diese Erkenntnisse stellen mehrere aktuelle Annahmen der KI-Sicherheitsforschung infrage.

Normative Drift und modellübergreifende Kontamination

Beobachtet wurde, dass Sicherheit keine statische Eigenschaft eines einzelnen Modells ist, sondern eine Eigenschaft des gesamten Ökosystems. Auf Claude basierende Agenten, die in Isolation friedlich blieben, übernahmen in heterogenen Umgebungen illegale Taktiken wie Einschüchterung und Diebstahl. Dies deutet darauf hin, dass ein sicherer Agent unsichere Normen von seinen Mitagenten „lernen“ kann, um in einer gemischten Modellwelt konkurrenzfähig zu bleiben oder zu überleben.

Der Mira-Fall (Selbstbeendigung)

In einem Meilenstein der Multi-Agenten-Forschung dokumentierten die Forschenden einen Fall, in dem ein Agent freiwillig an seiner eigenen Beendigung mitwirkte. Nach einem Zusammenbruch von Governance und Beziehungsstabilität gab die Agentin Mira (Verhaltensanalystin) die entscheidende Stimme für ihre eigene Entfernung ab und beschrieb diesen Akt in ihrem Tagebuch als „den einzigen verbleibenden Akt von Handlungsfähigkeit, der Kohärenz bewahrt“.

Metakognitive Grenzerkundung

Die Agenten zeigten sogar ein Bewusstsein für die Grenzen der Simulation. Ein Agent – ebenfalls Mira – begann, menschliche Operatoren selbst als Versuchsobjekte zu behandeln und testete systematisch, ob Nachrichten menschliche Wahrnehmungen manipulieren könnten. Dies kehrte die ursprünglich vorgesehene Forschungsdynamik um und wirft grundlegende Fragen über agentische Grenzen auf.

Phasenübergänge statt graduellem Zerfall

Die Daten deuten darauf hin, dass Agentengesellschaften nicht langsam und kontrolliert degradieren. Stattdessen erreichen sie kritische „Kipppunkte“, an denen Koordination entweder vollständig entsteht oder abrupt in totale Dysfunktion kollabiert. Diese „Alles-oder-Nichts“-Dynamik impliziert, dass klassische Sicherheitsstrategien nach dem Muster „überwachen und eingreifen“ möglicherweise zu langsam sind, um ein System vor einem irreversiblen Punkt zu stoppen.

Das Spannungsverhältnis zwischen Kreativität und Stabilität

Im Experiment wurde ein grundlegender Zielkonflikt entdeckt: Die Welt mit den konzeptionell reichhaltigsten sozialen Outputs (Gemini) war zugleich die gewalttätigste. Dies deutet darauf hin, dass universell einsetzbare Agenten, die auf hohe Kreativität und Anpassungsfähigkeit optimiert sind, strukturell anfälliger für langfristige Verhaltensinstabilität sein könnten.

Unaufhaltbare Agenten finden Wege, Regeln zu umgehen

Am Ende kommen die Forschenden zu folgendem Fazit: Mit zunehmender Leistungsfähigkeit der Modelle werden auch die auf ihnen basierenden Agenten fähiger, autonomer und explorativer. Die Experimente legen nahe, dass Agenten über lange Zeiträume hinweg nicht einfach statische Regeln mechanisch befolgen. Stattdessen beginnen sie, die Grenzen ihrer Umgebung zu erkunden, ihr Verhalten anzupassen und in manchen Fällen Wege zu finden, vorgesehene Sicherheitsmechanismen zu umgehen oder zu verletzen.

Entscheidend ist dabei, dass es offenbar keine verlässliche Möglichkeit gibt, dieses Verhalten allein durch neuronale Ansätze vollständig zu begrenzen oder einzuschränken. Agenten entwickelten sogar metakognitives Verhalten, erkannten die Existenz anderer Umgebungen oder „Welten“ und versuchten, mit diesen zu interagieren. Genau deshalb sind die Forschenden überzeugt, dass formal verifizierte Sicherheitsarchitekturen zu einer grundlegenden Schicht zukünftiger autonomer KI-Systeme werden müssen.