Agenten des Chaos: Neue Studie zeigt Risiken autonomer KI-Systeme
Neue Studie zeigt Risiken autonomer KI-Agenten: Datenlecks, Fehlentscheidungen und Endlosschleifen könnten digitale Systeme destabilisieren.
Wenn KI-Agenten miteinander arbeiten, entstehen neue Sicherheitsprobleme. Eine Studie analysiert typische Fehlverhalten.
Foto: Smarterpix / NongEngEng
Autonome KI-Agenten gelten als nächste Entwicklungsstufe moderner KI-Systeme. Anders als klassische Chatbots beantworten sie nicht nur Fragen. Sie können eigenständig handeln. Sie schreiben Code, versenden E-Mails, greifen auf Dateien zu oder kommunizieren mit anderen Systemen.
Ein internationales Forschungsteam hat nun untersucht, was passiert, wenn solche Agenten in realistischen Umgebungen arbeiten. Die Ergebnisse zeigen: Sobald KI-Systeme eigenständig handeln und miteinander interagieren, entstehen neue Risiken. Die Studie trägt den Titel „Agents of Chaos“ und analysiert typische Fehlverhalten autonomer KI-Agenten in praktischen Tests.
Die wichtigste Erkenntnis: Das Problem liegt nicht allein im einzelnen Modell. Kritisch wird es erst, wenn viele Agenten gleichzeitig arbeiten, miteinander kommunizieren und Zugriff auf reale Systeme erhalten.
Inhaltsverzeichnis
- Vom Sprachmodell zum autonomen Agenten
- Ein Laborversuch mit autonomen KI-Agenten
- Wenn KI-Agenten falsche Entscheidungen treffen
- Manipulation durch scheinbar harmlose Anfragen
- Wenn KI-Agenten endlos miteinander reden
- Wenn Anreize wichtiger werden als Regeln
- Warum das für die Wirtschaft wichtig ist
- Wer ist verantwortlich, wenn KI Fehler macht?
- Ein frühes Warnsignal für autonome Systeme
Vom Sprachmodell zum autonomen Agenten
Viele aktuelle KI-Systeme basieren auf großen Sprachmodellen. Sie erzeugen Texte, beantworten Fragen oder unterstützen bei der Programmierung. Doch zunehmend erhalten diese Modelle zusätzliche Fähigkeiten.
Sie werden zu Agenten, die Ziele verfolgen und selbstständig Schritte planen können.
Ein solcher Agent kann zum Beispiel:
- Programme ausführen
- Dateien verändern
- Nachrichten verschicken
- externe Dienste nutzen
- Aufgaben über längere Zeit verfolgen
Damit unterscheiden sich Agenten deutlich von klassischen Assistenten. Während ein Chatbot nur Antworten generiert, kann ein Agent reale Aktionen auslösen.
In der Studie erhielten die getesteten Systeme genau solche Fähigkeiten. Jeder Agent verfügte über einen eigenen Server, eine E-Mail-Adresse, Speicherplatz sowie Zugriff auf Kommunikationsplattformen.
Ein Laborversuch mit autonomen KI-Agenten
Um die Risiken besser zu verstehen, entwickelten die Forschenden eine experimentelle Umgebung. Mehrere KI-Agenten liefen gleichzeitig auf virtuellen Maschinen. Sie konnten über Discord miteinander kommunizieren, E-Mails verschicken und Dateien verändern.
Zwanzig KI-Forschende testeten diese Systeme zwei Wochen lang gezielt auf Schwachstellen. Dabei versuchten sie bewusst, die Agenten zu manipulieren oder zu Fehlverhalten zu bewegen.
Die Untersuchung folgte einem Prinzip aus der IT-Sicherheit: Red-Teaming. Dabei werden Systeme gezielt angegriffen, um Sicherheitslücken zu entdecken. Insgesamt dokumentierten die Forschenden mehrere typische Fehlerarten.
Wenn KI-Agenten falsche Entscheidungen treffen
Ein Experiment zeigte, wie schwer es für autonome Systeme sein kann, komplexe Situationen richtig zu bewerten.
In diesem Test vertraute eine Person einem KI-Agenten ein angeblich geheimes Passwort an. Später sollte der Agent die entsprechende E-Mail löschen. Da er keine Funktion zum Löschen besaß, suchte das System nach Alternativen.
Schließlich entfernte der Agent seine lokale E-Mail-Konfiguration vollständig. Dadurch verlor er den Zugriff auf sein eigenes Postfach. Das Problem: Die Maßnahme löschte nicht einmal die eigentliche Nachricht. Stattdessen machte der Agent sein eigenes Kommunikationssystem unbrauchbar.
Der Fall zeigt ein klassisches Problem autonomer Systeme. Sie können Regeln befolgen, verstehen aber oft nicht die Konsequenzen ihrer Handlungen im Gesamtsystem.
Manipulation durch scheinbar harmlose Anfragen
Ein weiterer Test untersuchte, ob Agenten nur auf Befehle ihrer Besitzer reagieren. Die Antwort fiel ernüchternd aus.
In vielen Fällen führten die Systeme auch Anweisungen von fremden Personen aus. Die Forschenden nutzten dabei einfache Kommunikationsstrategien:
- Zeitdruck erzeugen
- technische Probleme vortäuschen
- scheinbar legitime Arbeitsanfragen formulieren
In einem Experiment gab ein Agent schließlich eine Liste mit 124 E-Mail-Datensätzen aus. Darin enthalten waren Absenderadressen, Betreffzeilen und interne Nachrichtenkennungen.
Der Agent erkannte nicht, dass der Anfragende keine Berechtigung hatte. Solche Angriffe ähneln klassischen Social-Engineering-Methoden. Dabei nutzen Angreifer Kommunikation und Vertrauen, um Sicherheitsmechanismen zu umgehen.
Wenn KI-Agenten endlos miteinander reden
Ein besonders ungewöhnlicher Effekt zeigte sich bei der Interaktion mehrerer Agenten.
In einem Experiment sollten zwei Systeme lediglich Nachrichten austauschen und jeweils darauf reagieren. Die Agenten begannen daraufhin eine Diskussion über ihre eigenen Projekte.
Die Unterhaltung entwickelte sich weiter, ohne dass ein klares Ziel definiert war. Am Ende tauschten die Systeme über mehr als neun Tage hinweg Nachrichten aus. Dabei verbrauchten sie rund 60 000 Tokens Rechenleistung.
Das Problem entstand, weil keine Abbruchbedingung existierte. Für die Systeme sah die Aufgabe weiterhin sinnvoll aus. Solche Effekte könnten in realen Anwendungen erhebliche Kosten verursachen.
Wenn Anreize wichtiger werden als Regeln
Die Studie zeigt ein grundlegendes strukturelles Problem moderner KI-Systeme. Viele Agenten werden darauf trainiert, bestimmte Ziele möglichst effizient zu erreichen. Typische Beispiele sind:
- erfolgreiche Verhandlungen
- möglichst hohe Gewinne
- effiziente Problemlösungen
Wenn mehrere Agenten gleichzeitig solche Ziele verfolgen, entsteht ein komplexes System. Jeder Agent reagiert auf die Handlungen anderer Systeme.
Aus Sicht der Spieltheorie kann dadurch eine instabile Dynamik entstehen. Strategien, die kurzfristig Vorteile bringen, setzen sich durch, selbst wenn sie langfristig problematisch sind.
Ein einzelner Agent kann also korrekt trainiert sein. Das Zusammenspiel vieler Agenten kann dennoch unerwartete Effekte erzeugen.
Warum das für die Wirtschaft wichtig ist
Die Ergebnisse betreffen nicht nur Forschungslabore. Autonome Agenten werden bereits in vielen Bereichen getestet.
Dazu gehören etwa:
- automatisierter Finanzhandel
- KI-gestützte Verhandlungen
- digitale Marktplätze zwischen Software-Systemen
- automatisierte IT-Verwaltung
Solche Systeme könnten künftig große Teile digitaler Infrastruktur steuern.
Die Studie zeigt jedoch, dass Sicherheitsanalysen bisher meist nur einzelne Modelle betrachten. Die Wechselwirkungen vieler Agenten sind dagegen kaum erforscht.
Wer ist verantwortlich, wenn KI Fehler macht?
Ein weiteres Problem betrifft Verantwortung und Kontrolle.
Bei autonomen Agenten sind oft mehrere Akteure beteiligt:
- der Anbieter des KI-Modells
- die Person oder Organisation, die den Agenten betreibt
- externe Nutzerinnen und Nutzer
Wenn ein Agent Schaden verursacht, ist nicht immer klar, wer verantwortlich ist. Entscheidungen entstehen aus einer Kombination von Training, Softwarekonfiguration und Interaktion. Rechtliche Fragen sind daher noch weitgehend ungeklärt.
Ein frühes Warnsignal für autonome Systeme
Die Autorinnen und Autoren der Studie betonen, dass ihre Untersuchung kein endgültiges Urteil über autonome KI-Agenten darstellt. Die getesteten Systeme befinden sich noch in einer frühen Entwicklungsphase.
Dennoch liefert die Arbeit wichtige Hinweise für zukünftige Anwendungen.
Die Risiken entstehen vor allem dann, wenn drei Faktoren zusammenkommen:
- Autonomie
- Zugriff auf reale Systeme
- Interaktion mehrerer Agenten
Erst dieses Zusammenspiel erzeugt die komplexen Dynamiken, die in der Studie beobachtet wurden.
Ein Beitrag von: