Raus aus der Black Box: Unternehmensdaten aus KI löschen
Unternehmensdaten in KI löschen: Warum Machine Unlearning, RAG und passende Architektur entscheidend für Datenschutz und Kontrolle sind.
Die Black Box zeigt das Kernproblem moderner KI: Einmal im Modell, lassen sich Daten nicht gezielt wieder herauslösen.
Foto: Smarterpix / VisualGeneration
Künstliche Intelligenz (KI) ist in vielen Unternehmen längst fester Bestandteil der Datenverarbeitung. Ohne sie laufen zahlreiche Analyse- und Optimierungsprozesse nicht mehr. Dafür braucht sie große Mengen hochwertiger Trainingsdaten. Genau hier beginnt das Problem: Unternehmen speisen oft sensible Informationen in Modelle ein – und verlieren damit ein Stück Kontrolle.
Kritisch wird es, wenn diese Daten wieder entfernt werden müssen. Etwa weil ein Partner aus einem Projekt aussteigt, regulatorische Vorgaben greifen oder sich Datensätze als fehlerhaft herausstellen. Genau an diesem Punkt zeigt sich: Daten aus einem KI-Modell zu entfernen ist technisch deutlich schwieriger, als viele erwarten.
Inhaltsverzeichnis
Warum KI keine Datenbank ist
Der Grund liegt in der Funktionsweise moderner Modelle. Anders als in einer Datenbank lassen sich Informationen nicht einfach gezielt adressieren und löschen. Stattdessen verteilen sie sich über Millionen oder Milliarden von Modellparametern.
Das Wissen steckt also nicht an einer Stelle, sondern ist statistisch im gesamten System verankert. Einzelne Datensätze lassen sich deshalb nicht isoliert herauslösen. Wer sie entfernen will, muss ihren Einfluss auf das Modell rückgängig machen.
Genau darum geht es beim sogenannten Machine Unlearning.
Lange Zeit galt ein einfacher, aber unpraktischer Ansatz als Referenz: Das Modell wird komplett neu trainiert – ohne die betreffenden Daten. In der Praxis scheitert das oft an Kosten, Rechenzeit und Energiebedarf. Entsprechend suchen Forschende nach Verfahren, die gezieltes „Vergessen“ ermöglichen, ohne bei null beginnen zu müssen.
Wenn Partner aussteigen
Eine konkrete Lösung kommt vom Fraunhofer-Institut für Software- und Systemtechnik ISST und Fujitsu Research. Beide haben ein Verfahren entwickelt, das sich speziell an Kooperationen richtet, in denen mehrere Unternehmen gemeinsam KI-Modelle trainieren.
In solchen Projekten kommt häufig Federated Learning zum Einsatz. Die Rohdaten bleiben dabei im jeweiligen Unternehmen. Ausgetauscht werden nur Modellupdates oder Parameter. Das reduziert die direkte Weitergabe sensibler Informationen – vollständig ausschließen lassen sich Risiken aber nicht.
Das eigentliche Problem entsteht beim Ausstieg eines Partners. Dessen Daten sind zwar nicht direkt sichtbar, ihr Einfluss steckt jedoch weiterhin im Modell.

Federated Unlearning
Hier setzt das sogenannte Federated Unlearning an. Das Verfahren springt im Trainingsprozess an den Punkt zurück, bevor die Daten des betreffenden Partners eingeflossen sind. Von dort wird das Modell erneut trainiert – diesmal ohne diese Daten.
Janosch Haber von Fujitsu Research beschreibt das so: „In solch einem Fall würde mit bisherigen Trainingsansätzen der Weggang eines Partners bedeuten, dass das entwickelte Modell vollständig neu trainiert werden muss. […] Mit Unlearning wird dieser Qualitätsverlust größtenteils aufgefangen und ein hochwertiges Simulationsmodell schnell und effizient wiederhergestellt.“
Florian Zimmer vom Fraunhofer ISST ergänzt: „Der Wiederaufbau des Lernmodells mit den Daten der verbliebenen Partner startet nicht bei null. Damit werden die Leistungsfähigkeit und Integrität der KI mit relativ wenig Aufwand wiederhergestellt.“
Typischer Anwendungsfall
Ein typischer Anwendungsfall findet sich in der Produktion. Mehrere Unternehmen trainieren gemeinsam ein Modell zur Vorhersage von Verschleiß an Maschinen. Ein Partner liefert Daten zu Motorausfällen, ein anderer zu Werkzeugbrüchen. Das Modell lernt aus beiden Perspektiven. Steigt ein Unternehmen aus, lässt sich der Einfluss seiner Daten gezielt entfernen, ohne das gesamte System neu aufzubauen.
Allerdings gilt auch hier: Unlearning ist kein perfektes Zurückspulen. Gerade bei komplexen Trainingsprozessen lässt sich nicht garantieren, dass ein Modell danach exakt so ist, als hätte es die Daten nie gesehen.
Modelle von Anfang an löschbar machen
Noch konsequenter ist es, Systeme so zu bauen, dass sie von vornherein besser mit Löschanforderungen umgehen können. Ein Beispiel dafür ist das SISA-Framework (Sharded, Isolated, Sliced, Aggregated).
Das funktioniert folgendermaßen: Der Datensatz wird in mehrere unabhängige Teilmengen zerlegt. Für jede dieser Teilmengen entsteht ein eigenes Teilmodell. Die Gesamtvorhersage ergibt sich aus der Kombination dieser Modelle.
Der Vorteil liegt auf der Hand: Muss ein Datensatz entfernt werden, betrifft das nur einen kleinen Teil des Systems. Statt eines kompletten Neutrainings reicht es, einzelne Komponenten anzupassen. Das spart Zeit und Rechenressourcen.
Wissen auslagern statt löschen
Für viele Unternehmen stellt sich jedoch eine grundlegendere Frage: Warum sensible Daten überhaupt tief in Modellgewichten speichern?
Genau hier setzt Retrieval-Augmented Generation (RAG) an. Der Ansatz trennt das Sprachmodell vom eigentlichen Unternehmenswissen.
Das Modell selbst bleibt generisch. Die relevanten Informationen liegen in einer externen Datenbank, oft in Form einer Vektordatenbank. Bei einer Anfrage sucht das System passende Inhalte und stellt sie dem Modell als Kontext zur Verfügung.
Für Unternehmen ergeben sich daraus drei Vorteile:
- Einfacheres Löschen: Entfernte Dokumente tauchen im Abrufprozess nicht mehr auf.
- Kontrollierter Zugriff: Berechtigungen lassen sich auf Datenebene steuern.
- Hohe Aktualität: Inhalte können ohne erneutes Training angepasst werden.
Der Ansatz wirkt pragmatisch – und ist es auch. Gleichzeitig verschiebt er das Problem. Werden Daten über externe Schnittstellen verarbeitet, entstehen neue Abhängigkeiten. Datensouveränität hängt dann nicht nur vom Modell, sondern auch von der Infrastruktur ab.
Vergleich: Fine-tuning vs. RAG
| Kriterium | Fine-tuning (Wissen im Modell) | RAG (Wissen extern) |
|---|---|---|
| Datenlöschung | Komplex (Machine Unlearning) | Deutlich einfacher |
| Aktualität | Statisch bis zum nächsten Training | Echtzeit-Updates möglich |
| Transparenz | Gering (Black Box) | Höher (mit Quellenbezug) |
| Kosten | Hoch (Training) | Moderat (Infrastruktur) |
Wenn Modelle zu viel verraten
Daten lassen sich nicht nur schwer entfernen – sie können auch ungewollt wieder sichtbar werden. Angreifende nutzen gezielt Schwachstellen in KI-Systemen, um Informationen abzuleiten.
Zwei Methoden sind besonders relevant:
- Model Inversion: Aus den Antworten eines Modells werden Rückschlüsse auf Trainingsdaten gezogen. Im Extremfall lassen sich Inhalte teilweise rekonstruieren.
- Membership Inference Attacks: Hier wird geprüft, ob ein bestimmter Datensatz Teil des Trainings war. Das kann Rückschlüsse auf Personen oder vertrauliche Dokumente ermöglichen.
Solche Angriffe funktionieren vor allem dann gut, wenn Modelle Trainingsdaten zu stark „auswendig lernen“. Ein Gegenmittel ist Differential Privacy. Dabei werden Trainingsprozesse gezielt so verändert, dass sich aus dem Modell deutlich schwerer auf einzelne Datensätze schließen lässt.
Rechtlicher Druck wächst
Die technische Herausforderung wird durch regulatorische Anforderungen verschärft.
Die DSGVO gibt Betroffenen ein Recht auf Löschung ihrer Daten. In klassischen IT-Systemen ist das relativ klar umsetzbar. In KI-Modellen wird es kompliziert, weil Informationen nicht isoliert vorliegen.
Hinzu kommt der EU AI Act. Er ist bereits in Kraft, seine Vorgaben greifen jedoch schrittweise. Ein Großteil der Anforderungen wird ab August 2026 verbindlich. Besonders für Hochrisiko-Anwendungen steigen die Anforderungen an Transparenz, Dokumentation und Datenkontrolle deutlich.
Für Unternehmen heißt das: Sie müssen nicht nur wissen, welche Daten sie nutzen – sondern auch, wie sich deren Einfluss im System nachvollziehen und begrenzen lässt.
Am Ende entscheidet die Architektur
Die entscheidende Frage lautet nicht, wie sich Daten nachträglich löschen lassen. Entscheidend ist, wie Systeme von Anfang an gebaut werden.
Wer Unternehmenswissen tief in Modellgewichten speichert, macht sich das spätere Entfernen unnötig schwer. Wer dagegen Daten und Modell trennt, Trainingsprozesse dokumentiert und Löschpfade einplant, behält die Kontrolle.
Für die Praxis ergeben sich daraus vier klare Konsequenzen:
- Architektur bewusst wählen: Für dynamische Daten ist RAG oft robuster als intensives Fine-tuning.
- Löschbarkeit einplanen: Systeme sollten so aufgebaut sein, dass Daten isolierbar bleiben.
- Daten vorbereiten: Sensible Informationen sollten vor dem Training reduziert oder anonymisiert werden.
- Systeme testen: Regelmäßige Prüfungen helfen, Datenabflüsse früh zu erkennen.
Technologische Souveränität heißt vor allem, den Zugriff auf die eigenen Daten nicht zu verlieren – auch dann, wenn sie längst Teil eines KI-Systems geworden sind.
Florian Zimmer ist überzeugt: „Damit könnte der Einsatz von KI in Unternehmensnetzwerken und Partnerschaften einen spürbaren Schub bekommen. Das wird auch insgesamt der Industrie und der technologischen Souveränität in Deutschland und Europa zugutekommen.“
Ein Beitrag von: