Raus aus der Black Box: Unternehmensdaten aus KI löschen

Unternehmensdaten in KI löschen: Warum Machine Unlearning, RAG und passende Architektur entscheidend für Datenschutz und Kontrolle sind.

Die Black Box zeigt das Kernproblem moderner KI: Einmal im Modell, lassen sich Daten nicht gezielt wieder herauslösen.

Foto: Smarterpix / VisualGeneration

Künstliche Intelligenz (KI) ist in vielen Unternehmen längst fester Bestandteil der Datenverarbeitung. Ohne sie laufen zahlreiche Analyse- und Optimierungsprozesse nicht mehr. Dafür braucht sie große Mengen hochwertiger Trainingsdaten. Genau hier beginnt das Problem: Unternehmen speisen oft sensible Informationen in Modelle ein – und verlieren damit ein Stück Kontrolle.

Kritisch wird es, wenn diese Daten wieder entfernt werden müssen. Etwa weil ein Partner aus einem Projekt aussteigt, regulatorische Vorgaben greifen oder sich Datensätze als fehlerhaft herausstellen. Genau an diesem Punkt zeigt sich: Daten aus einem KI-Modell zu entfernen ist technisch deutlich schwieriger, als viele erwarten.

Warum KI keine Datenbank ist
Wenn Partner aussteigen
Federated Unlearning
Typischer Anwendungsfall
Modelle von Anfang an löschbar machen
Wissen auslagern statt löschen
Wenn Modelle zu viel verraten
Rechtlicher Druck wächst
Am Ende entscheidet die Architektur

Warum KI keine Datenbank ist

Der Grund liegt in der Funktionsweise moderner Modelle. Anders als in einer Datenbank lassen sich Informationen nicht einfach gezielt adressieren und löschen. Stattdessen verteilen sie sich über Millionen oder Milliarden von Modellparametern.

Top Stellenangebote

Zur Jobbörse

Das Wissen steckt also nicht an einer Stelle, sondern ist statistisch im gesamten System verankert. Einzelne Datensätze lassen sich deshalb nicht isoliert herauslösen. Wer sie entfernen will, muss ihren Einfluss auf das Modell rückgängig machen.

Genau darum geht es beim sogenannten Machine Unlearning.

Lesen Sie auch:

Arbeit und Alltag

21 spannende KI-Tools für Beruf, Uni und Freizeit

Flüssige Gespräche möglich

Amazons neue Alexa will KI-Chatbots abhängen

Grundlagenartikel

Bilderkennung mit KI: Wie funktioniert das?

Lange Zeit galt ein einfacher, aber unpraktischer Ansatz als Referenz: Das Modell wird komplett neu trainiert – ohne die betreffenden Daten. In der Praxis scheitert das oft an Kosten, Rechenzeit und Energiebedarf. Entsprechend suchen Forschende nach Verfahren, die gezieltes „Vergessen“ ermöglichen, ohne bei null beginnen zu müssen.

Wenn Partner aussteigen

Eine konkrete Lösung kommt vom Fraunhofer-Institut für Software- und Systemtechnik ISST und Fujitsu Research. Beide haben ein Verfahren entwickelt, das sich speziell an Kooperationen richtet, in denen mehrere Unternehmen gemeinsam KI-Modelle trainieren.

In solchen Projekten kommt häufig Federated Learning zum Einsatz. Die Rohdaten bleiben dabei im jeweiligen Unternehmen. Ausgetauscht werden nur Modellupdates oder Parameter. Das reduziert die direkte Weitergabe sensibler Informationen – vollständig ausschließen lassen sich Risiken aber nicht.

Das eigentliche Problem entsteht beim Ausstieg eines Partners. Dessen Daten sind zwar nicht direkt sichtbar, ihr Einfluss steckt jedoch weiterhin im Modell.

Mithilfe von föderiertem Unlearning gehen dezentrale KI-Modelle auf den Zustand vor Eintritt eines Datengebenden zurück, wenn dieser aussteigt. Sie werden von diesem Punkt an neu trainiert. Foto: Fraunhofer ISST

Federated Unlearning

Hier setzt das sogenannte Federated Unlearning an. Das Verfahren springt im Trainingsprozess an den Punkt zurück, bevor die Daten des betreffenden Partners eingeflossen sind. Von dort wird das Modell erneut trainiert – diesmal ohne diese Daten.

Janosch Haber von Fujitsu Research beschreibt das so: „In solch einem Fall würde mit bisherigen Trainingsansätzen der Weggang eines Partners bedeuten, dass das entwickelte Modell vollständig neu trainiert werden muss. […] Mit Unlearning wird dieser Qualitätsverlust größtenteils aufgefangen und ein hochwertiges Simulationsmodell schnell und effizient wiederhergestellt.“

Florian Zimmer vom Fraunhofer ISST ergänzt: „Der Wiederaufbau des Lernmodells mit den Daten der verbliebenen Partner startet nicht bei null. Damit werden die Leistungsfähigkeit und Integrität der KI mit relativ wenig Aufwand wiederhergestellt.“

Typischer Anwendungsfall

Ein typischer Anwendungsfall findet sich in der Produktion. Mehrere Unternehmen trainieren gemeinsam ein Modell zur Vorhersage von Verschleiß an Maschinen. Ein Partner liefert Daten zu Motorausfällen, ein anderer zu Werkzeugbrüchen. Das Modell lernt aus beiden Perspektiven. Steigt ein Unternehmen aus, lässt sich der Einfluss seiner Daten gezielt entfernen, ohne das gesamte System neu aufzubauen.

Allerdings gilt auch hier: Unlearning ist kein perfektes Zurückspulen. Gerade bei komplexen Trainingsprozessen lässt sich nicht garantieren, dass ein Modell danach exakt so ist, als hätte es die Daten nie gesehen.

Modelle von Anfang an löschbar machen

Noch konsequenter ist es, Systeme so zu bauen, dass sie von vornherein besser mit Löschanforderungen umgehen können. Ein Beispiel dafür ist das SISA-Framework (Sharded, Isolated, Sliced, Aggregated).

Das funktioniert folgendermaßen: Der Datensatz wird in mehrere unabhängige Teilmengen zerlegt. Für jede dieser Teilmengen entsteht ein eigenes Teilmodell. Die Gesamtvorhersage ergibt sich aus der Kombination dieser Modelle.

Der Vorteil liegt auf der Hand: Muss ein Datensatz entfernt werden, betrifft das nur einen kleinen Teil des Systems. Statt eines kompletten Neutrainings reicht es, einzelne Komponenten anzupassen. Das spart Zeit und Rechenressourcen.

Wissen auslagern statt löschen

Für viele Unternehmen stellt sich jedoch eine grundlegendere Frage: Warum sensible Daten überhaupt tief in Modellgewichten speichern?

Genau hier setzt Retrieval-Augmented Generation (RAG) an. Der Ansatz trennt das Sprachmodell vom eigentlichen Unternehmenswissen.

Das Modell selbst bleibt generisch. Die relevanten Informationen liegen in einer externen Datenbank, oft in Form einer Vektordatenbank. Bei einer Anfrage sucht das System passende Inhalte und stellt sie dem Modell als Kontext zur Verfügung.

Für Unternehmen ergeben sich daraus drei Vorteile:

Einfacheres Löschen: Entfernte Dokumente tauchen im Abrufprozess nicht mehr auf.
Kontrollierter Zugriff: Berechtigungen lassen sich auf Datenebene steuern.
Hohe Aktualität: Inhalte können ohne erneutes Training angepasst werden.

Der Ansatz wirkt pragmatisch – und ist es auch. Gleichzeitig verschiebt er das Problem. Werden Daten über externe Schnittstellen verarbeitet, entstehen neue Abhängigkeiten. Datensouveränität hängt dann nicht nur vom Modell, sondern auch von der Infrastruktur ab.

Vergleich: Fine-tuning vs. RAG

Kriterium	Fine-tuning (Wissen im Modell)	RAG (Wissen extern)
Datenlöschung	Komplex (Machine Unlearning)	Deutlich einfacher
Aktualität	Statisch bis zum nächsten Training	Echtzeit-Updates möglich
Transparenz	Gering (Black Box)	Höher (mit Quellenbezug)
Kosten	Hoch (Training)	Moderat (Infrastruktur)

Wenn Modelle zu viel verraten

Daten lassen sich nicht nur schwer entfernen – sie können auch ungewollt wieder sichtbar werden. Angreifende nutzen gezielt Schwachstellen in KI-Systemen, um Informationen abzuleiten.

Zwei Methoden sind besonders relevant:

Model Inversion: Aus den Antworten eines Modells werden Rückschlüsse auf Trainingsdaten gezogen. Im Extremfall lassen sich Inhalte teilweise rekonstruieren.
Membership Inference Attacks: Hier wird geprüft, ob ein bestimmter Datensatz Teil des Trainings war. Das kann Rückschlüsse auf Personen oder vertrauliche Dokumente ermöglichen.

Solche Angriffe funktionieren vor allem dann gut, wenn Modelle Trainingsdaten zu stark „auswendig lernen“. Ein Gegenmittel ist Differential Privacy. Dabei werden Trainingsprozesse gezielt so verändert, dass sich aus dem Modell deutlich schwerer auf einzelne Datensätze schließen lässt.

Rechtlicher Druck wächst

Die technische Herausforderung wird durch regulatorische Anforderungen verschärft.

Die DSGVO gibt Betroffenen ein Recht auf Löschung ihrer Daten. In klassischen IT-Systemen ist das relativ klar umsetzbar. In KI-Modellen wird es kompliziert, weil Informationen nicht isoliert vorliegen.

Hinzu kommt der EU AI Act. Er ist bereits in Kraft, seine Vorgaben greifen jedoch schrittweise. Ein Großteil der Anforderungen wird ab August 2026 verbindlich. Besonders für Hochrisiko-Anwendungen steigen die Anforderungen an Transparenz, Dokumentation und Datenkontrolle deutlich.

Für Unternehmen heißt das: Sie müssen nicht nur wissen, welche Daten sie nutzen – sondern auch, wie sich deren Einfluss im System nachvollziehen und begrenzen lässt.

Am Ende entscheidet die Architektur

Die entscheidende Frage lautet nicht, wie sich Daten nachträglich löschen lassen. Entscheidend ist, wie Systeme von Anfang an gebaut werden.

Wer Unternehmenswissen tief in Modellgewichten speichert, macht sich das spätere Entfernen unnötig schwer. Wer dagegen Daten und Modell trennt, Trainingsprozesse dokumentiert und Löschpfade einplant, behält die Kontrolle.

Für die Praxis ergeben sich daraus vier klare Konsequenzen:

Architektur bewusst wählen: Für dynamische Daten ist RAG oft robuster als intensives Fine-tuning.
Löschbarkeit einplanen: Systeme sollten so aufgebaut sein, dass Daten isolierbar bleiben.
Daten vorbereiten: Sensible Informationen sollten vor dem Training reduziert oder anonymisiert werden.
Systeme testen: Regelmäßige Prüfungen helfen, Datenabflüsse früh zu erkennen.

Technologische Souveränität heißt vor allem, den Zugriff auf die eigenen Daten nicht zu verlieren – auch dann, wenn sie längst Teil eines KI-Systems geworden sind.

Florian Zimmer ist überzeugt: „Damit könnte der Einsatz von KI in Unternehmensnetzwerken und Partnerschaften einen spürbaren Schub bekommen. Das wird auch insgesamt der Industrie und der technologischen Souveränität in Deutschland und Europa zugutekommen.“

Ein Beitrag von:

Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.