Recht auf Vergessen 07.04.2026, 12:30 Uhr

Raus aus der Black Box: Unternehmensdaten aus KI löschen

Unternehmensdaten in KI löschen: Warum Machine Unlearning, RAG und passende Architektur entscheidend für Datenschutz und Kontrolle sind.

Black Box

Die Black Box zeigt das Kernproblem moderner KI: Einmal im Modell, lassen sich Daten nicht gezielt wieder herauslösen.

Foto: Smarterpix / VisualGeneration

Künstliche Intelligenz (KI) ist in vielen Unternehmen längst fester Bestandteil der Datenverarbeitung. Ohne sie laufen zahlreiche Analyse- und Optimierungsprozesse nicht mehr. Dafür braucht sie große Mengen hochwertiger Trainingsdaten. Genau hier beginnt das Problem: Unternehmen speisen oft sensible Informationen in Modelle ein – und verlieren damit ein Stück Kontrolle.

Kritisch wird es, wenn diese Daten wieder entfernt werden müssen. Etwa weil ein Partner aus einem Projekt aussteigt, regulatorische Vorgaben greifen oder sich Datensätze als fehlerhaft herausstellen. Genau an diesem Punkt zeigt sich: Daten aus einem KI-Modell zu entfernen ist technisch deutlich schwieriger, als viele erwarten.

Warum KI keine Datenbank ist

Der Grund liegt in der Funktionsweise moderner Modelle. Anders als in einer Datenbank lassen sich Informationen nicht einfach gezielt adressieren und löschen. Stattdessen verteilen sie sich über Millionen oder Milliarden von Modellparametern.

Top Stellenangebote

Zur Jobbörse
Stadt Freiburg-Firmenlogo
Ingenieur*in / Techniker*in / Meister*in Elektrotechnik als Projektleitung Stadt Freiburg
Freiburg Zum Job 
Staatliches Baumanagement Hannover-Firmenlogo
Ingenieure (m/w/d) Elektrotechnik Staatliches Baumanagement Hannover
Hannover Zum Job 
Koehler Paper-Firmenlogo
Produktionsingenieur (m/w/d) Papier Koehler Paper
Gottlob Brodbeck GmbH & Co. KG-Firmenlogo
Bauingenieur - Oberbauleiter Rohbau (m/w/d) Gottlob Brodbeck GmbH & Co. KG
Metzingen Zum Job 
Gottlob Brodbeck GmbH & Co. KG-Firmenlogo
Bauingenieur/Bautechniker - Bauleiter Rohbau (m/w/d) Gottlob Brodbeck GmbH & Co. KG
Stuttgart Zum Job 
Gottlob Brodbeck GmbH & Co. KG-Firmenlogo
Bauingenieur/Bautechniker - Bauleiter Rohbau (m/w/d) Gottlob Brodbeck GmbH & Co. KG
Metzingen Zum Job 
Brodbeck Service und Verwaltung GmbH & Co. KG-Firmenlogo
Technischer Einkäufer (m/w/d) Brodbeck Service und Verwaltung GmbH & Co. KG
Metzingen Zum Job 
Fraunhofer-Institut für Angewandte Festkörperphysik IAF-Firmenlogo
Ingenieur Mikroelektronik - Hochfrequenztechnik / Messtechnik (all genders) Fraunhofer-Institut für Angewandte Festkörperphysik IAF
Freiburg im Breisgau Zum Job 
Hirschvogel Holding GmbH-Firmenlogo
Ingenieur / Techniker als Planer Qualitätsmanagement für Kundenprojekte (m/w/d) Hirschvogel Holding GmbH
Denklingen Zum Job 
Deutsches Elektronen-Synchrotron DESY-Firmenlogo
Scientist for FPGA-based RF signal processing and control (m/f/d) Deutsches Elektronen-Synchrotron DESY
Hamburg Zum Job 
JOST-Werke Deutschland GmbH-Firmenlogo
Manager Testing & Prototyping Global | Mechanical Systems (m/w/d) JOST-Werke Deutschland GmbH
Neu-Isenburg (bei Frankfurt a. M.) Zum Job 
Landkreis Reutlingen-Firmenlogo
Leitung (w/m/d) des Kreisbauamtes Landkreis Reutlingen
Reutlingen Zum Job 
kbo-Donau-Altmühl-Kliniken gGmbH-Firmenlogo
Bautechniker (m/w/d) kbo-Donau-Altmühl-Kliniken gGmbH
Ingolstadt, Taufkirchen, Freising, Eichstätt Zum Job 
Markt Bad Abbach-Firmenlogo
Sachgebietsleitung Hochbau und Gebäudeunterhaltung (w/m/d) Markt Bad Abbach
Bad Abbach Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
Hamburg Wasser-Firmenlogo
Ingenieur Projektleitung Großprojekte Wasserwerke (m/w/d) Hamburg Wasser
Hamburg Zum Job 
Sweco GmbH-Firmenlogo
Teamleitung Verkehr & Wasser (w/m/x) Sweco GmbH
Hannover Zum Job 
Stadtwerke Strausberg GmbH-Firmenlogo
Techniker Stromnetz - Netzkoordination & Digitalisierung (m/w/d) Stadtwerke Strausberg GmbH
Strausberg Zum Job 
Logistik Stahlbau Fischer GmbH & Co. KG-Firmenlogo
Technischer Vertriebsmitarbeiter (m/w/d) im Stahlbau Logistik Stahlbau Fischer GmbH & Co. KG
Karlsruhe Zum Job 
Ministerium für Schule und Bildung Nordrhein-Westfalen-Firmenlogo
Lehrkraft (m/w/d) Ministerium für Schule und Bildung Nordrhein-Westfalen
Nordrhein-Westfalen Zum Job 

Das Wissen steckt also nicht an einer Stelle, sondern ist statistisch im gesamten System verankert. Einzelne Datensätze lassen sich deshalb nicht isoliert herauslösen. Wer sie entfernen will, muss ihren Einfluss auf das Modell rückgängig machen.

Genau darum geht es beim sogenannten Machine Unlearning.

Lange Zeit galt ein einfacher, aber unpraktischer Ansatz als Referenz: Das Modell wird komplett neu trainiert – ohne die betreffenden Daten. In der Praxis scheitert das oft an Kosten, Rechenzeit und Energiebedarf. Entsprechend suchen Forschende nach Verfahren, die gezieltes „Vergessen“ ermöglichen, ohne bei null beginnen zu müssen.

Wenn Partner aussteigen

Eine konkrete Lösung kommt vom Fraunhofer-Institut für Software- und Systemtechnik ISST und Fujitsu Research. Beide haben ein Verfahren entwickelt, das sich speziell an Kooperationen richtet, in denen mehrere Unternehmen gemeinsam KI-Modelle trainieren.

In solchen Projekten kommt häufig Federated Learning zum Einsatz. Die Rohdaten bleiben dabei im jeweiligen Unternehmen. Ausgetauscht werden nur Modellupdates oder Parameter. Das reduziert die direkte Weitergabe sensibler Informationen – vollständig ausschließen lassen sich Risiken aber nicht.

Das eigentliche Problem entsteht beim Ausstieg eines Partners. Dessen Daten sind zwar nicht direkt sichtbar, ihr Einfluss steckt jedoch weiterhin im Modell.

Mithilfe von föderiertem Unlearning gehen dezentrale KI-Modelle auf den Zustand vor Eintritt eines Datengebenden zurück, wenn dieser aussteigt. Sie werden von diesem Punkt an neu trainiert. Foto: Fraunhofer ISST

Federated Unlearning

Hier setzt das sogenannte Federated Unlearning an. Das Verfahren springt im Trainingsprozess an den Punkt zurück, bevor die Daten des betreffenden Partners eingeflossen sind. Von dort wird das Modell erneut trainiert – diesmal ohne diese Daten.

Janosch Haber von Fujitsu Research beschreibt das so: „In solch einem Fall würde mit bisherigen Trainingsansätzen der Weggang eines Partners bedeuten, dass das entwickelte Modell vollständig neu trainiert werden muss. […] Mit Unlearning wird dieser Qualitätsverlust größtenteils aufgefangen und ein hochwertiges Simulationsmodell schnell und effizient wiederhergestellt.“

Florian Zimmer vom Fraunhofer ISST ergänzt: „Der Wiederaufbau des Lernmodells mit den Daten der verbliebenen Partner startet nicht bei null. Damit werden die Leistungsfähigkeit und Integrität der KI mit relativ wenig Aufwand wiederhergestellt.“

Typischer Anwendungsfall

Ein typischer Anwendungsfall findet sich in der Produktion. Mehrere Unternehmen trainieren gemeinsam ein Modell zur Vorhersage von Verschleiß an Maschinen. Ein Partner liefert Daten zu Motorausfällen, ein anderer zu Werkzeugbrüchen. Das Modell lernt aus beiden Perspektiven. Steigt ein Unternehmen aus, lässt sich der Einfluss seiner Daten gezielt entfernen, ohne das gesamte System neu aufzubauen.

Allerdings gilt auch hier: Unlearning ist kein perfektes Zurückspulen. Gerade bei komplexen Trainingsprozessen lässt sich nicht garantieren, dass ein Modell danach exakt so ist, als hätte es die Daten nie gesehen.

Modelle von Anfang an löschbar machen

Noch konsequenter ist es, Systeme so zu bauen, dass sie von vornherein besser mit Löschanforderungen umgehen können. Ein Beispiel dafür ist das SISA-Framework (Sharded, Isolated, Sliced, Aggregated).

Das funktioniert folgendermaßen: Der Datensatz wird in mehrere unabhängige Teilmengen zerlegt. Für jede dieser Teilmengen entsteht ein eigenes Teilmodell. Die Gesamtvorhersage ergibt sich aus der Kombination dieser Modelle.

Der Vorteil liegt auf der Hand: Muss ein Datensatz entfernt werden, betrifft das nur einen kleinen Teil des Systems. Statt eines kompletten Neutrainings reicht es, einzelne Komponenten anzupassen. Das spart Zeit und Rechenressourcen.

Wissen auslagern statt löschen

Für viele Unternehmen stellt sich jedoch eine grundlegendere Frage: Warum sensible Daten überhaupt tief in Modellgewichten speichern?

Genau hier setzt Retrieval-Augmented Generation (RAG) an. Der Ansatz trennt das Sprachmodell vom eigentlichen Unternehmenswissen.

Das Modell selbst bleibt generisch. Die relevanten Informationen liegen in einer externen Datenbank, oft in Form einer Vektordatenbank. Bei einer Anfrage sucht das System passende Inhalte und stellt sie dem Modell als Kontext zur Verfügung.

Für Unternehmen ergeben sich daraus drei Vorteile:

  • Einfacheres Löschen: Entfernte Dokumente tauchen im Abrufprozess nicht mehr auf.
  • Kontrollierter Zugriff: Berechtigungen lassen sich auf Datenebene steuern.
  • Hohe Aktualität: Inhalte können ohne erneutes Training angepasst werden.

Der Ansatz wirkt pragmatisch – und ist es auch. Gleichzeitig verschiebt er das Problem. Werden Daten über externe Schnittstellen verarbeitet, entstehen neue Abhängigkeiten. Datensouveränität hängt dann nicht nur vom Modell, sondern auch von der Infrastruktur ab.

Vergleich: Fine-tuning vs. RAG

Kriterium Fine-tuning (Wissen im Modell) RAG (Wissen extern)
Datenlöschung Komplex (Machine Unlearning) Deutlich einfacher
Aktualität Statisch bis zum nächsten Training Echtzeit-Updates möglich
Transparenz Gering (Black Box) Höher (mit Quellenbezug)
Kosten Hoch (Training) Moderat (Infrastruktur)

Wenn Modelle zu viel verraten

Daten lassen sich nicht nur schwer entfernen – sie können auch ungewollt wieder sichtbar werden. Angreifende nutzen gezielt Schwachstellen in KI-Systemen, um Informationen abzuleiten.

Zwei Methoden sind besonders relevant:

  • Model Inversion: Aus den Antworten eines Modells werden Rückschlüsse auf Trainingsdaten gezogen. Im Extremfall lassen sich Inhalte teilweise rekonstruieren.
  • Membership Inference Attacks: Hier wird geprüft, ob ein bestimmter Datensatz Teil des Trainings war. Das kann Rückschlüsse auf Personen oder vertrauliche Dokumente ermöglichen.

Solche Angriffe funktionieren vor allem dann gut, wenn Modelle Trainingsdaten zu stark „auswendig lernen“. Ein Gegenmittel ist Differential Privacy. Dabei werden Trainingsprozesse gezielt so verändert, dass sich aus dem Modell deutlich schwerer auf einzelne Datensätze schließen lässt.

Rechtlicher Druck wächst

Die technische Herausforderung wird durch regulatorische Anforderungen verschärft.

Die DSGVO gibt Betroffenen ein Recht auf Löschung ihrer Daten. In klassischen IT-Systemen ist das relativ klar umsetzbar. In KI-Modellen wird es kompliziert, weil Informationen nicht isoliert vorliegen.

Hinzu kommt der EU AI Act. Er ist bereits in Kraft, seine Vorgaben greifen jedoch schrittweise. Ein Großteil der Anforderungen wird ab August 2026 verbindlich. Besonders für Hochrisiko-Anwendungen steigen die Anforderungen an Transparenz, Dokumentation und Datenkontrolle deutlich.

Für Unternehmen heißt das: Sie müssen nicht nur wissen, welche Daten sie nutzen – sondern auch, wie sich deren Einfluss im System nachvollziehen und begrenzen lässt.

Am Ende entscheidet die Architektur

Die entscheidende Frage lautet nicht, wie sich Daten nachträglich löschen lassen. Entscheidend ist, wie Systeme von Anfang an gebaut werden.

Wer Unternehmenswissen tief in Modellgewichten speichert, macht sich das spätere Entfernen unnötig schwer. Wer dagegen Daten und Modell trennt, Trainingsprozesse dokumentiert und Löschpfade einplant, behält die Kontrolle.

Für die Praxis ergeben sich daraus vier klare Konsequenzen:

  1. Architektur bewusst wählen: Für dynamische Daten ist RAG oft robuster als intensives Fine-tuning.
  2. Löschbarkeit einplanen: Systeme sollten so aufgebaut sein, dass Daten isolierbar bleiben.
  3. Daten vorbereiten: Sensible Informationen sollten vor dem Training reduziert oder anonymisiert werden.
  4. Systeme testen: Regelmäßige Prüfungen helfen, Datenabflüsse früh zu erkennen.

Technologische Souveränität heißt vor allem, den Zugriff auf die eigenen Daten nicht zu verlieren – auch dann, wenn sie längst Teil eines KI-Systems geworden sind.

Florian Zimmer ist überzeugt: „Damit könnte der Einsatz von KI in Unternehmensnetzwerken und Partnerschaften einen spürbaren Schub bekommen. Das wird auch insgesamt der Industrie und der technologischen Souveränität in Deutschland und Europa zugutekommen.“

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.