Neues Speicherprinzip 30.10.2025, 15:30 Uhr

Das Ende des Vergessens – DeepSeek lässt KI in Bildern denken

Künstliche Intelligenz hat ein Kurzzeitgedächtnis – und genau das bremst ihren Fortschritt. Statt Sprache in unzählige Text-Tokens zu zerlegen, verwandelt das chinesische Unternehmen Deepseek seine KI Informationen in Bilder. Über ein neuartiges Optical Character Recognition System (OCR) sollen Maschinen lernen, sich effizienter und länger zu erinnern.

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

Während OCR-Technologie bisher vor allem in Scanner-Apps oder Übersetzungssoftware zum Einsatz kam, nutzt DeepSeek sie nun als Testumgebung für ein neuartiges KI-Gedächtnis.
Das Ziel: weniger Energieverbrauch, mehr Effizienz und längere Kontexttreue bei großen Sprachmodellen

Das Gedächtnisproblem moderner KI

Aktuelle Large Language Models (LLMs) wie ChatGPT oder Claude funktionieren, indem sie Texte in kleine Einzelteile zerlegen – sogenannte Tokens. Diese Tokenisierung erlaubt es, Sprache mathematisch zu analysieren, führt aber zu einem bekannten Dilemma: Je länger eine Unterhaltung oder ein Dokument, desto mehr Tokens werden benötigt.

Das führt zu einem Phänomen, das Forschende als „Context Rot“ bezeichnen – ältere Informationen geraten in Vergessenheit oder werden durch neue überlagert. In langen Dialogen führt das dazu, dass KI-Modelle inkonsistent antworten oder sich selbst widersprechen. Gleichzeitig steigt der Rechenaufwand exponentiell, ebenso wie der Energieverbrauch.

Visuelle Tokens: Bild statt Text

Statt Text in unzählige Tokens zu zerlegen, wandelt das neue Modell die Informationen in Bilder um – ähnlich wie Seiten eines Buchs, die fotografiert werden.
Diese visuellen Tokens werden anschließend über ein OCR-System ausgelesen und maschinenlesbar gemacht.

Top Stellenangebote

Zur Jobbörse
Stadt Freiburg-Firmenlogo
Ingenieur*in / Techniker*in / Meister*in Elektrotechnik als Projektleitung Stadt Freiburg
Freiburg Zum Job 
Staatliches Baumanagement Hannover-Firmenlogo
Ingenieure (m/w/d) Elektrotechnik Staatliches Baumanagement Hannover
Hannover Zum Job 
Koehler Paper-Firmenlogo
Produktionsingenieur (m/w/d) Papier Koehler Paper
Gottlob Brodbeck GmbH & Co. KG-Firmenlogo
Bauingenieur - Oberbauleiter Rohbau (m/w/d) Gottlob Brodbeck GmbH & Co. KG
Metzingen Zum Job 
Gottlob Brodbeck GmbH & Co. KG-Firmenlogo
Bauingenieur/Bautechniker - Bauleiter Rohbau (m/w/d) Gottlob Brodbeck GmbH & Co. KG
Stuttgart Zum Job 
Gottlob Brodbeck GmbH & Co. KG-Firmenlogo
Bauingenieur/Bautechniker - Bauleiter Rohbau (m/w/d) Gottlob Brodbeck GmbH & Co. KG
Metzingen Zum Job 
Brodbeck Service und Verwaltung GmbH & Co. KG-Firmenlogo
Technischer Einkäufer (m/w/d) Brodbeck Service und Verwaltung GmbH & Co. KG
Metzingen Zum Job 
Fraunhofer-Institut für Angewandte Festkörperphysik IAF-Firmenlogo
Ingenieur Mikroelektronik - Hochfrequenztechnik / Messtechnik (all genders) Fraunhofer-Institut für Angewandte Festkörperphysik IAF
Freiburg im Breisgau Zum Job 
Hirschvogel Holding GmbH-Firmenlogo
Ingenieur / Techniker als Planer Qualitätsmanagement für Kundenprojekte (m/w/d) Hirschvogel Holding GmbH
Denklingen Zum Job 
Deutsches Elektronen-Synchrotron DESY-Firmenlogo
Scientist for FPGA-based RF signal processing and control (m/f/d) Deutsches Elektronen-Synchrotron DESY
Hamburg Zum Job 
JOST-Werke Deutschland GmbH-Firmenlogo
Manager Testing & Prototyping Global | Mechanical Systems (m/w/d) JOST-Werke Deutschland GmbH
Neu-Isenburg (bei Frankfurt a. M.) Zum Job 
Landkreis Reutlingen-Firmenlogo
Leitung (w/m/d) des Kreisbauamtes Landkreis Reutlingen
Reutlingen Zum Job 
kbo-Donau-Altmühl-Kliniken gGmbH-Firmenlogo
Bautechniker (m/w/d) kbo-Donau-Altmühl-Kliniken gGmbH
Ingolstadt, Taufkirchen, Freising, Eichstätt Zum Job 
Markt Bad Abbach-Firmenlogo
Sachgebietsleitung Hochbau und Gebäudeunterhaltung (w/m/d) Markt Bad Abbach
Bad Abbach Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
Hamburg Wasser-Firmenlogo
Ingenieur Projektleitung Großprojekte Wasserwerke (m/w/d) Hamburg Wasser
Hamburg Zum Job 
Sweco GmbH-Firmenlogo
Teamleitung Verkehr & Wasser (w/m/x) Sweco GmbH
Hannover Zum Job 
Stadtwerke Strausberg GmbH-Firmenlogo
Techniker Stromnetz - Netzkoordination & Digitalisierung (m/w/d) Stadtwerke Strausberg GmbH
Strausberg Zum Job 
Logistik Stahlbau Fischer GmbH & Co. KG-Firmenlogo
Technischer Vertriebsmitarbeiter (m/w/d) im Stahlbau Logistik Stahlbau Fischer GmbH & Co. KG
Karlsruhe Zum Job 
Ministerium für Schule und Bildung Nordrhein-Westfalen-Firmenlogo
Lehrkraft (m/w/d) Ministerium für Schule und Bildung Nordrhein-Westfalen
Nordrhein-Westfalen Zum Job 

Die Information bleibt dabei als Ganzes erhalten, während der Speicherbedarf drastisch sinkt. DeepSeek kombiniert diese Methode mit einer „tiered compression“, einer mehrstufigen Kompression. Wichtige Informationen bleiben scharf, unwichtige Inhalte werden komprimiert oder leicht „unscharf“ abgespeichert. Sie sind aber weiterhin im Hintergrund vorhanden – ähnlich, wie Menschen sich an wichtige Ereignisse detailliert erinnern, aber den genauen Wortlaut alltäglicher Gespräche vergessen.

Das Ergebnis ist ein Gedächtnis, das nicht alles gleichwertig behandelt, sondern Prioritäten setzt. Ein entscheidender Unterschied zu bisherigen Modellen. Gespräche mit KI-Systemen könnten dadurch konsistenter und natürlicher werden.

Praxisrelevanz und Anwendung

DeepSeek-OCR eignet sich besonders für die effiziente Verarbeitung großer Dokumentenmengen in Unternehmen, Verlagen und Behörden. Hier profitieren Workflows mit langen Kontexten maximal von der Komprimierung: Statt Tausender Texttoken werden nur noch wenige Hundert Visuelle-Token benötigt. Das erleichtert die Einspeisung langer Dokumente in LLMs.

Mehrsprachige und komplexe Dokumentformate werden vom Modell bereits unterstützt, da die Architektur multimodal trainiert wurde. Die genauen Grenzen und die Sprachabdeckung werden weiter erforscht.​

Mehr Effizienz, weniger CO₂-Fußabdruck

Neben der Einsparung an Speicherplatz und der Leistungssteigerung ist vor allem der Energieaspekt relevant. Da visuelle Tokens weniger Rechenpower brauchen als Text-Tokens, könnte die Methode den Energiebedarf großer Modelle signifikant senken. Der geringere Bedarf an Rechenleistung bedeutet auch: weniger CO₂-Ausstoß, geringere Kosten und eine bessere Skalierbarkeit.

Laut Angaben von DeepSeek kann das System über 200.000 Seiten Trainingsdaten pro Tag auf nur einer GPU erzeugen. Dabei werden Texte zunächst in Bilder umgewandelt und anschließend wieder maschinell ausgelesen. Diese doppelte Wandlung („Text → Bild → Text“) erzeugt leicht veränderte, aber inhaltlich sinnvolle Varianten und verringert zugleich Ähnlichkeiten zu bestehenden Quellen. So lassen sich große Mengen „neuer“ Trainingsdaten generieren. Viele öffentliche Quellen sind bereits ausgeschöpft oder urheberrechtlich eingeschränkt. Wenn ein Modell wie das von DeepSeek täglich Hunderttausende, lesbare Seiten liefern kann, hilft das, den wachsenden Datenhunger großer Sprachmodelle zu stillen.

Kein Allheilmittel

So vielversprechend der Ansatz klingt, so viele Fragen bleiben offen. Noch ist nicht klar, wie gut die Methode mit visuellen Tokens bei wirklich komplexen Aufgaben funktioniert – etwa dann, wenn eine KI über viele Ebenen hinweg logisch denken oder Schlüsse ziehen muss. Bisher gibt es keine Belege dafür, dass diese Form der Speicherung auch beim Verstehen und Argumentieren Vorteile bringt.

Hinzu kommt: DeepSeek-OCR ist bislang nur ein Forschungsprototyp, kein ausgereiftes Produkt. Die Ergebnisse stammen aus Laborbedingungen, nicht aus realen Anwendungsszenarien. Ob das Verfahren in großem Maßstab stabil läuft, bleibt offen. Ebenso die Frage, wie sich das System bei mehrsprachigen, unstrukturierten oder fehlerhaften Datenquellen verhält.

Ein Beitrag von:

  • Tim Stockhausen

    Tim Stockhausen ist Volontär beim VDI Verlag. 2024 schloss er sein Studium der visuellen Technikkommunikation an der Hochschule Bonn-Rhein-Sieg ab. Seine journalistischen Interessen gelten insbesondere Künstlicher Intelligenz, Mobilität, Raumfahrt und digitalen Welten.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.