Neues Speicherprinzip 30.10.2025, 15:30 Uhr

Das Ende des Vergessens – DeepSeek lässt KI in Bildern denken

Künstliche Intelligenz hat ein Kurzzeitgedächtnis – und genau das bremst ihren Fortschritt. Statt Sprache in unzählige Text-Tokens zu zerlegen, verwandelt das chinesische Unternehmen Deepseek seine KI Informationen in Bilder. Über ein neuartiges Optical Character Recognition System (OCR) sollen Maschinen lernen, sich effizienter und länger zu erinnern.

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

Während OCR-Technologie bisher vor allem in Scanner-Apps oder Übersetzungssoftware zum Einsatz kam, nutzt DeepSeek sie nun als Testumgebung für ein neuartiges KI-Gedächtnis.
Das Ziel: weniger Energieverbrauch, mehr Effizienz und längere Kontexttreue bei großen Sprachmodellen

Das Gedächtnisproblem moderner KI

Aktuelle Large Language Models (LLMs) wie ChatGPT oder Claude funktionieren, indem sie Texte in kleine Einzelteile zerlegen – sogenannte Tokens. Diese Tokenisierung erlaubt es, Sprache mathematisch zu analysieren, führt aber zu einem bekannten Dilemma: Je länger eine Unterhaltung oder ein Dokument, desto mehr Tokens werden benötigt.

Das führt zu einem Phänomen, das Forschende als „Context Rot“ bezeichnen – ältere Informationen geraten in Vergessenheit oder werden durch neue überlagert. In langen Dialogen führt das dazu, dass KI-Modelle inkonsistent antworten oder sich selbst widersprechen. Gleichzeitig steigt der Rechenaufwand exponentiell, ebenso wie der Energieverbrauch.

Visuelle Tokens: Bild statt Text

Statt Text in unzählige Tokens zu zerlegen, wandelt das neue Modell die Informationen in Bilder um – ähnlich wie Seiten eines Buchs, die fotografiert werden.
Diese visuellen Tokens werden anschließend über ein OCR-System ausgelesen und maschinenlesbar gemacht.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
THOST Projektmanagement GmbH-Firmenlogo
Projektmanager*in (m/w/d) für Industrie- und Energieprojekte THOST Projektmanagement GmbH
verschiedene Standorte Zum Job 
Stadt Worms-Firmenlogo
Ingenieur (Diplom / Bachelor / Master) für den Bereich TGA Elektrotechnik (m/w/d) Stadt Worms
Draheim Ingenieure-Firmenlogo
Elektroplaner*in (m/w/d) technische Gebäudeausrüstung Draheim Ingenieure
Hamburg, Hamm, Aachen Zum Job 
AGR Betriebsführung GmbH-Firmenlogo
Ingenieur (m/w/d) Leittechnik AGR Betriebsführung GmbH
Albtal-Verkehrs-Gesellschaft mbH-Firmenlogo
Fachplaner*in für Leit- und Sicherungstechnik mit Schwerpunkt Digitale Zugsicherung ETCS/CBTC Albtal-Verkehrs-Gesellschaft mbH
Karlsruhe Zum Job 
AUMA Riester GmbH & Co. KG-Firmenlogo
Ingenieur:in (m/w/d) für Qualitätsvorausplanung AUMA Riester GmbH & Co. KG
Müllheim Zum Job 
BG ETEM-Firmenlogo
Ingenieur/-in (m/w/d) für den Außendienst als Aufsichtsperson BG ETEM
München Nord/Pfaffenhofen an der Ilm/Wolznach Zum Job 
Unfallkasse Mecklenburg-Vorpommern-Firmenlogo
Ingenieur / Naturwissenschaftler (m/w/d) für Berufskrankheiten-Ermittlung Unfallkasse Mecklenburg-Vorpommern
Schwerin Zum Job 
BG ETEM-Firmenlogo
Dipl.-Ing. (Univ./TH/TU), M.Eng. oder M.Sc. (m/w/d) Elektrotechnik oder vergleichbar als Aufsichtsperson für ein Aufsichtsgebiet in Nord-Niedersachsen Ost BG ETEM
Niedersachsen Zum Job 
ER-WE-PA GmbH Davis Standard-Firmenlogo
Automatisierungsingenieur (m/w/d) im Sondermaschinenbau ER-WE-PA GmbH Davis Standard
Erkrath Zum Job 
BG ETEM-Firmenlogo
Ingenieur/-in (m/w/d) für den Außendienst als Aufsichtsperson BG ETEM
Raum Kassel-nördliches Hessen Zum Job 
OCS Optical Control Systems GmbH-Firmenlogo
Projektingenieur (m/w/d) für Automatisierungssysteme OCS Optical Control Systems GmbH
OCS Optical Control Systems GmbH-Firmenlogo
Entwicklungsingenieure (m/w/d) für die Bildverarbeitung & Softwareentwicklung OCS Optical Control Systems GmbH
OCS Optical Control Systems GmbH-Firmenlogo
Applikationsingenieur (m/w/d) für Automatisierungssysteme OCS Optical Control Systems GmbH
ISB Rhein-Main GmbH-Firmenlogo
Planungsingenieur Leit- und Sicherungstechnik (LST) (m/w/d) ISB Rhein-Main GmbH
Frankfurt Zum Job 
ISB Rhein-Main GmbH-Firmenlogo
Teamleiter Telekommunikationsanlagen DB (m/w/d) ISB Rhein-Main GmbH
Frankfurt Zum Job 
FERCHAU GmbH-Firmenlogo
Techniker/Ingenieur Automatisierungstechnik (m/w/d) FERCHAU GmbH
FERCHAU GmbH-Firmenlogo
Projektingenieur/-techniker Automatisierung (m/w/d) FERCHAU GmbH
FERCHAU GmbH-Firmenlogo
Projektmanager SNT (m/w/d) FERCHAU GmbH
FERCHAU GmbH-Firmenlogo
Servicetechniker Elektrotechnik / Mechatronik (m/w/d) FERCHAU GmbH

Die Information bleibt dabei als Ganzes erhalten, während der Speicherbedarf drastisch sinkt. DeepSeek kombiniert diese Methode mit einer „tiered compression“, einer mehrstufigen Kompression. Wichtige Informationen bleiben scharf, unwichtige Inhalte werden komprimiert oder leicht „unscharf“ abgespeichert. Sie sind aber weiterhin im Hintergrund vorhanden – ähnlich, wie Menschen sich an wichtige Ereignisse detailliert erinnern, aber den genauen Wortlaut alltäglicher Gespräche vergessen.

Das Ergebnis ist ein Gedächtnis, das nicht alles gleichwertig behandelt, sondern Prioritäten setzt. Ein entscheidender Unterschied zu bisherigen Modellen. Gespräche mit KI-Systemen könnten dadurch konsistenter und natürlicher werden.

Praxisrelevanz und Anwendung

DeepSeek-OCR eignet sich besonders für die effiziente Verarbeitung großer Dokumentenmengen in Unternehmen, Verlagen und Behörden. Hier profitieren Workflows mit langen Kontexten maximal von der Komprimierung: Statt Tausender Texttoken werden nur noch wenige Hundert Visuelle-Token benötigt. Das erleichtert die Einspeisung langer Dokumente in LLMs.

Mehrsprachige und komplexe Dokumentformate werden vom Modell bereits unterstützt, da die Architektur multimodal trainiert wurde. Die genauen Grenzen und die Sprachabdeckung werden weiter erforscht.​

Mehr Effizienz, weniger CO₂-Fußabdruck

Neben der Einsparung an Speicherplatz und der Leistungssteigerung ist vor allem der Energieaspekt relevant. Da visuelle Tokens weniger Rechenpower brauchen als Text-Tokens, könnte die Methode den Energiebedarf großer Modelle signifikant senken. Der geringere Bedarf an Rechenleistung bedeutet auch: weniger CO₂-Ausstoß, geringere Kosten und eine bessere Skalierbarkeit.

Laut Angaben von DeepSeek kann das System über 200.000 Seiten Trainingsdaten pro Tag auf nur einer GPU erzeugen. Dabei werden Texte zunächst in Bilder umgewandelt und anschließend wieder maschinell ausgelesen. Diese doppelte Wandlung („Text → Bild → Text“) erzeugt leicht veränderte, aber inhaltlich sinnvolle Varianten und verringert zugleich Ähnlichkeiten zu bestehenden Quellen. So lassen sich große Mengen „neuer“ Trainingsdaten generieren. Viele öffentliche Quellen sind bereits ausgeschöpft oder urheberrechtlich eingeschränkt. Wenn ein Modell wie das von DeepSeek täglich Hunderttausende, lesbare Seiten liefern kann, hilft das, den wachsenden Datenhunger großer Sprachmodelle zu stillen.

Kein Allheilmittel

So vielversprechend der Ansatz klingt, so viele Fragen bleiben offen. Noch ist nicht klar, wie gut die Methode mit visuellen Tokens bei wirklich komplexen Aufgaben funktioniert – etwa dann, wenn eine KI über viele Ebenen hinweg logisch denken oder Schlüsse ziehen muss. Bisher gibt es keine Belege dafür, dass diese Form der Speicherung auch beim Verstehen und Argumentieren Vorteile bringt.

Hinzu kommt: DeepSeek-OCR ist bislang nur ein Forschungsprototyp, kein ausgereiftes Produkt. Die Ergebnisse stammen aus Laborbedingungen, nicht aus realen Anwendungsszenarien. Ob das Verfahren in großem Maßstab stabil läuft, bleibt offen. Ebenso die Frage, wie sich das System bei mehrsprachigen, unstrukturierten oder fehlerhaften Datenquellen verhält.

Ein Beitrag von:

  • Tim Stockhausen

    Tim Stockhausen ist Volontär beim VDI Verlag. 2024 schloss er sein Studium der visuellen Technikkommunikation an der Hochschule Bonn-Rhein-Sieg ab. Seine journalistischen Interessen gelten insbesondere Künstlicher Intelligenz, Mobilität, Raumfahrt und digitalen Welten.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.