Neues Speicherprinzip 30.10.2025, 15:30 Uhr

Das Ende des Vergessens – DeepSeek lässt KI in Bildern denken

Künstliche Intelligenz hat ein Kurzzeitgedächtnis – und genau das bremst ihren Fortschritt. Statt Sprache in unzählige Text-Tokens zu zerlegen, verwandelt das chinesische Unternehmen Deepseek seine KI Informationen in Bilder. Über ein neuartiges Optical Character Recognition System (OCR) sollen Maschinen lernen, sich effizienter und länger zu erinnern.

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

Während OCR-Technologie bisher vor allem in Scanner-Apps oder Übersetzungssoftware zum Einsatz kam, nutzt DeepSeek sie nun als Testumgebung für ein neuartiges KI-Gedächtnis.
Das Ziel: weniger Energieverbrauch, mehr Effizienz und längere Kontexttreue bei großen Sprachmodellen

Das Gedächtnisproblem moderner KI

Aktuelle Large Language Models (LLMs) wie ChatGPT oder Claude funktionieren, indem sie Texte in kleine Einzelteile zerlegen – sogenannte Tokens. Diese Tokenisierung erlaubt es, Sprache mathematisch zu analysieren, führt aber zu einem bekannten Dilemma: Je länger eine Unterhaltung oder ein Dokument, desto mehr Tokens werden benötigt.

Das führt zu einem Phänomen, das Forschende als „Context Rot“ bezeichnen – ältere Informationen geraten in Vergessenheit oder werden durch neue überlagert. In langen Dialogen führt das dazu, dass KI-Modelle inkonsistent antworten oder sich selbst widersprechen. Gleichzeitig steigt der Rechenaufwand exponentiell, ebenso wie der Energieverbrauch.

Visuelle Tokens: Bild statt Text

Statt Text in unzählige Tokens zu zerlegen, wandelt das neue Modell die Informationen in Bilder um – ähnlich wie Seiten eines Buchs, die fotografiert werden.
Diese visuellen Tokens werden anschließend über ein OCR-System ausgelesen und maschinenlesbar gemacht.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
TenneT TSO GmbH-Firmenlogo
Sachbearbeiter für Wandler in Umspannwerken (m/w/d) TenneT TSO GmbH
DICO Drinks GmbH-Firmenlogo
Projektmanager - Betriebsengineering (m/w/d) DICO Drinks GmbH
Hückelhoven Zum Job 
Emscher Lippe Energie GmbH-Firmenlogo
Teamleiter operativer Messstellenbetrieb (m/w/d) Emscher Lippe Energie GmbH
Gelsenkirchen Zum Job 
Stadtwerke Verkehrsgesellschaft Frankfurt am Main mbH-Firmenlogo
Konstruktionsingenieur:in EPLAN (d/m/w) Stadtwerke Verkehrsgesellschaft Frankfurt am Main mbH
Frankfurt am Main Zum Job 
PFISTERER Kontaktsysteme GmbH-Firmenlogo
Entwicklungsingenieur Hochspannungstechnik - HVDC (m/w/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 
Müller & Bleher Ulm GmbH & Co. KG-Firmenlogo
Projektleiter Elektrotechnik / Stromversorgung (m/w/d) Müller & Bleher Ulm GmbH & Co. KG
THOST Projektmanagement GmbH-Firmenlogo
Ingenieur*in / Projektmanager*in (m/w/d) in der Steuerung von Großprojekten im Bereich Energiewende THOST Projektmanagement GmbH
WITTENSTEIN motion control GmbH-Firmenlogo
Systemingenieur (w/m/d) WITTENSTEIN motion control GmbH
Igersheim-Harthausen Zum Job 
IMS Messsysteme GmbH-Firmenlogo
Sales Manager (m/w/i) Oberflächeninspektion IMS Messsysteme GmbH
Heiligenhaus Zum Job 
FFG Flensburger Fahrzeugbau Gesellschaft mbH-Firmenlogo
Konstrukteur (m/w/d) - Elektromechanik FFG Flensburger Fahrzeugbau Gesellschaft mbH
Flensburg Zum Job 
TÜV Technische Überwachung Hessen GmbH-Firmenlogo
Ausbildung Prüfingenieur/-in (m/w/d) bzw. Sachverständige/-r (m/w/d) für den Tätigkeitsbereich Fahrzeugprüfung und Fahrerlaubnisprüfung TÜV Technische Überwachung Hessen GmbH
Schlüchtern Zum Job 
Ostbayerische Technische Hochschule Amberg-Weiden (OTH)-Firmenlogo
Professur (m/w/d) der BesGr. W2 für das Lehrgebiet Solarenergie und Gebäudeautomation Ostbayerische Technische Hochschule Amberg-Weiden (OTH)
Wirtgen GmbH-Firmenlogo
Functional Safety Software Engineer (m/w/d) - für mobile Arbeitsmaschinen Wirtgen GmbH
Windhagen Zum Job 
WARO MSR-Technik GmbH-Firmenlogo
SPS-/DDC-Programmierer (m/w/d) und/oder DDC-Programmierer (m/w/d) WARO MSR-Technik GmbH
Lübeck Zum Job 
swa Netze GmbH-Firmenlogo
Elektroingenieur (m/w/d) Einspeiseanlagen mit Führungsperspektive swa Netze GmbH
Augsburg Zum Job 
WBS TRAINING-Firmenlogo
Lernbegleiter:in / Trainer:in für SPS-Programmierung (m/w/d) WBS TRAINING
Deutschland / Homeoffice Zum Job 
Prognost Systems GmbH-Firmenlogo
Spezialist für Maschinendiagnose im Technischen Support / Elektrotechniker / Maschinenbauer (m/w/d) Prognost Systems GmbH
Bundesamt für Bauwesen und Raumordnung (BBR)-Firmenlogo
Ingenieurinnen / Ingenieure (w/m/d) für Elektrotechnik Bundesamt für Bauwesen und Raumordnung (BBR)
HEINE Optotechnik GmbH & Co. KG-Firmenlogo
Ingenieur für Automatisierung und Robotik (m/w/d) HEINE Optotechnik GmbH & Co. KG
Gilching bei München Zum Job 

Die Information bleibt dabei als Ganzes erhalten, während der Speicherbedarf drastisch sinkt. DeepSeek kombiniert diese Methode mit einer „tiered compression“, einer mehrstufigen Kompression. Wichtige Informationen bleiben scharf, unwichtige Inhalte werden komprimiert oder leicht „unscharf“ abgespeichert. Sie sind aber weiterhin im Hintergrund vorhanden – ähnlich, wie Menschen sich an wichtige Ereignisse detailliert erinnern, aber den genauen Wortlaut alltäglicher Gespräche vergessen.

Das Ergebnis ist ein Gedächtnis, das nicht alles gleichwertig behandelt, sondern Prioritäten setzt. Ein entscheidender Unterschied zu bisherigen Modellen. Gespräche mit KI-Systemen könnten dadurch konsistenter und natürlicher werden.

Praxisrelevanz und Anwendung

DeepSeek-OCR eignet sich besonders für die effiziente Verarbeitung großer Dokumentenmengen in Unternehmen, Verlagen und Behörden. Hier profitieren Workflows mit langen Kontexten maximal von der Komprimierung: Statt Tausender Texttoken werden nur noch wenige Hundert Visuelle-Token benötigt. Das erleichtert die Einspeisung langer Dokumente in LLMs.

Mehrsprachige und komplexe Dokumentformate werden vom Modell bereits unterstützt, da die Architektur multimodal trainiert wurde. Die genauen Grenzen und die Sprachabdeckung werden weiter erforscht.​

Mehr Effizienz, weniger CO₂-Fußabdruck

Neben der Einsparung an Speicherplatz und der Leistungssteigerung ist vor allem der Energieaspekt relevant. Da visuelle Tokens weniger Rechenpower brauchen als Text-Tokens, könnte die Methode den Energiebedarf großer Modelle signifikant senken. Der geringere Bedarf an Rechenleistung bedeutet auch: weniger CO₂-Ausstoß, geringere Kosten und eine bessere Skalierbarkeit.

Laut Angaben von DeepSeek kann das System über 200.000 Seiten Trainingsdaten pro Tag auf nur einer GPU erzeugen. Dabei werden Texte zunächst in Bilder umgewandelt und anschließend wieder maschinell ausgelesen. Diese doppelte Wandlung („Text → Bild → Text“) erzeugt leicht veränderte, aber inhaltlich sinnvolle Varianten und verringert zugleich Ähnlichkeiten zu bestehenden Quellen. So lassen sich große Mengen „neuer“ Trainingsdaten generieren. Viele öffentliche Quellen sind bereits ausgeschöpft oder urheberrechtlich eingeschränkt. Wenn ein Modell wie das von DeepSeek täglich Hunderttausende, lesbare Seiten liefern kann, hilft das, den wachsenden Datenhunger großer Sprachmodelle zu stillen.

Kein Allheilmittel

So vielversprechend der Ansatz klingt, so viele Fragen bleiben offen. Noch ist nicht klar, wie gut die Methode mit visuellen Tokens bei wirklich komplexen Aufgaben funktioniert – etwa dann, wenn eine KI über viele Ebenen hinweg logisch denken oder Schlüsse ziehen muss. Bisher gibt es keine Belege dafür, dass diese Form der Speicherung auch beim Verstehen und Argumentieren Vorteile bringt.

Hinzu kommt: DeepSeek-OCR ist bislang nur ein Forschungsprototyp, kein ausgereiftes Produkt. Die Ergebnisse stammen aus Laborbedingungen, nicht aus realen Anwendungsszenarien. Ob das Verfahren in großem Maßstab stabil läuft, bleibt offen. Ebenso die Frage, wie sich das System bei mehrsprachigen, unstrukturierten oder fehlerhaften Datenquellen verhält.

Ein Beitrag von:

  • Tim Stockhausen

    Tim Stockhausen ist Volontär beim VDI Verlag. 2024 schloss er sein Studium der visuellen Technikkommunikation an der Hochschule Bonn-Rhein-Sieg ab. Seine journalistischen Interessen gelten insbesondere Künstlicher Intelligenz, Mobilität, Raumfahrt und digitalen Welten.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.