Neues Speicherprinzip 30.10.2025, 15:30 Uhr

Das Ende des Vergessens – DeepSeek lässt KI in Bildern denken

Künstliche Intelligenz hat ein Kurzzeitgedächtnis – und genau das bremst ihren Fortschritt. Statt Sprache in unzählige Text-Tokens zu zerlegen, verwandelt das chinesische Unternehmen Deepseek seine KI Informationen in Bilder. Über ein neuartiges Optical Character Recognition System (OCR) sollen Maschinen lernen, sich effizienter und länger zu erinnern.

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

Während OCR-Technologie bisher vor allem in Scanner-Apps oder Übersetzungssoftware zum Einsatz kam, nutzt DeepSeek sie nun als Testumgebung für ein neuartiges KI-Gedächtnis.
Das Ziel: weniger Energieverbrauch, mehr Effizienz und längere Kontexttreue bei großen Sprachmodellen

Das Gedächtnisproblem moderner KI

Aktuelle Large Language Models (LLMs) wie ChatGPT oder Claude funktionieren, indem sie Texte in kleine Einzelteile zerlegen – sogenannte Tokens. Diese Tokenisierung erlaubt es, Sprache mathematisch zu analysieren, führt aber zu einem bekannten Dilemma: Je länger eine Unterhaltung oder ein Dokument, desto mehr Tokens werden benötigt.

Das führt zu einem Phänomen, das Forschende als „Context Rot“ bezeichnen – ältere Informationen geraten in Vergessenheit oder werden durch neue überlagert. In langen Dialogen führt das dazu, dass KI-Modelle inkonsistent antworten oder sich selbst widersprechen. Gleichzeitig steigt der Rechenaufwand exponentiell, ebenso wie der Energieverbrauch.

Visuelle Tokens: Bild statt Text

Statt Text in unzählige Tokens zu zerlegen, wandelt das neue Modell die Informationen in Bilder um – ähnlich wie Seiten eines Buchs, die fotografiert werden.
Diese visuellen Tokens werden anschließend über ein OCR-System ausgelesen und maschinenlesbar gemacht.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
KANZAN Spezialpapiere GmbH-Firmenlogo
Technische Projektplaner (m/w/d) in der Papierindustrie KANZAN Spezialpapiere GmbH
Landguth Heimtiernahrung GmbH-Firmenlogo
Automation Engineer / Automatisierungsingenieur (m/w/d) - Produktion & Digitalisierung Landguth Heimtiernahrung GmbH
Ihlow Riepe Zum Job 
Tremonia Mobility GmbH-Firmenlogo
Ingenieur / Techniker - Fahrzeugelektronik (m/w/d) Tremonia Mobility GmbH
Dortmund Zum Job 
naturenergie netze GmbH-Firmenlogo
Ingenieur als Teamleiter Netzleitstelle (m/w/d) naturenergie netze GmbH
Rheinfelden (Baden), Donaueschingen Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
seleon GmbH-Firmenlogo
Entwickler Mechanik / Konstruktion (m/w/d) seleon GmbH
Dessau-Roßlau Zum Job 
Stadtwerke Potsdam GmbH-Firmenlogo
Experte (m/w/d) Energieinfrastruktur und Bauprojekte - Planung und Realisierung - Stadtwerke Potsdam GmbH
Potsdam Zum Job 
Netzgesellschaft Potsdam GmbH-Firmenlogo
Projektleiter (m/w/d) Sonderbauvorhaben Umspannwerke | Hochspannungsfreileitungen Netzgesellschaft Potsdam GmbH
Potsdam Zum Job 
Schmoll Maschinen GmbH-Firmenlogo
Applikation- und Projektingenieur (m/w/d) Schmoll Maschinen GmbH
Rödermark Zum Job 
ONTRAS Gastransport GmbH-Firmenlogo
Projektmanager für Wasserstoff (m/w/d) ONTRAS Gastransport GmbH
Leipzig Zum Job 
maxon motor GmbH-Firmenlogo
Produktionsingenieur Schwerpunkt Injection Molding Tools & Processes (w/m/d) maxon motor GmbH
Netz Leipzig GmbH-Firmenlogo
Teamleitung (m/w/d) Leitstelle Strom Netz Leipzig GmbH
Leipzig Zum Job 
TROESTER GmbH & Co. KG-Firmenlogo
Ingenieur / Techniker (m/w/d) - Fachrichtung Elektrotechnik/SPS TROESTER GmbH & Co. KG
Hannover Zum Job 
KEMNA BAU Andreae GmbH & Co. KG-Firmenlogo
Projektportfolio-Manager (m/w/d) für Produktionsanlagen KEMNA BAU Andreae GmbH & Co. KG
Pinneberg, Hybrid Zum Job 
HOCHBAHN U5 Projekt GmbH-Firmenlogo
Projektleiter U5-Betriebsführungssystem - vollautomatisches U-Bahn-System (w/m/d) HOCHBAHN U5 Projekt GmbH
Hamburg Zum Job 
Beckhoff Automation GmbH & Co. KG-Firmenlogo
Ingenieur (m/w/d) Vertrieb Automatisierungstechnik im Gebiet München Beckhoff Automation GmbH & Co. KG
Gröbenzell Zum Job 
Schleifring GmbH-Firmenlogo
Ingenieur/ Vertriebsingenieur (m/w/d) für den Bereich Key Account Schleifring GmbH
Fürstenfeldbruck Zum Job 
GW Batterien GmbH-Firmenlogo
Anwendungstechniker (m/w/d) GW Batterien GmbH
Zwickau Zum Job 
Venjakob Maschinenbau GmbH & Co. KG-Firmenlogo
Projektmanager IT-Architektur & Datenvisualisierung (m|w|d) Venjakob Maschinenbau GmbH & Co. KG
Rheda-Wiedenbrück Zum Job 
Berliner Stadtreinigung (BSR)-Firmenlogo
Betriebsingenieur:in Automatisierungs- und Emissionsmesstechnik (w/m/d) Berliner Stadtreinigung (BSR)

Die Information bleibt dabei als Ganzes erhalten, während der Speicherbedarf drastisch sinkt. DeepSeek kombiniert diese Methode mit einer „tiered compression“, einer mehrstufigen Kompression. Wichtige Informationen bleiben scharf, unwichtige Inhalte werden komprimiert oder leicht „unscharf“ abgespeichert. Sie sind aber weiterhin im Hintergrund vorhanden – ähnlich, wie Menschen sich an wichtige Ereignisse detailliert erinnern, aber den genauen Wortlaut alltäglicher Gespräche vergessen.

Das Ergebnis ist ein Gedächtnis, das nicht alles gleichwertig behandelt, sondern Prioritäten setzt. Ein entscheidender Unterschied zu bisherigen Modellen. Gespräche mit KI-Systemen könnten dadurch konsistenter und natürlicher werden.

Praxisrelevanz und Anwendung

DeepSeek-OCR eignet sich besonders für die effiziente Verarbeitung großer Dokumentenmengen in Unternehmen, Verlagen und Behörden. Hier profitieren Workflows mit langen Kontexten maximal von der Komprimierung: Statt Tausender Texttoken werden nur noch wenige Hundert Visuelle-Token benötigt. Das erleichtert die Einspeisung langer Dokumente in LLMs.

Mehrsprachige und komplexe Dokumentformate werden vom Modell bereits unterstützt, da die Architektur multimodal trainiert wurde. Die genauen Grenzen und die Sprachabdeckung werden weiter erforscht.​

Mehr Effizienz, weniger CO₂-Fußabdruck

Neben der Einsparung an Speicherplatz und der Leistungssteigerung ist vor allem der Energieaspekt relevant. Da visuelle Tokens weniger Rechenpower brauchen als Text-Tokens, könnte die Methode den Energiebedarf großer Modelle signifikant senken. Der geringere Bedarf an Rechenleistung bedeutet auch: weniger CO₂-Ausstoß, geringere Kosten und eine bessere Skalierbarkeit.

Laut Angaben von DeepSeek kann das System über 200.000 Seiten Trainingsdaten pro Tag auf nur einer GPU erzeugen. Dabei werden Texte zunächst in Bilder umgewandelt und anschließend wieder maschinell ausgelesen. Diese doppelte Wandlung („Text → Bild → Text“) erzeugt leicht veränderte, aber inhaltlich sinnvolle Varianten und verringert zugleich Ähnlichkeiten zu bestehenden Quellen. So lassen sich große Mengen „neuer“ Trainingsdaten generieren. Viele öffentliche Quellen sind bereits ausgeschöpft oder urheberrechtlich eingeschränkt. Wenn ein Modell wie das von DeepSeek täglich Hunderttausende, lesbare Seiten liefern kann, hilft das, den wachsenden Datenhunger großer Sprachmodelle zu stillen.

Kein Allheilmittel

So vielversprechend der Ansatz klingt, so viele Fragen bleiben offen. Noch ist nicht klar, wie gut die Methode mit visuellen Tokens bei wirklich komplexen Aufgaben funktioniert – etwa dann, wenn eine KI über viele Ebenen hinweg logisch denken oder Schlüsse ziehen muss. Bisher gibt es keine Belege dafür, dass diese Form der Speicherung auch beim Verstehen und Argumentieren Vorteile bringt.

Hinzu kommt: DeepSeek-OCR ist bislang nur ein Forschungsprototyp, kein ausgereiftes Produkt. Die Ergebnisse stammen aus Laborbedingungen, nicht aus realen Anwendungsszenarien. Ob das Verfahren in großem Maßstab stabil läuft, bleibt offen. Ebenso die Frage, wie sich das System bei mehrsprachigen, unstrukturierten oder fehlerhaften Datenquellen verhält.

Ein Beitrag von:

  • Tim Stockhausen

    Tim Stockhausen ist Volontär beim VDI Verlag. 2024 schloss er sein Studium der visuellen Technikkommunikation an der Hochschule Bonn-Rhein-Sieg ab. Seine journalistischen Interessen gelten insbesondere Künstlicher Intelligenz, Mobilität, Raumfahrt und digitalen Welten.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.