Neues Speicherprinzip 30.10.2025, 15:30 Uhr

Das Ende des Vergessens – DeepSeek lässt KI in Bildern denken

Künstliche Intelligenz hat ein Kurzzeitgedächtnis – und genau das bremst ihren Fortschritt. Statt Sprache in unzählige Text-Tokens zu zerlegen, verwandelt das chinesische Unternehmen Deepseek seine KI Informationen in Bilder. Über ein neuartiges Optical Character Recognition System (OCR) sollen Maschinen lernen, sich effizienter und länger zu erinnern.

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

DeepSeek entwickelt ein visuelles KI-Gedächtnis: Informationen werden als Bilder gespeichert, um Energie zu sparen und Kontextverlust zu vermeiden.

Foto: picture alliance / imageBROKER | Md Mamun Miah

Während OCR-Technologie bisher vor allem in Scanner-Apps oder Übersetzungssoftware zum Einsatz kam, nutzt DeepSeek sie nun als Testumgebung für ein neuartiges KI-Gedächtnis.
Das Ziel: weniger Energieverbrauch, mehr Effizienz und längere Kontexttreue bei großen Sprachmodellen

Das Gedächtnisproblem moderner KI

Aktuelle Large Language Models (LLMs) wie ChatGPT oder Claude funktionieren, indem sie Texte in kleine Einzelteile zerlegen – sogenannte Tokens. Diese Tokenisierung erlaubt es, Sprache mathematisch zu analysieren, führt aber zu einem bekannten Dilemma: Je länger eine Unterhaltung oder ein Dokument, desto mehr Tokens werden benötigt.

Das führt zu einem Phänomen, das Forschende als „Context Rot“ bezeichnen – ältere Informationen geraten in Vergessenheit oder werden durch neue überlagert. In langen Dialogen führt das dazu, dass KI-Modelle inkonsistent antworten oder sich selbst widersprechen. Gleichzeitig steigt der Rechenaufwand exponentiell, ebenso wie der Energieverbrauch.

Visuelle Tokens: Bild statt Text

Statt Text in unzählige Tokens zu zerlegen, wandelt das neue Modell die Informationen in Bilder um – ähnlich wie Seiten eines Buchs, die fotografiert werden.
Diese visuellen Tokens werden anschließend über ein OCR-System ausgelesen und maschinenlesbar gemacht.

Top Stellenangebote

Zur Jobbörse
Clees Wohnimmobilien GmbH & Co. KG-Firmenlogo
Bauingenieur (m/w/d) Clees Wohnimmobilien GmbH & Co. KG
Düsseldorf Zum Job 
Schleifring GmbH-Firmenlogo
Head of Sales and Project Management (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
ERGO Group AG-Firmenlogo
Technischer Objektmanager (m/w/d) ERGO Group AG
Schmoll Maschinen GmbH-Firmenlogo
Support-Techniker/-Ingenieur (m/w/d) LED-Lithographieanlagen Schmoll Maschinen GmbH
Rödermark Zum Job 
Stadt Hemer-Firmenlogo
Architekt/in bzw. Ingenieur/in (w/m/d) für unseren Hochbau in Vollzeit oder Teilzeit Stadt Hemer
Schmoll Maschinen GmbH-Firmenlogo
Projektingenieur / Maschinenbauingenieur (m/w/d) im Bereich Digitale LED-Anlagen Schmoll Maschinen GmbH
Rödermark Zum Job 
ASG Abwasserentsorgung Salzgitter GmbH-Firmenlogo
Geschäftsführung (m/w/d) der Abwasserentsorgung ASG Abwasserentsorgung Salzgitter GmbH
Salzgitter Zum Job 
Freie und Hansestadt Hamburg Behörde für Verkehr und Mobilitätswende-Firmenlogo
Projektingenieur:in Brückenbau Hamburg Freie und Hansestadt Hamburg Behörde für Verkehr und Mobilitätswende
Hamburg Zum Job 
Titan Umreifungstechnik GmbH & Co. KG-Firmenlogo
Technischer Einkäufer (m/w/d/) Titan Umreifungstechnik GmbH & Co. KG
Schwelm Zum Job 
SWR Südwestrundfunk Anstalt des öffentlichen Rechts-Firmenlogo
Fachgruppenleiter / Fachgruppenleiterin (w/m/d) Klimatechnik im Gebäudemanagement Baden-Baden SWR Südwestrundfunk Anstalt des öffentlichen Rechts
Baden-Baden Zum Job 
Excelitas Deutschland GmbH-Firmenlogo
Qualitätsingenieur (w/m/d) Produktentwicklung Excelitas Deutschland GmbH
Feldkirchen Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Abteilungsleitung Umweltplanung (w/m/d) Die Autobahn GmbH des Bundes
Schleifring GmbH-Firmenlogo
Konstruktionsingenieur mit Projektverantwortung (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
SWR Südwestrundfunk Anstalt des öffentlichen Rechts-Firmenlogo
Experte / Expertin Bauwesen (w/m/d) in der Abteilung Gebäudemanagement / Verwaltung Mainz SWR Südwestrundfunk Anstalt des öffentlichen Rechts
Heraeus Site Operations GmbH & Co. KG-Firmenlogo
Projektleiter (m/w/d) für Bauprojekte Heraeus Site Operations GmbH & Co. KG
Brandenburgischer Landesbetrieb für Liegenschaften und Bauen (BLB)-Firmenlogo
Projektleitung (m/w/d) für Hochbaumaßnahmen (Architekt/in o. Ingenieur/in) Brandenburgischer Landesbetrieb für Liegenschaften und Bauen (BLB)
Frankfurt (Oder) Zum Job 
Universitätsklinikum Leipzig-Firmenlogo
Projektleitung / Fachingenieur (m/w/d) - Schwachstromtechnik im Bereich 5 - Bau und Gebäudetechnik Universitätsklinikum Leipzig
Leipzig Zum Job 
ai6 SOLUTIONS GmbH-Firmenlogo
Entwickler Mechanik / Konstruktion (m/w/d) ai6 SOLUTIONS GmbH
Dessau-Roßlau Zum Job 
Schleifring GmbH-Firmenlogo
Key Account Manager Sicherheit und Verteidigung (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
J.P. Sauer & Sohn Maschinenbau GmbH-Firmenlogo
Elektroingenieur (m/w/d) Produktindustrialisierung J.P. Sauer & Sohn Maschinenbau GmbH

Die Information bleibt dabei als Ganzes erhalten, während der Speicherbedarf drastisch sinkt. DeepSeek kombiniert diese Methode mit einer „tiered compression“, einer mehrstufigen Kompression. Wichtige Informationen bleiben scharf, unwichtige Inhalte werden komprimiert oder leicht „unscharf“ abgespeichert. Sie sind aber weiterhin im Hintergrund vorhanden – ähnlich, wie Menschen sich an wichtige Ereignisse detailliert erinnern, aber den genauen Wortlaut alltäglicher Gespräche vergessen.

Das Ergebnis ist ein Gedächtnis, das nicht alles gleichwertig behandelt, sondern Prioritäten setzt. Ein entscheidender Unterschied zu bisherigen Modellen. Gespräche mit KI-Systemen könnten dadurch konsistenter und natürlicher werden.

Praxisrelevanz und Anwendung

DeepSeek-OCR eignet sich besonders für die effiziente Verarbeitung großer Dokumentenmengen in Unternehmen, Verlagen und Behörden. Hier profitieren Workflows mit langen Kontexten maximal von der Komprimierung: Statt Tausender Texttoken werden nur noch wenige Hundert Visuelle-Token benötigt. Das erleichtert die Einspeisung langer Dokumente in LLMs.

Mehrsprachige und komplexe Dokumentformate werden vom Modell bereits unterstützt, da die Architektur multimodal trainiert wurde. Die genauen Grenzen und die Sprachabdeckung werden weiter erforscht.​

Mehr Effizienz, weniger CO₂-Fußabdruck

Neben der Einsparung an Speicherplatz und der Leistungssteigerung ist vor allem der Energieaspekt relevant. Da visuelle Tokens weniger Rechenpower brauchen als Text-Tokens, könnte die Methode den Energiebedarf großer Modelle signifikant senken. Der geringere Bedarf an Rechenleistung bedeutet auch: weniger CO₂-Ausstoß, geringere Kosten und eine bessere Skalierbarkeit.

Laut Angaben von DeepSeek kann das System über 200.000 Seiten Trainingsdaten pro Tag auf nur einer GPU erzeugen. Dabei werden Texte zunächst in Bilder umgewandelt und anschließend wieder maschinell ausgelesen. Diese doppelte Wandlung („Text → Bild → Text“) erzeugt leicht veränderte, aber inhaltlich sinnvolle Varianten und verringert zugleich Ähnlichkeiten zu bestehenden Quellen. So lassen sich große Mengen „neuer“ Trainingsdaten generieren. Viele öffentliche Quellen sind bereits ausgeschöpft oder urheberrechtlich eingeschränkt. Wenn ein Modell wie das von DeepSeek täglich Hunderttausende, lesbare Seiten liefern kann, hilft das, den wachsenden Datenhunger großer Sprachmodelle zu stillen.

Kein Allheilmittel

So vielversprechend der Ansatz klingt, so viele Fragen bleiben offen. Noch ist nicht klar, wie gut die Methode mit visuellen Tokens bei wirklich komplexen Aufgaben funktioniert – etwa dann, wenn eine KI über viele Ebenen hinweg logisch denken oder Schlüsse ziehen muss. Bisher gibt es keine Belege dafür, dass diese Form der Speicherung auch beim Verstehen und Argumentieren Vorteile bringt.

Hinzu kommt: DeepSeek-OCR ist bislang nur ein Forschungsprototyp, kein ausgereiftes Produkt. Die Ergebnisse stammen aus Laborbedingungen, nicht aus realen Anwendungsszenarien. Ob das Verfahren in großem Maßstab stabil läuft, bleibt offen. Ebenso die Frage, wie sich das System bei mehrsprachigen, unstrukturierten oder fehlerhaften Datenquellen verhält.

Ein Beitrag von:

  • Tim Stockhausen

    Tim Stockhausen ist Volontär beim VDI Verlag. 2024 schloss er sein Studium der visuellen Technikkommunikation an der Hochschule Bonn-Rhein-Sieg ab. Seine journalistischen Interessen gelten insbesondere Künstlicher Intelligenz, Mobilität, Raumfahrt und digitalen Welten.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.