OpenAI & NVIDIA: So funktioniert die neue Hochgeschwindigkeits-KI

OpenAI & NVIDIA veröffentlichen mit gpt-oss ein KI-Modell, das 1,5 Mio. Tokens pro Sekunde verarbeitet – offen, schnell, effizient.

Das neue Open-Source-Sprachmodell gpt-oss-120b von OpenAI und NVIDIA verarbeitet bis zu 1,5 Millionen Tokens pro Sekunde – und lässt sich lokal betreiben.

Foto: Smarterpix / Varavin88

OpenAI und NVIDIA setzen mit zwei neuen KI-Sprachmodellen eine technische Marke: gpt-oss-120b erreicht laut Benchmark-Tests eine Verarbeitungsgeschwindigkeit von 1,5 Millionen Tokens pro Sekunde – ein Rekordwert, der neue Maßstäbe im Bereich offener Modelle setzt. Entwickler erhalten damit ein Werkzeug, das sowohl leistungsstark als auch flexibel ist. Das bedeutet außerdem, dass der gesamte Inhalt, sowohl die Fragen oder Daten als auch die Antworten, diesen Wert nicht überschreiten darf.

Die Besonderheit: Beide Modelle, gpt-oss-120b und gpt-oss-20b, sind offen verfügbar und lassen sich unter der Apache-2.0-Lizenz frei kommerziell oder im Forschungsumfeld nutzen. „Mit den gpt-oss-Modellen können Entwickler überall auf dieser hochmodernen Open-Source-Grundlage aufbauen“, so NVIDIA-Chef Jensen Huang.

Für Entwickler, Unternehmen und Agenten-Workflows
Was bedeutet „offen“ bei KI?
Training mit hohen Standards
Drei Denkmodi: Von schnell bis gründlich
Hardwareanforderungen: Effizient und flexibel
Sicherheitskonzept gegen Missbrauch
Technisch im Detail: Kontext, Attention, Embeddings
Praxisnah bewertet: Benchmarks und Ergebnisse
Unterstützung durch Plattformen und Partner

Für Entwickler, Unternehmen und Agenten-Workflows

Die Modelle richten sich an ein breites Spektrum von Nutzer*innen – von Einzelpersonen über Start-ups bis zu Konzernen. Sie bieten hohe Leistung in Bereichen wie logisches Denken, Werkzeugnutzung, strukturierte Ausgabeformate und sogar Codegenerierung. Besonders hervorzuheben ist die Echtzeitanwendung mit geringer Latenz, also minimalen Reaktionszeiten bei Anfragen.

Top Stellenangebote

Zur Jobbörse

gpt-oss-120b kommt mit 117 Milliarden Gesamtparametern, wobei pro Token nur 5,1 Milliarden aktiv sind. Das kleinere Modell gpt-oss-20b nutzt 21 Milliarden Gesamtparameter und 3,6 Milliarden pro Token aktiv. Diese Architektur folgt dem Prinzip „Mixture of Experts“ – also einer gezielten Auswahl von Teilmodellen für jede Aufgabe, um Ressourcen zu sparen.

Was ist ein Token?

In der KI und besonders beim Sprachverstehen (Natural Language Processing, NLP) bezeichnet ein Token die kleinste verarbeitbare Einheit eines Textes – etwa ein Wort, Satzzeichen oder einzelnes Zeichen. Modelle wie ChatGPT zerlegen Texte in solche Einheiten, um Struktur und Bedeutung effizient zu analysieren.

Die Anzahl an Tokens bestimmt, wie viel Text ein Sprachmodell gleichzeitig verarbeiten kann. GPT-3.5 etwa hat ein Limit von 4.096 Tokens, GPT-4 liegt bei 8192, GPT-4o sogar bei 128.000 Tokens. Wird dieses Limit überschritten, muss der Text gekürzt oder geteilt werden – das kann zu Verständniseinbußen führen, wenn der Kontext nicht vollständig erhalten bleibt.

Was bedeutet „offen“ bei KI?

Im Gegensatz zu geschlossenen Systemen wie GPT-4 oder Gemini geben Open-Weight-Modelle nicht nur den Quellcode, sondern auch die trainierten Parameter frei. Dadurch lassen sie sich auf eigener Hardware ausführen, ohne auf Cloud-Dienste angewiesen zu sein. Das erhöht die Kontrolle über die Anwendung – gerade in sicherheitskritischen Bereichen.

OpenAI-Chef Sam Altman betont den Anspruch: „Die Welt kann künftig auf einem offenen KI-Stack aufbauen – entwickelt in den USA, geprägt von demokratischen Werten, kostenlos zugänglich und zum breiten Nutzen aller.“

Training mit hohen Standards

Die gpt-oss-Modelle wurden in mehreren Stufen trainiert: Zunächst durch überwachtes Lernen, anschließend mithilfe von Techniken wie „Reinforcement Learning from Human Feedback“ (RLHF). Ziel war es, das Verhalten auf die OpenAI-eigene Model Specification auszurichten – also Denkprozesse darzustellen (Chain-of-Thought) und Werkzeuge gezielt einzusetzen.

Die Datenbasis bestand überwiegend aus englischsprachigen Texten mit starkem Fokus auf Naturwissenschaften, Technik und Programmierung. Zum Einsatz kam dabei der o200k_harmony-Tokenizer, den OpenAI nun ebenfalls als Open Source freigibt.

Drei Denkmodi: Von schnell bis gründlich

Entwickelnde können je nach Anwendungsfall zwischen drei „Reasoning-Tiefen“ wählen: niedrig, mittel oder hoch. So lassen sich Aufgaben schnell lösen, wenn wenig Denkleistung nötig ist – oder mit höherem Aufwand bearbeiten, wenn komplexe Argumentationsketten gefragt sind. Die Auswahl erfolgt durch eine einfache Einstellung im Systemprompt.

Diese Flexibilität ermöglicht unter anderem den Einsatz in agentenbasierten Workflows, bei denen das Modell in mehreren Schritten überlegt, Tools verwendet und auf strukturierte Daten zugreift.

Auch interessant:

Arbeit und Alltag

21 spannende KI-Tools für Beruf, Uni und Freizeit

Online-Shopping

Kaufberatung: ChatGPT greift weiteres Google-Revier an

Hardwareanforderungen: Effizient und flexibel

Trotz ihrer Größe lassen sich die Modelle effizient betreiben:

gpt-oss-120b benötigt lediglich eine 80-GB-GPU
gpt-oss-20b läuft sogar auf 16 GB Edge-Geräten

Das ermöglicht eine lokale Nutzung, zum Beispiel in sensiblen Bereichen wie Forschungslaboren, Behörden oder in Ländern mit eingeschränktem Cloud-Zugang.

Für den produktiven Einsatz wurde die Kompatibilität mit Frameworks wie FlashInfer, Hugging Face, llama.cpp, Ollama und vLLM sichergestellt. Auch TensorRT-LLM, der Optimierungsstack von NVIDIA, wird unterstützt. Microsoft erlaubt über ONNX Runtime sogar die lokale Nutzung auf Windows-Geräten.

Sicherheitskonzept gegen Missbrauch

Da offene Modelle nicht „zurückgerufen“ werden können, war das Thema Sicherheit zentral. OpenAI entwickelte ein spezielles Protokoll namens „Worst-Case-Fine-Tuning“, bei dem das Modell gezielt auf Missbrauchsszenarien in Biologie oder Cybersicherheit getestet wurde.

Externe Fachleute überprüften die Methodik. Die zugrundeliegenden Prompts, Bewertungskriterien und Codes stellt OpenAI offen zur Verfügung. Ergänzt wird das Ganze durch das unternehmenseigene Preparedness Framework, das die Sicherheitsstandards an geschlossene Modelle wie GPT-4 angleicht.

Technisch im Detail: Kontext, Attention, Embeddings

Die Modelle unterstützen Kontexteingaben mit einer Länge von bis zu 128.000 Tokens. Für die Positionskodierung wird RoPE (Rotary Positional Embedding) eingesetzt. Die Aufmerksamkeit („Attention“) wird durch ein gemischtes, sparsames Schema umgesetzt, das Speicherbedarf und Leistung in Balance hält. Auch die Multi-Query Attention mit Gruppengrößen von acht trägt zur Effizienz bei.

Diese architektonischen Maßnahmen sorgen dafür, dass auch größere Aufgaben innerhalb eines Tokenspeichers bewältigt werden können – ohne auf teure Rechenzentren angewiesen zu sein.

Praxisnah bewertet: Benchmarks und Ergebnisse

In zahlreichen Benchmarks schnitt gpt-oss-120b mindestens auf dem Niveau des OpenAI-Modells o4-mini ab. Teilweise übertraf es sogar geschlossene Modelle bei Aufgaben in den Bereichen:

Wettbewerbsmathematik (AIME 2024 & 2025)
Gesundheitswesen (HealthBench)
Codierung (Codeforces)
Tool-Verwendung (TauBench)

Auch das kleinere Modell gpt-oss-20b erreichte beachtliche Resultate – trotz deutlich geringerer Hardwareanforderungen.

Unterstützung durch Plattformen und Partner

Um den Zugang zu erleichtern, kooperieren OpenAI und NVIDIA mit verschiedenen Plattformen und Hardwareanbietern. Dazu zählen Azure, AWS, Vercel, Databricks, aber auch AMD, Cerebras und Groq. Erste Pilotprojekte mit Partnern wie AI Sweden oder Snowflake untersuchen aktuell, wie sich die Modelle vor Ort einsetzen lassen – etwa zur Anpassung an spezielle Datensätze.

Hier geht es zur Meldung von OpenAI

Ein Beitrag von:

Dominik Hochwarth

Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.