Gpt-oss veröffentlicht 06.08.2025, 10:30 Uhr

OpenAI & NVIDIA: So funktioniert die neue Hochgeschwindigkeits-KI

OpenAI & NVIDIA veröffentlichen mit gpt-oss ein KI-Modell, das 1,5 Mio. Tokens pro Sekunde verarbeitet – offen, schnell, effizient.

OpenAI

Das neue Open-Source-Sprachmodell gpt-oss-120b von OpenAI und NVIDIA verarbeitet bis zu 1,5 Millionen Tokens pro Sekunde – und lässt sich lokal betreiben.

Foto: Smarterpix / Varavin88

OpenAI und NVIDIA setzen mit zwei neuen KI-Sprachmodellen eine technische Marke: gpt-oss-120b erreicht laut Benchmark-Tests eine Verarbeitungsgeschwindigkeit von 1,5 Millionen Tokens pro Sekunde – ein Rekordwert, der neue Maßstäbe im Bereich offener Modelle setzt. Entwickler erhalten damit ein Werkzeug, das sowohl leistungsstark als auch flexibel ist. Das bedeutet außerdem, dass der gesamte Inhalt, sowohl die Fragen oder Daten als auch die Antworten, diesen Wert nicht überschreiten darf.

Die Besonderheit: Beide Modelle, gpt-oss-120b und gpt-oss-20b, sind offen verfügbar und lassen sich unter der Apache-2.0-Lizenz frei kommerziell oder im Forschungsumfeld nutzen. „Mit den gpt-oss-Modellen können Entwickler überall auf dieser hochmodernen Open-Source-Grundlage aufbauen“, so NVIDIA-Chef Jensen Huang.

Für Entwickler, Unternehmen und Agenten-Workflows

Die Modelle richten sich an ein breites Spektrum von Nutzer*innen – von Einzelpersonen über Start-ups bis zu Konzernen. Sie bieten hohe Leistung in Bereichen wie logisches Denken, Werkzeugnutzung, strukturierte Ausgabeformate und sogar Codegenerierung. Besonders hervorzuheben ist die Echtzeitanwendung mit geringer Latenz, also minimalen Reaktionszeiten bei Anfragen.

Top Stellenangebote

Zur Jobbörse
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur für Streckenplanung (w/m/d) Die Autobahn GmbH des Bundes
Die Autobahn GmbH des Bundes-Firmenlogo
Fachingenieur für Streckenplanung (w/m/d) Die Autobahn GmbH des Bundes
DFS Deutsche Flugsicherung-Firmenlogo
Produktmanager (w/m/d) für Systementwicklung iCAS DFS Deutsche Flugsicherung
Langen bei Frankfurt Zum Job 
WBS TRAINING AG-Firmenlogo
Schweißlehrer:in für WIG, MIG/MAG und E-Hand (m/w/d) WBS TRAINING AG
Dresden Zum Job 
M.E. SCHUPP Industriekeramik GmbH-Firmenlogo
Projektingenieur/in - Technische Projektierung / Presales Engineering (m/w/d) mit Schwerpunkt keramische Hochtemperatur-Isolationstechnik M.E. SCHUPP Industriekeramik GmbH
TenneT TSO-Firmenlogo
Parametrierer Stationsleittechnik (m/w/d) TenneT TSO
Audorf, Stockelsdorf Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur (w/m/d) für die Projektleitung von Lärmschutz- und Brückenbauwerken Die Autobahn GmbH des Bundes
Nürnberg Zum Job 
Max Bögl Bauservice GmbH & Co. KG-Firmenlogo
Automatisierungstechniker (m/w/d) im Bereich Sondermaschinenbau Max Bögl Bauservice GmbH & Co. KG
Sengenthal bei Neumarkt in der Oberpfalz Zum Job 
Jungheinrich Aktiengesellschaft-Firmenlogo
Tech Lead (m/w/d) Electric Powertrain / Elektromotoren Jungheinrich Aktiengesellschaft
Norderstedt Zum Job 
GOLDBECK West GmbH-Firmenlogo
Architekt / Bauingenieur als Sales Manager (m/w/d) für schlüsselfertige Gewerbeimmobilien GOLDBECK West GmbH
Gemeinnützige Gesellschaft der Franziskanerinnen zu Olpe mbH (GFO)-Firmenlogo
Bauingenieur oder Projektmanager (m/w/d) Bau & Technik Gemeinnützige Gesellschaft der Franziskanerinnen zu Olpe mbH (GFO)
Dinslaken, Troisdorf, Hilden, Olpe, Bonn, Langenfeld Zum Job 
Schleifring GmbH-Firmenlogo
Arbeitsvorbereiter Fertigungssteuerung (m/w/d) Schleifring GmbH
Fürstenfeldbruck Zum Job 
Allbau Managementgesellschaft mbH-Firmenlogo
Projektleiter (m/w/d) Serielle Sanierung & GU-Projekte Allbau Managementgesellschaft mbH
Fraunhofer-Institut für Angewandte Festkörperphysik IAF-Firmenlogo
Projektleitung - Neubau Reinraum (all genders) Fraunhofer-Institut für Angewandte Festkörperphysik IAF
Freiburg im Breisgau Zum Job 
TenneT TSO-Firmenlogo
OT Security Engineer (m/w/d) TenneT TSO
Audorf, Stockelsdorf Zum Job 
Schmoll Maschinen GmbH-Firmenlogo
Konstruktionsingenieur / Maschinenbautechniker (m/w/d) Schwerpunkt Maschinen- & Anlagenbau Schmoll Maschinen GmbH
Rödermark Zum Job 
Immobilien Management Essen GmbH (IME)-Firmenlogo
(Senior) Projektkoordinator (m/w/d) Hochbau & Stadtentwicklung Immobilien Management Essen GmbH (IME)
Allbau Managementgesellschaft mbH-Firmenlogo
Projektentwickler (m/w/d) Immobilien Allbau Managementgesellschaft mbH
RINGSPANN GmbH-Firmenlogo
Vertriebsingenieur (m/w/d) als Produkt-Account-Manager Antriebskomponenten/Bremsen RINGSPANN GmbH
Bad Homburg Zum Job 
Crawford & Company (Deutschland) GmbH-Firmenlogo
Technical Expert / Sachverständiger (w/m/d) Bereich Global Technical Services Crawford & Company (Deutschland) GmbH
verschiedene Einsatzorte Zum Job 

gpt-oss-120b kommt mit 117 Milliarden Gesamtparametern, wobei pro Token nur 5,1 Milliarden aktiv sind. Das kleinere Modell gpt-oss-20b nutzt 21 Milliarden Gesamtparameter und 3,6 Milliarden pro Token aktiv. Diese Architektur folgt dem Prinzip „Mixture of Experts“ – also einer gezielten Auswahl von Teilmodellen für jede Aufgabe, um Ressourcen zu sparen.

Was ist ein Token?

In der KI und besonders beim Sprachverstehen (Natural Language Processing, NLP) bezeichnet ein Token die kleinste verarbeitbare Einheit eines Textes – etwa ein Wort, Satzzeichen oder einzelnes Zeichen. Modelle wie ChatGPT zerlegen Texte in solche Einheiten, um Struktur und Bedeutung effizient zu analysieren.

Die Anzahl an Tokens bestimmt, wie viel Text ein Sprachmodell gleichzeitig verarbeiten kann. GPT-3.5 etwa hat ein Limit von 4.096 Tokens, GPT-4 liegt bei 8192, GPT-4o sogar bei 128.000 Tokens. Wird dieses Limit überschritten, muss der Text gekürzt oder geteilt werden – das kann zu Verständniseinbußen führen, wenn der Kontext nicht vollständig erhalten bleibt.

 

Was bedeutet „offen“ bei KI?

Im Gegensatz zu geschlossenen Systemen wie GPT-4 oder Gemini geben Open-Weight-Modelle nicht nur den Quellcode, sondern auch die trainierten Parameter frei. Dadurch lassen sie sich auf eigener Hardware ausführen, ohne auf Cloud-Dienste angewiesen zu sein. Das erhöht die Kontrolle über die Anwendung – gerade in sicherheitskritischen Bereichen.

OpenAI-Chef Sam Altman betont den Anspruch: „Die Welt kann künftig auf einem offenen KI-Stack aufbauen – entwickelt in den USA, geprägt von demokratischen Werten, kostenlos zugänglich und zum breiten Nutzen aller.“

Training mit hohen Standards

Die gpt-oss-Modelle wurden in mehreren Stufen trainiert: Zunächst durch überwachtes Lernen, anschließend mithilfe von Techniken wie „Reinforcement Learning from Human Feedback“ (RLHF). Ziel war es, das Verhalten auf die OpenAI-eigene Model Specification auszurichten – also Denkprozesse darzustellen (Chain-of-Thought) und Werkzeuge gezielt einzusetzen.

Die Datenbasis bestand überwiegend aus englischsprachigen Texten mit starkem Fokus auf Naturwissenschaften, Technik und Programmierung. Zum Einsatz kam dabei der o200k_harmony-Tokenizer, den OpenAI nun ebenfalls als Open Source freigibt.

Drei Denkmodi: Von schnell bis gründlich

Entwickelnde können je nach Anwendungsfall zwischen drei „Reasoning-Tiefen“ wählen: niedrig, mittel oder hoch. So lassen sich Aufgaben schnell lösen, wenn wenig Denkleistung nötig ist – oder mit höherem Aufwand bearbeiten, wenn komplexe Argumentationsketten gefragt sind. Die Auswahl erfolgt durch eine einfache Einstellung im Systemprompt.

Diese Flexibilität ermöglicht unter anderem den Einsatz in agentenbasierten Workflows, bei denen das Modell in mehreren Schritten überlegt, Tools verwendet und auf strukturierte Daten zugreift.

Hardwareanforderungen: Effizient und flexibel

Trotz ihrer Größe lassen sich die Modelle effizient betreiben:

  • gpt-oss-120b benötigt lediglich eine 80-GB-GPU
  • gpt-oss-20b läuft sogar auf 16 GB Edge-Geräten

Das ermöglicht eine lokale Nutzung, zum Beispiel in sensiblen Bereichen wie Forschungslaboren, Behörden oder in Ländern mit eingeschränktem Cloud-Zugang.

Für den produktiven Einsatz wurde die Kompatibilität mit Frameworks wie FlashInfer, Hugging Face, llama.cpp, Ollama und vLLM sichergestellt. Auch TensorRT-LLM, der Optimierungsstack von NVIDIA, wird unterstützt. Microsoft erlaubt über ONNX Runtime sogar die lokale Nutzung auf Windows-Geräten.

Sicherheitskonzept gegen Missbrauch

Da offene Modelle nicht „zurückgerufen“ werden können, war das Thema Sicherheit zentral. OpenAI entwickelte ein spezielles Protokoll namens „Worst-Case-Fine-Tuning“, bei dem das Modell gezielt auf Missbrauchsszenarien in Biologie oder Cybersicherheit getestet wurde.

Externe Fachleute überprüften die Methodik. Die zugrundeliegenden Prompts, Bewertungskriterien und Codes stellt OpenAI offen zur Verfügung. Ergänzt wird das Ganze durch das unternehmenseigene Preparedness Framework, das die Sicherheitsstandards an geschlossene Modelle wie GPT-4 angleicht.

Technisch im Detail: Kontext, Attention, Embeddings

Die Modelle unterstützen Kontexteingaben mit einer Länge von bis zu 128.000 Tokens. Für die Positionskodierung wird RoPE (Rotary Positional Embedding) eingesetzt. Die Aufmerksamkeit („Attention“) wird durch ein gemischtes, sparsames Schema umgesetzt, das Speicherbedarf und Leistung in Balance hält. Auch die Multi-Query Attention mit Gruppengrößen von acht trägt zur Effizienz bei.

Diese architektonischen Maßnahmen sorgen dafür, dass auch größere Aufgaben innerhalb eines Tokenspeichers bewältigt werden können – ohne auf teure Rechenzentren angewiesen zu sein.

Praxisnah bewertet: Benchmarks und Ergebnisse

In zahlreichen Benchmarks schnitt gpt-oss-120b mindestens auf dem Niveau des OpenAI-Modells o4-mini ab. Teilweise übertraf es sogar geschlossene Modelle bei Aufgaben in den Bereichen:

  • Wettbewerbsmathematik (AIME 2024 & 2025)
  • Gesundheitswesen (HealthBench)
  • Codierung (Codeforces)
  • Tool-Verwendung (TauBench)

Auch das kleinere Modell gpt-oss-20b erreichte beachtliche Resultate – trotz deutlich geringerer Hardwareanforderungen.

Unterstützung durch Plattformen und Partner

Um den Zugang zu erleichtern, kooperieren OpenAI und NVIDIA mit verschiedenen Plattformen und Hardwareanbietern. Dazu zählen Azure, AWS, Vercel, Databricks, aber auch AMD, Cerebras und Groq. Erste Pilotprojekte mit Partnern wie AI Sweden oder Snowflake untersuchen aktuell, wie sich die Modelle vor Ort einsetzen lassen – etwa zur Anpassung an spezielle Datensätze.

Hier geht es zur Meldung von OpenAI

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.