Gpt-oss veröffentlicht 06.08.2025, 10:30 Uhr

OpenAI & NVIDIA: So funktioniert die neue Hochgeschwindigkeits-KI

OpenAI & NVIDIA veröffentlichen mit gpt-oss ein KI-Modell, das 1,5 Mio. Tokens pro Sekunde verarbeitet – offen, schnell, effizient.

OpenAI

Das neue Open-Source-Sprachmodell gpt-oss-120b von OpenAI und NVIDIA verarbeitet bis zu 1,5 Millionen Tokens pro Sekunde – und lässt sich lokal betreiben.

Foto: Smarterpix / Varavin88

OpenAI und NVIDIA setzen mit zwei neuen KI-Sprachmodellen eine technische Marke: gpt-oss-120b erreicht laut Benchmark-Tests eine Verarbeitungsgeschwindigkeit von 1,5 Millionen Tokens pro Sekunde – ein Rekordwert, der neue Maßstäbe im Bereich offener Modelle setzt. Entwickler erhalten damit ein Werkzeug, das sowohl leistungsstark als auch flexibel ist. Das bedeutet außerdem, dass der gesamte Inhalt, sowohl die Fragen oder Daten als auch die Antworten, diesen Wert nicht überschreiten darf.

Die Besonderheit: Beide Modelle, gpt-oss-120b und gpt-oss-20b, sind offen verfügbar und lassen sich unter der Apache-2.0-Lizenz frei kommerziell oder im Forschungsumfeld nutzen. „Mit den gpt-oss-Modellen können Entwickler überall auf dieser hochmodernen Open-Source-Grundlage aufbauen“, so NVIDIA-Chef Jensen Huang.

Für Entwickler, Unternehmen und Agenten-Workflows

Die Modelle richten sich an ein breites Spektrum von Nutzer*innen – von Einzelpersonen über Start-ups bis zu Konzernen. Sie bieten hohe Leistung in Bereichen wie logisches Denken, Werkzeugnutzung, strukturierte Ausgabeformate und sogar Codegenerierung. Besonders hervorzuheben ist die Echtzeitanwendung mit geringer Latenz, also minimalen Reaktionszeiten bei Anfragen.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
WACKER-Firmenlogo
Betreuungsingenieur (w/m/d) EMR WACKER
Nünchritz Zum Job 
Helmholtz-Zentrum Hereon-Firmenlogo
Systementwicklungsingenieurin (m/w/d) für Mess- und Steuerungssystemen Helmholtz-Zentrum Hereon
Geesthacht (bei Hamburg) Zum Job 
ESFORIN SE-Firmenlogo
Mitarbeiter*in Marktkommunikation & Prozesse (m/w/d) ESFORIN SE
PFISTERER Kontaktsysteme GmbH-Firmenlogo
Entwicklungsingenieur Hochspannungstechnik (m/w/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 
PFISTERER Kontaktsysteme GmbH-Firmenlogo
Entwicklungsingenieur Hochspannungstechnik - HVDC (m/w/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 
FCP IBU GmbH-Firmenlogo
Projektingenieur für schalltechnische Gutachten (m/w/d) FCP IBU GmbH
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Consultant (w/m/d) Operational Strategy - TBO (Trajectory Based Operations) DFS Deutsche Flugsicherung GmbH
Bundesamt für Bauwesen und Raumordnung (BBR)-Firmenlogo
Ingenieurinnen und Ingenieure (w/m/d) Elektro-/Informationstechnik oder Nachrichtentechnik Bundesamt für Bauwesen und Raumordnung (BBR)
WISAG Gebäudetechnik Hessen Technischer Service GmbH & Co. KG-Firmenlogo
Projektleiter | Bauleiter (m/w/d) für Sicherheitstechnik WISAG Gebäudetechnik Hessen Technischer Service GmbH & Co. KG
Frankfurt am Main Zum Job 
Albtal-Verkehrs-Gesellschaft (AVG)-Firmenlogo
Instandhaltungsmanagement Strategie (m/w/d) Albtal-Verkehrs-Gesellschaft (AVG)
Karlsruhe Zum Job 
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Referent (m/w/d) Anforderungsmanagement Funktionale Systeme DFS Deutsche Flugsicherung GmbH
Jauss HR-Consulting GmbH & Co. KG-Firmenlogo
Automatisierungstechniker / Ingenieur / Techniker (m/w/d) TIA-Programmierung & Inbetriebnahme - Baustoffanlagenbau Jauss HR-Consulting GmbH & Co. KG
Raum Würzburg Zum Job 
TenneT TSO GmbH-Firmenlogo
Ingenieur als Projektleiter Umspannwerke (m/w/d) TenneT TSO GmbH
Einsatzgebiet Ostniedersachsen Zum Job 
TenneT TSO GmbH-Firmenlogo
Ingenieur Elektrotechnik als Projektleiter Umspannwerke (m/w/d) TenneT TSO GmbH
Raum Südbayern (Oberpfalz, Niederbayern, Oberbayern) Zum Job 
VCDB VerkehrsConsult Dresden-Berlin GmbH-Firmenlogo
Projektingenieur Elektromobilität Bus (m/w/d) VCDB VerkehrsConsult Dresden-Berlin GmbH
Dresden Zum Job 
Verkehrsbetriebe Karlsruhe (VBK)-Firmenlogo
Abteilungsleitung ECM 4 "Instandhaltungserbringung" (m/w/d) Verkehrsbetriebe Karlsruhe (VBK)
Karlsruhe Zum Job 
Draheim Ingenieure-Firmenlogo
Elektroplaner*in (m/w/d) Draheim Ingenieure
Hamburg, Hamm, Aachen Zum Job 
Universität zu Köln-Firmenlogo
Projektingenieur*in (TGA) im Bereich Elektrotechnik Universität zu Köln
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur als Projektleitung (w/m/d) Großprojekte Die Autobahn GmbH des Bundes
Frankfurt am Main Zum Job 
WACKER-Firmenlogo
Betriebsingenieur EMR (w/m/d) WACKER
Nünchritz Zum Job 
WACKER-Firmenlogo
Betreuungsingenieur (w/m/d) EMR WACKER
Nünchritz Zum Job 
Helmholtz-Zentrum Hereon-Firmenlogo
Systementwicklungsingenieurin (m/w/d) für Mess- und Steuerungssystemen Helmholtz-Zentrum Hereon
Geesthacht (bei Hamburg) Zum Job 
ESFORIN SE-Firmenlogo
Mitarbeiter*in Marktkommunikation & Prozesse (m/w/d) ESFORIN SE
PFISTERER Kontaktsysteme GmbH-Firmenlogo
Entwicklungsingenieur Hochspannungstechnik (m/w/d) PFISTERER Kontaktsysteme GmbH
Winterbach Zum Job 

gpt-oss-120b kommt mit 117 Milliarden Gesamtparametern, wobei pro Token nur 5,1 Milliarden aktiv sind. Das kleinere Modell gpt-oss-20b nutzt 21 Milliarden Gesamtparameter und 3,6 Milliarden pro Token aktiv. Diese Architektur folgt dem Prinzip „Mixture of Experts“ – also einer gezielten Auswahl von Teilmodellen für jede Aufgabe, um Ressourcen zu sparen.

Was ist ein Token?

In der KI und besonders beim Sprachverstehen (Natural Language Processing, NLP) bezeichnet ein Token die kleinste verarbeitbare Einheit eines Textes – etwa ein Wort, Satzzeichen oder einzelnes Zeichen. Modelle wie ChatGPT zerlegen Texte in solche Einheiten, um Struktur und Bedeutung effizient zu analysieren.

Die Anzahl an Tokens bestimmt, wie viel Text ein Sprachmodell gleichzeitig verarbeiten kann. GPT-3.5 etwa hat ein Limit von 4.096 Tokens, GPT-4 liegt bei 8192, GPT-4o sogar bei 128.000 Tokens. Wird dieses Limit überschritten, muss der Text gekürzt oder geteilt werden – das kann zu Verständniseinbußen führen, wenn der Kontext nicht vollständig erhalten bleibt.

 

Was bedeutet „offen“ bei KI?

Im Gegensatz zu geschlossenen Systemen wie GPT-4 oder Gemini geben Open-Weight-Modelle nicht nur den Quellcode, sondern auch die trainierten Parameter frei. Dadurch lassen sie sich auf eigener Hardware ausführen, ohne auf Cloud-Dienste angewiesen zu sein. Das erhöht die Kontrolle über die Anwendung – gerade in sicherheitskritischen Bereichen.

OpenAI-Chef Sam Altman betont den Anspruch: „Die Welt kann künftig auf einem offenen KI-Stack aufbauen – entwickelt in den USA, geprägt von demokratischen Werten, kostenlos zugänglich und zum breiten Nutzen aller.“

Training mit hohen Standards

Die gpt-oss-Modelle wurden in mehreren Stufen trainiert: Zunächst durch überwachtes Lernen, anschließend mithilfe von Techniken wie „Reinforcement Learning from Human Feedback“ (RLHF). Ziel war es, das Verhalten auf die OpenAI-eigene Model Specification auszurichten – also Denkprozesse darzustellen (Chain-of-Thought) und Werkzeuge gezielt einzusetzen.

Die Datenbasis bestand überwiegend aus englischsprachigen Texten mit starkem Fokus auf Naturwissenschaften, Technik und Programmierung. Zum Einsatz kam dabei der o200k_harmony-Tokenizer, den OpenAI nun ebenfalls als Open Source freigibt.

Drei Denkmodi: Von schnell bis gründlich

Entwickelnde können je nach Anwendungsfall zwischen drei „Reasoning-Tiefen“ wählen: niedrig, mittel oder hoch. So lassen sich Aufgaben schnell lösen, wenn wenig Denkleistung nötig ist – oder mit höherem Aufwand bearbeiten, wenn komplexe Argumentationsketten gefragt sind. Die Auswahl erfolgt durch eine einfache Einstellung im Systemprompt.

Diese Flexibilität ermöglicht unter anderem den Einsatz in agentenbasierten Workflows, bei denen das Modell in mehreren Schritten überlegt, Tools verwendet und auf strukturierte Daten zugreift.

Hardwareanforderungen: Effizient und flexibel

Trotz ihrer Größe lassen sich die Modelle effizient betreiben:

  • gpt-oss-120b benötigt lediglich eine 80-GB-GPU
  • gpt-oss-20b läuft sogar auf 16 GB Edge-Geräten

Das ermöglicht eine lokale Nutzung, zum Beispiel in sensiblen Bereichen wie Forschungslaboren, Behörden oder in Ländern mit eingeschränktem Cloud-Zugang.

Für den produktiven Einsatz wurde die Kompatibilität mit Frameworks wie FlashInfer, Hugging Face, llama.cpp, Ollama und vLLM sichergestellt. Auch TensorRT-LLM, der Optimierungsstack von NVIDIA, wird unterstützt. Microsoft erlaubt über ONNX Runtime sogar die lokale Nutzung auf Windows-Geräten.

Sicherheitskonzept gegen Missbrauch

Da offene Modelle nicht „zurückgerufen“ werden können, war das Thema Sicherheit zentral. OpenAI entwickelte ein spezielles Protokoll namens „Worst-Case-Fine-Tuning“, bei dem das Modell gezielt auf Missbrauchsszenarien in Biologie oder Cybersicherheit getestet wurde.

Externe Fachleute überprüften die Methodik. Die zugrundeliegenden Prompts, Bewertungskriterien und Codes stellt OpenAI offen zur Verfügung. Ergänzt wird das Ganze durch das unternehmenseigene Preparedness Framework, das die Sicherheitsstandards an geschlossene Modelle wie GPT-4 angleicht.

Technisch im Detail: Kontext, Attention, Embeddings

Die Modelle unterstützen Kontexteingaben mit einer Länge von bis zu 128.000 Tokens. Für die Positionskodierung wird RoPE (Rotary Positional Embedding) eingesetzt. Die Aufmerksamkeit („Attention“) wird durch ein gemischtes, sparsames Schema umgesetzt, das Speicherbedarf und Leistung in Balance hält. Auch die Multi-Query Attention mit Gruppengrößen von acht trägt zur Effizienz bei.

Diese architektonischen Maßnahmen sorgen dafür, dass auch größere Aufgaben innerhalb eines Tokenspeichers bewältigt werden können – ohne auf teure Rechenzentren angewiesen zu sein.

Praxisnah bewertet: Benchmarks und Ergebnisse

In zahlreichen Benchmarks schnitt gpt-oss-120b mindestens auf dem Niveau des OpenAI-Modells o4-mini ab. Teilweise übertraf es sogar geschlossene Modelle bei Aufgaben in den Bereichen:

  • Wettbewerbsmathematik (AIME 2024 & 2025)
  • Gesundheitswesen (HealthBench)
  • Codierung (Codeforces)
  • Tool-Verwendung (TauBench)

Auch das kleinere Modell gpt-oss-20b erreichte beachtliche Resultate – trotz deutlich geringerer Hardwareanforderungen.

Unterstützung durch Plattformen und Partner

Um den Zugang zu erleichtern, kooperieren OpenAI und NVIDIA mit verschiedenen Plattformen und Hardwareanbietern. Dazu zählen Azure, AWS, Vercel, Databricks, aber auch AMD, Cerebras und Groq. Erste Pilotprojekte mit Partnern wie AI Sweden oder Snowflake untersuchen aktuell, wie sich die Modelle vor Ort einsetzen lassen – etwa zur Anpassung an spezielle Datensätze.

Hier geht es zur Meldung von OpenAI

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.