Gpt-oss veröffentlicht 06.08.2025, 10:30 Uhr

OpenAI & NVIDIA: So funktioniert die neue Hochgeschwindigkeits-KI

OpenAI & NVIDIA veröffentlichen mit gpt-oss ein KI-Modell, das 1,5 Mio. Tokens pro Sekunde verarbeitet – offen, schnell, effizient.

OpenAI

Das neue Open-Source-Sprachmodell gpt-oss-120b von OpenAI und NVIDIA verarbeitet bis zu 1,5 Millionen Tokens pro Sekunde – und lässt sich lokal betreiben.

Foto: Smarterpix / Varavin88

OpenAI und NVIDIA setzen mit zwei neuen KI-Sprachmodellen eine technische Marke: gpt-oss-120b erreicht laut Benchmark-Tests eine Verarbeitungsgeschwindigkeit von 1,5 Millionen Tokens pro Sekunde – ein Rekordwert, der neue Maßstäbe im Bereich offener Modelle setzt. Entwickler erhalten damit ein Werkzeug, das sowohl leistungsstark als auch flexibel ist. Das bedeutet außerdem, dass der gesamte Inhalt, sowohl die Fragen oder Daten als auch die Antworten, diesen Wert nicht überschreiten darf.

Die Besonderheit: Beide Modelle, gpt-oss-120b und gpt-oss-20b, sind offen verfügbar und lassen sich unter der Apache-2.0-Lizenz frei kommerziell oder im Forschungsumfeld nutzen. „Mit den gpt-oss-Modellen können Entwickler überall auf dieser hochmodernen Open-Source-Grundlage aufbauen“, so NVIDIA-Chef Jensen Huang.

Für Entwickler, Unternehmen und Agenten-Workflows

Die Modelle richten sich an ein breites Spektrum von Nutzer*innen – von Einzelpersonen über Start-ups bis zu Konzernen. Sie bieten hohe Leistung in Bereichen wie logisches Denken, Werkzeugnutzung, strukturierte Ausgabeformate und sogar Codegenerierung. Besonders hervorzuheben ist die Echtzeitanwendung mit geringer Latenz, also minimalen Reaktionszeiten bei Anfragen.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
Unfallkasse Mecklenburg-Vorpommern-Firmenlogo
Ingenieur / Naturwissenschaftler (m/w/d) für Berufskrankheiten-Ermittlung Unfallkasse Mecklenburg-Vorpommern
Schwerin Zum Job 
ONTRAS Gastransport GmbH-Firmenlogo
Projektmanager für Wasserstoff (m/w/d) ONTRAS Gastransport GmbH
Leipzig Zum Job 
ROBEL Bahnbaumaschinen GmbH-Firmenlogo
Referent Zulassung (m/w/d) ROBEL Bahnbaumaschinen GmbH
Freilassing Zum Job 
THOST Projektmanagement GmbH-Firmenlogo
Ingenieur*in (m/w/d) in der Terminplanung für Großprojekte im Anlagenbau THOST Projektmanagement GmbH
Nürnberg, Berlin, Leipzig, Hamburg, Pforzheim Zum Job 
3M Deutschland GmbH-Firmenlogo
Senior Research Product Development Engineer (R&D) - Electrical Markets (m/f/*) 3M Deutschland GmbH
IMS Röntgensysteme GmbH-Firmenlogo
Entwicklungsingenieur (m/w/i) für digitale Inspektionssysteme IMS Röntgensysteme GmbH
Heiligenhaus Zum Job 
AbbVie Deutschland GmbH & Co. KG-Firmenlogo
Senior Project Engineer - Facility Automation (all genders) AbbVie Deutschland GmbH & Co. KG
Ludwigshafen am Rhein Zum Job 
Stadtwerke Augsburg Holding GmbH-Firmenlogo
Planer*in (m/w/d) für die technische Gebäudeausrüstung - Elektrotechnik Stadtwerke Augsburg Holding GmbH
Augsburg Zum Job 
OST  Ostschweizer Fachhochschule-Firmenlogo
Professor/in für Integrierte Digitale Systeme OST Ostschweizer Fachhochschule
Rapperswil (Schweiz) Zum Job 
Sentronics Metrology (a Nova Company)-Firmenlogo
Service Engineer Commissioning Metrology (m/w/d) Sentronics Metrology (a Nova Company)
Mannheim Zum Job 
Sentronics Metrology (a Nova Company)-Firmenlogo
Teamleiter (m/w/d) Integration & Commissioning Automation Sentronics Metrology (a Nova Company)
Mannheim Zum Job 
Sentronics Metrology (a Nova Company)-Firmenlogo
Elektriker / Industriemechaniker (m/w/d) für optische Messsysteme Sentronics Metrology (a Nova Company)
Mannheim Zum Job 
DB InfraGO-Firmenlogo
Senior Projektingenieur:in Leit- und Sicherungstechnik (w/m/d) DB InfraGO
Frankfurt am Main Zum Job 
DB InfraGO AG / DB Engineering & Consulting GmbH-Firmenlogo
(Senior) Planungsingenieur:in (w/m/d) DB InfraGO AG / DB Engineering & Consulting GmbH
Saarbrücken, Frankfurt am Main, Mainz Zum Job 
io-Firmenlogo
Senior Planungsingenieur/ Fachplaner Elektrotechnik (w/m/d) io
Heidelberg, Kaiserslautern Zum Job 
TÜV Hessen-Firmenlogo
Sachverständige/-r (m/w/d) Elektrotechnik TÜV Hessen
keine Angabe Zum Job 
TÜV Hessen-Firmenlogo
Sachverständige/-r (m/w/d) für EMV und EMF TÜV Hessen
keine Angabe Zum Job 
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
SCI-Selection - A Division of Stanton Chase Bad Homburg GmbH-Firmenlogo
Entwicklungsingenieur elektrische Antriebe (m/w/d) SCI-Selection - A Division of Stanton Chase Bad Homburg GmbH
Mannheim Zum Job 
Stadtwerke Augsburg Holding GmbH-Firmenlogo
Technischer Revisor (m/w/d) Schwerpunkt Prozessprüfung im Bereich Versorgung und ÖPNV Stadtwerke Augsburg Holding GmbH
Augsburg Zum Job 

gpt-oss-120b kommt mit 117 Milliarden Gesamtparametern, wobei pro Token nur 5,1 Milliarden aktiv sind. Das kleinere Modell gpt-oss-20b nutzt 21 Milliarden Gesamtparameter und 3,6 Milliarden pro Token aktiv. Diese Architektur folgt dem Prinzip „Mixture of Experts“ – also einer gezielten Auswahl von Teilmodellen für jede Aufgabe, um Ressourcen zu sparen.

Was ist ein Token?

In der KI und besonders beim Sprachverstehen (Natural Language Processing, NLP) bezeichnet ein Token die kleinste verarbeitbare Einheit eines Textes – etwa ein Wort, Satzzeichen oder einzelnes Zeichen. Modelle wie ChatGPT zerlegen Texte in solche Einheiten, um Struktur und Bedeutung effizient zu analysieren.

Die Anzahl an Tokens bestimmt, wie viel Text ein Sprachmodell gleichzeitig verarbeiten kann. GPT-3.5 etwa hat ein Limit von 4.096 Tokens, GPT-4 liegt bei 8192, GPT-4o sogar bei 128.000 Tokens. Wird dieses Limit überschritten, muss der Text gekürzt oder geteilt werden – das kann zu Verständniseinbußen führen, wenn der Kontext nicht vollständig erhalten bleibt.

 

Was bedeutet „offen“ bei KI?

Im Gegensatz zu geschlossenen Systemen wie GPT-4 oder Gemini geben Open-Weight-Modelle nicht nur den Quellcode, sondern auch die trainierten Parameter frei. Dadurch lassen sie sich auf eigener Hardware ausführen, ohne auf Cloud-Dienste angewiesen zu sein. Das erhöht die Kontrolle über die Anwendung – gerade in sicherheitskritischen Bereichen.

OpenAI-Chef Sam Altman betont den Anspruch: „Die Welt kann künftig auf einem offenen KI-Stack aufbauen – entwickelt in den USA, geprägt von demokratischen Werten, kostenlos zugänglich und zum breiten Nutzen aller.“

Training mit hohen Standards

Die gpt-oss-Modelle wurden in mehreren Stufen trainiert: Zunächst durch überwachtes Lernen, anschließend mithilfe von Techniken wie „Reinforcement Learning from Human Feedback“ (RLHF). Ziel war es, das Verhalten auf die OpenAI-eigene Model Specification auszurichten – also Denkprozesse darzustellen (Chain-of-Thought) und Werkzeuge gezielt einzusetzen.

Die Datenbasis bestand überwiegend aus englischsprachigen Texten mit starkem Fokus auf Naturwissenschaften, Technik und Programmierung. Zum Einsatz kam dabei der o200k_harmony-Tokenizer, den OpenAI nun ebenfalls als Open Source freigibt.

Drei Denkmodi: Von schnell bis gründlich

Entwickelnde können je nach Anwendungsfall zwischen drei „Reasoning-Tiefen“ wählen: niedrig, mittel oder hoch. So lassen sich Aufgaben schnell lösen, wenn wenig Denkleistung nötig ist – oder mit höherem Aufwand bearbeiten, wenn komplexe Argumentationsketten gefragt sind. Die Auswahl erfolgt durch eine einfache Einstellung im Systemprompt.

Diese Flexibilität ermöglicht unter anderem den Einsatz in agentenbasierten Workflows, bei denen das Modell in mehreren Schritten überlegt, Tools verwendet und auf strukturierte Daten zugreift.

Hardwareanforderungen: Effizient und flexibel

Trotz ihrer Größe lassen sich die Modelle effizient betreiben:

  • gpt-oss-120b benötigt lediglich eine 80-GB-GPU
  • gpt-oss-20b läuft sogar auf 16 GB Edge-Geräten

Das ermöglicht eine lokale Nutzung, zum Beispiel in sensiblen Bereichen wie Forschungslaboren, Behörden oder in Ländern mit eingeschränktem Cloud-Zugang.

Für den produktiven Einsatz wurde die Kompatibilität mit Frameworks wie FlashInfer, Hugging Face, llama.cpp, Ollama und vLLM sichergestellt. Auch TensorRT-LLM, der Optimierungsstack von NVIDIA, wird unterstützt. Microsoft erlaubt über ONNX Runtime sogar die lokale Nutzung auf Windows-Geräten.

Sicherheitskonzept gegen Missbrauch

Da offene Modelle nicht „zurückgerufen“ werden können, war das Thema Sicherheit zentral. OpenAI entwickelte ein spezielles Protokoll namens „Worst-Case-Fine-Tuning“, bei dem das Modell gezielt auf Missbrauchsszenarien in Biologie oder Cybersicherheit getestet wurde.

Externe Fachleute überprüften die Methodik. Die zugrundeliegenden Prompts, Bewertungskriterien und Codes stellt OpenAI offen zur Verfügung. Ergänzt wird das Ganze durch das unternehmenseigene Preparedness Framework, das die Sicherheitsstandards an geschlossene Modelle wie GPT-4 angleicht.

Technisch im Detail: Kontext, Attention, Embeddings

Die Modelle unterstützen Kontexteingaben mit einer Länge von bis zu 128.000 Tokens. Für die Positionskodierung wird RoPE (Rotary Positional Embedding) eingesetzt. Die Aufmerksamkeit („Attention“) wird durch ein gemischtes, sparsames Schema umgesetzt, das Speicherbedarf und Leistung in Balance hält. Auch die Multi-Query Attention mit Gruppengrößen von acht trägt zur Effizienz bei.

Diese architektonischen Maßnahmen sorgen dafür, dass auch größere Aufgaben innerhalb eines Tokenspeichers bewältigt werden können – ohne auf teure Rechenzentren angewiesen zu sein.

Praxisnah bewertet: Benchmarks und Ergebnisse

In zahlreichen Benchmarks schnitt gpt-oss-120b mindestens auf dem Niveau des OpenAI-Modells o4-mini ab. Teilweise übertraf es sogar geschlossene Modelle bei Aufgaben in den Bereichen:

  • Wettbewerbsmathematik (AIME 2024 & 2025)
  • Gesundheitswesen (HealthBench)
  • Codierung (Codeforces)
  • Tool-Verwendung (TauBench)

Auch das kleinere Modell gpt-oss-20b erreichte beachtliche Resultate – trotz deutlich geringerer Hardwareanforderungen.

Unterstützung durch Plattformen und Partner

Um den Zugang zu erleichtern, kooperieren OpenAI und NVIDIA mit verschiedenen Plattformen und Hardwareanbietern. Dazu zählen Azure, AWS, Vercel, Databricks, aber auch AMD, Cerebras und Groq. Erste Pilotprojekte mit Partnern wie AI Sweden oder Snowflake untersuchen aktuell, wie sich die Modelle vor Ort einsetzen lassen – etwa zur Anpassung an spezielle Datensätze.

Hier geht es zur Meldung von OpenAI

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.