GPT-5.2-Codex: OpenAIs agentisches Coding-Modell

GPT-5.2-Codex Benchmark-Ergebnisse

OpenAI veröffentlichte GPT-5.2-Codex am 14. Januar 2026, fünf Wochen nach dem Basis-GPT-5.2-Modell. Es zielt auf agentisches Coding: mehrstufige Sessions, in denen das Modell plant, Code schreibt, Tests ausführt und bei Fehlern iteriert.

Das Modell erzielt 56.4% auf SWE-Bench Pro (gegenüber 55.6% beim Basis-GPT-5.2) und 64.0% auf Terminal-Bench 2.0 (gegenüber 62.2%). Beide Benchmarks testen reale Coding-Aufgaben, keine isolierte Codegenerierung.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
Kontextfenster (Eingabe)	400K	128K	200K (1M Beta)
Ausgabe-Tokens	128K	128K	128K

GPT-5.2-Codex balanciert Kosten und Leistung. Claude Opus 4.6 führt bei Terminal-Bench 2.0 und Humanity's Last Exam, während GPT-5.2-Codex beim Preis und der Kontextfenstergröße konkurriert.

Wichtige Funktionen für Entwickler

Kontextkomprimierung

Ähnlich wie die Komprimierungsfunktion von Claude Opus 4.6 komprimiert GPT-5.2-Codex früheren Kontext unter Beibehaltung des Aufgabenzustands. Dies ermöglicht mehrstündige Coding-Sessions, bei denen das Modell das gesamte Projekt verfolgt, auch wenn die Konversation das Kontextfenster überschreitet.

Langfristige Aufgabenerledigung

Das Modell ist für Aufgaben optimiert, die viele Schritte umfassen: große Refactorings, Codebase-Migrationen und Multi-Datei-Feature-Implementierungen. Wenn ein Ansatz scheitert, passt GPT-5.2-Codex sich an und versucht es erneut, anstatt die Aufgabe neu zu starten.

Integrierte Schwachstellenerkennung

GPT-5.2-Codex beinhaltet Schwachstellenerkennung während der Codegenerierung. Teams, die tiefergehende Scans benötigen, können dedizierte Tools wie Claude Code Security nutzen, das mehrstufige Verifizierung mit Falsch-Positiv-Filterung bietet.

Windows-Umgebungsunterstützung

OpenAI verbesserte die Windows-Entwicklungsleistung von GPT-5.2-Codex und adressierte die Unix-zentrierte Optimierung früherer Modelle.

GPT-5.2-Codex Preise

Stufe	Kosten pro Million Tokens
Eingabe	$1.75
Ausgabe	$14.00
Gecachte Eingabe	$0.175 (90% Rabatt)

GPT-5.2-Codex ist über alle Codex-Oberflächen für zahlende ChatGPT-Nutzer und als eigenständiges API-Modell verfügbar.

Was GPT-5.2-Codex für agentisches Coding bedeutet

Die Veröffentlichung spiegelt einen branchenweiten Wandel von Code-Vervollständigung zu nachhaltigen Coding-Agenten wider. OpenAIs Codex, Anthropics Claude Code und GitHub Agentic Workflows zielen alle auf mehrstufige Engineering-Aufgaben mit minimaler menschlicher Intervention.

Häufig gestellte Fragen

Was ist GPT-5.2-Codex?

GPT-5.2-Codex ist OpenAIs Coding-optimierte Variante des GPT-5.2-Modells, veröffentlicht am 14. Januar 2026. Es wurde speziell für agentische Coding-Workflows entwickelt, bei denen das Modell nachhaltige, mehrstufige Software-Engineering-Sessions durchführt. Es erzielt 56.4% auf SWE-Bench Pro und 64.0% auf Terminal-Bench 2.0 und verbessert damit die 55.6% bzw. 62.2% des Basis-GPT-5.2. Das Modell unterstützt ein 400K-Eingabe- und 128K-Ausgabe-Kontextfenster.

Was kostet GPT-5.2-Codex?

GPT-5.2-Codex kostet $1.75 pro Million Eingabe-Tokens und $14 pro Million Ausgabe-Tokens. Gecachte Eingaben erhalten 90% Rabatt, wodurch der effektive Cache-Preis bei $0.175 pro Million Tokens liegt. Damit ist es deutlich günstiger als Claude Opus 4.6 mit $5/$25 pro Million Tokens, wobei sich die beiden Modelle in Benchmark-Leistung und Funktionsumfang unterscheiden.

Was ist Kontextkomprimierung bei GPT-5.2-Codex?

Kontextkomprimierung ist eine Funktion, die früheren Gesprächskontext komprimiert und dabei den kritischen Aufgabenzustand bewahrt. Dadurch kann GPT-5.2-Codex mehrstündige Coding-Sessions aufrechterhalten, ohne den Projektumfang zu verlieren. Wenn eine Session das Kontextfenster-Limit erreicht, fasst das Modell älteren Kontext zusammen statt ihn zu verwerfen, was längere und komplexere Coding-Aufgaben ohne Neustart ermöglicht.

Wie schneidet GPT-5.2-Codex im Vergleich zu Claude Opus 4.6 ab?

Auf Terminal-Bench 2.0 hält Claude Opus 4.6 die Spitzenposition, vor den 64.0% von GPT-5.2-Codex. Auf SWE-Bench Pro erzielt GPT-5.2-Codex 56.4%. Die beiden Modelle verfolgen unterschiedliche Ansätze: GPT-5.2-Codex bietet ein größeres Eingabe-Kontextfenster (400K Tokens vs. Claudes 200K Standard) und niedrigere Preise, während Claude Opus 4.6 Agent Teams und höhere Benchmark-Ergebnisse bei Reasoning-Aufgaben wie Humanity's Last Exam bietet.