GPT-5.2-Codex: OpenAI's agentisch programmeermodel

GPT-5.2-Codex benchmarkresultaten

OpenAI bracht GPT-5.2-Codex uit op 14 januari 2026, vijf weken na het basis GPT-5.2-model. Het richt zich op agentisch programmeren: meerstapssessies waarbij het model plant, code schrijft, tests uitvoert en itereert op fouten.

Het model scoort 56,4% op SWE-Bench Pro (gestegen van 55,6% bij basis GPT-5.2) en 64,0% op Terminal-Bench 2.0 (gestegen van 62,2%). Beide benchmarks testen praktische programmeertaken, geen geïsoleerde codegeneratie.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4%	55,6%	—
Terminal-Bench 2.0	64,0%	62,2%	#1
Contextvenster (invoer)	400K	128K	200K (1M bèta)
Uitvoertokens	128K	128K	128K

GPT-5.2-Codex balanceert kosten en prestaties. Claude Opus 4.6 leidt Terminal-Bench 2.0 en Humanity's Last Exam, terwijl GPT-5.2-Codex concurreert op prijs en contextvenstergrootte.

Belangrijkste functies voor ontwikkelaars

Context Compaction

Net als de compaction-functie van Claude Opus 4.6 comprimeert GPT-5.2-Codex eerdere context terwijl de taakstatus behouden blijft. Dit maakt programmeersessies van meerdere uren mogelijk waarbij het model het volledige project bijhoudt, zelfs wanneer het gesprek het contextvenster overschrijdt.

Langdurige taakuitvoering

Het model is geoptimaliseerd voor taken die veel stappen omvatten: grote refactorings, codebase-migraties en multi-file feature-implementaties. Wanneer een aanpak mislukt, past GPT-5.2-Codex de strategie aan en probeert opnieuw in plaats van de taak opnieuw te starten.

Ingebouwde kwetsbaarheidsdetectie

GPT-5.2-Codex bevat kwetsbaarheidsdetectie tijdens codegeneratie. Teams die diepere scans nodig hebben, kunnen gespecialiseerde tools gebruiken zoals Claude Code Security, dat multi-stage verificatie biedt met filtering van valse positieven.

Windows-ondersteuning

OpenAI heeft de Windows-prestaties van GPT-5.2-Codex verbeterd en de Unix-gerichte optimalisatie van eerdere modellen aangepakt.

GPT-5.2-Codex prijzen

Niveau	Kosten per miljoen tokens
Invoer	$1,75
Uitvoer	$14,00
Gecachte invoer	$0,175 (90% korting)

GPT-5.2-Codex is beschikbaar op alle Codex-platforms voor betalende ChatGPT-gebruikers en als zelfstandig API-model.

Wat GPT-5.2-Codex betekent voor agentisch programmeren

Deze release weerspiegelt een sectorverschuiving van code-aanvulling naar volledige programmeeragenten. OpenAI's Codex, Anthropic's Claude Code en GitHub Agentic Workflows richten zich allemaal op meerstaps engineeringtaken met minimale menselijke interventie.

Veelgestelde vragen

Wat is GPT-5.2-Codex?

GPT-5.2-Codex is OpenAI's programmeergeoptimaliseerde variant van het GPT-5.2-model, uitgebracht op 14 januari 2026. Het is specifiek gebouwd voor agentische programmeerworkflows waarbij het model langdurige, meerstaps software-engineeringsessies uitvoert. Het scoort 56,4% op SWE-Bench Pro en 64,0% op Terminal-Bench 2.0, een verbetering ten opzichte van de 55,6% en 62,2% van het basis GPT-5.2-model. Het model ondersteunt een contextvenster van 400K input- en 128K output-tokens.

Hoeveel kost GPT-5.2-Codex?

GPT-5.2-Codex kost $1,75 per miljoen invoertokens en $14 per miljoen uitvoertokens. Gecachte invoer krijgt 90% korting, waardoor het effectieve tarief $0,175 per miljoen tokens wordt. Dit maakt het aanzienlijk goedkoper dan Claude Opus 4.6 met $5/$25 per miljoen tokens, hoewel de twee modellen verschillen in benchmarkprestaties en functionaliteiten.

Wat is context compaction in GPT-5.2-Codex?

Context compaction is een functie die eerdere gesprekscontext comprimeert terwijl de kritieke taakstatus behouden blijft. Hierdoor kan GPT-5.2-Codex programmeersessies van meerdere uren volhouden zonder het projectoverzicht te verliezen. Wanneer een sessie de limiet van het contextvenster nadert, vat het model oudere context samen in plaats van deze te verwijderen, waardoor langere en complexere programmeertaken mogelijk worden zonder opnieuw te starten.

Hoe verhoudt GPT-5.2-Codex zich tot Claude Opus 4.6?

Op Terminal-Bench 2.0 heeft Claude Opus 4.6 de hoogste score, boven de 64,0% van GPT-5.2-Codex. Op SWE-Bench Pro scoort GPT-5.2-Codex 56,4%. De twee modellen hanteren verschillende benaderingen: GPT-5.2-Codex biedt een groter invoercontextvenster (400K tokens vs. Claude's 200K standaard) en lagere prijzen, terwijl Claude Opus 4.6 agent teams biedt en hogere benchmarkscores op redeneerteaken zoals Humanity's Last Exam.