Code Velocity
AI-modeller

GPT-5.2-Codex: OpenAI:s agentiska kodningsmodell

·6 min läsning·OpenAI·Originalkälla
Dela
GPT-5.2-Codex benchmarkdiagram som visar SWE-Bench Pro- och Terminal-Bench 2.0-resultat jämfört med GPT-5.2-basmodellen

GPT-5.2-Codex benchmarkresultat

OpenAI släppte GPT-5.2-Codex den 14 januari 2026, fem veckor efter bas-GPT-5.2-modellen. Den riktar sig mot agentisk kodning: flerstegsessioner där modellen planerar, skriver kod, kör tester och itererar på misslyckanden.

Modellen uppnår 56,4% på SWE-Bench Pro (upp från 55,6% på bas-GPT-5.2) och 64,0% på Terminal-Bench 2.0 (upp från 62,2%). Båda benchmarken testar verkliga kodningsuppgifter, inte isolerad kodgenerering.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

BenchmarkGPT-5.2-CodexGPT-5.2Claude Opus 4.6
SWE-Bench Pro56,4%55,6%
Terminal-Bench 2.064,0%62,2%#1
Kontextfönster (indata)400K128K200K (1M beta)
Utdata-tokens128K128K128K

GPT-5.2-Codex balanserar kostnad och prestanda. Claude Opus 4.6 leder Terminal-Bench 2.0 och Humanity's Last Exam, medan GPT-5.2-Codex konkurrerar på pris och kontextfönsterstorlek.

Nyckelfunktioner för utvecklare

Context Compaction

Liksom Claude Opus 4.6:s compaction-funktion komprimerar GPT-5.2-Codex tidigare kontext samtidigt som uppgiftsläget bevaras. Detta möjliggör kodningssessioner på flera timmar där modellen håller koll på hela projektet även när konversationen överskrider kontextfönstret.

Långsiktigt uppgiftsslutförande

Modellen är optimerad för uppgifter som sträcker sig över många steg: stora refaktoreringar, kodbasmigreringar och flerfilsimplementationer av funktioner. När ett tillvägagångssätt misslyckas justerar GPT-5.2-Codex och försöker igen istället för att starta om uppgiften.

Inbyggd sårbarhetsdetektering

GPT-5.2-Codex inkluderar sårbarhetsdetektering under kodgenerering. Team som behöver djupare scanning kan använda dedikerade verktyg som Claude Code Security, som erbjuder flerstegsverifiering med filtrering av falska positiva.

Stöd för Windows-miljö

OpenAI förbättrade GPT-5.2-Codex:s prestanda i Windows-utvecklingsmiljöer, vilket åtgärdar den Unix-centriska optimeringen hos tidigare modeller.

GPT-5.2-Codex prissättning

NivåKostnad per miljon tokens
Indata$1,75
Utdata$14,00
Cachade indata$0,175 (90% rabatt)

GPT-5.2-Codex är tillgänglig via alla Codex-ytor för betalande ChatGPT-användare och som en fristående API-modell.

Vad GPT-5.2-Codex betyder för agentisk kodning

Lanseringen speglar en branschomfattande förskjutning från kodkomplettering till ihållande kodningsagenter. OpenAI:s Codex, Anthropics Claude Code och GitHub Agentic Workflows riktar alla in sig på flerstegs ingenjörsuppgifter med minimal mänsklig inblandning.

Vanliga frågor

Vad är GPT-5.2-Codex?
GPT-5.2-Codex är OpenAI:s kodningsoptimerade variant av GPT-5.2-modellen, släppt den 14 januari 2026. Den är specifikt byggd för agentiska kodningsarbetsflöden där modellen kör ihållande, flerstegs mjukvaruutvecklingssessioner. Den uppnår 56,4% på SWE-Bench Pro och 64,0% på Terminal-Bench 2.0, en förbättring jämfört med bas-GPT-5.2:s 55,6% respektive 62,2%. Modellen stöder 400K indata- och 128K utdata-tokens i kontextfönstret.
Hur mycket kostar GPT-5.2-Codex?
GPT-5.2-Codex kostar $1,75 per miljon indata-tokens och $14 per miljon utdata-tokens. Cachade indata får 90% rabatt, vilket ger ett effektivt cachepris på $0,175 per miljon tokens. Detta gör den betydligt billigare än Claude Opus 4.6 till $5/$25 per miljon tokens, även om de två modellerna skiljer sig i benchmarkprestanda och funktionsuppsättningar.
Vad är context compaction i GPT-5.2-Codex?
Context compaction är en funktion som komprimerar tidigare konversationskontext samtidigt som den bevarar kritiskt uppgiftsläge. Detta gör att GPT-5.2-Codex kan upprätthålla kodningssessioner som varar flera timmar utan att tappa fokus på projektets omfång. När en session närmar sig kontextfönstrets gräns sammanfattar modellen äldre kontext istället för att förkasta den, vilket möjliggör längre och mer komplexa kodningsuppgifter utan omstart.
Hur jämför sig GPT-5.2-Codex med Claude Opus 4.6?
På Terminal-Bench 2.0 har Claude Opus 4.6 toppresultatet, före GPT-5.2-Codex:s 64,0%. På SWE-Bench Pro uppnår GPT-5.2-Codex 56,4%. De två modellerna tar olika angreppssätt: GPT-5.2-Codex erbjuder ett större indatakontext (400K tokens jämfört med Claudes 200K standard) och lägre prissättning, medan Claude Opus 4.6 erbjuder agent teams och högre benchmarkresultat på resonemangstester som Humanity's Last Exam.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela