GPT-5.2-Codex: Modeli Agentik i Kodimit nga OpenAI

Rezultatet e Benchmark-eve të GPT-5.2-Codex

OpenAI lançoi GPT-5.2-Codex më 14 janar 2026, pesë javë pas modelit bazë GPT-5.2. Ai synon kodimin agentik: sesione me shumë hapa ku modeli planifikon, shkruan kod, ekzekuton teste dhe përsërit mbi dështimet.

Modeli arrin 56.4% në SWE-Bench Pro (nga 55.6% në GPT-5.2 bazë) dhe 64.0% në Terminal-Bench 2.0 (nga 62.2%). Të dy benchmark-et testojnë detyra kodimi të botës reale, jo gjenerim kodi të izoluar.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
Dritarja e Kontekstit (hyrje)	400K	128K	200K (1M beta)
Tokena Dalje	128K	128K	128K

GPT-5.2-Codex balancon koston dhe performancën. Claude Opus 4.6 udhëheq Terminal-Bench 2.0 dhe Humanity's Last Exam, ndërsa GPT-5.2-Codex konkurron në çmim dhe madhësi të dritares së kontekstit.

Veçoritë Kryesore për Zhvilluesit

Kompaktimi i Kontekstit

Ashtu si veçoria e kompaktimit të Claude Opus 4.6, GPT-5.2-Codex ngjesh kontekstin e mëparshëm duke ruajtur gjendjen e detyrës. Kjo mundëson sesione kodimi shumë-orëshe ku modeli ndjek projektin e plotë edhe kur biseda tejkalon dritaren e kontekstit.

Përfundimi i Detyrave me Horizont të Gjatë

Modeli është i optimizuar për detyra që shtrihen në shumë hapa: rifaktorime të mëdha, migrime të codebase-ve dhe implementime veçorish me shumë skedarë. Kur një qasje dështon, GPT-5.2-Codex përshtat dhe provon përsëri në vend se të rinisë detyrën.

Zbulimi i Integruar i Dobësive

GPT-5.2-Codex përfshin zbulimin e dobësive gjatë gjenerimit të kodit. Ekipet që kanë nevojë për skanim më të thellë mund të përdorin mjete të dedikuara si Claude Code Security, i cili ofron verifikim me shumë faza me filtrim të pozitivëve të rremë.

Mbështetja e Mjedisit Windows

OpenAI përmirësoi performancën e GPT-5.2-Codex në zhvillimin Windows, duke adresuar optimizimin Unix-centrik të modeleve të mëparshme.

Çmimet e GPT-5.2-Codex

Niveli	Kosto për Milion Tokena
Hyrje	$1.75
Dalje	$14.00
Hyrje e Ruajtur në Cache	$0.175 (zbritje 90%)

GPT-5.2-Codex është i disponueshëm në të gjitha sipërfaqet Codex për përdoruesit e paguar të ChatGPT dhe si model i pavarur API.

Çfarë Do të Thotë GPT-5.2-Codex për Kodimin Agentik

Lançimi reflekton një zhvendosje të industrisë nga plotësimi i kodit tek agjentë të vazhdueshëm kodimi. Codex i OpenAI, Claude Code i Anthropic dhe GitHub Agentic Workflows synojnë të gjitha detyra inxhinierike me shumë hapa me ndërhyrje minimale njerëzore.

Pyetjet e bëra shpesh

Çfarë është GPT-5.2-Codex?

GPT-5.2-Codex është varianti i optimizuar për kodim i modelit GPT-5.2 nga OpenAI, i lançuar më 14 janar 2026. Është ndërtuar posaçërisht për flukse pune agentike kodimi ku modeli kryen sesione të vazhdueshme inxhinierike me shumë hapa. Arrin 56.4% në SWE-Bench Pro dhe 64.0% në Terminal-Bench 2.0, duke përmirësuar rezultatet e modelit bazë GPT-5.2 me 55.6% dhe 62.2% përkatësisht. Modeli mbështet një dritare konteksti me 400K tokena hyrje dhe 128K tokena dalje.

Sa kushton GPT-5.2-Codex?

GPT-5.2-Codex kushton $1.75 për milion tokena hyrje dhe $14 për milion tokena dalje. Hyrjet e ruajtura në cache përfitojnë zbritje 90%, duke e ulur çmimin efektiv në $0.175 për milion tokena. Kjo e bën dukshëm më të lirë se Claude Opus 4.6 me $5/$25 për milion tokena, megjithëse dy modelet ndryshojnë në performancën e benchmark-eve dhe veçoritë.

Çfarë është kompaktimi i kontekstit në GPT-5.2-Codex?

Kompaktimi i kontekstit është një veçori që ngjesh kontekstin e mëparshëm të bisedës duke ruajtur gjendjen kritike të detyrës. Kjo i mundëson GPT-5.2-Codex të mbajë sesione kodimi shumë-orëshe pa humbur gjurmën e fushës së projektit. Kur një sesion i afrohet limitit të dritares së kontekstit, modeli përmbledh kontekstin e vjetër në vend se ta heqë, duke mundësuar detyra më të gjata dhe komplekse pa rinisje.

Si krahasohet GPT-5.2-Codex me Claude Opus 4.6?

Në Terminal-Bench 2.0, Claude Opus 4.6 mban rezultatin më të lartë, para GPT-5.2-Codex me 64.0%. Në SWE-Bench Pro, GPT-5.2-Codex arrin 56.4%. Dy modelet ndjekin qasje të ndryshme: GPT-5.2-Codex ofron kontekst hyrës më të madh (400K tokena kundrejt 200K të Claude) dhe çmime më të ulëta, ndërsa Claude Opus 4.6 ofron ekipe agjentësh dhe rezultate më të larta në detyra arsyetimi si Humanity's Last Exam.