GPT-5.2-Codex: Agentový kódovací model od OpenAI

Výsledky benchmarkov GPT-5.2-Codex

OpenAI vydal GPT-5.2-Codex 14. januára 2026, päť týždňov po základnom modeli GPT-5.2. Zameriava sa na agentové kódovanie: viackrokové relácie, kde model plánuje, píše kód, spúšťa testy a iteruje pri zlyhaniach.

Model dosahuje 56,4 % na SWE-Bench Pro (oproti 55,6 % základného GPT-5.2) a 64,0 % na Terminal-Bench 2.0 (oproti 62,2 %). Oba benchmarky testujú kódovacie úlohy z reálneho sveta, nie izolované generovanie kódu.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4 %	55,6 %	—
Terminal-Bench 2.0	64,0 %	62,2 %	#1
Kontextové okno (vstup)	400K	128K	200K (1M beta)
Výstupné tokeny	128K	128K	128K

GPT-5.2-Codex vyvažuje náklady a výkon. Claude Opus 4.6 vedie na Terminal-Bench 2.0 a Humanity's Last Exam, zatiaľ čo GPT-5.2-Codex konkuruje cenou a veľkosťou kontextového okna.

Kľúčové funkcie pre vývojárov

Kompakcia kontextu

Podobne ako funkcia kompakcie Claude Opus 4.6, GPT-5.2-Codex komprimuje skorší kontext pri zachovaní stavu úlohy. To umožňuje viachodinové kódovacie relácie, kde model sleduje celý projekt, aj keď konverzácia prekročí kontextové okno.

Dokončovanie dlhodobých úloh

Model je optimalizovaný pre úlohy zahŕňajúce mnoho krokov: rozsiahle refaktoringy, migrácie kódových báz a implementácie funkcií vo viacerých súboroch. Keď prístup zlyhá, GPT-5.2-Codex sa prispôsobí a skúsi znova namiesto reštartovania úlohy.

Vstavaná detekcia zraniteľností

GPT-5.2-Codex obsahuje detekciu zraniteľností počas generovania kódu. Tímy vyžadujúce hlbšie skenovanie môžu použiť špecializované nástroje ako Claude Code Security, ktorý ponúka viacstupňovú verifikáciu s filtrovaním falošných pozitív.

Podpora prostredia Windows

OpenAI zlepšil výkon GPT-5.2-Codex pri vývoji na Windows, čím riešil unixovo-centrickú optimalizáciu predchádzajúcich modelov.

Ceny GPT-5.2-Codex

Úroveň	Cena za milión tokenov
Vstup	$1,75
Výstup	$14,00
Cachovaný vstup	$0,175 (90% zľava)

GPT-5.2-Codex je dostupný na všetkých platformách Codex pre platiacich používateľov ChatGPT a ako samostatný API model.

Čo GPT-5.2-Codex znamená pre agentové kódovanie

Toto vydanie odráža celosektorový posun od dokončovania kódu k nepretržitým kódovacím agentom. Codex od OpenAI, Claude Code od Anthropic a GitHub Agentic Workflows — všetky sa zameriavajú na viackrokové inžinierske úlohy s minimálnym ľudským zásahom.

Často kladené otázky

Čo je GPT-5.2-Codex?

GPT-5.2-Codex je variant modelu GPT-5.2 od OpenAI optimalizovaný na kódovanie, vydaný 14. januára 2026. Je špeciálne vytvorený pre agentové kódovacie pracovné postupy, kde model vykonáva nepretržité, viackrokové softvérovo-inžinierske relácie. Dosahuje 56,4 % na SWE-Bench Pro a 64,0 % na Terminal-Bench 2.0, čo je zlepšenie oproti 55,6 % a 62,2 % základného modelu GPT-5.2. Model podporuje kontextové okno 400K vstupných a 128K výstupných tokenov.

Koľko stojí GPT-5.2-Codex?

GPT-5.2-Codex stojí $1,75 za milión vstupných tokenov a $14 za milión výstupných tokenov. Cachované vstupy získavajú 90% zľavu, čo znižuje efektívnu sadzbu na $0,175 za milión tokenov. To je výrazne lacnejšie ako Claude Opus 4.6 za $5/$25 za milión tokenov, hoci sa oba modely líšia vo výkone benchmarkov a sadách funkcií.

Čo je kompakcia kontextu v GPT-5.2-Codex?

Kompakcia kontextu je funkcia, ktorá komprimuje skorší kontext konverzácie pri zachovaní kritického stavu úlohy. To umožňuje GPT-5.2-Codex udržiavať viachodinové kódovacie relácie bez straty rozsahu projektu. Keď sa relácia blíži k limitu kontextového okna, model sumarizuje starší kontext namiesto jeho zahodenia, čo umožňuje dlhšie a zložitejšie kódovacie úlohy bez reštartu.

Ako sa GPT-5.2-Codex porovnáva s Claude Opus 4.6?

Na Terminal-Bench 2.0 drží Claude Opus 4.6 najvyššie skóre, pred 64,0 % GPT-5.2-Codex. Na SWE-Bench Pro dosahuje GPT-5.2-Codex 56,4 %. Oba modely majú odlišné prístupy: GPT-5.2-Codex ponúka väčší vstupný kontext (400K tokenov vs. Claudových 200K štandardne) a nižšie ceny, zatiaľ čo Claude Opus 4.6 ponúka tímy agentov a vyššie skóre benchmarkov pri úlohách uvažovania ako Humanity's Last Exam.