GPT-5.2-Codex: agentowy model programowania od OpenAI

Wyniki benchmarków GPT-5.2-Codex

OpenAI wydało GPT-5.2-Codex 14 stycznia 2026 roku, pięć tygodni po bazowym modelu GPT-5.2. Model jest ukierunkowany na agentowe programowanie: wieloetapowe sesje, w których model planuje, pisze kod, uruchamia testy i iteruje nad błędami.

Model uzyskuje 56,4% na SWE-Bench Pro (wzrost z 55,6% dla bazowego GPT-5.2) i 64,0% na Terminal-Bench 2.0 (wzrost z 62,2%). Oba benchmarki testują rzeczywiste zadania programistyczne, nie izolowane generowanie kodu.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4%	55,6%	—
Terminal-Bench 2.0	64,0%	62,2%	#1
Okno kontekstowe (wejście)	400K	128K	200K (1M beta)
Tokeny wyjściowe	128K	128K	128K

GPT-5.2-Codex równoważy koszt i wydajność. Claude Opus 4.6 prowadzi na Terminal-Bench 2.0 i Humanity's Last Exam, podczas gdy GPT-5.2-Codex konkuruje ceną i rozmiarem okna kontekstowego.

Kluczowe funkcje dla programistów

Context Compaction

Podobnie jak funkcja compaction w Claude Opus 4.6, GPT-5.2-Codex kompresuje wcześniejszy kontekst, zachowując stan zadania. Umożliwia to wielogodzinne sesje programowania, w których model śledzi cały projekt nawet gdy rozmowa przekracza okno kontekstowe.

Realizacja zadań długoterminowych

Model jest zoptymalizowany pod kątem zadań obejmujących wiele kroków: duże refaktoryzacje, migracje baz kodu i implementacje funkcji w wielu plikach. Gdy podejście zawodzi, GPT-5.2-Codex dostosowuje strategię i ponawia próbę zamiast restartować zadanie.

Wbudowane wykrywanie podatności

GPT-5.2-Codex zawiera wykrywanie podatności podczas generowania kodu. Zespoły potrzebujące głębszego skanowania mogą korzystać ze specjalistycznych narzędzi, takich jak Claude Code Security, które oferuje wieloetapową weryfikację z filtrowaniem fałszywych alarmów.

Wsparcie dla środowiska Windows

OpenAI poprawiło wydajność GPT-5.2-Codex w środowisku Windows, eliminując optymalizację skoncentrowaną na Unix z wcześniejszych modeli.

Cennik GPT-5.2-Codex

Poziom	Koszt za milion tokenów
Wejście	$1,75
Wyjście	$14,00
Wejście z cache	$0,175 (90% zniżki)

GPT-5.2-Codex jest dostępny na wszystkich platformach Codex dla płatnych użytkowników ChatGPT oraz jako samodzielny model API.

Co GPT-5.2-Codex oznacza dla agentowego programowania

Ta premiera odzwierciedla branżowe przesunięcie od uzupełniania kodu do pełnoprawnych agentów programistycznych. Codex od OpenAI, Claude Code od Anthropic i GitHub Agentic Workflows wszystkie celują w wieloetapowe zadania inżynieryjne z minimalną interwencją człowieka.

Często zadawane pytania

Czym jest GPT-5.2-Codex?

GPT-5.2-Codex to zoptymalizowany pod kątem programowania wariant modelu GPT-5.2 od OpenAI, wydany 14 stycznia 2026 roku. Jest stworzony specjalnie do agentowych procesów programowania, w których model prowadzi długotrwałe, wieloetapowe sesje inżynierii oprogramowania. Uzyskuje 56,4% na SWE-Bench Pro i 64,0% na Terminal-Bench 2.0, poprawiając wyniki bazowego GPT-5.2 wynoszące odpowiednio 55,6% i 62,2%. Model obsługuje okno kontekstowe 400K tokenów wejściowych i 128K tokenów wyjściowych.

Ile kosztuje GPT-5.2-Codex?

GPT-5.2-Codex kosztuje $1,75 za milion tokenów wejściowych i $14 za milion tokenów wyjściowych. Dane z pamięci podręcznej otrzymują 90% zniżki, co obniża efektywną cenę do $0,175 za milion tokenów. Czyni to model znacznie tańszym od Claude Opus 4.6 w cenie $5/$25 za milion tokenów, choć oba modele różnią się wynikami benchmarków i zestawem funkcji.

Czym jest context compaction w GPT-5.2-Codex?

Context compaction to funkcja kompresji wcześniejszego kontekstu rozmowy przy zachowaniu kluczowego stanu zadania. Pozwala to GPT-5.2-Codex prowadzić wielogodzinne sesje programowania bez utraty kontekstu projektu. Gdy sesja zbliża się do limitu okna kontekstowego, model streszcza starszy kontekst zamiast go usuwać, umożliwiając dłuższe i bardziej złożone zadania programistyczne bez konieczności restartu.

Jak GPT-5.2-Codex wypada w porównaniu z Claude Opus 4.6?

Na Terminal-Bench 2.0 Claude Opus 4.6 utrzymuje najwyższy wynik, wyprzedzając GPT-5.2-Codex z jego 64,0%. Na SWE-Bench Pro GPT-5.2-Codex uzyskuje 56,4%. Modele stosują różne podejścia: GPT-5.2-Codex oferuje większy kontekst wejściowy (400K tokenów vs. standardowe 200K Claude'a) i niższe ceny, podczas gdy Claude Opus 4.6 oferuje agent teams i wyższe wyniki benchmarkowe w zadaniach rozumowania, takich jak Humanity's Last Exam.