Code Velocity
Model AI

GPT-5.2-Codex: Model Coding Agentik dari OpenAI

·6 mnt baca·OpenAI·Sumber asli
Bagikan
Grafik benchmark GPT-5.2-Codex menampilkan skor SWE-Bench Pro dan Terminal-Bench 2.0 dibandingkan model dasar GPT-5.2

Hasil Benchmark GPT-5.2-Codex

OpenAI merilis GPT-5.2-Codex pada 14 Januari 2026, lima minggu setelah model dasar GPT-5.2. Model ini menargetkan coding agentik: sesi multi-langkah di mana model merencanakan, menulis kode, menjalankan pengujian, dan melakukan iterasi saat terjadi kegagalan.

Model ini meraih 56,4% di SWE-Bench Pro (naik dari 55,6% pada GPT-5.2 dasar) dan 64,0% di Terminal-Bench 2.0 (naik dari 62,2%). Kedua benchmark menguji tugas coding dunia nyata, bukan pembuatan kode secara terisolasi.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

BenchmarkGPT-5.2-CodexGPT-5.2Claude Opus 4.6
SWE-Bench Pro56,4%55,6%
Terminal-Bench 2.064,0%62,2%#1
Jendela Konteks (input)400K128K200K (1M beta)
Token Output128K128K128K

GPT-5.2-Codex menyeimbangkan biaya dan performa. Claude Opus 4.6 memimpin di Terminal-Bench 2.0 dan Humanity's Last Exam, sementara GPT-5.2-Codex bersaing dalam hal harga dan ukuran jendela konteks.

Fitur Utama untuk Developer

Pemadatan Konteks

Seperti fitur pemadatan Claude Opus 4.6, GPT-5.2-Codex mengompresi konteks sebelumnya sambil mempertahankan status tugas. Ini memungkinkan sesi coding berjam-jam di mana model tetap melacak seluruh proyek meskipun percakapan melampaui jendela konteks.

Penyelesaian Tugas Jangka Panjang

Model ini dioptimalkan untuk tugas yang mencakup banyak langkah: refaktor besar, migrasi codebase, dan implementasi fitur multi-file. Saat suatu pendekatan gagal, GPT-5.2-Codex menyesuaikan dan mencoba ulang alih-alih memulai ulang tugas.

Deteksi Kerentanan Bawaan

GPT-5.2-Codex menyertakan deteksi kerentanan selama pembuatan kode. Tim yang membutuhkan pemindaian lebih mendalam dapat menggunakan alat khusus seperti Claude Code Security, yang menawarkan verifikasi multi-tahap dengan penyaringan false positive.

Dukungan Lingkungan Windows

OpenAI meningkatkan performa pengembangan Windows pada GPT-5.2-Codex, mengatasi optimasi yang berpusat pada Unix dari model-model sebelumnya.

Harga GPT-5.2-Codex

TingkatBiaya per Juta Token
Input$1,75
Output$14,00
Input yang Di-cache$0,175 (diskon 90%)

GPT-5.2-Codex tersedia di seluruh platform Codex untuk pengguna ChatGPT berbayar dan sebagai model API mandiri.

Arti GPT-5.2-Codex bagi Coding Agentik

Peluncuran ini mencerminkan pergeseran industri dari penyelesaian kode ke agen coding berkelanjutan. Codex dari OpenAI, Claude Code dari Anthropic, dan GitHub Agentic Workflows semuanya menargetkan tugas rekayasa multi-langkah dengan intervensi manusia minimal.

Pertanyaan yang Sering Diajukan

Apa itu GPT-5.2-Codex?
GPT-5.2-Codex adalah varian GPT-5.2 yang dioptimalkan untuk coding oleh OpenAI, dirilis pada 14 Januari 2026. Model ini dirancang khusus untuk alur kerja coding agentik di mana model menjalankan sesi rekayasa perangkat lunak multi-langkah secara berkelanjutan. Model ini meraih 56,4% di SWE-Bench Pro dan 64,0% di Terminal-Bench 2.0, meningkat dari 55,6% dan 62,2% pada model dasar GPT-5.2. Model ini mendukung jendela konteks 400K input dan 128K output.
Berapa harga GPT-5.2-Codex?
GPT-5.2-Codex berharga $1,75 per juta token input dan $14 per juta token output. Input yang di-cache mendapat diskon 90%, sehingga tarif efektif menjadi $0,175 per juta token. Ini jauh lebih murah dibandingkan Claude Opus 4.6 dengan harga $5/$25 per juta token, meskipun kedua model berbeda dalam performa benchmark dan fitur.
Apa itu pemadatan konteks di GPT-5.2-Codex?
Pemadatan konteks adalah fitur yang mengompresi konteks percakapan sebelumnya sambil mempertahankan status tugas yang penting. Ini memungkinkan GPT-5.2-Codex menjalankan sesi coding berjam-jam tanpa kehilangan cakupan proyek. Saat sesi mendekati batas jendela konteks, model merangkum konteks lama alih-alih menghapusnya, sehingga memungkinkan tugas coding yang lebih panjang dan kompleks tanpa memulai ulang.
Bagaimana perbandingan GPT-5.2-Codex dengan Claude Opus 4.6?
Di Terminal-Bench 2.0, Claude Opus 4.6 memegang skor tertinggi, di atas 64,0% milik GPT-5.2-Codex. Di SWE-Bench Pro, GPT-5.2-Codex meraih 56,4%. Kedua model mengambil pendekatan berbeda: GPT-5.2-Codex menawarkan konteks input lebih besar (400K token vs 200K standar Claude) dan harga lebih rendah, sementara Claude Opus 4.6 menawarkan tim agen dan skor benchmark lebih tinggi pada tugas penalaran seperti Humanity's Last Exam.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.

Bagikan