Code Velocity
Model AI

GPT-5.2-Codex: Model Pengekodan Agentik OpenAI

·6 min bacaan·OpenAI·Sumber asal
Kongsi
Carta penanda aras GPT-5.2-Codex menunjukkan skor SWE-Bench Pro dan Terminal-Bench 2.0 berbanding model asas GPT-5.2

Keputusan Penanda Aras GPT-5.2-Codex

OpenAI mengeluarkan GPT-5.2-Codex pada 14 Januari 2026, lima minggu selepas model asas GPT-5.2. Ia menyasarkan pengekodan agentik: sesi berbilang langkah di mana model merancang, menulis kod, menjalankan ujian, dan mengulangi kegagalan.

Model ini mencatat 56.4% pada SWE-Bench Pro (naik daripada 55.6% pada GPT-5.2 asas) dan 64.0% pada Terminal-Bench 2.0 (naik daripada 62.2%). Kedua-dua penanda aras menguji tugas pengekodan dunia sebenar, bukan penjanaan kod terpencil.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Penanda ArasGPT-5.2-CodexGPT-5.2Claude Opus 4.6
SWE-Bench Pro56.4%55.6%
Terminal-Bench 2.064.0%62.2%#1
Tetingkap Konteks (input)400K128K200K (1M beta)
Token Output128K128K128K

GPT-5.2-Codex mengimbangi kos dan prestasi. Claude Opus 4.6 mendahului Terminal-Bench 2.0 dan Humanity's Last Exam, manakala GPT-5.2-Codex bersaing dari segi harga dan saiz tetingkap konteks.

Ciri Utama untuk Pembangun

Pemadatan Konteks

Seperti ciri pemadatan Claude Opus 4.6, GPT-5.2-Codex memampatkan konteks terdahulu sambil mengekalkan keadaan tugas. Ini membolehkan sesi pengekodan berjam-jam di mana model menjejaki keseluruhan projek walaupun perbualan melebihi tetingkap konteks.

Penyiapan Tugas Jangka Panjang

Model ini dioptimumkan untuk tugas merangkumi banyak langkah: pemfaktoran semula besar, migrasi pangkalan kod, dan pelaksanaan ciri berbilang fail. Apabila pendekatan gagal, GPT-5.2-Codex menyesuaikan dan mencuba semula dan bukannya memulakan semula tugas.

Pengesanan Kelemahan Terbina Dalam

GPT-5.2-Codex termasuk pengesanan kelemahan semasa penjanaan kod. Pasukan yang memerlukan pengimbasan lebih mendalam boleh menggunakan alat khusus seperti Claude Code Security, yang menawarkan pengesahan berbilang peringkat dengan penapisan positif palsu.

Sokongan Persekitaran Windows

OpenAI meningkatkan prestasi pembangunan Windows GPT-5.2-Codex, menangani pengoptimuman berpusatkan Unix pada model terdahulu.

Harga GPT-5.2-Codex

PeringkatKos per Juta Token
Input$1.75
Output$14.00
Input Dicache$0.175 (diskaun 90%)

GPT-5.2-Codex tersedia merentas semua permukaan Codex untuk pengguna ChatGPT berbayar dan sebagai model API kendiri.

Apa Makna GPT-5.2-Codex untuk Pengekodan Agentik

Keluaran ini mencerminkan peralihan seluruh industri daripada pelengkapan kod kepada agen pengekodan berterusan. Codex OpenAI, Claude Code Anthropic, dan GitHub Agentic Workflows semuanya menyasarkan tugas kejuruteraan berbilang langkah dengan campur tangan manusia yang minimum.

Soalan Lazim

Apakah itu GPT-5.2-Codex?
GPT-5.2-Codex ialah varian GPT-5.2 yang dioptimumkan untuk pengekodan oleh OpenAI, dikeluarkan pada 14 Januari 2026. Ia dibina khusus untuk aliran kerja pengekodan agentik di mana model menjalankan sesi kejuruteraan perisian berterusan dan berbilang langkah. Ia mencatat 56.4% pada SWE-Bench Pro dan 64.0% pada Terminal-Bench 2.0, meningkat daripada 55.6% dan 62.2% model asas GPT-5.2. Model ini menyokong tetingkap konteks 400K input dan 128K output.
Berapakah kos GPT-5.2-Codex?
GPT-5.2-Codex berharga $1.75 per juta token input dan $14 per juta token output. Input yang dicache mendapat diskaun 90%, menjadikan kadar efektif $0.175 per juta token. Ini jauh lebih murah daripada Claude Opus 4.6 pada $5/$25 per juta token, walaupun kedua-dua model berbeza dari segi prestasi penanda aras dan set ciri.
Apakah pemadatan konteks dalam GPT-5.2-Codex?
Pemadatan konteks ialah ciri yang memampatkan konteks perbualan terdahulu sambil mengekalkan keadaan tugas kritikal. Ini membolehkan GPT-5.2-Codex mengekalkan sesi pengekodan berjam-jam tanpa kehilangan skop projek. Apabila sesi menghampiri had tetingkap konteks, model meringkaskan konteks lama dan bukannya membuangnya, membolehkan tugas pengekodan yang lebih panjang dan kompleks tanpa memulakan semula.
Bagaimanakah GPT-5.2-Codex berbanding dengan Claude Opus 4.6?
Pada Terminal-Bench 2.0, Claude Opus 4.6 memegang skor tertinggi, mendahului 64.0% GPT-5.2-Codex. Pada SWE-Bench Pro, GPT-5.2-Codex mencatat 56.4%. Kedua-dua model mengambil pendekatan berbeza: GPT-5.2-Codex menawarkan konteks input yang lebih besar (400K token vs. 200K standard Claude) dan harga lebih rendah, manakala Claude Opus 4.6 menawarkan pasukan agen dan skor penanda aras lebih tinggi pada tugas penaakulan seperti Humanity's Last Exam.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi