GPT-5.2-Codex ベンチマーク結果
OpenAI は 2026 年 1 月 14 日に GPT-5.2-Codex をリリースしました。ベース GPT-5.2 モデルから 5 週間後のことです。エージェント型コーディング、すなわちモデルが計画を立て、コードを書き、テストを実行し、失敗に対して反復する多段階セッションをターゲットとしています。
SWE-Bench Pro で 56.4%(ベース GPT-5.2 の 55.6% から向上)、Terminal-Bench 2.0 で 64.0%(62.2% から向上)を達成。両ベンチマークとも、孤立したコード生成ではなく実世界のコーディングタスクを評価しています。
GPT-5.2-Codex 対 GPT-5.2 対 Claude Opus 4.6
| ベンチマーク | GPT-5.2-Codex | GPT-5.2 | Claude Opus 4.6 |
|---|---|---|---|
| SWE-Bench Pro | 56.4% | 55.6% | — |
| Terminal-Bench 2.0 | 64.0% | 62.2% | #1 |
| コンテキストウィンドウ(入力) | 400K | 128K | 200K(1M ベータ) |
| 出力トークン | 128K | 128K | 128K |
GPT-5.2-Codex はコストとパフォーマンスのバランスを取っています。Claude Opus 4.6 は Terminal-Bench 2.0 と Humanity's Last Exam でリードし、GPT-5.2-Codex は価格とコンテキストウィンドウサイズで競争しています。
開発者向け主要機能
コンテキスト圧縮
Claude Opus 4.6 の圧縮機能と同様に、GPT-5.2-Codex はタスク状態を保持しながら過去のコンテキストを圧縮します。これにより、会話がコンテキストウィンドウを超えても、モデルがプロジェクト全体を追跡できる数時間のコーディングセッションが可能になります。
長期タスクの完了
大規模なリファクタリング、コードベースの移行、マルチファイル機能の実装など、多くのステップにまたがるタスクに最適化されています。アプローチが失敗した場合、GPT-5.2-Codex はタスクを最初からやり直すのではなく、調整して再試行します。
組み込みの脆弱性検出
GPT-5.2-Codex はコード生成中に脆弱性検出を組み込んでいます。より深いスキャンが必要なチームは、偽陽性フィルタリング付きの多段階検証を提供する Claude Code Security などの専用ツールを使用できます。
Windows 環境サポート
OpenAI は GPT-5.2-Codex の Windows 開発パフォーマンスを改善し、以前のモデルの Unix 中心の最適化の課題に対処しました。
GPT-5.2-Codex 料金
| 層 | 100 万トークンあたりのコスト |
|---|---|
| 入力 | $1.75 |
| 出力 | $14.00 |
| キャッシュ入力 | $0.175(90% 割引) |
GPT-5.2-Codex は有料 ChatGPT ユーザー向けのすべての Codex インターフェースおよびスタンドアロン API モデルとして利用可能です。
GPT-5.2-Codex がエージェント型コーディングにもたらす意味
このリリースは、コード補完から持続的なコーディングエージェントへの業界全体のシフトを反映しています。OpenAI の Codex、Anthropic の Claude Code、そして GitHub Agentic Workflows はいずれも、最小限の人的介入で多段階のエンジニアリングタスクを対象としています。
よくある質問
GPT-5.2-Codex とは?
GPT-5.2-Codex の料金は?
GPT-5.2-Codex のコンテキスト圧縮とは?
GPT-5.2-Codex と Claude Opus 4.6 の比較は?
最新情報を入手
最新のAIニュースをメールでお届けします。
