GPT-5.2-Codex：OpenAI のエージェント型コーディングモデル

GPT-5.2-Codex ベンチマーク結果

OpenAI は 2026 年 1 月 14 日に GPT-5.2-Codex をリリースしました。ベース GPT-5.2 モデルから 5 週間後のことです。エージェント型コーディング、すなわちモデルが計画を立て、コードを書き、テストを実行し、失敗に対して反復する多段階セッションをターゲットとしています。

SWE-Bench Pro で 56.4%（ベース GPT-5.2 の 55.6% から向上）、Terminal-Bench 2.0 で 64.0%（62.2% から向上）を達成。両ベンチマークとも、孤立したコード生成ではなく実世界のコーディングタスクを評価しています。

GPT-5.2-Codex 対 GPT-5.2 対 Claude Opus 4.6

ベンチマーク	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
コンテキストウィンドウ（入力）	400K	128K	200K（1M ベータ）
出力トークン	128K	128K	128K

GPT-5.2-Codex はコストとパフォーマンスのバランスを取っています。Claude Opus 4.6 は Terminal-Bench 2.0 と Humanity's Last Exam でリードし、GPT-5.2-Codex は価格とコンテキストウィンドウサイズで競争しています。

開発者向け主要機能

コンテキスト圧縮

Claude Opus 4.6 の圧縮機能と同様に、GPT-5.2-Codex はタスク状態を保持しながら過去のコンテキストを圧縮します。これにより、会話がコンテキストウィンドウを超えても、モデルがプロジェクト全体を追跡できる数時間のコーディングセッションが可能になります。

長期タスクの完了

大規模なリファクタリング、コードベースの移行、マルチファイル機能の実装など、多くのステップにまたがるタスクに最適化されています。アプローチが失敗した場合、GPT-5.2-Codex はタスクを最初からやり直すのではなく、調整して再試行します。

組み込みの脆弱性検出

GPT-5.2-Codex はコード生成中に脆弱性検出を組み込んでいます。より深いスキャンが必要なチームは、偽陽性フィルタリング付きの多段階検証を提供する Claude Code Security などの専用ツールを使用できます。

Windows 環境サポート

OpenAI は GPT-5.2-Codex の Windows 開発パフォーマンスを改善し、以前のモデルの Unix 中心の最適化の課題に対処しました。

GPT-5.2-Codex 料金

層	100 万トークンあたりのコスト
入力	$1.75
出力	$14.00
キャッシュ入力	$0.175（90% 割引）

GPT-5.2-Codex は有料 ChatGPT ユーザー向けのすべての Codex インターフェースおよびスタンドアロン API モデルとして利用可能です。

GPT-5.2-Codex がエージェント型コーディングにもたらす意味

このリリースは、コード補完から持続的なコーディングエージェントへの業界全体のシフトを反映しています。OpenAI の Codex、Anthropic の Claude Code、そして GitHub Agentic Workflows はいずれも、最小限の人的介入で多段階のエンジニアリングタスクを対象としています。

よくある質問

GPT-5.2-Codex とは？

GPT-5.2-Codex は、OpenAI が 2026 年 1 月 14 日にリリースした GPT-5.2 のコーディング最適化バリアントです。モデルが持続的かつ多段階のソフトウェアエンジニアリングセッションを実行するエージェント型コーディングワークフロー向けに特化して設計されています。SWE-Bench Pro で 56.4%、Terminal-Bench 2.0 で 64.0% を達成し、ベース GPT-5.2 の 55.6%・62.2% をそれぞれ上回っています。400K 入力・128K 出力のコンテキストウィンドウをサポートします。

GPT-5.2-Codex の料金は？

GPT-5.2-Codex は入力 100 万トークンあたり $1.75、出力 100 万トークンあたり $14 です。キャッシュされた入力には 90% の割引が適用され、実効キャッシュ料金は 100 万トークンあたり $0.175 になります。これは Claude Opus 4.6 の $5/$25（100 万トークンあたり）と比較して大幅に安価ですが、ベンチマーク性能と機能セットは異なります。

GPT-5.2-Codex のコンテキスト圧縮とは？

コンテキスト圧縮は、重要なタスク状態を保持しながら過去の会話コンテキストを圧縮する機能です。これにより GPT-5.2-Codex はプロジェクトのスコープを見失うことなく数時間のコーディングセッションを維持できます。セッションがコンテキストウィンドウの上限に近づくと、モデルは古いコンテキストを破棄するのではなく要約し、再起動なしでより長く複雑なコーディングタスクを可能にします。

GPT-5.2-Codex と Claude Opus 4.6 の比較は？

Terminal-Bench 2.0 では Claude Opus 4.6 がトップスコアを維持し、GPT-5.2-Codex の 64.0% を上回っています。SWE-Bench Pro では GPT-5.2-Codex が 56.4% を記録。両モデルは異なるアプローチを取っています：GPT-5.2-Codex はより大きな入力コンテキスト（400K トークン対 Claude の標準 200K）と低価格を提供し、Claude Opus 4.6 は agent teams と Humanity's Last Exam などの推論タスクでより高いベンチマークスコアを提供しています。