Claude Opus 4.6：コーディングと推論ベンチマークで第1位

Claude Opus 4.6 ベンチマーク結果

Claude Opus 4.6 は Anthropic の最も高性能なモデルであり、コーディング、推論、知識ワークにおいて新記録を樹立しました。エージェント型コーディングの主要ベンチマークである Terminal-Bench 2.0 でトップスコアを獲得し、多分野推論テスト Humanity's Last Exam ですべてのフロンティアモデルをリードしています。

コーディングタスクに Claude Sonnet 4.6 を既に使用している開発者にとって、Opus 4.6 は複雑な多段階エージェント型ワークの次のパフォーマンス階層を表しています。

コーディング性能：Terminal-Bench 2.0 で第1位

Opus 4.6 は前モデルのコーディングスキルをあらゆる面で向上させています：

慎重な計画：コードを書く前により入念に計画
持続的なエージェント型タスク：長いコーディングセッションでもコンテキストと品質を維持
大規模コードベースのナビゲーション：複雑なマルチファイルプロジェクトでより安定的に動作
自己修正：自身のミスを検出するためのコードレビューとデバッグスキルの向上

実世界のシステム管理とコーディングタスクをテストする Terminal-Bench 2.0 で、Opus 4.6 はすべてのモデル中最高スコアを達成しています。

Claude Opus 4.6 対 GPT-5.2 対 Gemini 2.5

ベンチマーク	Opus 4.6	GPT-5.2	Gemini 2.5
Terminal-Bench 2.0	#1	#2	#3
Humanity's Last Exam	#1	#3	#2
GDPval-AA	#1（+144 Elo vs GPT-5.2）	#2	#3
BrowseComp	#1	#2	—

金融、法務などの分野で経済的に価値のある知識ワークのパフォーマンスを測定する GDPval-AA で、Opus 4.6 は GPT-5.2 を 144 Elo ポイント、前モデル（Opus 4.5）を 190 ポイント上回っています。

Claude Opus 4.6 の開発者向け新機能

Claude Code の Agent Teams

Claude Code 内で agent teams を組み、タスクを共同で実行できるようになりました。複数の Claude インスタンスがコードベースの異なる部分で同時に協力し、複雑なリファクタリング、機能開発、バグ修正を加速します。同じ agent teams 機能が Claude Code Security を支えており、複数のエージェントで脆弱性のスキャン、検証、確認を行います。

長時間タスクのための Compaction

Claude は長時間タスク中に自身のコンテキストを要約できるようになりました。エージェント型コーディングセッションはコンテキストウィンドウの制限に達することなく、はるかに長く実行できます。数百回のツール呼び出しを伴う複雑なマルチファイル変更でも、compaction がセッションの生産性を維持し、再起動の必要をなくします。

適応型思考

モデルは拡張思考をどの程度適用すべきかのコンテキスト的手がかりを読み取ります。単純な質問には素早く応答し、複雑なコーディング問題にはより深く思考します。開発者はリクエストごとのコスト・速度・知能のバランスを調整する新しいエフォートコントロールも利用可能です。

1M トークンコンテキストウィンドウ

Claude Sonnet 4.6 と同様に、Opus 4.6 は 1M トークンのコンテキストウィンドウをベータ版で提供しています。Opus クラスのモデルとしては初めてで、単一リクエストで大規模なコードベース全体を処理できます。

Claude Opus 4.6 の料金と利用方法

Opus 4.6 は claude.ai、API（claude-opus-4-6）、Amazon Bedrock、Google Cloud Vertex AI で $5/$25（100 万トークンあたり）で利用可能です。

よくある質問

Claude Opus 4.6 はどのベンチマークでリードしているか？

Claude Opus 4.6 は 4 つの主要ベンチマークで第1位を獲得しています：Terminal-Bench 2.0（エージェント型コーディング）、Humanity's Last Exam（多分野推論）、BrowseComp（情報検索）、GDPval-AA（知識ワーク）。GDPval-AA では GPT-5.2 を 144 Elo ポイント、前モデル Opus 4.5 を 190 ポイント上回っています。2026 年 2 月時点で、コーディングと推論タスクの両方で最高スコアのフロンティアモデルです。

Claude Code の agent teams とは？

Agent teams は Claude Code の新機能で、複数の Claude インスタンスがタスクを並行して協力実行できます。例えば、1 つのエージェントがモジュールをリファクタリングし、別のエージェントがテストを書き、3 つ目がドキュメントを更新するといった使い方です。この並行アプローチにより、単一エージェントではさらに時間がかかる複雑なコードベースの変更が高速化されます。Agent teams は Opus 4.6 と同時にリリースされ、Opus と Sonnet の両モデルで動作します。

Claude Opus 4.6 の compaction とは？

Compaction はコンテキスト管理機能で、長時間実行されるエージェント型タスク中に Claude が自身の会話履歴を要約できるようにします。コーディングセッションがコンテキストウィンドウの上限に近づくと、compaction が以前のコンテキストを要約に凝縮し、タスクを見失うことなく作業を続行できます。数百回のツール呼び出しとファイル読み込みを伴うマルチファイルリファクタリングセッションに特に有用です。

Claude Opus 4.6 の料金は？

Claude Opus 4.6 は入力 100 万トークンあたり $5、出力 100 万トークンあたり $25 で、以前の Opus モデルと同じ価格です。claude.ai、Anthropic API（モデル ID：claude-opus-4-6）、Amazon Bedrock、Google Cloud Vertex AI で利用可能です。比較として、Claude Sonnet 4.6 は $3/$15（100 万トークンあたり）で同等のコーディング品質を提供しています。