Claude Opus 4.6 ベンチマーク結果
Claude Opus 4.6 は Anthropic の最も高性能なモデルであり、コーディング、推論、知識ワークにおいて新記録を樹立しました。エージェント型コーディングの主要ベンチマークである Terminal-Bench 2.0 でトップスコアを獲得し、多分野推論テスト Humanity's Last Exam ですべてのフロンティアモデルをリードしています。
コーディングタスクに Claude Sonnet 4.6 を既に使用している開発者にとって、Opus 4.6 は複雑な多段階エージェント型ワークの次のパフォーマンス階層を表しています。
コーディング性能:Terminal-Bench 2.0 で第1位
Opus 4.6 は前モデルのコーディングスキルをあらゆる面で向上させています:
- 慎重な計画:コードを書く前により入念に計画
- 持続的なエージェント型タスク:長いコーディングセッションでもコンテキストと品質を維持
- 大規模コードベースのナビゲーション:複雑なマルチファイルプロジェクトでより安定的に動作
- 自己修正:自身のミスを検出するためのコードレビューとデバッグスキルの向上
実世界のシステム管理とコーディングタスクをテストする Terminal-Bench 2.0 で、Opus 4.6 はすべてのモデル中最高スコアを達成しています。
Claude Opus 4.6 対 GPT-5.2 対 Gemini 2.5
| ベンチマーク | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1(+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
金融、法務などの分野で経済的に価値のある知識ワークのパフォーマンスを測定する GDPval-AA で、Opus 4.6 は GPT-5.2 を 144 Elo ポイント、前モデル(Opus 4.5)を 190 ポイント上回っています。
Claude Opus 4.6 の開発者向け新機能
Claude Code の Agent Teams
Claude Code 内で agent teams を組み、タスクを共同で実行できるようになりました。複数の Claude インスタンスがコードベースの異なる部分で同時に協力し、複雑なリファクタリング、機能開発、バグ修正を加速します。同じ agent teams 機能が Claude Code Security を支えており、複数のエージェントで脆弱性のスキャン、検証、確認を行います。
長時間タスクのための Compaction
Claude は長時間タスク中に自身のコンテキストを要約できるようになりました。エージェント型コーディングセッションはコンテキストウィンドウの制限に達することなく、はるかに長く実行できます。数百回のツール呼び出しを伴う複雑なマルチファイル変更でも、compaction がセッションの生産性を維持し、再起動の必要をなくします。
適応型思考
モデルは拡張思考をどの程度適用すべきかのコンテキスト的手がかりを読み取ります。単純な質問には素早く応答し、複雑なコーディング問題にはより深く思考します。開発者はリクエストごとのコスト・速度・知能のバランスを調整する新しいエフォートコントロールも利用可能です。
1M トークン コンテキストウィンドウ
Claude Sonnet 4.6 と同様に、Opus 4.6 は 1M トークンのコンテキストウィンドウをベータ版で提供しています。Opus クラスのモデルとしては初めてで、単一リクエストで大規模なコードベース全体を処理できます。
Claude Opus 4.6 の料金と利用方法
Opus 4.6 は claude.ai、API(claude-opus-4-6)、Amazon Bedrock、Google Cloud Vertex AI で $5/$25(100 万トークンあたり)で利用可能です。
よくある質問
Claude Opus 4.6 はどのベンチマークでリードしているか?
Claude Code の agent teams とは?
Claude Opus 4.6 の compaction とは?
Claude Opus 4.6 の料金は?
最新情報を入手
最新のAIニュースをメールでお届けします。
