Claude Opus 4.6 基准测试结果
Claude Opus 4.6 是 Anthropic 最强大的模型,在编程、推理和知识工作方面创造了新纪录。它在 Terminal-Bench 2.0(智能体编程的顶级基准测试)上获得最高分,并在 Humanity's Last Exam(多学科推理测试)上领先所有前沿模型。
对于已经使用 Claude Sonnet 4.6 进行编程任务的开发者来说,Opus 4.6 代表了复杂多步骤智能体工作的更高性能层级。
编程性能:Terminal-Bench 2.0 第一名
Opus 4.6 在各个维度上改进了其前代的编程能力:
- 审慎规划:编写代码前规划更加周密
- 持续智能体任务:在更长的编程会话中保持上下文和质量
- 大型代码库导航:在复杂的多文件项目中运行更可靠
- 自我纠正:更强的代码审查和调试能力,捕获自身错误
在测试真实世界系统管理和编程任务的 Terminal-Bench 2.0 上,Opus 4.6 取得了所有模型中的最高分。
Claude Opus 4.6 对比 GPT-5.2 对比 Gemini 2.5
| 基准测试 | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1(+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
在 GDPval-AA 上,它衡量金融、法律等领域具有经济价值的知识工作表现,Opus 4.6 以 144 Elo 分超越 GPT-5.2,以 190 分超越其前代(Opus 4.5)。
Claude Opus 4.6 开发者新功能
Claude Code 中的 Agent Teams
你现在可以在 Claude Code 中组建 agent teams 协作完成任务。多个 Claude 实例同时在代码库的不同部分协作,加速复杂的重构、功能开发和错误修复。同样的 agent teams 能力也驱动着 Claude Code Security,它使用多个智能体来扫描、验证和确认漏洞。
长时间运行任务的 Compaction
Claude 现在可以在长时间运行的任务中总结自己的上下文。智能体编程会话可以运行更长时间而不会触及上下文窗口限制。对于涉及数百次工具调用的复杂多文件变更,compaction 使会话保持高效而无需重新开始。
自适应思考
模型能够捕捉上下文线索,判断需要应用多少扩展思考。对于简单问题,快速响应。对于复杂的编程问题,进行更深入的思考。开发者还获得了新的努力控制选项,可精细调节每次请求的成本、速度和智能。
1M Token 上下文窗口
与 Claude Sonnet 4.6 一样,Opus 4.6 提供 1M token 上下文窗口(测试版)。这是 Opus 级模型的首创,可在单次请求中处理整个大型代码库。
Claude Opus 4.6 定价与可用性
Opus 4.6 可在 claude.ai、API(claude-opus-4-6)、Amazon Bedrock 和 Google Cloud Vertex AI 上以 $5/$25 每百万 token 使用。
常见问题
Claude Opus 4.6 在哪些基准测试中领先?
Claude Code 中的 agent teams 是什么?
Claude Opus 4.6 中的 compaction 是什么?
Claude Opus 4.6 的价格是多少?
保持更新
将最新AI新闻发送到您的收件箱。
