Code Velocity
AI 模型

Claude Opus 4.6:编程和推理基准测试第一名

·7 分钟阅读·Anthropic, OpenAI·原始来源
分享
Claude Opus 4.6 基准测试对比图,展示在 Terminal-Bench 2.0、Humanity's Last Exam 和 GDPval-AA 上的第一名排名

Claude Opus 4.6 基准测试结果

Claude Opus 4.6 是 Anthropic 最强大的模型,在编程、推理和知识工作方面创造了新纪录。它在 Terminal-Bench 2.0(智能体编程的顶级基准测试)上获得最高分,并在 Humanity's Last Exam(多学科推理测试)上领先所有前沿模型。

对于已经使用 Claude Sonnet 4.6 进行编程任务的开发者来说,Opus 4.6 代表了复杂多步骤智能体工作的更高性能层级。

编程性能:Terminal-Bench 2.0 第一名

Opus 4.6 在各个维度上改进了其前代的编程能力:

  • 审慎规划:编写代码前规划更加周密
  • 持续智能体任务:在更长的编程会话中保持上下文和质量
  • 大型代码库导航:在复杂的多文件项目中运行更可靠
  • 自我纠正:更强的代码审查和调试能力,捕获自身错误

在测试真实世界系统管理和编程任务的 Terminal-Bench 2.0 上,Opus 4.6 取得了所有模型中的最高分。

Claude Opus 4.6 对比 GPT-5.2 对比 Gemini 2.5

基准测试Opus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1(+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

在 GDPval-AA 上,它衡量金融、法律等领域具有经济价值的知识工作表现,Opus 4.6 以 144 Elo 分超越 GPT-5.2,以 190 分超越其前代(Opus 4.5)。

Claude Opus 4.6 开发者新功能

Claude Code 中的 Agent Teams

你现在可以在 Claude Code 中组建 agent teams 协作完成任务。多个 Claude 实例同时在代码库的不同部分协作,加速复杂的重构、功能开发和错误修复。同样的 agent teams 能力也驱动着 Claude Code Security,它使用多个智能体来扫描、验证和确认漏洞。

长时间运行任务的 Compaction

Claude 现在可以在长时间运行的任务中总结自己的上下文。智能体编程会话可以运行更长时间而不会触及上下文窗口限制。对于涉及数百次工具调用的复杂多文件变更,compaction 使会话保持高效而无需重新开始。

自适应思考

模型能够捕捉上下文线索,判断需要应用多少扩展思考。对于简单问题,快速响应。对于复杂的编程问题,进行更深入的思考。开发者还获得了新的努力控制选项,可精细调节每次请求的成本、速度和智能。

1M Token 上下文窗口

Claude Sonnet 4.6 一样,Opus 4.6 提供 1M token 上下文窗口(测试版)。这是 Opus 级模型的首创,可在单次请求中处理整个大型代码库。

Claude Opus 4.6 定价与可用性

Opus 4.6 可在 claude.ai、API(claude-opus-4-6)、Amazon Bedrock 和 Google Cloud Vertex AI 上以 $5/$25 每百万 token 使用。

常见问题

Claude Opus 4.6 在哪些基准测试中领先?
Claude Opus 4.6 在四个主要基准测试中排名第一:Terminal-Bench 2.0(智能体编程)、Humanity's Last Exam(多学科推理)、BrowseComp(信息检索)和 GDPval-AA(知识工作)。在 GDPval-AA 上,它以 144 Elo 分超越 GPT-5.2,以 190 分超越其前代 Opus 4.5。截至 2026 年 2 月,这些结果使其成为编程和推理任务中得分最高的前沿模型。
Claude Code 中的 agent teams 是什么?
Agent teams 是 Claude Code 中的新功能,允许多个 Claude 实例并行协作完成任务。例如,一个智能体重构模块,另一个编写测试,第三个更新文档。这种并行方式加速了单个智能体需要更长时间完成的复杂代码库变更。Agent teams 随 Opus 4.6 一同推出,支持 Opus 和 Sonnet 模型。
Claude Opus 4.6 中的 compaction 是什么?
Compaction 是一项上下文管理功能,允许 Claude 在长时间运行的智能体任务中总结自己的对话历史。当编程会话接近上下文窗口限制时,compaction 将早期上下文压缩为摘要,使 Claude 能够继续工作而不会丢失任务线索。这对于涉及数百次工具调用和文件读取的多文件重构会话尤其有用。
Claude Opus 4.6 的价格是多少?
Claude Opus 4.6 的定价为输入每百万 token $5、输出每百万 token $25,与之前的 Opus 模型定价相同。可在 claude.ai、Anthropic API(模型 ID claude-opus-4-6)、Amazon Bedrock 和 Google Cloud Vertex AI 上使用。作为对比,Claude Sonnet 4.6 以 $3/$15 每百万 token 提供相近的编程质量。

保持更新

将最新AI新闻发送到您的收件箱。

分享