Code Velocity
AI 模型

Claude Sonnet 4.6:以 Sonnet 价格提供前沿编程能力

·6 分钟阅读·Anthropic·原始来源
分享
Claude Sonnet 4.6 OSWorld 基准测试进展图,展示从 Sonnet 3.5 到 4.6 的 65% 提升

Claude Sonnet 4.6 的新特性

Claude Sonnet 4.6 是 Anthropic 最强大的 Sonnet 模型,在编程、计算机使用、长上下文推理和智能体规划方面有重大升级。目前已成为 claude.ai 上免费和 Pro 用户的默认模型。

拥有早期访问权限的开发者以压倒性优势偏好 Sonnet 4.6 而非其前代,甚至常常偏好它胜过 Anthropic 2025 年 11 月发布的最智能模型 Claude Opus 4.5

Claude Sonnet 4.6 编程性能

以前需要 Opus 级模型才能实现的性能,现在以 Sonnet 定价($3/$15 每百万 token)即可获得。主要改进:

  • 更好的代码生成:跨语言更一致、准确的代码输出
  • 改进的指令遵循:更精确地遵循复杂的多步骤编程指令
  • 更强的调试能力:更善于捕获自身错误并建议修复
  • 真实世界任务表现:在经济价值型办公任务(GDPval-AA)上达到顶尖水平

对于使用 AI 安全扫描的团队,Claude Code Security 可配合 Sonnet 4.6 和 Opus 4.6 检测代码库中的漏洞。

计算机使用基准测试:OSWorld 结果

Anthropic 于 2024 年 10 月开创了通用计算机使用功能。在 OSWorld 上(AI 在 Chrome、VS Code 和 LibreOffice 等真实软件中完成任务的标准基准测试),Sonnet 模型在 16 个月内展现了稳步提升:

模型OSWorld 得分
Sonnet 3.5(2024 年 10 月)基准线
Sonnet 3.6+15%
Sonnet 4.5+40%
Sonnet 4.6+65%

早期用户报告在导航复杂电子表格、填写多步骤网页表单和跨多个浏览器标签工作等任务上达到了人类级别的能力。

提示注入防护

计算机使用面临来自网站的提示注入攻击安全风险。Sonnet 4.6 相比 Sonnet 4.5 在注入防护方面有重大提升,表现与更昂贵的 Opus 4.6 相当。

1M Token 上下文窗口

Sonnet 4.6 提供 1M token 上下文窗口测试版,足以在单次请求中处理整个代码库、长文档或大量对话历史。

Claude Sonnet 4.6 对开发者的意义

对于开发者而言,Sonnet 4.6 代表了显著的性价比提升。以前需要 Opus 级模型($5/$25 每百万 token)的任务,现在以 Sonnet 定价即可实现相当的性能。这使 AI 驱动的开发更加普及:

  • 智能体编程工作流:更长、更可靠的自动编程会话
  • 代码审查和调试:在问题进入生产环境前捕获
  • 计算机使用自动化:自动化遗留软件的交互
  • 大型代码库分析:利用 1M 上下文窗口理解整个项目

常见问题

什么是 Claude Sonnet 4.6?
Claude Sonnet 4.6 是 Anthropic 最强大的 Sonnet 层级模型,于 2026 年 2 月发布。它以 Sonnet 定价($3/$15 每百万 token)提供了以前需要 Opus 级模型才能实现的编程和推理性能。目前已成为 claude.ai 上免费和 Pro 用户的默认模型,并提供 1M token 上下文窗口测试版。
Claude Sonnet 4.6 的价格是多少?
Claude Sonnet 4.6 的输入价格为每百万 token $3,输出价格为每百万 token $15,与 Sonnet 4.5 相同。比 Opus 定价($5/$25)便宜 40%。可在 claude.ai、Anthropic API(模型 ID claude-sonnet-4-6)、Amazon Bedrock 和 Google Cloud Vertex AI 上使用。
Claude Sonnet 4.6 在编程方面比 Opus 4.5 更好吗?
是的。拥有早期访问权限的开发者在编程任务上频繁偏好 Sonnet 4.6 而非 Claude Opus 4.5,尽管 Sonnet 是更便宜的层级。Sonnet 4.6 在代码生成、指令遵循和调试方面表现尤为突出。对于最具挑战性的任务,Claude Opus 4.6 仍在 Terminal-Bench 2.0 等基准测试上保持领先。
Claude Sonnet 4.6 的计算机使用功能是什么?
计算机使用允许 Claude 像人类一样与软件交互,包括点击按钮、填写表单和导航用户界面。在计算机使用标准基准测试 OSWorld 上,Sonnet 4.6 比 2024 年 10 月的 Sonnet 3.5 基准线高出 65%。它的提示注入防护也有显著提升,表现与更昂贵的 Opus 4.6 相当。

保持更新

将最新AI新闻发送到您的收件箱。

分享