Claude Sonnet 4.6 的新特性
Claude Sonnet 4.6 是 Anthropic 最强大的 Sonnet 模型,在编程、计算机使用、长上下文推理和智能体规划方面有重大升级。目前已成为 claude.ai 上免费和 Pro 用户的默认模型。
拥有早期访问权限的开发者以压倒性优势偏好 Sonnet 4.6 而非其前代,甚至常常偏好它胜过 Anthropic 2025 年 11 月发布的最智能模型 Claude Opus 4.5。
Claude Sonnet 4.6 编程性能
以前需要 Opus 级模型才能实现的性能,现在以 Sonnet 定价($3/$15 每百万 token)即可获得。主要改进:
- 更好的代码生成:跨语言更一致、准确的代码输出
- 改进的指令遵循:更精确地遵循复杂的多步骤编程指令
- 更强的调试能力:更善于捕获自身错误并建议修复
- 真实世界任务表现:在经济价值型办公任务(GDPval-AA)上达到顶尖水平
对于使用 AI 安全扫描的团队,Claude Code Security 可配合 Sonnet 4.6 和 Opus 4.6 检测代码库中的漏洞。
计算机使用基准测试:OSWorld 结果
Anthropic 于 2024 年 10 月开创了通用计算机使用功能。在 OSWorld 上(AI 在 Chrome、VS Code 和 LibreOffice 等真实软件中完成任务的标准基准测试),Sonnet 模型在 16 个月内展现了稳步提升:
| 模型 | OSWorld 得分 |
|---|---|
| Sonnet 3.5(2024 年 10 月) | 基准线 |
| Sonnet 3.6 | +15% |
| Sonnet 4.5 | +40% |
| Sonnet 4.6 | +65% |
早期用户报告在导航复杂电子表格、填写多步骤网页表单和跨多个浏览器标签工作等任务上达到了人类级别的能力。
提示注入防护
计算机使用面临来自网站的提示注入攻击安全风险。Sonnet 4.6 相比 Sonnet 4.5 在注入防护方面有重大提升,表现与更昂贵的 Opus 4.6 相当。
1M Token 上下文窗口
Sonnet 4.6 提供 1M token 上下文窗口测试版,足以在单次请求中处理整个代码库、长文档或大量对话历史。
Claude Sonnet 4.6 对开发者的意义
对于开发者而言,Sonnet 4.6 代表了显著的性价比提升。以前需要 Opus 级模型($5/$25 每百万 token)的任务,现在以 Sonnet 定价即可实现相当的性能。这使 AI 驱动的开发更加普及:
- 智能体编程工作流:更长、更可靠的自动编程会话
- 代码审查和调试:在问题进入生产环境前捕获
- 计算机使用自动化:自动化遗留软件的交互
- 大型代码库分析:利用 1M 上下文窗口理解整个项目
常见问题
什么是 Claude Sonnet 4.6?
Claude Sonnet 4.6 的价格是多少?
Claude Sonnet 4.6 在编程方面比 Opus 4.5 更好吗?
Claude Sonnet 4.6 的计算机使用功能是什么?
保持更新
将最新AI新闻发送到您的收件箱。
