Kết Quả Benchmark Claude Opus 4.6
Claude Opus 4.6 là mô hình mạnh nhất của Anthropic, thiết lập kỷ lục mới trong lập trình, suy luận và công việc tri thức. Đạt điểm cao nhất trên Terminal-Bench 2.0, benchmark hàng đầu cho lập trình tự chủ, và dẫn đầu tất cả mô hình tiên tiến trên Humanity's Last Exam, bài kiểm tra suy luận đa ngành.
Đối với nhà phát triển đã sử dụng Claude Sonnet 4.6 cho các tác vụ lập trình, Opus 4.6 đại diện cho cấp hiệu suất tiếp theo cho công việc tự chủ phức tạp, nhiều bước.
Hiệu Suất Lập Trình: #1 Trên Terminal-Bench 2.0
Opus 4.6 cải thiện kỹ năng lập trình của người tiền nhiệm trên mọi phương diện:
- Lên kế hoạch cẩn thận: Lên kế hoạch chu đáo hơn trước khi viết mã
- Tác vụ tự chủ bền vững: Duy trì ngữ cảnh và chất lượng trong các phiên lập trình dài hơn
- Điều hướng codebase lớn: Hoạt động đáng tin cậy hơn trong các dự án phức tạp, đa tệp
- Tự sửa lỗi: Kỹ năng đánh giá mã và gỡ lỗi tốt hơn để phát hiện lỗi của chính mình
Trên Terminal-Bench 2.0, kiểm tra các tác vụ quản trị hệ thống và lập trình thực tế, Opus 4.6 đạt điểm cao nhất trong tất cả các mô hình.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Trên GDPval-AA, đo lường hiệu suất trên các tác vụ tri thức có giá trị kinh tế trong tài chính, pháp lý và các lĩnh vực khác, Opus 4.6 vượt GPT-5.2 144 điểm Elo và người tiền nhiệm (Opus 4.5) 190 điểm.
Tính Năng Mới Cho Nhà Phát Triển Trong Claude Opus 4.6
Agent Teams Trong Claude Code
Giờ đây bạn có thể tập hợp các nhóm tác nhân để cùng làm việc trên các tác vụ trong Claude Code. Nhiều phiên bản Claude cộng tác đồng thời trên các phần khác nhau của codebase, tăng tốc tái cấu trúc phức tạp, phát triển tính năng và sửa lỗi. Cùng khả năng agent teams cung cấp sức mạnh cho Claude Code Security, sử dụng nhiều tác nhân để quét, xác minh và xác nhận lỗ hổng.
Compaction Cho Tác Vụ Dài
Claude giờ có thể tóm tắt ngữ cảnh của mình trong các tác vụ dài. Điều này có nghĩa là các phiên lập trình tự chủ có thể chạy lâu hơn nhiều mà không gặp giới hạn cửa sổ ngữ cảnh. Đối với các thay đổi phức tạp, đa tệp liên quan đến hàng trăm lệnh gọi công cụ, compaction giữ phiên làm việc hiệu quả mà không cần khởi động lại.
Tư Duy Thích Ứng
Mô hình nắm bắt các manh mối ngữ cảnh về mức độ tư duy mở rộng cần áp dụng. Đối với câu hỏi đơn giản, nó phản hồi nhanh. Đối với bài toán lập trình phức tạp, nó suy nghĩ sâu hơn. Nhà phát triển cũng có các điều khiển nỗ lực mới để cân bằng chi phí, tốc độ và trí tuệ cho mỗi yêu cầu.
Cửa Sổ Ngữ Cảnh 1M Token
Giống Claude Sonnet 4.6, Opus 4.6 có cửa sổ ngữ cảnh 1M token trong bản beta. Đây là lần đầu tiên cho các mô hình cấp Opus, cho phép xử lý toàn bộ codebase lớn trong một yêu cầu duy nhất.
Giá Và Tính Khả Dụng Claude Opus 4.6
Opus 4.6 có sẵn trên claude.ai, API (claude-opus-4-6), Amazon Bedrock và Google Cloud Vertex AI ở mức $5/$25 mỗi triệu token.
Câu hỏi thường gặp
Claude Opus 4.6 dẫn đầu những benchmark nào?
Agent teams trong Claude Code là gì?
Compaction trong Claude Opus 4.6 là gì?
Claude Opus 4.6 có giá bao nhiêu?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
