Code Velocity
Mô Hình AI

Claude Opus 4.6: #1 Trong Benchmark Lập Trình Và Suy Luận

·7 phút đọc·Anthropic, OpenAI·Nguồn gốc
Chia sẻ
Biểu đồ so sánh benchmark Claude Opus 4.6 hiển thị xếp hạng #1 trên Terminal-Bench 2.0, Humanity's Last Exam và GDPval-AA

Kết Quả Benchmark Claude Opus 4.6

Claude Opus 4.6 là mô hình mạnh nhất của Anthropic, thiết lập kỷ lục mới trong lập trình, suy luận và công việc tri thức. Đạt điểm cao nhất trên Terminal-Bench 2.0, benchmark hàng đầu cho lập trình tự chủ, và dẫn đầu tất cả mô hình tiên tiến trên Humanity's Last Exam, bài kiểm tra suy luận đa ngành.

Đối với nhà phát triển đã sử dụng Claude Sonnet 4.6 cho các tác vụ lập trình, Opus 4.6 đại diện cho cấp hiệu suất tiếp theo cho công việc tự chủ phức tạp, nhiều bước.

Hiệu Suất Lập Trình: #1 Trên Terminal-Bench 2.0

Opus 4.6 cải thiện kỹ năng lập trình của người tiền nhiệm trên mọi phương diện:

  • Lên kế hoạch cẩn thận: Lên kế hoạch chu đáo hơn trước khi viết mã
  • Tác vụ tự chủ bền vững: Duy trì ngữ cảnh và chất lượng trong các phiên lập trình dài hơn
  • Điều hướng codebase lớn: Hoạt động đáng tin cậy hơn trong các dự án phức tạp, đa tệp
  • Tự sửa lỗi: Kỹ năng đánh giá mã và gỡ lỗi tốt hơn để phát hiện lỗi của chính mình

Trên Terminal-Bench 2.0, kiểm tra các tác vụ quản trị hệ thống và lập trình thực tế, Opus 4.6 đạt điểm cao nhất trong tất cả các mô hình.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Trên GDPval-AA, đo lường hiệu suất trên các tác vụ tri thức có giá trị kinh tế trong tài chính, pháp lý và các lĩnh vực khác, Opus 4.6 vượt GPT-5.2 144 điểm Elo và người tiền nhiệm (Opus 4.5) 190 điểm.

Tính Năng Mới Cho Nhà Phát Triển Trong Claude Opus 4.6

Agent Teams Trong Claude Code

Giờ đây bạn có thể tập hợp các nhóm tác nhân để cùng làm việc trên các tác vụ trong Claude Code. Nhiều phiên bản Claude cộng tác đồng thời trên các phần khác nhau của codebase, tăng tốc tái cấu trúc phức tạp, phát triển tính năng và sửa lỗi. Cùng khả năng agent teams cung cấp sức mạnh cho Claude Code Security, sử dụng nhiều tác nhân để quét, xác minh và xác nhận lỗ hổng.

Compaction Cho Tác Vụ Dài

Claude giờ có thể tóm tắt ngữ cảnh của mình trong các tác vụ dài. Điều này có nghĩa là các phiên lập trình tự chủ có thể chạy lâu hơn nhiều mà không gặp giới hạn cửa sổ ngữ cảnh. Đối với các thay đổi phức tạp, đa tệp liên quan đến hàng trăm lệnh gọi công cụ, compaction giữ phiên làm việc hiệu quả mà không cần khởi động lại.

Tư Duy Thích Ứng

Mô hình nắm bắt các manh mối ngữ cảnh về mức độ tư duy mở rộng cần áp dụng. Đối với câu hỏi đơn giản, nó phản hồi nhanh. Đối với bài toán lập trình phức tạp, nó suy nghĩ sâu hơn. Nhà phát triển cũng có các điều khiển nỗ lực mới để cân bằng chi phí, tốc độ và trí tuệ cho mỗi yêu cầu.

Cửa Sổ Ngữ Cảnh 1M Token

Giống Claude Sonnet 4.6, Opus 4.6 có cửa sổ ngữ cảnh 1M token trong bản beta. Đây là lần đầu tiên cho các mô hình cấp Opus, cho phép xử lý toàn bộ codebase lớn trong một yêu cầu duy nhất.

Giá Và Tính Khả Dụng Claude Opus 4.6

Opus 4.6 có sẵn trên claude.ai, API (claude-opus-4-6), Amazon Bedrock và Google Cloud Vertex AI ở mức $5/$25 mỗi triệu token.

Câu hỏi thường gặp

Claude Opus 4.6 dẫn đầu những benchmark nào?
Claude Opus 4.6 giữ vị trí #1 trên bốn benchmark chính: Terminal-Bench 2.0 cho lập trình tự chủ, Humanity's Last Exam cho suy luận đa ngành, BrowseComp cho truy xuất thông tin và GDPval-AA cho công việc tri thức. Trên GDPval-AA, nó vượt GPT-5.2 144 điểm Elo và người tiền nhiệm Opus 4.5 190 điểm. Những kết quả này làm cho nó trở thành mô hình tiên tiến đạt điểm cao nhất trên cả lập trình và suy luận tính đến tháng 2 năm 2026.
Agent teams trong Claude Code là gì?
Agent teams là tính năng mới trong Claude Code cho phép nhiều phiên bản Claude cộng tác song song trên các tác vụ. Ví dụ, một tác nhân có thể tái cấu trúc module trong khi tác nhân khác viết kiểm thử và tác nhân thứ ba cập nhật tài liệu. Cách tiếp cận song song này tăng tốc các thay đổi codebase phức tạp mà một tác nhân đơn sẽ mất nhiều thời gian hơn. Agent teams ra mắt cùng Opus 4.6 và hoạt động với cả mô hình Opus và Sonnet.
Compaction trong Claude Opus 4.6 là gì?
Compaction là tính năng quản lý ngữ cảnh cho phép Claude tóm tắt lịch sử hội thoại của mình trong các tác vụ tự chủ dài. Khi phiên lập trình tiến gần đến giới hạn cửa sổ ngữ cảnh, compaction nén ngữ cảnh trước thành bản tóm tắt để Claude tiếp tục làm việc mà không mất dấu tác vụ. Điều này đặc biệt hữu ích cho các phiên tái cấu trúc đa tệp liên quan đến hàng trăm lệnh gọi công cụ và đọc tệp.
Claude Opus 4.6 có giá bao nhiêu?
Claude Opus 4.6 có giá $5 mỗi triệu token đầu vào và $25 mỗi triệu token đầu ra, cùng mức giá với các mô hình Opus trước. Có sẵn trên claude.ai, API Anthropic với model ID claude-opus-4-6, Amazon Bedrock và Google Cloud Vertex AI. Để so sánh, Claude Sonnet 4.6 cung cấp chất lượng lập trình tương tự ở mức $3/$15 mỗi triệu token.

Cập nhật tin tức

Nhận tin tức AI mới nhất qua email.

Chia sẻ