ผลเบนช์มาร์ก Claude Opus 4.6
Claude Opus 4.6 เป็นโมเดลที่มีความสามารถสูงสุดของ Anthropic สร้างสถิติใหม่ในการเขียนโค้ด การให้เหตุผล และงานความรู้ ทำคะแนนสูงสุดบน Terminal-Bench 2.0 เบนช์มาร์กชั้นนำสำหรับการเขียนโค้ดเชิงเอเจนต์ และนำทุกโมเดลชั้นแนวหน้าบน Humanity's Last Exam การทดสอบการให้เหตุผลหลายสาขา
สำหรับนักพัฒนาที่ใช้ Claude Sonnet 4.6 สำหรับงานเขียนโค้ดอยู่แล้ว Opus 4.6 แสดงถึงระดับประสิทธิภาพถัดไปสำหรับงานเชิงเอเจนต์ที่ซับซ้อนและหลายขั้นตอน
ประสิทธิภาพการเขียนโค้ด: อันดับ 1 บน Terminal-Bench 2.0
Opus 4.6 ปรับปรุงทักษะการเขียนโค้ดจากรุ่นก่อนในทุกมิติ:
- การวางแผนอย่างรอบคอบ: วางแผนอย่างรอบคอบมากขึ้นก่อนเขียนโค้ด
- งานเชิงเอเจนต์ต่อเนื่อง: รักษาบริบทและคุณภาพตลอดเซสชันเขียนโค้ดที่ยาวนาน
- นำทางโค้ดเบสขนาดใหญ่: ทำงานได้น่าเชื่อถือมากขึ้นในโปรเจกต์ที่ซับซ้อนหลายไฟล์
- การแก้ไขตนเอง: ทักษะรีวิวโค้ดและดีบักที่ดีขึ้นเพื่อจับข้อผิดพลาดของตัวเอง
บน Terminal-Bench 2.0 ที่ทดสอบงานดูแลระบบและเขียนโค้ดจริง Opus 4.6 ทำคะแนนสูงสุดของโมเดลใดๆ
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| เบนช์มาร์ก | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
บน GDPval-AA ที่วัดประสิทธิภาพในงานความรู้ที่มีคุณค่าทางเศรษฐกิจในด้านการเงิน กฎหมาย และด้านอื่นๆ Opus 4.6 เอาชนะ GPT-5.2 ด้วย 144 คะแนน Elo และรุ่นก่อน (Opus 4.5) ด้วย 190 คะแนน
ฟีเจอร์ใหม่สำหรับนักพัฒนาใน Claude Opus 4.6
Agent Teams ใน Claude Code
ตอนนี้คุณสามารถรวมทีมเอเจนต์เพื่อทำงานร่วมกันใน Claude Code หลายอินสแตนซ์ของ Claude ทำงานพร้อมกันในส่วนต่างๆ ของโค้ดเบส เร่งการรีแฟกเตอร์ที่ซับซ้อน การพัฒนาฟีเจอร์ และการแก้บัก ความสามารถ agent teams เดียวกันขับเคลื่อน Claude Code Security ที่ใช้หลายเอเจนต์สแกน ตรวจสอบ และยืนยันช่องโหว่
Compaction สำหรับงานที่ใช้เวลานาน
Claude สามารถสรุปบริบทของตัวเองระหว่างงานที่ใช้เวลานาน หมายความว่าเซสชันเขียนโค้ดเชิงเอเจนต์สามารถรันได้นานมากขึ้นโดยไม่ชนขีดจำกัดหน้าต่างบริบท สำหรับการเปลี่ยนแปลงที่ซับซ้อนหลายไฟล์ที่มีการเรียกเครื่องมือหลายร้อยครั้ง compaction รักษาเซสชันให้มีประสิทธิผลโดยไม่ต้องเริ่มใหม่
การคิดแบบปรับตัว
โมเดลจับสัญญาณบริบทว่าต้องใช้การคิดขยายมากเพียงใด สำหรับคำถามง่ายจะตอบเร็ว สำหรับปัญหาเขียนโค้ดที่ซับซ้อนจะคิดลึกกว่า นักพัฒนายังได้ตัวควบคุมเอฟเฟิร์ตใหม่เพื่อสมดุลต้นทุน ความเร็ว และความฉลาดต่อคำขอ
หน้าต่างบริบท 1M โทเคน
เช่นเดียวกับ Claude Sonnet 4.6 Opus 4.6 มีหน้าต่างบริบท 1M โทเคนในเบต้า เป็นครั้งแรกสำหรับโมเดลระดับ Opus ทำให้สามารถประมวลผลโค้ดเบสขนาดใหญ่ทั้งหมดในคำขอเดียว
ราคาและความพร้อมใช้งาน Claude Opus 4.6
Opus 4.6 พร้อมใช้บน claude.ai, API (claude-opus-4-6), Amazon Bedrock และ Google Cloud Vertex AI ในราคา $5/$25 ต่อล้านโทเคน
คำถามที่พบบ่อย
Claude Opus 4.6 เป็นผู้นำในเบนช์มาร์กอะไรบ้าง?
Agent teams ใน Claude Code คืออะไร?
Compaction ใน Claude Opus 4.6 คืออะไร?
Claude Opus 4.6 ราคาเท่าไร?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
