Claude Opus 4.6 เป็นผู้นำในเบนช์มาร์กอะไรบ้าง?

Claude Opus 4.6 ครองอันดับ 1 ในสี่เบนช์มาร์กหลัก: Terminal-Bench 2.0 สำหรับการเขียนโค้ดเชิงเอเจนต์, Humanity's Last Exam สำหรับการให้เหตุผลหลายสาขา, BrowseComp สำหรับการค้นหาข้อมูล และ GDPval-AA สำหรับงานความรู้ บน GDPval-AA เอาชนะ GPT-5.2 ด้วย 144 คะแนน Elo และรุ่นก่อน Opus 4.5 ด้วย 190 คะแนน ผลลัพธ์เหล่านี้ทำให้เป็นโมเดลชั้นแนวหน้าที่มีคะแนนสูงสุดทั้งในงานเขียนโค้ดและการให้เหตุผล ณ กุมภาพันธ์ 2026

Agent teams ใน Claude Code คืออะไร?

Agent teams เป็นฟีเจอร์ใหม่ใน Claude Code ที่ให้หลายอินสแตนซ์ของ Claude ทำงานร่วมกันพร้อมกัน ตัวอย่างเช่น เอเจนต์หนึ่งรีแฟกเตอร์โมดูล อีกตัวเขียนเทสต์ และตัวที่สามอัปเดตเอกสาร แนวทางขนานนี้เร่งการเปลี่ยนแปลงโค้ดเบสที่ซับซ้อนซึ่งเอเจนต์ตัวเดียวจะใช้เวลานานกว่ามาก Agent teams เปิดตัวพร้อม Opus 4.6 และทำงานกับทั้ง Opus และ Sonnet

Compaction ใน Claude Opus 4.6 คืออะไร?

Compaction เป็นฟีเจอร์จัดการบริบทที่ให้ Claude สรุปประวัติการสนทนาของตัวเองระหว่างงานเชิงเอเจนต์ที่ใช้เวลานาน เมื่อเซสชันเขียนโค้ดใกล้ถึงขีดจำกัดหน้าต่างบริบท compaction ย่อบริบทก่อนหน้าเป็นสรุปเพื่อให้ Claude ทำงานต่อได้โดยไม่สูญเสียการติดตามงาน มีประโยชน์อย่างยิ่งสำหรับเซสชันรีแฟกเตอร์หลายไฟล์ที่มีการเรียกเครื่องมือหลายร้อยครั้ง

Claude Opus 4.6 ราคาเท่าไร?

Claude Opus 4.6 ราคา $5 ต่อล้านโทเคนอินพุต และ $25 ต่อล้านโทเคนเอาต์พุต ราคาเท่ากับโมเดล Opus ก่อนหน้า พร้อมใช้บน claude.ai, Anthropic API ด้วย model ID claude-opus-4-6, Amazon Bedrock และ Google Cloud Vertex AI สำหรับเปรียบเทียบ Claude Sonnet 4.6 มอบคุณภาพการเขียนโค้ดที่ใกล้เคียงในราคา $3/$15 ต่อล้านโทเคน

Claude Opus 4.6: อันดับ 1 ในเบนช์มาร์กการเขียนโค้ดและการให้เหตุผล

ผลเบนช์มาร์ก Claude Opus 4.6

Claude Opus 4.6 เป็นโมเดลที่มีความสามารถสูงสุดของ Anthropic สร้างสถิติใหม่ในการเขียนโค้ด การให้เหตุผล และงานความรู้ ทำคะแนนสูงสุดบน Terminal-Bench 2.0 เบนช์มาร์กชั้นนำสำหรับการเขียนโค้ดเชิงเอเจนต์ และนำทุกโมเดลชั้นแนวหน้าบน Humanity's Last Exam การทดสอบการให้เหตุผลหลายสาขา

สำหรับนักพัฒนาที่ใช้ Claude Sonnet 4.6 สำหรับงานเขียนโค้ดอยู่แล้ว Opus 4.6 แสดงถึงระดับประสิทธิภาพถัดไปสำหรับงานเชิงเอเจนต์ที่ซับซ้อนและหลายขั้นตอน

ประสิทธิภาพการเขียนโค้ด: อันดับ 1 บน Terminal-Bench 2.0

Opus 4.6 ปรับปรุงทักษะการเขียนโค้ดจากรุ่นก่อนในทุกมิติ:

การวางแผนอย่างรอบคอบ: วางแผนอย่างรอบคอบมากขึ้นก่อนเขียนโค้ด
งานเชิงเอเจนต์ต่อเนื่อง: รักษาบริบทและคุณภาพตลอดเซสชันเขียนโค้ดที่ยาวนาน
นำทางโค้ดเบสขนาดใหญ่: ทำงานได้น่าเชื่อถือมากขึ้นในโปรเจกต์ที่ซับซ้อนหลายไฟล์
การแก้ไขตนเอง: ทักษะรีวิวโค้ดและดีบักที่ดีขึ้นเพื่อจับข้อผิดพลาดของตัวเอง

บน Terminal-Bench 2.0 ที่ทดสอบงานดูแลระบบและเขียนโค้ดจริง Opus 4.6 ทำคะแนนสูงสุดของโมเดลใดๆ

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

เบนช์มาร์ก	Opus 4.6	GPT-5.2	Gemini 2.5
Terminal-Bench 2.0	#1	#2	#3
Humanity's Last Exam	#1	#3	#2
GDPval-AA	#1 (+144 Elo vs GPT-5.2)	#2	#3
BrowseComp	#1	#2	—

บน GDPval-AA ที่วัดประสิทธิภาพในงานความรู้ที่มีคุณค่าทางเศรษฐกิจในด้านการเงิน กฎหมาย และด้านอื่นๆ Opus 4.6 เอาชนะ GPT-5.2 ด้วย 144 คะแนน Elo และรุ่นก่อน (Opus 4.5) ด้วย 190 คะแนน

ฟีเจอร์ใหม่สำหรับนักพัฒนาใน Claude Opus 4.6

Agent Teams ใน Claude Code

ตอนนี้คุณสามารถรวมทีมเอเจนต์เพื่อทำงานร่วมกันใน Claude Code หลายอินสแตนซ์ของ Claude ทำงานพร้อมกันในส่วนต่างๆ ของโค้ดเบส เร่งการรีแฟกเตอร์ที่ซับซ้อน การพัฒนาฟีเจอร์ และการแก้บัก ความสามารถ agent teams เดียวกันขับเคลื่อน Claude Code Security ที่ใช้หลายเอเจนต์สแกน ตรวจสอบ และยืนยันช่องโหว่

Compaction สำหรับงานที่ใช้เวลานาน

Claude สามารถสรุปบริบทของตัวเองระหว่างงานที่ใช้เวลานาน หมายความว่าเซสชันเขียนโค้ดเชิงเอเจนต์สามารถรันได้นานมากขึ้นโดยไม่ชนขีดจำกัดหน้าต่างบริบท สำหรับการเปลี่ยนแปลงที่ซับซ้อนหลายไฟล์ที่มีการเรียกเครื่องมือหลายร้อยครั้ง compaction รักษาเซสชันให้มีประสิทธิผลโดยไม่ต้องเริ่มใหม่

การคิดแบบปรับตัว

โมเดลจับสัญญาณบริบทว่าต้องใช้การคิดขยายมากเพียงใด สำหรับคำถามง่ายจะตอบเร็ว สำหรับปัญหาเขียนโค้ดที่ซับซ้อนจะคิดลึกกว่า นักพัฒนายังได้ตัวควบคุมเอฟเฟิร์ตใหม่เพื่อสมดุลต้นทุน ความเร็ว และความฉลาดต่อคำขอ

หน้าต่างบริบท 1M โทเคน

เช่นเดียวกับ Claude Sonnet 4.6 Opus 4.6 มีหน้าต่างบริบท 1M โทเคนในเบต้า เป็นครั้งแรกสำหรับโมเดลระดับ Opus ทำให้สามารถประมวลผลโค้ดเบสขนาดใหญ่ทั้งหมดในคำขอเดียว

ราคาและความพร้อมใช้งาน Claude Opus 4.6

Opus 4.6 พร้อมใช้บน claude.ai, API (claude-opus-4-6), Amazon Bedrock และ Google Cloud Vertex AI ในราคา $5/$25 ต่อล้านโทเคน