Code Velocity
Model AI

Claude Opus 4.6: #1 dalam Penanda Aras Pengekodan dan Penaakulan

·7 min bacaan·Anthropic, OpenAI·Sumber asal
Kongsi
Carta perbandingan penanda aras Claude Opus 4.6 menunjukkan kedudukan #1 pada Terminal-Bench 2.0, Humanity's Last Exam, dan GDPval-AA

Keputusan Penanda Aras Claude Opus 4.6

Claude Opus 4.6 ialah model paling berkemampuan Anthropic, mencipta rekod baharu dalam pengekodan, penaakulan, dan kerja pengetahuan. Ia mencapai skor tertinggi pada Terminal-Bench 2.0, penanda aras terkemuka untuk pengekodan agentik, dan mendahului semua model terdepan pada Humanity's Last Exam, ujian penaakulan multidisiplin.

Bagi pembangun yang sudah menggunakan Claude Sonnet 4.6 untuk tugas pengekodan, Opus 4.6 mewakili tahap prestasi seterusnya untuk kerja agentik berbilang langkah yang kompleks.

Prestasi Pengekodan: #1 pada Terminal-Bench 2.0

Opus 4.6 meningkatkan kemahiran pengekodan pendahulunya dalam setiap dimensi:

  • Perancangan teliti: Merancang dengan lebih berhati-hati sebelum menulis kod
  • Tugas agentik berterusan: Mengekalkan konteks dan kualiti dalam sesi pengekodan yang lebih panjang
  • Navigasi pangkalan kod besar: Beroperasi lebih dipercayai dalam projek berbilang fail yang kompleks
  • Pembetulan kendiri: Kemahiran semakan kod dan penyahpepijatan yang lebih baik untuk menangkap kesilapan sendiri

Pada Terminal-Bench 2.0, yang menguji tugas pentadbiran sistem dan pengekodan dunia sebenar, Opus 4.6 mencapai skor tertinggi daripada mana-mana model.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

Penanda ArasOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Pada GDPval-AA, yang mengukur prestasi dalam kerja pengetahuan bernilai ekonomi dalam kewangan, undang-undang, dan domain lain, Opus 4.6 mengatasi GPT-5.2 sebanyak 144 mata Elo dan pendahulunya sendiri (Opus 4.5) sebanyak 190 mata.

Ciri Baharu Pembangun dalam Claude Opus 4.6

Agent Teams dalam Claude Code

Anda kini boleh menghimpun pasukan agen untuk bekerjasama pada tugas dalam Claude Code. Berbilang instans Claude berkolaborasi pada bahagian berbeza pangkalan kod secara serentak, mempercepatkan pemfaktoran semula kompleks, pembangunan ciri, dan pembaikan pepijat. Keupayaan agent teams yang sama menggerakkan Claude Code Security, yang menggunakan berbilang agen untuk mengimbas, mengesahkan, dan memvalidasi kelemahan.

Compaction untuk Tugas Jangka Panjang

Claude kini boleh meringkaskan konteksnya sendiri semasa tugas jangka panjang. Ini bermakna sesi pengekodan agentik boleh berjalan lebih lama tanpa mencapai had tetingkap konteks. Untuk perubahan berbilang fail yang kompleks melibatkan ratusan panggilan alat, compaction mengekalkan produktiviti sesi tanpa memulakan semula.

Pemikiran Adaptif

Model menangkap petunjuk kontekstual tentang berapa banyak pemikiran lanjutan yang perlu digunakan. Untuk soalan mudah, ia bertindak balas dengan pantas. Untuk masalah pengekodan kompleks, ia berfikir lebih mendalam. Pembangun juga mendapat kawalan usaha baharu untuk mengimbangi kos, kelajuan, dan kecerdasan setiap permintaan.

Tetingkap Konteks 1M Token

Seperti Claude Sonnet 4.6, Opus 4.6 mempunyai tetingkap konteks 1M token dalam beta. Ini yang pertama untuk model kelas Opus, membolehkan pemprosesan keseluruhan pangkalan kod besar dalam satu permintaan.

Harga dan Ketersediaan Claude Opus 4.6

Opus 4.6 tersedia di claude.ai, API (claude-opus-4-6), Amazon Bedrock, dan Google Cloud Vertex AI pada harga $5/$25 per juta token.

Soalan Lazim

Penanda aras manakah yang didahului Claude Opus 4.6?
Claude Opus 4.6 memegang kedudukan #1 pada empat penanda aras utama: Terminal-Bench 2.0 untuk pengekodan agentik, Humanity's Last Exam untuk penaakulan multidisiplin, BrowseComp untuk pencarian maklumat, dan GDPval-AA untuk kerja pengetahuan. Pada GDPval-AA, ia mengatasi GPT-5.2 sebanyak 144 mata Elo dan pendahulunya Opus 4.5 sebanyak 190 mata. Keputusan ini menjadikannya model terdepan paling tinggi skor merentas tugas pengekodan dan penaakulan setakat Februari 2026.
Apakah agent teams dalam Claude Code?
Agent teams ialah ciri baharu dalam Claude Code yang membolehkan berbilang instans Claude bekerjasama pada tugas secara selari. Contohnya, satu agen boleh memfaktorkan semula modul manakala agen lain menulis ujian dan agen ketiga mengemas kini dokumentasi. Pendekatan selari ini mempercepatkan perubahan pangkalan kod kompleks yang akan mengambil masa lebih lama dengan agen tunggal. Agent teams dilancarkan bersama Opus 4.6 dan berfungsi dengan model Opus dan Sonnet.
Apakah compaction dalam Claude Opus 4.6?
Compaction ialah ciri pengurusan konteks yang membolehkan Claude meringkaskan sejarah perbualannya sendiri semasa tugas agentik jangka panjang. Apabila sesi pengekodan menghampiri had tetingkap konteks, compaction memadatkan konteks terdahulu menjadi ringkasan supaya Claude boleh terus bekerja tanpa kehilangan jejak tugas. Ini amat berguna untuk sesi pemfaktoran semula berbilang fail yang melibatkan ratusan panggilan alat.
Berapakah kos Claude Opus 4.6?
Claude Opus 4.6 berharga $5 per juta token input dan $25 per juta token output, harga yang sama seperti model Opus sebelumnya. Ia tersedia di claude.ai, API Anthropic dengan ID model claude-opus-4-6, Amazon Bedrock, dan Google Cloud Vertex AI. Sebagai perbandingan, Claude Sonnet 4.6 menawarkan kualiti pengekodan yang serupa pada $3/$15 per juta token.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi