Keputusan Penanda Aras Claude Opus 4.6
Claude Opus 4.6 ialah model paling berkemampuan Anthropic, mencipta rekod baharu dalam pengekodan, penaakulan, dan kerja pengetahuan. Ia mencapai skor tertinggi pada Terminal-Bench 2.0, penanda aras terkemuka untuk pengekodan agentik, dan mendahului semua model terdepan pada Humanity's Last Exam, ujian penaakulan multidisiplin.
Bagi pembangun yang sudah menggunakan Claude Sonnet 4.6 untuk tugas pengekodan, Opus 4.6 mewakili tahap prestasi seterusnya untuk kerja agentik berbilang langkah yang kompleks.
Prestasi Pengekodan: #1 pada Terminal-Bench 2.0
Opus 4.6 meningkatkan kemahiran pengekodan pendahulunya dalam setiap dimensi:
- Perancangan teliti: Merancang dengan lebih berhati-hati sebelum menulis kod
- Tugas agentik berterusan: Mengekalkan konteks dan kualiti dalam sesi pengekodan yang lebih panjang
- Navigasi pangkalan kod besar: Beroperasi lebih dipercayai dalam projek berbilang fail yang kompleks
- Pembetulan kendiri: Kemahiran semakan kod dan penyahpepijatan yang lebih baik untuk menangkap kesilapan sendiri
Pada Terminal-Bench 2.0, yang menguji tugas pentadbiran sistem dan pengekodan dunia sebenar, Opus 4.6 mencapai skor tertinggi daripada mana-mana model.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Penanda Aras | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Pada GDPval-AA, yang mengukur prestasi dalam kerja pengetahuan bernilai ekonomi dalam kewangan, undang-undang, dan domain lain, Opus 4.6 mengatasi GPT-5.2 sebanyak 144 mata Elo dan pendahulunya sendiri (Opus 4.5) sebanyak 190 mata.
Ciri Baharu Pembangun dalam Claude Opus 4.6
Agent Teams dalam Claude Code
Anda kini boleh menghimpun pasukan agen untuk bekerjasama pada tugas dalam Claude Code. Berbilang instans Claude berkolaborasi pada bahagian berbeza pangkalan kod secara serentak, mempercepatkan pemfaktoran semula kompleks, pembangunan ciri, dan pembaikan pepijat. Keupayaan agent teams yang sama menggerakkan Claude Code Security, yang menggunakan berbilang agen untuk mengimbas, mengesahkan, dan memvalidasi kelemahan.
Compaction untuk Tugas Jangka Panjang
Claude kini boleh meringkaskan konteksnya sendiri semasa tugas jangka panjang. Ini bermakna sesi pengekodan agentik boleh berjalan lebih lama tanpa mencapai had tetingkap konteks. Untuk perubahan berbilang fail yang kompleks melibatkan ratusan panggilan alat, compaction mengekalkan produktiviti sesi tanpa memulakan semula.
Pemikiran Adaptif
Model menangkap petunjuk kontekstual tentang berapa banyak pemikiran lanjutan yang perlu digunakan. Untuk soalan mudah, ia bertindak balas dengan pantas. Untuk masalah pengekodan kompleks, ia berfikir lebih mendalam. Pembangun juga mendapat kawalan usaha baharu untuk mengimbangi kos, kelajuan, dan kecerdasan setiap permintaan.
Tetingkap Konteks 1M Token
Seperti Claude Sonnet 4.6, Opus 4.6 mempunyai tetingkap konteks 1M token dalam beta. Ini yang pertama untuk model kelas Opus, membolehkan pemprosesan keseluruhan pangkalan kod besar dalam satu permintaan.
Harga dan Ketersediaan Claude Opus 4.6
Opus 4.6 tersedia di claude.ai, API (claude-opus-4-6), Amazon Bedrock, dan Google Cloud Vertex AI pada harga $5/$25 per juta token.
Soalan Lazim
Penanda aras manakah yang didahului Claude Opus 4.6?
Apakah agent teams dalam Claude Code?
Apakah compaction dalam Claude Opus 4.6?
Berapakah kos Claude Opus 4.6?
Kekal Dikemas Kini
Dapatkan berita AI terkini dalam peti masuk anda.
