Hasil Benchmark Claude Opus 4.6
Claude Opus 4.6 adalah model paling mumpuni dari Anthropic, mencetak rekor baru dalam coding, penalaran, dan pekerjaan pengetahuan. Model ini meraih skor tertinggi di Terminal-Bench 2.0, benchmark terdepan untuk coding agentik, dan memimpin semua model frontier di Humanity's Last Exam, ujian penalaran multidisiplin.
Bagi developer yang sudah menggunakan Claude Sonnet 4.6 untuk tugas coding, Opus 4.6 merepresentasikan tingkat performa berikutnya untuk pekerjaan agentik multi-langkah yang kompleks.
Performa Coding: #1 di Terminal-Bench 2.0
Opus 4.6 meningkatkan kemampuan coding pendahulunya di setiap dimensi:
- Perencanaan cermat: Merencanakan lebih matang sebelum menulis kode
- Tugas agentik berkelanjutan: Mempertahankan konteks dan kualitas selama sesi coding yang lebih panjang
- Navigasi codebase besar: Beroperasi lebih andal di proyek multi-file yang kompleks
- Koreksi mandiri: Kemampuan review kode dan debugging lebih baik untuk menangkap kesalahannya sendiri
Di Terminal-Bench 2.0, yang menguji tugas administrasi sistem dan coding dunia nyata, Opus 4.6 meraih skor tertinggi dari semua model.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Di GDPval-AA, yang mengukur performa pekerjaan pengetahuan bernilai ekonomi di bidang keuangan, hukum, dan domain lainnya, Opus 4.6 mengungguli GPT-5.2 sebesar 144 poin Elo dan pendahulunya sendiri (Opus 4.5) sebesar 190 poin.
Fitur Developer Baru di Claude Opus 4.6
Tim Agen di Claude Code
Anda kini dapat menyusun tim agen untuk bekerja bersama dalam Claude Code. Beberapa instance Claude berkolaborasi di bagian-bagian berbeda dari codebase secara bersamaan, mempercepat refaktor kompleks, pengembangan fitur, dan perbaikan bug. Kemampuan tim agen yang sama menggerakkan Claude Code Security, yang menggunakan beberapa agen untuk memindai, memverifikasi, dan memvalidasi kerentanan.
Pemadatan untuk Tugas Jangka Panjang
Claude kini dapat merangkum konteksnya sendiri selama tugas yang berjalan lama. Ini berarti sesi coding agentik dapat berjalan jauh lebih lama tanpa mencapai batas jendela konteks. Untuk perubahan multi-file yang kompleks yang melibatkan ratusan panggilan alat, pemadatan menjaga sesi tetap produktif tanpa perlu memulai ulang.
Pemikiran Adaptif
Model menangkap isyarat kontekstual tentang seberapa banyak pemikiran mendalam yang perlu diterapkan. Untuk pertanyaan sederhana, model merespons dengan cepat. Untuk masalah coding yang kompleks, model berpikir lebih dalam. Developer juga mendapat kontrol upaya baru untuk menyeimbangkan biaya, kecepatan, dan kecerdasan per permintaan.
Jendela Konteks 1M Token
Seperti Claude Sonnet 4.6, Opus 4.6 memiliki jendela konteks 1M token dalam beta. Ini adalah yang pertama untuk model kelas Opus, memungkinkan pemrosesan seluruh codebase besar dalam satu permintaan.
Harga dan Ketersediaan Claude Opus 4.6
Opus 4.6 tersedia di claude.ai, API (claude-opus-4-6), Amazon Bedrock, dan Google Cloud Vertex AI dengan harga $5/$25 per juta token.
Pertanyaan yang Sering Diajukan
Benchmark apa yang dipimpin Claude Opus 4.6?
Apa itu tim agen di Claude Code?
Apa itu pemadatan di Claude Opus 4.6?
Berapa harga Claude Opus 4.6?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
