Code Velocity
Model AI

Claude Opus 4.6: #1 di Benchmark Coding dan Penalaran

·7 mnt baca·Anthropic, OpenAI·Sumber asli
Bagikan
Grafik perbandingan benchmark Claude Opus 4.6 menampilkan peringkat #1 di Terminal-Bench 2.0, Humanity's Last Exam, dan GDPval-AA

Hasil Benchmark Claude Opus 4.6

Claude Opus 4.6 adalah model paling mumpuni dari Anthropic, mencetak rekor baru dalam coding, penalaran, dan pekerjaan pengetahuan. Model ini meraih skor tertinggi di Terminal-Bench 2.0, benchmark terdepan untuk coding agentik, dan memimpin semua model frontier di Humanity's Last Exam, ujian penalaran multidisiplin.

Bagi developer yang sudah menggunakan Claude Sonnet 4.6 untuk tugas coding, Opus 4.6 merepresentasikan tingkat performa berikutnya untuk pekerjaan agentik multi-langkah yang kompleks.

Performa Coding: #1 di Terminal-Bench 2.0

Opus 4.6 meningkatkan kemampuan coding pendahulunya di setiap dimensi:

  • Perencanaan cermat: Merencanakan lebih matang sebelum menulis kode
  • Tugas agentik berkelanjutan: Mempertahankan konteks dan kualitas selama sesi coding yang lebih panjang
  • Navigasi codebase besar: Beroperasi lebih andal di proyek multi-file yang kompleks
  • Koreksi mandiri: Kemampuan review kode dan debugging lebih baik untuk menangkap kesalahannya sendiri

Di Terminal-Bench 2.0, yang menguji tugas administrasi sistem dan coding dunia nyata, Opus 4.6 meraih skor tertinggi dari semua model.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Di GDPval-AA, yang mengukur performa pekerjaan pengetahuan bernilai ekonomi di bidang keuangan, hukum, dan domain lainnya, Opus 4.6 mengungguli GPT-5.2 sebesar 144 poin Elo dan pendahulunya sendiri (Opus 4.5) sebesar 190 poin.

Fitur Developer Baru di Claude Opus 4.6

Tim Agen di Claude Code

Anda kini dapat menyusun tim agen untuk bekerja bersama dalam Claude Code. Beberapa instance Claude berkolaborasi di bagian-bagian berbeda dari codebase secara bersamaan, mempercepat refaktor kompleks, pengembangan fitur, dan perbaikan bug. Kemampuan tim agen yang sama menggerakkan Claude Code Security, yang menggunakan beberapa agen untuk memindai, memverifikasi, dan memvalidasi kerentanan.

Pemadatan untuk Tugas Jangka Panjang

Claude kini dapat merangkum konteksnya sendiri selama tugas yang berjalan lama. Ini berarti sesi coding agentik dapat berjalan jauh lebih lama tanpa mencapai batas jendela konteks. Untuk perubahan multi-file yang kompleks yang melibatkan ratusan panggilan alat, pemadatan menjaga sesi tetap produktif tanpa perlu memulai ulang.

Pemikiran Adaptif

Model menangkap isyarat kontekstual tentang seberapa banyak pemikiran mendalam yang perlu diterapkan. Untuk pertanyaan sederhana, model merespons dengan cepat. Untuk masalah coding yang kompleks, model berpikir lebih dalam. Developer juga mendapat kontrol upaya baru untuk menyeimbangkan biaya, kecepatan, dan kecerdasan per permintaan.

Jendela Konteks 1M Token

Seperti Claude Sonnet 4.6, Opus 4.6 memiliki jendela konteks 1M token dalam beta. Ini adalah yang pertama untuk model kelas Opus, memungkinkan pemrosesan seluruh codebase besar dalam satu permintaan.

Harga dan Ketersediaan Claude Opus 4.6

Opus 4.6 tersedia di claude.ai, API (claude-opus-4-6), Amazon Bedrock, dan Google Cloud Vertex AI dengan harga $5/$25 per juta token.

Pertanyaan yang Sering Diajukan

Benchmark apa yang dipimpin Claude Opus 4.6?
Claude Opus 4.6 memegang posisi #1 di empat benchmark utama: Terminal-Bench 2.0 untuk coding agentik, Humanity's Last Exam untuk penalaran multidisiplin, BrowseComp untuk pengambilan informasi, dan GDPval-AA untuk pekerjaan pengetahuan. Di GDPval-AA, model ini mengungguli GPT-5.2 sebesar 144 poin Elo dan pendahulunya Opus 4.5 sebesar 190 poin. Hasil ini menjadikannya model frontier dengan skor tertinggi di tugas coding maupun penalaran per Februari 2026.
Apa itu tim agen di Claude Code?
Tim agen adalah fitur baru di Claude Code yang memungkinkan beberapa instance Claude berkolaborasi pada tugas secara paralel. Misalnya, satu agen dapat melakukan refaktor modul sementara agen lain menulis pengujian dan agen ketiga memperbarui dokumentasi. Pendekatan paralel ini mempercepat perubahan codebase kompleks yang membutuhkan waktu lebih lama jika dikerjakan agen tunggal. Tim agen diluncurkan bersamaan dengan Opus 4.6 dan bekerja dengan model Opus maupun Sonnet.
Apa itu pemadatan di Claude Opus 4.6?
Pemadatan adalah fitur manajemen konteks yang memungkinkan Claude merangkum riwayat percakapannya sendiri selama tugas agentik yang berjalan lama. Saat sesi coding mendekati batas jendela konteks, pemadatan mengkondensasi konteks sebelumnya menjadi ringkasan sehingga Claude dapat terus bekerja tanpa kehilangan jejak tugas. Ini sangat berguna untuk sesi refaktor multi-file yang melibatkan ratusan panggilan alat dan pembacaan file.
Berapa harga Claude Opus 4.6?
Claude Opus 4.6 berharga $5 per juta token input dan $25 per juta token output, sama dengan harga model Opus sebelumnya. Model ini tersedia di claude.ai, API Anthropic dengan model ID claude-opus-4-6, Amazon Bedrock, dan Google Cloud Vertex AI. Sebagai perbandingan, Claude Sonnet 4.6 menawarkan kualitas coding serupa dengan harga $3/$15 per juta token.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.

Bagikan