Code Velocity
Mga Modelo ng AI

Claude Opus 4.6: #1 sa mga Benchmark ng Coding at Reasoning

·7 min basahin·Anthropic, OpenAI·Orihinal na pinagmulan
I-share
Tsart ng paghahambing ng benchmark ng Claude Opus 4.6 na nagpapakita ng #1 ranking sa Terminal-Bench 2.0, Humanity's Last Exam, at GDPval-AA

Mga Resulta ng Benchmark ng Claude Opus 4.6

Ang Claude Opus 4.6 ang pinakamakapangyarihang modelo ng Anthropic, na nagtatatag ng mga bagong rekord sa coding, reasoning, at knowledge work. Naabot nito ang pinakamataas na score sa Terminal-Bench 2.0, ang nangungunang benchmark para sa agentic coding, at nangunguna sa lahat ng frontier model sa Humanity's Last Exam, isang multidisciplinary reasoning test.

Para sa mga developer na gumagamit na ng Claude Sonnet 4.6 para sa mga coding task, kinakatawan ng Opus 4.6 ang susunod na antas ng performance para sa kumplikado at multi-step na agentic work.

Coding Performance: #1 sa Terminal-Bench 2.0

Pinapahusay ng Opus 4.6 ang mga coding skill ng predecessor nito sa bawat dimensyon:

  • Maingat na pagpaplano: Nagpaplano nang mas maingat bago magsulat ng code
  • Napapanatiling agentic task: Pinapanatili ang konteksto at kalidad sa mas mahabang coding session
  • Pagna-navigate ng malalaking codebase: Mas maaasahan sa mga kumplikado at multi-file na proyekto
  • Self-correction: Mas mahusay na code review at debugging skill upang mahuli ang sariling pagkakamali

Sa Terminal-Bench 2.0, na sumusubok ng real-world system administration at coding task, naabot ng Opus 4.6 ang pinakamataas na score ng anumang modelo.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Sa GDPval-AA, na sumusukat ng performance sa mga economically valuable knowledge work sa finance, legal, at ibang domain, tinalo ng Opus 4.6 ang GPT-5.2 ng 144 Elo point at ang sarili nitong predecessor (Opus 4.5) ng 190 point.

Mga Bagong Feature para sa Developer sa Claude Opus 4.6

Agent Teams sa Claude Code

Maaari ka nang bumuo ng mga agent team upang magtulungan sa mga gawain sa loob ng Claude Code. Sabay-sabay na nagko-collaborate ang maraming Claude instance sa magkakaibang bahagi ng codebase, na nagpapabilis ng mga kumplikadong refactoring, feature development, at bug fixing. Ang parehong agent teams capability ang nagpapatakbo sa Claude Code Security, na gumagamit ng maraming agent upang mag-scan, mag-verify, at mag-validate ng mga vulnerability.

Compaction para sa Mga Mahabang Task

Maaari nang i-summarize ng Claude ang sarili nitong konteksto habang tumatakbo ang mga mahabang task. Nangangahulugan ito na ang mga agentic coding session ay maaaring tumagal nang mas mahabang oras nang hindi umabot sa context window limit. Para sa mga kumplikado at multi-file na pagbabago na may daan-daang tool call, pinapanatili ng compaction na produktibo ang session nang hindi nire-restart.

Adaptive Thinking

Nakakakuha ang modelo ng mga kontekstwal na pahiwatig tungkol sa kung gaano karaming extended thinking ang ilalapat. Para sa mga simpleng tanong, mabilis itong sumasagot. Para sa mga kumplikadong coding problem, mas malalim itong nag-iisip. Nagkakaroon din ang mga developer ng bagong effort control upang balansehin ang gastos, bilis, at katalinuhan bawat request.

1M Token Context Window

Tulad ng Claude Sonnet 4.6, mayroon ang Opus 4.6 na 1M token context window sa beta. Isa itong unahan para sa Opus-class model, na nagpapahintulot na iproseso ang buong malalaking codebase sa isang request.

Presyo at Availability ng Claude Opus 4.6

Available ang Opus 4.6 sa claude.ai, sa API (claude-opus-4-6), Amazon Bedrock, at Google Cloud Vertex AI sa $5/$25 bawat milyong token.

Mga Karaniwang Tanong

Sa aling mga benchmark nangunguna ang Claude Opus 4.6?
Hawak ng Claude Opus 4.6 ang #1 posisyon sa apat na pangunahing benchmark: Terminal-Bench 2.0 para sa agentic coding, Humanity's Last Exam para sa multidisciplinary reasoning, BrowseComp para sa information retrieval, at GDPval-AA para sa knowledge work. Sa GDPval-AA, natalo nito ang GPT-5.2 ng 144 Elo point at ang predecessor nitong Opus 4.5 ng 190 point. Ginagawa itong pinakamataas na score na frontier model sa coding at reasoning noong Pebrero 2026.
Ano ang agent teams sa Claude Code?
Ang agent teams ay isang bagong feature sa Claude Code na nagpapahintulot sa maraming instance ng Claude na magtulungan sa mga gawain nang sabay-sabay. Halimbawa, ang isang agent ay maaaring mag-refactor ng module habang ang isa ay nagsusulat ng test at ang pangatlo ay nag-a-update ng documentation. Pinapabilis ng parallel approach na ito ang mga kumplikadong pagbabago na tatagal nang mas matagal sa iisang agent. Inilunsad ang agent teams kasabay ng Opus 4.6 at gumagana sa Opus at Sonnet model.
Ano ang compaction sa Claude Opus 4.6?
Ang compaction ay isang context management feature na nagpapahintulot sa Claude na i-summarize ang sarili nitong conversation history habang tumatakbo ang mahabang agentic task. Kapag papalapit na sa context window limit ang isang coding session, kino-condense ng compaction ang naunang context sa isang buod upang makapagpatuloy ang Claude na magtrabaho nang hindi nawawalan ng track. Lubhang kapaki-pakinabang ito para sa multi-file refactoring session na may daan-daang tool call.
Magkano ang Claude Opus 4.6?
Ang Claude Opus 4.6 ay nagkakahalaga ng $5 bawat milyong input token at $25 bawat milyong output token, parehong presyo ng mga naunang Opus model. Available ito sa claude.ai, sa Anthropic API na may model ID na claude-opus-4-6, Amazon Bedrock, at Google Cloud Vertex AI. Bilang paghahambing, nag-aalok ang Claude Sonnet 4.6 ng katulad na kalidad ng coding sa $3/$15 bawat milyong token.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share