Mga Resulta ng Benchmark ng Claude Opus 4.6
Ang Claude Opus 4.6 ang pinakamakapangyarihang modelo ng Anthropic, na nagtatatag ng mga bagong rekord sa coding, reasoning, at knowledge work. Naabot nito ang pinakamataas na score sa Terminal-Bench 2.0, ang nangungunang benchmark para sa agentic coding, at nangunguna sa lahat ng frontier model sa Humanity's Last Exam, isang multidisciplinary reasoning test.
Para sa mga developer na gumagamit na ng Claude Sonnet 4.6 para sa mga coding task, kinakatawan ng Opus 4.6 ang susunod na antas ng performance para sa kumplikado at multi-step na agentic work.
Coding Performance: #1 sa Terminal-Bench 2.0
Pinapahusay ng Opus 4.6 ang mga coding skill ng predecessor nito sa bawat dimensyon:
- Maingat na pagpaplano: Nagpaplano nang mas maingat bago magsulat ng code
- Napapanatiling agentic task: Pinapanatili ang konteksto at kalidad sa mas mahabang coding session
- Pagna-navigate ng malalaking codebase: Mas maaasahan sa mga kumplikado at multi-file na proyekto
- Self-correction: Mas mahusay na code review at debugging skill upang mahuli ang sariling pagkakamali
Sa Terminal-Bench 2.0, na sumusubok ng real-world system administration at coding task, naabot ng Opus 4.6 ang pinakamataas na score ng anumang modelo.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Sa GDPval-AA, na sumusukat ng performance sa mga economically valuable knowledge work sa finance, legal, at ibang domain, tinalo ng Opus 4.6 ang GPT-5.2 ng 144 Elo point at ang sarili nitong predecessor (Opus 4.5) ng 190 point.
Mga Bagong Feature para sa Developer sa Claude Opus 4.6
Agent Teams sa Claude Code
Maaari ka nang bumuo ng mga agent team upang magtulungan sa mga gawain sa loob ng Claude Code. Sabay-sabay na nagko-collaborate ang maraming Claude instance sa magkakaibang bahagi ng codebase, na nagpapabilis ng mga kumplikadong refactoring, feature development, at bug fixing. Ang parehong agent teams capability ang nagpapatakbo sa Claude Code Security, na gumagamit ng maraming agent upang mag-scan, mag-verify, at mag-validate ng mga vulnerability.
Compaction para sa Mga Mahabang Task
Maaari nang i-summarize ng Claude ang sarili nitong konteksto habang tumatakbo ang mga mahabang task. Nangangahulugan ito na ang mga agentic coding session ay maaaring tumagal nang mas mahabang oras nang hindi umabot sa context window limit. Para sa mga kumplikado at multi-file na pagbabago na may daan-daang tool call, pinapanatili ng compaction na produktibo ang session nang hindi nire-restart.
Adaptive Thinking
Nakakakuha ang modelo ng mga kontekstwal na pahiwatig tungkol sa kung gaano karaming extended thinking ang ilalapat. Para sa mga simpleng tanong, mabilis itong sumasagot. Para sa mga kumplikadong coding problem, mas malalim itong nag-iisip. Nagkakaroon din ang mga developer ng bagong effort control upang balansehin ang gastos, bilis, at katalinuhan bawat request.
1M Token Context Window
Tulad ng Claude Sonnet 4.6, mayroon ang Opus 4.6 na 1M token context window sa beta. Isa itong unahan para sa Opus-class model, na nagpapahintulot na iproseso ang buong malalaking codebase sa isang request.
Presyo at Availability ng Claude Opus 4.6
Available ang Opus 4.6 sa claude.ai, sa API (claude-opus-4-6), Amazon Bedrock, at Google Cloud Vertex AI sa $5/$25 bawat milyong token.
Orihinal na pinagmulan
https://www.anthropic.com/news/claude-opus-4-6Mga Karaniwang Tanong
Sa aling mga benchmark nangunguna ang Claude Opus 4.6?
Ano ang agent teams sa Claude Code?
Ano ang compaction sa Claude Opus 4.6?
Magkano ang Claude Opus 4.6?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
