Claude Opus 4.6 Maatstafresultate
Claude Opus 4.6 is Anthropic se mees bekwame model en stel nuwe rekords in kodering, redenering en kenniswerk. Dit behaal die hoogste telling op Terminal-Bench 2.0, die voorste maatstaf vir agentiese kodering, en lei alle grensmodelle op Humanity's Last Exam, 'n multidissiplinere redeneringstoets.
Vir ontwikkelaars wat reeds Claude Sonnet 4.6 vir koderingstake gebruik, verteenwoordig Opus 4.6 die volgende vlak van prestasie vir komplekse, meerstap-agentiese werk.
Koderingsprestasie: #1 op Terminal-Bench 2.0
Opus 4.6 verbeter sy voorganger se koderingsvaardighede in elke dimensie:
- Noukeurige beplanning: Beplan meer deurdagdlik voor kode geskryf word
- Volgehoue agentiese take: Handhaaf konteks en kwaliteit oor langer kodeersessies
- Groot kodebasisnavigasie: Werk meer betroubaar in komplekse, meerleer-projekte
- Selfkorreksie: Beter kodehersiening- en ontfoutingsvaardighede om eie foute te vang
Op Terminal-Bench 2.0, wat werklikewêreld-stelseladministrasie- en koderingstake toets, behaal Opus 4.6 die hoogste telling van enige model.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Maatstaf | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Op GDPval-AA, wat prestasie op ekonomies waardevolle kenniswerk in finansies, regswetenskap en ander domeine meet, presteer Opus 4.6 144 Elo-punte beter as GPT-5.2 en 190 punte beter as sy eie voorganger (Opus 4.5).
Nuwe Ontwikkelaarkenmerke in Claude Opus 4.6
Agentspanne in Claude Code
Jy kan nou agentspanne saamstel om binne Claude Code saam aan take te werk. Verskeie Claude-gevalle werk gelyktydig op verskillende dele van 'n kodebasis, wat komplekse herfaktorering, kenmerksontwikkeling en foutherstel versnel. Dieselfde agentspanvermoee dryf Claude Code Security aan, wat verskeie agente gebruik om kwesbaarhede te skandeer, te verifieer en te valideer.
Compaction vir Langlopende Take
Claude kan nou sy eie konteks tydens langlopende take opsom. Dit beteken agentiese kodeersessies kan baie langer loop sonder om konteksvenstergrense te bereik. Vir komplekse, meerleer-veranderinge wat honderde gereedskapoproepe behels, hou compaction die sessie produktief sonder om te herbegin.
Aanpasbare Denke
Die model vang kontekstuele leidrade op oor hoeveel uitgebreide denke om toe te pas. Vir eenvoudige vrae antwoord dit vinnig. Vir komplekse koderingsprobleme dink dit dieper na. Ontwikkelaars kry ook nuwe inspanningskontroles om koste, spoed en intelligensie per versoek te balanseer.
1M Token-konteksvenster
Soos Claude Sonnet 4.6 het Opus 4.6 'n 1M token-konteksvenster in beta. Dit is 'n eerste vir Opus-klas modelle en maak die verwerking van hele groot kodebasisse in 'n enkele versoek moontlik.
Claude Opus 4.6 Pryse en Beskikbaarheid
Opus 4.6 is beskikbaar op claude.ai, die API (claude-opus-4-6), Amazon Bedrock en Google Cloud Vertex AI teen $5/$25 per miljoen tokens.
Oorspronklike bron
https://www.anthropic.com/news/claude-opus-4-6Gereelde Vrae
Op watter maatstawwe lei Claude Opus 4.6?
Wat is agentspanne in Claude Code?
Wat is compaction in Claude Opus 4.6?
Hoeveel kos Claude Opus 4.6?
Bly op hoogte
Kry die nuutste KI-nuus in jou inkassie.
