Code Velocity
KI-modelle

Claude Opus 4.6: #1 in Kodering- en Redeneringsmaatstawwe

·7 min lees·Anthropic, OpenAI·Oorspronklike bron
Deel
Claude Opus 4.6 maatstafvergelykingsgrafiek wat #1 ranglys op Terminal-Bench 2.0, Humanity's Last Exam en GDPval-AA toon

Claude Opus 4.6 Maatstafresultate

Claude Opus 4.6 is Anthropic se mees bekwame model en stel nuwe rekords in kodering, redenering en kenniswerk. Dit behaal die hoogste telling op Terminal-Bench 2.0, die voorste maatstaf vir agentiese kodering, en lei alle grensmodelle op Humanity's Last Exam, 'n multidissiplinere redeneringstoets.

Vir ontwikkelaars wat reeds Claude Sonnet 4.6 vir koderingstake gebruik, verteenwoordig Opus 4.6 die volgende vlak van prestasie vir komplekse, meerstap-agentiese werk.

Koderingsprestasie: #1 op Terminal-Bench 2.0

Opus 4.6 verbeter sy voorganger se koderingsvaardighede in elke dimensie:

  • Noukeurige beplanning: Beplan meer deurdagdlik voor kode geskryf word
  • Volgehoue agentiese take: Handhaaf konteks en kwaliteit oor langer kodeersessies
  • Groot kodebasisnavigasie: Werk meer betroubaar in komplekse, meerleer-projekte
  • Selfkorreksie: Beter kodehersiening- en ontfoutingsvaardighede om eie foute te vang

Op Terminal-Bench 2.0, wat werklikewêreld-stelseladministrasie- en koderingstake toets, behaal Opus 4.6 die hoogste telling van enige model.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

MaatstafOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Op GDPval-AA, wat prestasie op ekonomies waardevolle kenniswerk in finansies, regswetenskap en ander domeine meet, presteer Opus 4.6 144 Elo-punte beter as GPT-5.2 en 190 punte beter as sy eie voorganger (Opus 4.5).

Nuwe Ontwikkelaarkenmerke in Claude Opus 4.6

Agentspanne in Claude Code

Jy kan nou agentspanne saamstel om binne Claude Code saam aan take te werk. Verskeie Claude-gevalle werk gelyktydig op verskillende dele van 'n kodebasis, wat komplekse herfaktorering, kenmerksontwikkeling en foutherstel versnel. Dieselfde agentspanvermoee dryf Claude Code Security aan, wat verskeie agente gebruik om kwesbaarhede te skandeer, te verifieer en te valideer.

Compaction vir Langlopende Take

Claude kan nou sy eie konteks tydens langlopende take opsom. Dit beteken agentiese kodeersessies kan baie langer loop sonder om konteksvenstergrense te bereik. Vir komplekse, meerleer-veranderinge wat honderde gereedskapoproepe behels, hou compaction die sessie produktief sonder om te herbegin.

Aanpasbare Denke

Die model vang kontekstuele leidrade op oor hoeveel uitgebreide denke om toe te pas. Vir eenvoudige vrae antwoord dit vinnig. Vir komplekse koderingsprobleme dink dit dieper na. Ontwikkelaars kry ook nuwe inspanningskontroles om koste, spoed en intelligensie per versoek te balanseer.

1M Token-konteksvenster

Soos Claude Sonnet 4.6 het Opus 4.6 'n 1M token-konteksvenster in beta. Dit is 'n eerste vir Opus-klas modelle en maak die verwerking van hele groot kodebasisse in 'n enkele versoek moontlik.

Claude Opus 4.6 Pryse en Beskikbaarheid

Opus 4.6 is beskikbaar op claude.ai, die API (claude-opus-4-6), Amazon Bedrock en Google Cloud Vertex AI teen $5/$25 per miljoen tokens.

Gereelde Vrae

Op watter maatstawwe lei Claude Opus 4.6?
Claude Opus 4.6 beklee die #1-posisie op vier groot maatstawwe: Terminal-Bench 2.0 vir agentiese kodering, Humanity's Last Exam vir multidissiplinere redenering, BrowseComp vir inligtingherwinning en GDPval-AA vir kenniswerk. Op GDPval-AA presteer dit 144 Elo-punte beter as GPT-5.2 en 190 punte beter as sy voorganger Opus 4.5. Hierdie resultate maak dit die hoogste-tellende grensmodel oor beide kodering- en redeneringstake tot Februarie 2026.
Wat is agentspanne in Claude Code?
Agentspanne is 'n nuwe kenmerk in Claude Code wat verskeie Claude-gevalle toelaat om parallel op take saam te werk. Byvoorbeeld, een agent kan 'n module herfaktoreer terwyl 'n ander toetse skryf en 'n derde dokumentasie opdateer. Hierdie parallelle benadering versnel komplekse kodebasisveranderinge wat 'n enkele agent baie langer sou neem.
Wat is compaction in Claude Opus 4.6?
Compaction is 'n konteksbestuurskenmerk wat Claude toelaat om sy eie gespreksgeskiedenis tydens langlopende agentiese take op te som. Wanneer 'n kodeersessie die konteksvenstergrens nader, verdig compaction vroeere konteks in 'n opsomming sodat Claude kan aanhou werk sonder om die draad van die taak te verloor.
Hoeveel kos Claude Opus 4.6?
Claude Opus 4.6 kos $5 per miljoen invoertokens en $25 per miljoen uitvoertokens, dieselfde prys as vorige Opus-modelle. Dit is beskikbaar op claude.ai, die Anthropic API met model-ID claude-opus-4-6, Amazon Bedrock en Google Cloud Vertex AI. Ter vergelyking bied Claude Sonnet 4.6 soortgelyke koderingskwaliteit teen $3/$15 per miljoen tokens.

Bly op hoogte

Kry die nuutste KI-nuus in jou inkassie.

Deel