Code Velocity
AI-modeller

Claude Opus 4.6: #1 inom kodning och resonemangs-benchmarks

·7 min läsning·Anthropic, OpenAI·Originalkälla
Dela
Jämförelsediagram för Claude Opus 4.6-benchmarks som visar #1-rankningar på Terminal-Bench 2.0, Humanity's Last Exam och GDPval-AA

Claude Opus 4.6 benchmarkresultat

Claude Opus 4.6 är Anthropics mest kapabla modell som sätter nya rekord inom kodning, resonemang och kunskapsarbete. Den uppnår toppresultatet på Terminal-Bench 2.0, det ledande benchmarket för agentisk kodning, och leder alla frontiermodeller på Humanity's Last Exam, ett multidisciplinärt resonemangsprov.

För utvecklare som redan använder Claude Sonnet 4.6 för kodningsuppgifter representerar Opus 4.6 nästa prestationsnivå för komplext, flerstegs agentiskt arbete.

Kodningsprestanda: #1 på Terminal-Bench 2.0

Opus 4.6 förbättrar sin föregångares kodningsfärdigheter i alla dimensioner:

  • Noggrann planering: Planerar mer genomtänkt innan koden skrivs
  • Ihållande agentiska uppgifter: Bibehåller kontext och kvalitet under längre kodningssessioner
  • Navigering i stora kodbaser: Fungerar mer tillförlitligt i komplexa flerfils-projekt
  • Självkorrigering: Bättre kodgranskning och felsökning för att fånga sina egna misstag

På Terminal-Bench 2.0, som testar verkliga systemadministrations- och kodningsuppgifter, uppnår Opus 4.6 det högsta resultatet av alla modeller.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

På GDPval-AA, som mäter prestanda på ekonomiskt värdefullt kunskapsarbete inom finans, juridik och andra domäner, överträffar Opus 4.6 GPT-5.2 med 144 Elo-poäng och sin föregångare (Opus 4.5) med 190 poäng.

Nya utvecklarfunktioner i Claude Opus 4.6

Agent Teams i Claude Code

Du kan nu samla agentteam för att arbeta på uppgifter tillsammans i Claude Code. Flera Claude-instanser samarbetar på olika delar av en kodbas samtidigt, vilket snabbar upp komplex refaktorering, funktionsutveckling och buggfixning. Samma agent teams-förmåga driver Claude Code Security, som använder flera agenter för att skanna, verifiera och validera sårbarheter.

Compaction för långvariga uppgifter

Claude kan nu sammanfatta sin egen kontext under långvariga uppgifter. Agentiska kodningssessioner kan köras mycket längre utan att nå kontextfönstrets gränser. För komplexa flerfilsändringar som involverar hundratals verktygsanrop håller compaction sessionen produktiv utan omstart.

Adaptivt tänkande

Modellen uppfattar kontextuella ledtrådar om hur mycket utökat tänkande som ska tillämpas. För enkla frågor svarar den snabbt. För komplexa kodningsproblem tänker den djupare. Utvecklare får också nya ansträngningskontroller för att balansera kostnad, hastighet och intelligens per förfrågan.

1M tokens kontextfönster

Liksom Claude Sonnet 4.6 har Opus 4.6 ett kontextfönster på 1M tokens i beta. Det är en nyhet för Opus-klassmodeller som möjliggör bearbetning av hela stora kodbaser i en enda förfrågan.

Claude Opus 4.6 prissättning och tillgänglighet

Opus 4.6 finns tillgänglig på claude.ai, API:et (claude-opus-4-6), Amazon Bedrock och Google Cloud Vertex AI till $5/$25 per miljon tokens.

Vanliga frågor

Vilka benchmarks leder Claude Opus 4.6?
Claude Opus 4.6 har förstaplatsen på fyra stora benchmarks: Terminal-Bench 2.0 för agentisk kodning, Humanity's Last Exam för multidisciplinärt resonemang, BrowseComp för informationshämtning och GDPval-AA för kunskapsarbete. På GDPval-AA överträffar den GPT-5.2 med 144 Elo-poäng och sin föregångare Opus 4.5 med 190 poäng. Dessa resultat gör den till den högst poängsatta frontiermodellen inom både kodning och resonemang per februari 2026.
Vad är agent teams i Claude Code?
Agent teams är en ny funktion i Claude Code som låter flera Claude-instanser samarbeta på uppgifter parallellt. Till exempel kan en agent refaktorera en modul medan en annan skriver tester och en tredje uppdaterar dokumentation. Detta parallella tillvägagångssätt snabbar upp komplexa kodbasändringar som skulle ta en enskild agent mycket längre tid. Agent teams lanserades tillsammans med Opus 4.6 och fungerar med både Opus- och Sonnet-modeller.
Vad är compaction i Claude Opus 4.6?
Compaction är en kontexthanteringsfunktion som låter Claude sammanfatta sin egen konversationshistorik under långvariga agentiska uppgifter. När en kodningssession närmar sig kontextfönstrets gräns komprimerar compaction tidigare kontext till en sammanfattning så att Claude kan fortsätta arbeta utan att tappa tråden. Detta är särskilt användbart för refaktoreringar av flera filer som involverar hundratals verktygsanrop och filläsningar.
Hur mycket kostar Claude Opus 4.6?
Claude Opus 4.6 kostar $5 per miljon indata-tokens och $25 per miljon utdata-tokens, samma prissättning som tidigare Opus-modeller. Den finns tillgänglig på claude.ai, Anthropics API med modell-ID claude-opus-4-6, Amazon Bedrock och Google Cloud Vertex AI. Som jämförelse erbjuder Claude Sonnet 4.6 liknande kodkvalitet till $3/$15 per miljon tokens.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela