Claude Opus 4.6 benchmarkresultat
Claude Opus 4.6 är Anthropics mest kapabla modell som sätter nya rekord inom kodning, resonemang och kunskapsarbete. Den uppnår toppresultatet på Terminal-Bench 2.0, det ledande benchmarket för agentisk kodning, och leder alla frontiermodeller på Humanity's Last Exam, ett multidisciplinärt resonemangsprov.
För utvecklare som redan använder Claude Sonnet 4.6 för kodningsuppgifter representerar Opus 4.6 nästa prestationsnivå för komplext, flerstegs agentiskt arbete.
Kodningsprestanda: #1 på Terminal-Bench 2.0
Opus 4.6 förbättrar sin föregångares kodningsfärdigheter i alla dimensioner:
- Noggrann planering: Planerar mer genomtänkt innan koden skrivs
- Ihållande agentiska uppgifter: Bibehåller kontext och kvalitet under längre kodningssessioner
- Navigering i stora kodbaser: Fungerar mer tillförlitligt i komplexa flerfils-projekt
- Självkorrigering: Bättre kodgranskning och felsökning för att fånga sina egna misstag
På Terminal-Bench 2.0, som testar verkliga systemadministrations- och kodningsuppgifter, uppnår Opus 4.6 det högsta resultatet av alla modeller.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
På GDPval-AA, som mäter prestanda på ekonomiskt värdefullt kunskapsarbete inom finans, juridik och andra domäner, överträffar Opus 4.6 GPT-5.2 med 144 Elo-poäng och sin föregångare (Opus 4.5) med 190 poäng.
Nya utvecklarfunktioner i Claude Opus 4.6
Agent Teams i Claude Code
Du kan nu samla agentteam för att arbeta på uppgifter tillsammans i Claude Code. Flera Claude-instanser samarbetar på olika delar av en kodbas samtidigt, vilket snabbar upp komplex refaktorering, funktionsutveckling och buggfixning. Samma agent teams-förmåga driver Claude Code Security, som använder flera agenter för att skanna, verifiera och validera sårbarheter.
Compaction för långvariga uppgifter
Claude kan nu sammanfatta sin egen kontext under långvariga uppgifter. Agentiska kodningssessioner kan köras mycket längre utan att nå kontextfönstrets gränser. För komplexa flerfilsändringar som involverar hundratals verktygsanrop håller compaction sessionen produktiv utan omstart.
Adaptivt tänkande
Modellen uppfattar kontextuella ledtrådar om hur mycket utökat tänkande som ska tillämpas. För enkla frågor svarar den snabbt. För komplexa kodningsproblem tänker den djupare. Utvecklare får också nya ansträngningskontroller för att balansera kostnad, hastighet och intelligens per förfrågan.
1M tokens kontextfönster
Liksom Claude Sonnet 4.6 har Opus 4.6 ett kontextfönster på 1M tokens i beta. Det är en nyhet för Opus-klassmodeller som möjliggör bearbetning av hela stora kodbaser i en enda förfrågan.
Claude Opus 4.6 prissättning och tillgänglighet
Opus 4.6 finns tillgänglig på claude.ai, API:et (claude-opus-4-6), Amazon Bedrock och Google Cloud Vertex AI till $5/$25 per miljon tokens.
Originalkälla
https://www.anthropic.com/news/claude-opus-4-6Vanliga frågor
Vilka benchmarks leder Claude Opus 4.6?
Vad är agent teams i Claude Code?
Vad är compaction i Claude Opus 4.6?
Hur mycket kostar Claude Opus 4.6?
Håll dig uppdaterad
Få de senaste AI-nyheterna i din inkorg.
