Claude Opus 4.6 Benchmark-resultater
Claude Opus 4.6 er Anthropics mest kapable model og sætter nye rekorder inden for kodning, ræsonnering og opgaver fra den virkelige verden. Den opnår den højeste score på Terminal-Bench 2.0, det førende benchmark for agentisk kodning, og fører alle frontier-modeller på Humanity's Last Exam, en multidisciplinær ræsonneringstest.
For udviklere der allerede bruger Claude Sonnet 4.6 til kodningsopgaver, repræsenterer Opus 4.6 det næste niveau af præstation for komplekst, flertrinnet agentisk arbejde.
Kodningspræstation: #1 på Terminal-Bench 2.0
Opus 4.6 forbedrer forgængerens kodningsevner i alle dimensioner:
- Omhyggelig planlægning: Planlægger mere grundigt før koden skrives
- Vedvarende agentiske opgaver: Opretholder kontekst og kvalitet over længere sessioner
- Navigation i store codebases: Opererer mere pålideligt i komplekse projekter med mange filer
- Selvrettelse: Bedre kodegennemgang og debugging til at fange egne fejl
På Terminal-Bench 2.0, som tester virkelige systemadministrations- og kodningsopgaver, opnår Opus 4.6 den højeste score af nogen model.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
På GDPval-AA, som måler præstation på økonomisk værdifulde videnopgaver inden for finans, jura og andre domæner, overgår Opus 4.6 GPT-5.2 med 144 Elo-point og sin forgænger (Opus 4.5) med 190 point.
Nye Udvikler-funktioner i Claude Opus 4.6
Agent Teams i Claude Code
Du kan nu samle agenthold til at arbejde på opgaver sammen i Claude Code. Flere Claude-instanser samarbejder om forskellige dele af en codebase samtidigt, hvilket fremskynder kompleks refaktorering, funktionsudvikling og fejlrettelse. Den samme agent teams-kapabilitet driver Claude Code Security, som bruger flere agenter til at scanne, verificere og validere sårbarheder.
Compaction til Langvarige Opgaver
Claude kan nu opsummere sin egen kontekst under langvarige opgaver. Agentiske kodningssessioner kan køre meget længere uden at nå kontekstvinduets grænser. For komplekse ændringer i mange filer med hundredvis af værktøjskald holder compaction sessionen produktiv uden genstart.
Adaptiv Tænkning
Modellen opfanger kontekstuelle spor om, hvor meget udvidet tænkning der skal anvendes. For simple spørgsmål svarer den hurtigt. For komplekse kodningsproblemer tænker den dybere. Udviklere får også nye indsatskontroller til finjustering af omkostning/hastighed/intelligens.
1M Token Kontekstvindue
Ligesom Claude Sonnet 4.6 har Opus 4.6 et 1M token kontekstvindue i beta. Det er en nyhed for Opus-klasse modeller og muliggør behandling af hele store codebases i én enkelt forespørgsel.
Claude Opus 4.6 Pris og Tilgængelighed
Opus 4.6 er tilgængelig på claude.ai, API'en (claude-opus-4-6), Amazon Bedrock og Google Cloud Vertex AI til $5/$25 per million tokens.
Original kilde
https://www.anthropic.com/news/claude-opus-4-6Ofte stillede spørgsmål
Hvilke benchmarks fører Claude Opus 4.6?
Hvad er agent teams i Claude Code?
Hvad er compaction i Claude Opus 4.6?
Hvad koster Claude Opus 4.6?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
