Code Velocity
AI-modeller

Claude Opus 4.6: #1 i Kodning og Ræsonnering Benchmarks

·7 min læsning·Anthropic, OpenAI·Original kilde
Del
Claude Opus 4.6 benchmark-sammenligningsdiagram der viser #1-placeringer på Terminal-Bench 2.0, Humanity's Last Exam og GDPval-AA

Claude Opus 4.6 Benchmark-resultater

Claude Opus 4.6 er Anthropics mest kapable model og sætter nye rekorder inden for kodning, ræsonnering og opgaver fra den virkelige verden. Den opnår den højeste score på Terminal-Bench 2.0, det førende benchmark for agentisk kodning, og fører alle frontier-modeller på Humanity's Last Exam, en multidisciplinær ræsonneringstest.

For udviklere der allerede bruger Claude Sonnet 4.6 til kodningsopgaver, repræsenterer Opus 4.6 det næste niveau af præstation for komplekst, flertrinnet agentisk arbejde.

Kodningspræstation: #1 på Terminal-Bench 2.0

Opus 4.6 forbedrer forgængerens kodningsevner i alle dimensioner:

  • Omhyggelig planlægning: Planlægger mere grundigt før koden skrives
  • Vedvarende agentiske opgaver: Opretholder kontekst og kvalitet over længere sessioner
  • Navigation i store codebases: Opererer mere pålideligt i komplekse projekter med mange filer
  • Selvrettelse: Bedre kodegennemgang og debugging til at fange egne fejl

På Terminal-Bench 2.0, som tester virkelige systemadministrations- og kodningsopgaver, opnår Opus 4.6 den højeste score af nogen model.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

På GDPval-AA, som måler præstation på økonomisk værdifulde videnopgaver inden for finans, jura og andre domæner, overgår Opus 4.6 GPT-5.2 med 144 Elo-point og sin forgænger (Opus 4.5) med 190 point.

Nye Udvikler-funktioner i Claude Opus 4.6

Agent Teams i Claude Code

Du kan nu samle agenthold til at arbejde på opgaver sammen i Claude Code. Flere Claude-instanser samarbejder om forskellige dele af en codebase samtidigt, hvilket fremskynder kompleks refaktorering, funktionsudvikling og fejlrettelse. Den samme agent teams-kapabilitet driver Claude Code Security, som bruger flere agenter til at scanne, verificere og validere sårbarheder.

Compaction til Langvarige Opgaver

Claude kan nu opsummere sin egen kontekst under langvarige opgaver. Agentiske kodningssessioner kan køre meget længere uden at nå kontekstvinduets grænser. For komplekse ændringer i mange filer med hundredvis af værktøjskald holder compaction sessionen produktiv uden genstart.

Adaptiv Tænkning

Modellen opfanger kontekstuelle spor om, hvor meget udvidet tænkning der skal anvendes. For simple spørgsmål svarer den hurtigt. For komplekse kodningsproblemer tænker den dybere. Udviklere får også nye indsatskontroller til finjustering af omkostning/hastighed/intelligens.

1M Token Kontekstvindue

Ligesom Claude Sonnet 4.6 har Opus 4.6 et 1M token kontekstvindue i beta. Det er en nyhed for Opus-klasse modeller og muliggør behandling af hele store codebases i én enkelt forespørgsel.

Claude Opus 4.6 Pris og Tilgængelighed

Opus 4.6 er tilgængelig på claude.ai, API'en (claude-opus-4-6), Amazon Bedrock og Google Cloud Vertex AI til $5/$25 per million tokens.

Ofte stillede spørgsmål

Hvilke benchmarks fører Claude Opus 4.6?
Claude Opus 4.6 har #1-positionen i fire store benchmarks: Terminal-Bench 2.0 for agentisk kodning, Humanity's Last Exam for multidisciplinær ræsonnering, BrowseComp for informationssøgning og GDPval-AA for videnarbejde. På GDPval-AA overgår den GPT-5.2 med 144 Elo-point og forgængeren Opus 4.5 med 190 point. Disse resultater gør den til den højest scorende frontier-model i både kodning og ræsonnering fra februar 2026.
Hvad er agent teams i Claude Code?
Agent teams er en ny funktion i Claude Code der lader flere Claude-instanser samarbejde om opgaver parallelt. For eksempel kan én agent refaktorere et modul mens en anden skriver tests og en tredje opdaterer dokumentation. Denne parallelle tilgang fremskynder komplekse ændringer der ville tage meget længere tid med en enkelt agent. Agent teams blev lanceret sammen med Opus 4.6 og fungerer med både Opus- og Sonnet-modeller.
Hvad er compaction i Claude Opus 4.6?
Compaction er en kontekststyringsfunktion der lader Claude opsummere sin egen samtalehistorik under langvarige agentiske opgaver. Når en kodningssession nærmer sig kontekstvinduets grænse, kondenserer compaction tidligere kontekst til et resumé, så Claude kan fortsætte med at arbejde uden at miste tråden. Det er især nyttigt for refaktorering på tværs af mange filer med hundredvis af værktøjskald.
Hvad koster Claude Opus 4.6?
Claude Opus 4.6 koster $5 per million input-tokens og $25 per million output-tokens, samme pris som tidligere Opus-modeller. Den er tilgængelig på claude.ai, Anthropic API med model ID claude-opus-4-6, Amazon Bedrock og Google Cloud Vertex AI. Til sammenligning tilbyder Claude Sonnet 4.6 lignende kodekvalitet til $3/$15 per million tokens.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del