Code Velocity
AI-modeller

Claude Opus 4.6: #1 i Kodings- og Resonneringsbenchmarks

·7 min lesing·Anthropic, OpenAI·Opprinnelig kilde
Del
Claude Opus 4.6 benchmark-sammenligningsdiagram som viser #1-plasseringer på Terminal-Bench 2.0, Humanity's Last Exam og GDPval-AA

Claude Opus 4.6 Benchmark-resultater

Claude Opus 4.6 er Anthropics mest kapable modell og setter nye rekorder innen koding, resonnering og oppgaver fra den virkelige verden. Den oppnår den høyeste scoren på Terminal-Bench 2.0, det ledende benchmark for agentisk koding, og leder alle frontier-modeller på Humanity's Last Exam, en tverrfaglig resonneringstest.

For utviklere som allerede bruker Claude Sonnet 4.6 til kodingsoppgaver, representerer Opus 4.6 neste nivå av ytelse for komplekst, flerstegst agentisk arbeid.

Kodingsytelse: #1 på Terminal-Bench 2.0

Opus 4.6 forbedrer forgjengerens kodingsevner i alle dimensjoner:

  • Omhyggelig planlegging: Planlegger mer grundig før koden skrives
  • Vedvarende agentiske oppgaver: Opprettholder kontekst og kvalitet over lengre økter
  • Navigasjon i store codebases: Opererer mer pålitelig i komplekse prosjekter med mange filer
  • Selvkorrigering: Bedre kodegjennomgang og feilsøking for å fange egne feil

På Terminal-Bench 2.0, som tester virkelige systemadministrasjons- og kodingsoppgaver, oppnår Opus 4.6 den høyeste scoren av noen modell.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

På GDPval-AA, som måler ytelse på økonomisk verdifulle kunnskapsoppgaver innen finans, jus og andre domener, overgår Opus 4.6 GPT-5.2 med 144 Elo-poeng og sin forgjenger (Opus 4.5) med 190 poeng.

Nye Utviklerfunksjoner i Claude Opus 4.6

Agent Teams i Claude Code

Du kan nå sette sammen agentteam for å jobbe med oppgaver sammen i Claude Code. Flere Claude-instanser samarbeider om forskjellige deler av en codebase samtidig, noe som fremskynder kompleks refaktorering, funksjonsutvikling og feilretting. Den samme agent teams-evnen driver Claude Code Security, som bruker flere agenter for å skanne, verifisere og validere sårbarheter.

Compaction for Langvarige Oppgaver

Claude kan nå oppsummere sin egen kontekst under langvarige oppgaver. Agentiske kodingsøkter kan kjøre mye lenger uten å nå kontekstvinduets grenser. For komplekse endringer i mange filer som involverer hundrevis av verktøykall, holder compaction økten produktiv uten omstart.

Adaptiv Tenkning

Modellen fanger opp kontekstuelle ledetråder om hvor mye utvidet tenkning den skal bruke. For enkle spørsmål svarer den raskt. For komplekse kodingsproblemer tenker den dypere. Utviklere får også nye innsatskontroller for finjustering av kostnad/hastighet/intelligens.

1M Token Kontekstvindu

I likhet med Claude Sonnet 4.6 har Opus 4.6 et 1M token kontekstvindu i beta. Det er en nyhet for Opus-klasse modeller og muliggjør behandling av hele store codebases i en enkelt forespørsel.

Claude Opus 4.6 Pris og Tilgjengelighet

Opus 4.6 er tilgjengelig på claude.ai, API-et (claude-opus-4-6), Amazon Bedrock og Google Cloud Vertex AI til $5/$25 per million tokens.

Ofte stilte spørsmål

Hvilke benchmarks leder Claude Opus 4.6?
Claude Opus 4.6 har #1-posisjonen i fire store benchmarks: Terminal-Bench 2.0 for agentisk koding, Humanity's Last Exam for tverrfaglig resonnering, BrowseComp for informasjonsinnhenting og GDPval-AA for kunnskapsarbeid. På GDPval-AA overgår den GPT-5.2 med 144 Elo-poeng og forgjengeren Opus 4.5 med 190 poeng. Disse resultatene gjør den til den høyest scorende frontier-modellen i både koding og resonnering per februar 2026.
Hva er agent teams i Claude Code?
Agent teams er en ny funksjon i Claude Code som lar flere Claude-instanser samarbeide om oppgaver parallelt. For eksempel kan én agent refaktorere en modul mens en annen skriver tester og en tredje oppdaterer dokumentasjon. Denne parallelle tilnærmingen fremskynder komplekse endringer som ville tatt mye lengre tid med en enkelt agent. Agent teams ble lansert sammen med Opus 4.6 og fungerer med både Opus- og Sonnet-modeller.
Hva er compaction i Claude Opus 4.6?
Compaction er en kontekststyringsfunksjon som lar Claude oppsummere sin egen samtalehistorikk under langvarige agentiske oppgaver. Når en kodingsøkt nærmer seg kontekstvinduets grense, kondenserer compaction tidligere kontekst til et sammendrag slik at Claude kan fortsette å jobbe uten å miste tråden. Dette er spesielt nyttig for refaktoreringsøkter med mange filer som involverer hundrevis av verktøykall.
Hva koster Claude Opus 4.6?
Claude Opus 4.6 koster $5 per million input-tokens og $25 per million output-tokens, samme pris som tidligere Opus-modeller. Den er tilgjengelig på claude.ai, Anthropic API med model ID claude-opus-4-6, Amazon Bedrock og Google Cloud Vertex AI. Til sammenligning tilbyr Claude Sonnet 4.6 lignende kodekvalitet til $3/$15 per million tokens.

Hold deg oppdatert

Få de siste AI-nyhetene i innboksen din.

Del