Claude Opus 4.6 Benchmark-resultater
Claude Opus 4.6 er Anthropics mest kapable modell og setter nye rekorder innen koding, resonnering og oppgaver fra den virkelige verden. Den oppnår den høyeste scoren på Terminal-Bench 2.0, det ledende benchmark for agentisk koding, og leder alle frontier-modeller på Humanity's Last Exam, en tverrfaglig resonneringstest.
For utviklere som allerede bruker Claude Sonnet 4.6 til kodingsoppgaver, representerer Opus 4.6 neste nivå av ytelse for komplekst, flerstegst agentisk arbeid.
Kodingsytelse: #1 på Terminal-Bench 2.0
Opus 4.6 forbedrer forgjengerens kodingsevner i alle dimensjoner:
- Omhyggelig planlegging: Planlegger mer grundig før koden skrives
- Vedvarende agentiske oppgaver: Opprettholder kontekst og kvalitet over lengre økter
- Navigasjon i store codebases: Opererer mer pålitelig i komplekse prosjekter med mange filer
- Selvkorrigering: Bedre kodegjennomgang og feilsøking for å fange egne feil
På Terminal-Bench 2.0, som tester virkelige systemadministrasjons- og kodingsoppgaver, oppnår Opus 4.6 den høyeste scoren av noen modell.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
På GDPval-AA, som måler ytelse på økonomisk verdifulle kunnskapsoppgaver innen finans, jus og andre domener, overgår Opus 4.6 GPT-5.2 med 144 Elo-poeng og sin forgjenger (Opus 4.5) med 190 poeng.
Nye Utviklerfunksjoner i Claude Opus 4.6
Agent Teams i Claude Code
Du kan nå sette sammen agentteam for å jobbe med oppgaver sammen i Claude Code. Flere Claude-instanser samarbeider om forskjellige deler av en codebase samtidig, noe som fremskynder kompleks refaktorering, funksjonsutvikling og feilretting. Den samme agent teams-evnen driver Claude Code Security, som bruker flere agenter for å skanne, verifisere og validere sårbarheter.
Compaction for Langvarige Oppgaver
Claude kan nå oppsummere sin egen kontekst under langvarige oppgaver. Agentiske kodingsøkter kan kjøre mye lenger uten å nå kontekstvinduets grenser. For komplekse endringer i mange filer som involverer hundrevis av verktøykall, holder compaction økten produktiv uten omstart.
Adaptiv Tenkning
Modellen fanger opp kontekstuelle ledetråder om hvor mye utvidet tenkning den skal bruke. For enkle spørsmål svarer den raskt. For komplekse kodingsproblemer tenker den dypere. Utviklere får også nye innsatskontroller for finjustering av kostnad/hastighet/intelligens.
1M Token Kontekstvindu
I likhet med Claude Sonnet 4.6 har Opus 4.6 et 1M token kontekstvindu i beta. Det er en nyhet for Opus-klasse modeller og muliggjør behandling av hele store codebases i en enkelt forespørsel.
Claude Opus 4.6 Pris og Tilgjengelighet
Opus 4.6 er tilgjengelig på claude.ai, API-et (claude-opus-4-6), Amazon Bedrock og Google Cloud Vertex AI til $5/$25 per million tokens.
Opprinnelig kilde
https://www.anthropic.com/news/claude-opus-4-6Ofte stilte spørsmål
Hvilke benchmarks leder Claude Opus 4.6?
Hva er agent teams i Claude Code?
Hva er compaction i Claude Opus 4.6?
Hva koster Claude Opus 4.6?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
