Code Velocity
Modeli UI

Claude Opus 4.6: #1 v merilih kodiranja in sklepanja

·7 min branja·Anthropic, OpenAI·Izvirni vir
Deli
Primerjalni graf meril Claude Opus 4.6, ki prikazuje uvrstitve #1 na Terminal-Bench 2.0, Humanity's Last Exam in GDPval-AA

Rezultati meril Claude Opus 4.6

Claude Opus 4.6 je najzmogljivejši model Anthropica, ki postavlja nove rekorde v kodiranju, sklepanju in znanjskem delu. Dosega najvišji rezultat na Terminal-Bench 2.0, vodilnem merilu za agentno kodiranje, in vodi med vsemi mejnimi modeli na Humanity's Last Exam, testu multidisciplinarnega sklepanja.

Za razvijalce, ki že uporabljajo Claude Sonnet 4.6 za naloge kodiranja, Opus 4.6 predstavlja naslednjo raven zmogljivosti za zahtevno, večstopenjsko agentno delo.

Zmogljivost kodiranja: #1 na Terminal-Bench 2.0

Opus 4.6 izboljša veščine kodiranja svojega predhodnika v vseh dimenzijah:

  • Skrbno načrtovanje: Bolj premišljeno načrtuje, preden začne pisati kodo
  • Trajne agentne naloge: Ohranja kontekst in kakovost v daljših sejah kodiranja
  • Navigacija po velikih kodnih bazah: Zanesljiveje deluje v zapletenih projektih z več datotekami
  • Samopopravljanje: Boljše veščine pregleda in razhroščevanja kode za odkrivanje lastnih napak

Na Terminal-Bench 2.0, ki testira realne naloge sistemske administracije in kodiranja, Opus 4.6 dosega najvišji rezultat med vsemi modeli.

Claude Opus 4.6 proti GPT-5.2 proti Gemini 2.5

MeriloOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo proti GPT-5.2)#2#3
BrowseComp#1#2

Na GDPval-AA, ki meri zmogljivost pri ekonomsko dragocenih znanjskih nalogah v financah, pravu in drugih področjih, Opus 4.6 prekaša GPT-5.2 za 144 točk Elo in svojega predhodnika (Opus 4.5) za 190 točk.

Nove funkcije za razvijalce v Claude Opus 4.6

Ekipe agentov v Claude Code

Zdaj lahko sestavite ekipe agentov za skupno delo pri nalogah v Claude Code. Več instanc Clauda hkrati sodeluje na različnih delih kodne baze, kar pospeši zapletene refaktorizacije, razvoj funkcionalnosti in odpravljanje napak. Enaka zmogljivost ekip agentov poganja Claude Code Security, ki uporablja več agentov za pregledovanje, preverjanje in potrjevanje ranljivosti.

Zgoščevanje za dolgotrajne naloge

Claude zdaj lahko povzame lasten kontekst med dolgotrajnimi nalogami. Agentne seje kodiranja lahko trajajo precej dlje brez doseganja omejitev kontekstnega okna. Za zapletene spremembe v več datotekah, ki vključujejo na stotine klicev orodij, zgoščevanje ohranja produktivnost seje brez ponovnega zagona.

Prilagodljivo razmišljanje

Model zaznava kontekstualne namige o tem, koliko poglobljenega razmišljanja uporabiti. Za preprosta vprašanja odgovori hitro. Za zapletene probleme kodiranja razmišlja bolj poglobljeno. Razvijalci dobijo tudi nove kontrole napora za natančno uravnavanje razmerja med ceno, hitrostjo in inteligenco na zahtevo.

Kontekstno okno 1M žetonov

Podobno kot Claude Sonnet 4.6 ima Opus 4.6 kontekstno okno 1M žetonov v beta različici. To je prvič za modele razreda Opus, kar omogoča obdelavo celotnih velikih kodnih baz v eni zahtevi.

Cena in razpoložljivost Claude Opus 4.6

Opus 4.6 je na voljo na claude.ai, API (claude-opus-4-6), Amazon Bedrock in Google Cloud Vertex AI po ceni $5/$25 na milijon žetonov.

Pogosta vprašanja

Na katerih merilih vodi Claude Opus 4.6?
Claude Opus 4.6 zaseda mesto #1 na štirih glavnih merilih: Terminal-Bench 2.0 za agentno kodiranje, Humanity's Last Exam za multidisciplinarno sklepanje, BrowseComp za pridobivanje informacij in GDPval-AA za znanjsko delo. Na GDPval-AA prekaša GPT-5.2 za 144 točk Elo in svojega predhodnika Opus 4.5 za 190 točk. Ti rezultati ga uvrščajo v najuspešnejši mejni model v kodiranju in sklepanju od februarja 2026.
Kaj so ekipe agentov v Claude Code?
Ekipe agentov so nova funkcionalnost v Claude Code, ki omogoča več instancam Clauda hkratno sodelovanje pri nalogah. Na primer, en agent lahko refaktorizira modul, medtem ko drugi piše teste, tretji pa posodablja dokumentacijo. Ta vzporedni pristop pospeši zapletene spremembe kodne baze, ki bi enemu agentu vzele precej več časa. Ekipe agentov so bile uvedene skupaj z Opus 4.6 in delujejo z modeli Opus in Sonnet.
Kaj je zgoščevanje v Claude Opus 4.6?
Zgoščevanje je funkcija upravljanja konteksta, ki Claudu omogoča povzemanje lastne zgodovine pogovora med dolgotrajnimi agentnimi nalogami. Ko se seja kodiranja približa meji kontekstnega okna, zgoščevanje stisne prejšnji kontekst v povzetek, da Claude nadaljuje z delom brez izgube niti naloge. To je še posebej koristno pri sejah refaktorizacije več datotek, ki vključujejo na stotine klicev orodij.
Koliko stane Claude Opus 4.6?
Claude Opus 4.6 stane $5 na milijon vhodnih žetonov in $25 na milijon izhodnih žetonov — enaka cena kot pri prejšnjih modelih Opus. Na voljo je na claude.ai, API Anthropic z model ID claude-opus-4-6, Amazon Bedrock in Google Cloud Vertex AI. Za primerjavo, Claude Sonnet 4.6 ponuja primerljivo kakovost kodiranja po $3/$15 na milijon žetonov.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli