Rezultati meril Claude Opus 4.6
Claude Opus 4.6 je najzmogljivejši model Anthropica, ki postavlja nove rekorde v kodiranju, sklepanju in znanjskem delu. Dosega najvišji rezultat na Terminal-Bench 2.0, vodilnem merilu za agentno kodiranje, in vodi med vsemi mejnimi modeli na Humanity's Last Exam, testu multidisciplinarnega sklepanja.
Za razvijalce, ki že uporabljajo Claude Sonnet 4.6 za naloge kodiranja, Opus 4.6 predstavlja naslednjo raven zmogljivosti za zahtevno, večstopenjsko agentno delo.
Zmogljivost kodiranja: #1 na Terminal-Bench 2.0
Opus 4.6 izboljša veščine kodiranja svojega predhodnika v vseh dimenzijah:
- Skrbno načrtovanje: Bolj premišljeno načrtuje, preden začne pisati kodo
- Trajne agentne naloge: Ohranja kontekst in kakovost v daljših sejah kodiranja
- Navigacija po velikih kodnih bazah: Zanesljiveje deluje v zapletenih projektih z več datotekami
- Samopopravljanje: Boljše veščine pregleda in razhroščevanja kode za odkrivanje lastnih napak
Na Terminal-Bench 2.0, ki testira realne naloge sistemske administracije in kodiranja, Opus 4.6 dosega najvišji rezultat med vsemi modeli.
Claude Opus 4.6 proti GPT-5.2 proti Gemini 2.5
| Merilo | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo proti GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Na GDPval-AA, ki meri zmogljivost pri ekonomsko dragocenih znanjskih nalogah v financah, pravu in drugih področjih, Opus 4.6 prekaša GPT-5.2 za 144 točk Elo in svojega predhodnika (Opus 4.5) za 190 točk.
Nove funkcije za razvijalce v Claude Opus 4.6
Ekipe agentov v Claude Code
Zdaj lahko sestavite ekipe agentov za skupno delo pri nalogah v Claude Code. Več instanc Clauda hkrati sodeluje na različnih delih kodne baze, kar pospeši zapletene refaktorizacije, razvoj funkcionalnosti in odpravljanje napak. Enaka zmogljivost ekip agentov poganja Claude Code Security, ki uporablja več agentov za pregledovanje, preverjanje in potrjevanje ranljivosti.
Zgoščevanje za dolgotrajne naloge
Claude zdaj lahko povzame lasten kontekst med dolgotrajnimi nalogami. Agentne seje kodiranja lahko trajajo precej dlje brez doseganja omejitev kontekstnega okna. Za zapletene spremembe v več datotekah, ki vključujejo na stotine klicev orodij, zgoščevanje ohranja produktivnost seje brez ponovnega zagona.
Prilagodljivo razmišljanje
Model zaznava kontekstualne namige o tem, koliko poglobljenega razmišljanja uporabiti. Za preprosta vprašanja odgovori hitro. Za zapletene probleme kodiranja razmišlja bolj poglobljeno. Razvijalci dobijo tudi nove kontrole napora za natančno uravnavanje razmerja med ceno, hitrostjo in inteligenco na zahtevo.
Kontekstno okno 1M žetonov
Podobno kot Claude Sonnet 4.6 ima Opus 4.6 kontekstno okno 1M žetonov v beta različici. To je prvič za modele razreda Opus, kar omogoča obdelavo celotnih velikih kodnih baz v eni zahtevi.
Cena in razpoložljivost Claude Opus 4.6
Opus 4.6 je na voljo na claude.ai, API (claude-opus-4-6), Amazon Bedrock in Google Cloud Vertex AI po ceni $5/$25 na milijon žetonov.
Pogosta vprašanja
Na katerih merilih vodi Claude Opus 4.6?
Kaj so ekipe agentov v Claude Code?
Kaj je zgoščevanje v Claude Opus 4.6?
Koliko stane Claude Opus 4.6?
Bodite na tekočem
Prejemajte najnovejše AI novice po e-pošti.
