Výsledky benchmarkov Claude Opus 4.6
Claude Opus 4.6 je najschopnejší model Anthropic, stanovujúci nové rekordy v kódovaní, uvažovaní a znalostnej práci. Dosahuje najvyššie skóre na Terminal-Bench 2.0, poprednom benchmarku agentového kódovania, a vedie medzi všetkými frontier modelmi na Humanity's Last Exam, teste multidisciplinárneho uvažovania.
Pre vývojárov, ktorí už používajú Claude Sonnet 4.6 na kódovacie úlohy, Opus 4.6 predstavuje ďalšiu úroveň výkonu pre zložitú, viackrokovú agentovú prácu.
Výkon v kódovaní: #1 na Terminal-Bench 2.0
Opus 4.6 zlepšuje kódovacie schopnosti predchodcu vo všetkých dimenziách:
- Starostlivejšie plánovanie: Plánuje premyslenejšie pred písaním kódu
- Dlhodobé agentové úlohy: Udržiava kontext a kvalitu počas dlhších kódovacích relácií
- Navigácia vo veľkých kódových bázach: Funguje spoľahlivejšie v komplexných, viacsúborových projektoch
- Samokorekcia: Lepšie schopnosti kontroly kódu a ladenia na odhalenie vlastných chýb
Na Terminal-Bench 2.0, ktorý testuje reálne úlohy systémovej administrácie a kódovania, Opus 4.6 dosahuje najvyššie skóre zo všetkých modelov.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Na GDPval-AA, ktorý meria výkon v ekonomicky hodnotnej znalostnej práci vo financiách, práve a ďalších oblastiach, Opus 4.6 prekonáva GPT-5.2 o 144 bodov Elo a vlastného predchodcu (Opus 4.5) o 190 bodov.
Nové funkcie pre vývojárov v Claude Opus 4.6
Agent Teams v Claude Code
Teraz môžete zostaviť tímy agentov na spoločnú prácu na úlohách v Claude Code. Viaceré inštancie Claude spolupracujú na rôznych častiach kódovej bázy súčasne, urýchľujúc komplexný refaktoring, vývoj funkcií a opravy chýb. Rovnaká schopnosť agent teams poháňa Claude Code Security, ktorý používa viacerých agentov na skenovanie, overovanie a validáciu zraniteľností.
Compaction pre dlhodobé úlohy
Claude teraz môže sumarizovať vlastný kontext počas dlho trvajúcich úloh. To znamená, že agentové kódovacie relácie môžu bežať oveľa dlhšie bez dosiahnutia limitov kontextového okna. Pre zložité zmeny viacerých súborov zahŕňajúce stovky volaní nástrojov udržiava compaction reláciu produktívnu bez reštartu.
Adaptívne myslenie
Model zachytáva kontextové signály o tom, koľko rozšíreného myslenia má použiť. Na jednoduché otázky odpovedá rýchlo. Pre zložité kódovacie problémy myslí hlbšie. Vývojári tiež získavajú nové ovládacie prvky úsilia na vyvažovanie nákladov, rýchlosti a inteligencie na požiadavku.
Kontextové okno 1M tokenov
Podobne ako Claude Sonnet 4.6, Opus 4.6 má kontextové okno 1M tokenov v beta verzii. Toto je prvé riešenie pre modely triedy Opus, umožňujúce spracovanie celých veľkých kódových báz v jednej požiadavke.
Cena a dostupnosť Claude Opus 4.6
Opus 4.6 je dostupný na claude.ai, API (claude-opus-4-6), Amazon Bedrock a Google Cloud Vertex AI za $5/$25 za milión tokenov.
Pôvodný zdroj
https://www.anthropic.com/news/claude-opus-4-6Často kladené otázky
V ktorých benchmarkoch vedie Claude Opus 4.6?
Čo sú agent teams v Claude Code?
Čo je compaction v Claude Opus 4.6?
Koľko stojí Claude Opus 4.6?
Buďte informovaní
Dostávajte najnovšie AI správy do schránky.
