Výsledky benchmarků Claude Opus 4.6
Claude Opus 4.6 je nejschopnější model Anthropic, který stanovuje nové rekordy v kódování, uvažování a znalostní práci. Dosahuje nejvyššího skóre na Terminal-Bench 2.0, předním benchmarku pro agentické kódování, a vede všechny frontier modely na Humanity's Last Exam, multidisciplinárním testu uvažování.
Pro vývojáře, kteří již používají Claude Sonnet 4.6 pro kódovací úlohy, představuje Opus 4.6 další úroveň výkonu pro složité, vícekrokové agentické práce.
Výkon v kódování: #1 na Terminal-Bench 2.0
Opus 4.6 zlepšuje kódovací schopnosti svého předchůdce ve všech dimenzích:
- Pečlivé plánování: Plánuje důkladněji před psaním kódu
- Nepřetržité agentické úlohy: Udržuje kontext a kvalitu během delších kódovacích relací
- Navigace ve velkých kódových bázích: Funguje spolehlivěji ve složitých projektech s více soubory
- Sebekorekce: Lepší schopnosti revize kódu a debugování k zachycení vlastních chyb
Na Terminal-Bench 2.0, který testuje reálné úlohy správy systémů a kódování, dosahuje Opus 4.6 nejvyššího skóre ze všech modelů.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Na GDPval-AA, který měří výkon v ekonomicky hodnotné znalostní práci ve financích, právu a dalších oblastech, překonává Opus 4.6 GPT-5.2 o 144 bodů Elo a svého předchůdce (Opus 4.5) o 190 bodů.
Nové funkce pro vývojáře v Claude Opus 4.6
Agent Teams v Claude Code
Nyní můžete sestavit týmy agentů pro společnou práci na úlohách v Claude Code. Více instancí Claude spolupracuje na různých částech kódové báze současně, čímž urychluje složité refaktoringy, vývoj funkcí a opravy chyb. Stejná schopnost agent teams pohání Claude Code Security, který používá více agentů ke skenování, ověřování a validaci zranitelností.
Compaction pro dlouhotrvající úlohy
Claude nyní může shrnout svůj vlastní kontext během dlouhotrvajících úloh. Agentické kódovací relace mohou běžet mnohem déle bez dosažení limitů kontextového okna. Pro složité změny napříč více soubory zahrnující stovky volání nástrojů udržuje compaction relaci produktivní bez nutnosti restartování.
Adaptivní myšlení
Model zachycuje kontextové vodítka o tom, kolik rozšířeného přemýšlení má aplikovat. Na jednoduché otázky odpovídá rychle. Na složité kódovací problémy přemýšlí hlouběji. Vývojáři také získávají nové ovládací prvky úsilí pro vyvážení nákladů, rychlosti a inteligence na požadavek.
Kontextové okno 1M tokenů
Stejně jako Claude Sonnet 4.6 disponuje Opus 4.6 kontextovým oknem 1M tokenů v beta verzi. Je to první případ pro modely třídy Opus, umožňující zpracování celých velkých kódových bází v jednom požadavku.
Cena a dostupnost Claude Opus 4.6
Opus 4.6 je dostupný na claude.ai, přes API (claude-opus-4-6), Amazon Bedrock a Google Cloud Vertex AI za $5/$25 za milion tokenů.
Původní zdroj
https://www.anthropic.com/news/claude-opus-4-6Často kladené dotazy
V jakých benchmarcích vede Claude Opus 4.6?
Co jsou agent teams v Claude Code?
Co je compaction v Claude Opus 4.6?
Kolik stojí Claude Opus 4.6?
Buďte v obraze
Dostávejte nejnovější AI zprávy do schránky.
