Code Velocity
AI modely

Claude Opus 4.6: #1 v benchmarcích kódování a uvažování

·7 min čtení·Anthropic, OpenAI·Původní zdroj
Sdílet
Srovnávací graf benchmarků Claude Opus 4.6 zobrazující #1 pozice na Terminal-Bench 2.0, Humanity's Last Exam a GDPval-AA

Výsledky benchmarků Claude Opus 4.6

Claude Opus 4.6 je nejschopnější model Anthropic, který stanovuje nové rekordy v kódování, uvažování a znalostní práci. Dosahuje nejvyššího skóre na Terminal-Bench 2.0, předním benchmarku pro agentické kódování, a vede všechny frontier modely na Humanity's Last Exam, multidisciplinárním testu uvažování.

Pro vývojáře, kteří již používají Claude Sonnet 4.6 pro kódovací úlohy, představuje Opus 4.6 další úroveň výkonu pro složité, vícekrokové agentické práce.

Výkon v kódování: #1 na Terminal-Bench 2.0

Opus 4.6 zlepšuje kódovací schopnosti svého předchůdce ve všech dimenzích:

  • Pečlivé plánování: Plánuje důkladněji před psaním kódu
  • Nepřetržité agentické úlohy: Udržuje kontext a kvalitu během delších kódovacích relací
  • Navigace ve velkých kódových bázích: Funguje spolehlivěji ve složitých projektech s více soubory
  • Sebekorekce: Lepší schopnosti revize kódu a debugování k zachycení vlastních chyb

Na Terminal-Bench 2.0, který testuje reálné úlohy správy systémů a kódování, dosahuje Opus 4.6 nejvyššího skóre ze všech modelů.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Na GDPval-AA, který měří výkon v ekonomicky hodnotné znalostní práci ve financích, právu a dalších oblastech, překonává Opus 4.6 GPT-5.2 o 144 bodů Elo a svého předchůdce (Opus 4.5) o 190 bodů.

Nové funkce pro vývojáře v Claude Opus 4.6

Agent Teams v Claude Code

Nyní můžete sestavit týmy agentů pro společnou práci na úlohách v Claude Code. Více instancí Claude spolupracuje na různých částech kódové báze současně, čímž urychluje složité refaktoringy, vývoj funkcí a opravy chyb. Stejná schopnost agent teams pohání Claude Code Security, který používá více agentů ke skenování, ověřování a validaci zranitelností.

Compaction pro dlouhotrvající úlohy

Claude nyní může shrnout svůj vlastní kontext během dlouhotrvajících úloh. Agentické kódovací relace mohou běžet mnohem déle bez dosažení limitů kontextového okna. Pro složité změny napříč více soubory zahrnující stovky volání nástrojů udržuje compaction relaci produktivní bez nutnosti restartování.

Adaptivní myšlení

Model zachycuje kontextové vodítka o tom, kolik rozšířeného přemýšlení má aplikovat. Na jednoduché otázky odpovídá rychle. Na složité kódovací problémy přemýšlí hlouběji. Vývojáři také získávají nové ovládací prvky úsilí pro vyvážení nákladů, rychlosti a inteligence na požadavek.

Kontextové okno 1M tokenů

Stejně jako Claude Sonnet 4.6 disponuje Opus 4.6 kontextovým oknem 1M tokenů v beta verzi. Je to první případ pro modely třídy Opus, umožňující zpracování celých velkých kódových bází v jednom požadavku.

Cena a dostupnost Claude Opus 4.6

Opus 4.6 je dostupný na claude.ai, přes API (claude-opus-4-6), Amazon Bedrock a Google Cloud Vertex AI za $5/$25 za milion tokenů.

Často kladené dotazy

V jakých benchmarcích vede Claude Opus 4.6?
Claude Opus 4.6 drží pozici #1 ve čtyřech hlavních benchmarcích: Terminal-Bench 2.0 pro agentické kódování, Humanity's Last Exam pro multidisciplinární uvažování, BrowseComp pro vyhledávání informací a GDPval-AA pro znalostní práci. Na GDPval-AA překonává GPT-5.2 o 144 bodů Elo a svého předchůdce Opus 4.5 o 190 bodů. Tyto výsledky z něj dělají nejlépe hodnocený frontier model v kódování i uvažování k únoru 2026.
Co jsou agent teams v Claude Code?
Agent teams je nová funkce v Claude Code, která umožňuje více instancím Claude spolupracovat na úlohách paralelně. Například jeden agent může refaktorovat modul, zatímco druhý píše testy a třetí aktualizuje dokumentaci. Tento paralelní přístup urychluje složité změny kódové báze, které by jednomu agentovi trvaly mnohem déle. Agent teams byly spuštěny společně s Opus 4.6 a fungují s modely Opus i Sonnet.
Co je compaction v Claude Opus 4.6?
Compaction je funkce správy kontextu, která umožňuje Claude shrnout vlastní historii konverzace během dlouhotrvajících agentických úloh. Když se kódovací relace přiblíží limitu kontextového okna, compaction zkomprimuje dřívější kontext do shrnutí, aby Claude mohl pokračovat v práci bez ztráty přehledu o úloze. To je zvláště užitečné pro refaktorovací relace napříč více soubory zahrnující stovky volání nástrojů a čtení souborů.
Kolik stojí Claude Opus 4.6?
Claude Opus 4.6 stojí $5 za milion vstupních tokenů a $25 za milion výstupních tokenů, stejná cena jako předchozí modely Opus. Je dostupný na claude.ai, přes API Anthropic s model ID claude-opus-4-6, Amazon Bedrock a Google Cloud Vertex AI. Pro srovnání, Claude Sonnet 4.6 nabízí podobnou kvalitu kódu za $3/$15 za milion tokenů.

Buďte v obraze

Dostávejte nejnovější AI zprávy do schránky.

Sdílet