Code Velocity
AI modely

Claude Opus 4.6: #1 v benchmarkoch kódovania a uvažovania

·7 min čítania·Anthropic, OpenAI·Pôvodný zdroj
Zdieľať
Graf porovnania benchmarkov Claude Opus 4.6 zobrazujúci pozície #1 na Terminal-Bench 2.0, Humanity's Last Exam a GDPval-AA

Výsledky benchmarkov Claude Opus 4.6

Claude Opus 4.6 je najschopnejší model Anthropic, stanovujúci nové rekordy v kódovaní, uvažovaní a znalostnej práci. Dosahuje najvyššie skóre na Terminal-Bench 2.0, poprednom benchmarku agentového kódovania, a vedie medzi všetkými frontier modelmi na Humanity's Last Exam, teste multidisciplinárneho uvažovania.

Pre vývojárov, ktorí už používajú Claude Sonnet 4.6 na kódovacie úlohy, Opus 4.6 predstavuje ďalšiu úroveň výkonu pre zložitú, viackrokovú agentovú prácu.

Výkon v kódovaní: #1 na Terminal-Bench 2.0

Opus 4.6 zlepšuje kódovacie schopnosti predchodcu vo všetkých dimenziách:

  • Starostlivejšie plánovanie: Plánuje premyslenejšie pred písaním kódu
  • Dlhodobé agentové úlohy: Udržiava kontext a kvalitu počas dlhších kódovacích relácií
  • Navigácia vo veľkých kódových bázach: Funguje spoľahlivejšie v komplexných, viacsúborových projektoch
  • Samokorekcia: Lepšie schopnosti kontroly kódu a ladenia na odhalenie vlastných chýb

Na Terminal-Bench 2.0, ktorý testuje reálne úlohy systémovej administrácie a kódovania, Opus 4.6 dosahuje najvyššie skóre zo všetkých modelov.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Na GDPval-AA, ktorý meria výkon v ekonomicky hodnotnej znalostnej práci vo financiách, práve a ďalších oblastiach, Opus 4.6 prekonáva GPT-5.2 o 144 bodov Elo a vlastného predchodcu (Opus 4.5) o 190 bodov.

Nové funkcie pre vývojárov v Claude Opus 4.6

Agent Teams v Claude Code

Teraz môžete zostaviť tímy agentov na spoločnú prácu na úlohách v Claude Code. Viaceré inštancie Claude spolupracujú na rôznych častiach kódovej bázy súčasne, urýchľujúc komplexný refaktoring, vývoj funkcií a opravy chýb. Rovnaká schopnosť agent teams poháňa Claude Code Security, ktorý používa viacerých agentov na skenovanie, overovanie a validáciu zraniteľností.

Compaction pre dlhodobé úlohy

Claude teraz môže sumarizovať vlastný kontext počas dlho trvajúcich úloh. To znamená, že agentové kódovacie relácie môžu bežať oveľa dlhšie bez dosiahnutia limitov kontextového okna. Pre zložité zmeny viacerých súborov zahŕňajúce stovky volaní nástrojov udržiava compaction reláciu produktívnu bez reštartu.

Adaptívne myslenie

Model zachytáva kontextové signály o tom, koľko rozšíreného myslenia má použiť. Na jednoduché otázky odpovedá rýchlo. Pre zložité kódovacie problémy myslí hlbšie. Vývojári tiež získavajú nové ovládacie prvky úsilia na vyvažovanie nákladov, rýchlosti a inteligencie na požiadavku.

Kontextové okno 1M tokenov

Podobne ako Claude Sonnet 4.6, Opus 4.6 má kontextové okno 1M tokenov v beta verzii. Toto je prvé riešenie pre modely triedy Opus, umožňujúce spracovanie celých veľkých kódových báz v jednej požiadavke.

Cena a dostupnosť Claude Opus 4.6

Opus 4.6 je dostupný na claude.ai, API (claude-opus-4-6), Amazon Bedrock a Google Cloud Vertex AI za $5/$25 za milión tokenov.

Často kladené otázky

V ktorých benchmarkoch vedie Claude Opus 4.6?
Claude Opus 4.6 drží pozíciu #1 v štyroch hlavných benchmarkoch: Terminal-Bench 2.0 pre agentové kódovanie, Humanity's Last Exam pre multidisciplinárne uvažovanie, BrowseComp pre vyhľadávanie informácií a GDPval-AA pre znalostné práce. Na GDPval-AA prekonáva GPT-5.2 o 144 bodov Elo a svojho predchodcu Opus 4.5 o 190 bodov. Tieto výsledky z neho robia najvyššie hodnoteného frontier modelu v kódovaní aj uvažovaní k februáru 2026.
Čo sú agent teams v Claude Code?
Agent teams je nová funkcia Claude Code, ktorá umožňuje viacerým inštanciám Claude spolupracovať na úlohách paralelne. Napríklad jeden agent môže refaktorovať modul, zatiaľ čo ďalší píše testy a tretí aktualizuje dokumentáciu. Tento paralelný prístup urýchľuje zložité zmeny kódovej bázy, ktoré by trvali oveľa dlhšie s jedným agentom. Agent teams boli spustené spolu s Opus 4.6 a fungujú s modelmi Opus aj Sonnet.
Čo je compaction v Claude Opus 4.6?
Compaction je funkcia správy kontextu, ktorá umožňuje Claude sumarizovať vlastnú históriu konverzácie počas dlho trvajúcich agentových úloh. Keď sa kódovacia relácia blíži k limitu kontextového okna, compaction kondenzuje skorší kontext do súhrnu, aby Claude mohol pokračovať v práci bez straty vlákna úlohy. Je to obzvlášť užitočné pre relácie refaktoringu viacerých súborov zahŕňajúce stovky volaní nástrojov.
Koľko stojí Claude Opus 4.6?
Claude Opus 4.6 stojí $5 za milión vstupných tokenov a $25 za milión výstupných tokenov — rovnaké ceny ako predchádzajúce modely Opus. Je dostupný na claude.ai, API Anthropic s ID modelu claude-opus-4-6, Amazon Bedrock a Google Cloud Vertex AI. Pre porovnanie, Claude Sonnet 4.6 ponúka podobnú kvalitu kódu za $3/$15 za milión tokenov.

Buďte informovaní

Dostávajte najnovšie AI správy do schránky.

Zdieľať