Code Velocity
MI modeļi

Claude Opus 4.6: #1 kodēšanas un domāšanas etalontestos

·7 min lasīšana·Anthropic, OpenAI·Sākotnējais avots
Dalīties
Claude Opus 4.6 etalontesta salīdzinājuma diagramma, kas parāda #1 pozīcijas Terminal-Bench 2.0, Humanity's Last Exam un GDPval-AA

Claude Opus 4.6 etalontesta rezultāti

Claude Opus 4.6 ir Anthropic spējīgākais modelis, kas uzstāda jaunus rekordus kodēšanā, domāšanā un zināšanu darbā. Tas sasniedz augstāko rezultātu Terminal-Bench 2.0 — vadošajā agenturālās kodēšanas etalontestā — un vada visus priekšējās līnijas modeļus Humanity's Last Exam multidisciplinārajā domāšanas testā.

Izstrādātājiem, kas jau izmanto Claude Sonnet 4.6 kodēšanas uzdevumiem, Opus 4.6 ir nākamais veiktspējas līmenis sarežģītam, daudzsoļu agenturālam darbam.

Kodēšanas veiktspēja: #1 Terminal-Bench 2.0

Opus 4.6 uzlabo sava priekšteča kodēšanas prasmes katrā dimensijā:

  • Rūpīga plānošana: Plāno pārdomātāk pirms koda rakstīšanas
  • Ilgstošie agenturālie uzdevumi: Uztur kontekstu un kvalitāti garākās kodēšanas sesijās
  • Lielu kodu bāžu navigācija: Darbojas uzticamāk sarežģītos, daudzfailu projektos
  • Pašlabošana: Labākas koda pārskatīšanas un atkļūdošanas prasmes savu kļūdu atklāšanai

Terminal-Bench 2.0, kas testē reālus sistēmas administrēšanas un kodēšanas uzdevumus, Opus 4.6 sasniedz augstāko rezultātu starp visiem modeļiem.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

EtalontestsOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

GDPval-AA, kas mēra veiktspēju ekonomiski vērtīgos zināšanu darbos finanšu, juridiskajā un citās jomās, Opus 4.6 pārspēj GPT-5.2 par 144 Elo punktiem un savu priekšteci (Opus 4.5) par 190 punktiem.

Jaunas izstrādātāju funkcijas Claude Opus 4.6

Agent Teams Claude Code

Tagad varat sapulcēt aģentu komandas darbam pie uzdevumiem kopā Claude Code ietvaros. Vairākas Claude instances sadarbojas pie dažādām kodu bāzes daļām vienlaikus, paātrinot sarežģītas pārstrukturēšanas, funkciju izstrādi un kļūdu labošanu. Tā pati agent teams spēja darbina Claude Code Security, kas izmanto vairākus aģentus ievainojamību skenēšanai, pārbaudei un validācijai.

Compaction ilgstošiem uzdevumiem

Claude tagad var apkopot savu kontekstu ilgstošu uzdevumu laikā. Tas nozīmē, ka agenturālās kodēšanas sesijas var ilgt daudz ilgāk, nesasniedzot konteksta loga robežas. Sarežģītām, daudzfailu izmaiņām, kas ietver simtiem rīku izsaukumu, compaction uztur sesiju produktīvu bez restartēšanas.

Adaptīvā domāšana

Modelis uztver kontekstuālās norādes par to, cik daudz padziļinātas domāšanas piemērot. Vienkāršiem jautājumiem tas atbild ātri. Sarežģītām kodēšanas problēmām tas domā dziļāk. Izstrādātāji iegūst arī jaunas piepūles vadīklas, lai līdzsvarotu izmaksas, ātrumu un intelektu katram pieprasījumam.

1M tokenu konteksta logs

Tāpat kā Claude Sonnet 4.6, Opus 4.6 piedāvā 1M tokenu konteksta logu beta versijā. Tā ir pirmā reize Opus klases modeļiem, kas ļauj apstrādāt veselas lielas kodu bāzes vienā pieprasījumā.

Claude Opus 4.6 cena un pieejamība

Opus 4.6 ir pieejams claude.ai, API (claude-opus-4-6), Amazon Bedrock un Google Cloud Vertex AI par $5/$25 par miljonu tokenu.

Bieži uzdotie jautājumi

Kuros etalontestos Claude Opus 4.6 ir vadībā?
Claude Opus 4.6 ieņem #1 pozīciju četros galvenajos etalontestos: Terminal-Bench 2.0 agenturālajai kodēšanai, Humanity's Last Exam multidisciplinārajai domāšanai, BrowseComp informācijas ieguvei un GDPval-AA zināšanu darbam. GDPval-AA testā tas pārspēj GPT-5.2 par 144 Elo punktiem un savu priekšteci Opus 4.5 par 190 punktiem. Šie rezultāti to padara par augstāko novērtēto priekšējās līnijas modeli gan kodēšanā, gan domāšanā uz 2026. gada februāri.
Kas ir agent teams Claude Code?
Agent teams ir jauna funkcija Claude Code, kas ļauj vairākām Claude instancēm sadarboties uzdevumos paralēli. Piemēram, viens aģents var pārstrukturēt moduli, kamēr otrs raksta testus un trešais atjaunina dokumentāciju. Šī paralēlā pieeja paātrina sarežģītas kodu bāzes izmaiņas, kas vienam aģentam prasītu daudz ilgāku laiku. Agent teams tika palaists kopā ar Opus 4.6 un darbojas ar Opus un Sonnet modeļiem.
Kas ir compaction Claude Opus 4.6?
Compaction ir konteksta pārvaldības funkcija, kas ļauj Claude apkopot savu sarunas vēsturi ilgstošu agenturālo uzdevumu laikā. Kad kodēšanas sesija tuvojas konteksta loga robežai, compaction saspiež agrāko kontekstu apkopojumā, lai Claude varētu turpināt strādāt, nezaudējot uzdevuma gaitu. Tas ir īpaši noderīgi daudzfailu pārstrukturēšanas sesijām, kas ietver simtiem rīku izsaukumu.
Cik maksā Claude Opus 4.6?
Claude Opus 4.6 maksā $5 par miljonu ievades tokenu un $25 par miljonu izvades tokenu, tāda pati cena kā iepriekšējiem Opus modeļiem. Tas ir pieejams claude.ai, Anthropic API ar modeļa ID claude-opus-4-6, Amazon Bedrock un Google Cloud Vertex AI. Salīdzinājumam, Claude Sonnet 4.6 piedāvā līdzīgu kodēšanas kvalitāti par $3/$15 par miljonu tokenu.

Esiet informēti

Saņemiet jaunākās AI ziņas savā e-pastā.

Dalīties