Code Velocity
Tehisintellekti mudelid

Claude Opus 4.6: #1 kodeerimise ja mõtlemise võrdlustestides

·7 min lugemist·Anthropic, OpenAI·Algallikas
Jaga
Claude Opus 4.6 võrdlustestide diagramm, mis näitab #1 kohti Terminal-Bench 2.0, Humanity's Last Exam ja GDPval-AA testides

Claude Opus 4.6 võrdlustestide tulemused

Claude Opus 4.6 on Anthropicu kõige võimekam mudel, mis seab uued rekordid kodeerimises, mõtlemises ja teadmistöös. See saavutab kõrgeima tulemuse Terminal-Bench 2.0 testis — juhtivas agentse kodeerimise võrdlustestis — ja juhib kõiki eesliinimudeleid Humanity's Last Exam testis, multidistsiplinaarses mõtlemistestis.

Arendajatele, kes juba kasutavad Claude Sonnet 4.6 kodeerimisülesanneteks, esindab Opus 4.6 järgmist jõudlustaset keeruka, mitmeetapilise agentse töö jaoks.

Kodeerimise jõudlus: #1 Terminal-Bench 2.0 testis

Opus 4.6 parandab oma eelkäija kodeerimisoskusi igas mõõtmes:

  • Hoolikas planeerimine: Planeerib mõtlikumalt enne koodi kirjutamist
  • Püsivad agentsed ülesanded: Hoiab konteksti ja kvaliteeti pikemate kodeerimisseansside jooksul
  • Suurte koodibaaside navigeerimine: Töötab usaldusväärsemalt keerukates, mitme failiga projektides
  • Enese parandamine: Paremad koodi ülevaatuse ja silumisoskused enda vigade avastamiseks

Terminal-Bench 2.0 testis, mis hindab reaalseid süsteemiadministreerimise ja kodeerimisülesandeid, saavutab Opus 4.6 kõrgeima tulemuse kõigi mudelite seas.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

VõrdlustestOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

GDPval-AA testis, mis mõõdab jõudlust majanduslikult väärtuslike teadmistööde juures rahanduses, õiguses ja muudes valdkondades, edestab Opus 4.6 GPT-5.2 144 Elo punkti võrra ja oma eelkäijat (Opus 4.5) 190 punkti võrra.

Uued arendajafunktsioonid Claude Opus 4.6-s

Agent Teams Claude Code'is

Nüüd saate kokku panna agentide meeskondi, et töötada ülesannetega koos Claude Code'is. Mitu Claude'i instantsi teevad koostööd koodibaasi erinevate osade kallal samaaegselt, kiirendades keerukaid ümberstruktureerimisi, funktsioonide arendust ja vigade parandamist. Sama agent teams võimekus toidab Claude Code Security't, mis kasutab mitut agenti turvanõrkuste skaneerimiseks, kontrollimiseks ja valideerimiseks.

Compaction pikaajaliste ülesannete jaoks

Claude suudab nüüd oma konteksti pikaajaliste ülesannete ajal kokku võtta. See tähendab, et agentsed kodeerimisseansid saavad kesta palju kauem ilma kontekstiakna piiridesse jõudmata. Keerukate, mitme faili muudatuste puhul, mis hõlmavad sadu tööriistakutseid, hoiab compaction seansi produktiivsena ilma taaskäivitamata.

Kohanduv mõtlemine

Mudel tabab kontekstilisi vihjeid selle kohta, kui palju süvamõtlemist rakendada. Lihtsate küsimuste puhul vastab kiiresti. Keerukate kodeerimisprobleemide puhul mõtleb sügavamalt. Arendajad saavad ka uued jõupingutuse kontrollid hinna, kiiruse ja intelligentsuse tasakaalustamiseks iga päringu kohta.

1M tokeniga kontekstiaken

Nagu Claude Sonnet 4.6, on ka Opus 4.6-l 1M tokeniga kontekstiaken beeta versioonis. See on esmakordne Opus-klassi mudelite puhul, võimaldades töödelda terveid suuri koodibaase ühe päringuga.

Claude Opus 4.6 hind ja saadavus

Opus 4.6 on saadaval claude.ai-s, API-s (claude-opus-4-6), Amazon Bedrockis ja Google Cloud Vertex AI-s hinnaga $5/$25 miljoni tokeni kohta.

Korduma kippuvad küsimused

Millistes võrdlustestides Claude Opus 4.6 juhib?
Claude Opus 4.6 hoiab #1 kohta neljas peamises võrdlustestis: Terminal-Bench 2.0 agentseks kodeerimiseks, Humanity's Last Exam multidistsiplinaarseks mõtlemiseks, BrowseComp info otsimiseks ja GDPval-AA teadmistööks. GDPval-AA testis edestab see GPT-5.2 144 Elo punkti võrra ja oma eelkäijat Opus 4.5 190 punkti võrra. Need tulemused teevad sellest kõrgeima skooriga eesliinimudelid nii kodeerimises kui mõtlemises veebruari 2026 seisuga.
Mis on agent teams Claude Code'is?
Agent teams on uus funktsioon Claude Code'is, mis laseb mitmel Claude'i instantsil koostööd teha ülesannetel paralleelselt. Näiteks üks agent võib refaktoreerida moodulit, teine kirjutada teste ja kolmas uuendada dokumentatsiooni. See paralleelne lähenemine kiirendab keerukaid koodibaasi muudatusi, mis ühel agendil kauem aega võtaks. Agent teams käivitati koos Opus 4.6-ga ja töötab nii Opus kui Sonnet mudelitega.
Mis on compaction Claude Opus 4.6-s?
Compaction on kontekstihalduse funktsioon, mis laseb Claude'il oma vestlusajalugu pikaajaliste agentsete ülesannete ajal kokku võtta. Kui kodeerimisseanss läheneb kontekstiakna piirile, tihendab compaction varasema konteksti kokkuvõtteks, et Claude saaks jätkata tööd ilma ülesande fookust kaotamata. See on eriti kasulik mitme faili ümberstruktureerimise seanssidel, mis hõlmavad sadu tööriistakutseid.
Kui palju Claude Opus 4.6 maksab?
Claude Opus 4.6 maksab $5 miljoni sisendtokeni ja $25 miljoni väljundtokeni kohta, sama hind kui eelmistel Opus mudelitel. See on saadaval claude.ai-s, Anthropic API-s mudeli ID-ga claude-opus-4-6, Amazon Bedrockis ja Google Cloud Vertex AI-s. Võrdluseks: Claude Sonnet 4.6 pakub sarnast kodeerimiskvaliteeti hinnaga $3/$15 miljoni tokeni kohta.

Püsige kursis

Saage värskeimad AI uudised oma postkasti.

Jaga