Code Velocity
DI modeliai

Claude Opus 4.6: #1 kodavimo ir samprotavimo etalonuose

·7 min skaitymo·Anthropic, OpenAI·Originalus šaltinis
Dalintis
Claude Opus 4.6 etalonų palyginimo diagrama, rodanti #1 pozicijas Terminal-Bench 2.0, Humanity's Last Exam ir GDPval-AA

Claude Opus 4.6 etalonų rezultatai

Claude Opus 4.6 yra pajėgiausias Anthropic modelis, nustatantis naujus rekordus kodavime, samprotavime ir žinių darbe. Jis pasiekia aukščiausią balą Terminal-Bench 2.0, pirmaujančiame agentinio kodavimo etalone, ir pirmauja tarp visų ribinių modelių Humanity's Last Exam, daugiadalykio samprotavimo teste.

Kūrėjams, jau naudojantiems Claude Sonnet 4.6 kodavimo užduotims, Opus 4.6 reiškia kitą našumo lygį sudėtingam, daugiažingsniam agentiniam darbui.

Kodavimo našumas: #1 Terminal-Bench 2.0

Opus 4.6 pagerina pirmtako kodavimo įgūdžius kiekviena dimensija:

  • Rūpestingesnis planavimas: Planuoja apgalvočiau prieš rašydamas kodą
  • Ilgalaikės agentinės užduotys: Palaiko kontekstą ir kokybę ilgesnėse kodavimo sesijose
  • Didelių kodo bazių navigacija: Veikia patikimiau sudėtinguose, daugiafailiuose projektuose
  • Savitaisa: Geresni kodo peržiūros ir derinimo įgūdžiai savo klaidoms aptikti

Terminal-Bench 2.0, kuris tikrina realaus pasaulio sistemos administravimo ir kodavimo užduotis, Opus 4.6 pasiekia aukščiausią visų modelių balą.

Claude Opus 4.6 prieš GPT-5.2 prieš Gemini 2.5

EtalonasOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo prieš GPT-5.2)#2#3
BrowseComp#1#2

GDPval-AA, kuris matuoja ekonomiškai vertingo žinių darbo finansuose, teisėje ir kitose srityse našumą, Opus 4.6 aplenkia GPT-5.2 144 Elo taškais ir savo pirmtaką (Opus 4.5) — 190 taškų.

Naujos kūrėjų funkcijos Claude Opus 4.6

Agent Teams Claude Code

Dabar galite suburti agentų komandas bendram darbui Claude Code. Kelios Claude instancijos bendradarbiauja skirtingose kodo bazės dalyse vienu metu, paspartindamos sudėtingą pertvarkymą, funkcijų kūrimą ir klaidų taisymą. Ta pati agent teams galimybė valdo Claude Code Security, kuri naudoja kelis agentus pažeidžiamumų skenavimui, tikrinimui ir patvirtinimui.

Compaction ilgalaikėms užduotims

Claude dabar gali apibendrinti savo kontekstą ilgai vykstančių užduočių metu. Tai reiškia, kad agentinės kodavimo sesijos gali vykti daug ilgiau nepasiekiant konteksto lango ribų. Sudėtingiems daugiafailių pakeitimams, apimančiais šimtus įrankių iškvietimų, compaction palaiko sesijos produktyvumą be paleidimo iš naujo.

Adaptuotas mąstymas

Modelis paima kontekstinius ženklus apie reikiamą mąstymo gilumą. Paprastiems klausimams atsako greitai. Sudėtingoms kodavimo problemoms mąsto giliau. Kūrėjai taip pat gauna naujus pastangų valdiklius balansavimui tarp kainos, greičio ir intelekto kiekvienai užklausai.

1M tokenų konteksto langas

Kaip ir Claude Sonnet 4.6, Opus 4.6 turi 1M tokenų konteksto langą beta versijoje. Tai pirmas kartas Opus klasės modeliams, leidžiantis apdoroti visas dideles kodo bazes viena užklausa.

Claude Opus 4.6 kainos ir prieinamumas

Opus 4.6 prieinamas claude.ai, API (claude-opus-4-6), Amazon Bedrock ir Google Cloud Vertex AI už $5/$25 už milijoną tokenų.

Dažniausiai užduodami klausimai

Kuriuose etalonuose pirmauja Claude Opus 4.6?
Claude Opus 4.6 užima #1 poziciją keturiuose pagrindiniuose etalonuose: Terminal-Bench 2.0 agentiniam kodavimui, Humanity's Last Exam daugiadalykiam samprotavimui, BrowseComp informacijos paieškai ir GDPval-AA žinių darbui. GDPval-AA jis aplenkia GPT-5.2 144 Elo taškais ir savo pirmtaką Opus 4.5 — 190 taškų. Šie rezultatai daro jį aukščiausiai vertinamą ribinį modelį tiek kodavime, tiek samprotavime iki 2026 m. vasario.
Kas yra agent teams Claude Code?
Agent teams yra nauja Claude Code funkcija, leidžianti kelioms Claude instancijoms bendradarbiauti atliekant užduotis lygiagrečiai. Pavyzdžiui, vienas agentas gali pertvarkyti modulį, kol kitas rašo testus, o trečias atnaujina dokumentaciją. Šis lygiagretus požiūris paspartina sudėtingus kodo bazės pakeitimus, kurie vienam agentui užtruktų daug ilgiau. Agent teams buvo paleistos kartu su Opus 4.6 ir veikia su Opus ir Sonnet modeliais.
Kas yra compaction Claude Opus 4.6?
Compaction yra konteksto valdymo funkcija, leidžianti Claude apibendrinti savo pokalbių istoriją ilgai vykstančių agentinių užduočių metu. Kai kodavimo sesija artėja prie konteksto lango ribos, compaction suglaudina ankstesnį kontekstą į santrauką, kad Claude galėtų tęsti darbą neprarasdamas užduoties gijos. Tai ypač naudinga daugiafailėms pertvarkymo sesijoms, apimančioms šimtus įrankių iškvietimų.
Kiek kainuoja Claude Opus 4.6?
Claude Opus 4.6 kainuoja $5 už milijoną įvesties tokenų ir $25 už milijoną išvesties tokenų — tokia pati kaina kaip ankstesnių Opus modelių. Prieinamas claude.ai, Anthropic API su modelio ID claude-opus-4-6, Amazon Bedrock ir Google Cloud Vertex AI. Palyginimui, Claude Sonnet 4.6 siūlo panašią kodavimo kokybę už $3/$15 už milijoną tokenų.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis