Claude Opus 4.6 etalonų rezultatai
Claude Opus 4.6 yra pajėgiausias Anthropic modelis, nustatantis naujus rekordus kodavime, samprotavime ir žinių darbe. Jis pasiekia aukščiausią balą Terminal-Bench 2.0, pirmaujančiame agentinio kodavimo etalone, ir pirmauja tarp visų ribinių modelių Humanity's Last Exam, daugiadalykio samprotavimo teste.
Kūrėjams, jau naudojantiems Claude Sonnet 4.6 kodavimo užduotims, Opus 4.6 reiškia kitą našumo lygį sudėtingam, daugiažingsniam agentiniam darbui.
Kodavimo našumas: #1 Terminal-Bench 2.0
Opus 4.6 pagerina pirmtako kodavimo įgūdžius kiekviena dimensija:
- Rūpestingesnis planavimas: Planuoja apgalvočiau prieš rašydamas kodą
- Ilgalaikės agentinės užduotys: Palaiko kontekstą ir kokybę ilgesnėse kodavimo sesijose
- Didelių kodo bazių navigacija: Veikia patikimiau sudėtinguose, daugiafailiuose projektuose
- Savitaisa: Geresni kodo peržiūros ir derinimo įgūdžiai savo klaidoms aptikti
Terminal-Bench 2.0, kuris tikrina realaus pasaulio sistemos administravimo ir kodavimo užduotis, Opus 4.6 pasiekia aukščiausią visų modelių balą.
Claude Opus 4.6 prieš GPT-5.2 prieš Gemini 2.5
| Etalonas | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo prieš GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
GDPval-AA, kuris matuoja ekonomiškai vertingo žinių darbo finansuose, teisėje ir kitose srityse našumą, Opus 4.6 aplenkia GPT-5.2 144 Elo taškais ir savo pirmtaką (Opus 4.5) — 190 taškų.
Naujos kūrėjų funkcijos Claude Opus 4.6
Agent Teams Claude Code
Dabar galite suburti agentų komandas bendram darbui Claude Code. Kelios Claude instancijos bendradarbiauja skirtingose kodo bazės dalyse vienu metu, paspartindamos sudėtingą pertvarkymą, funkcijų kūrimą ir klaidų taisymą. Ta pati agent teams galimybė valdo Claude Code Security, kuri naudoja kelis agentus pažeidžiamumų skenavimui, tikrinimui ir patvirtinimui.
Compaction ilgalaikėms užduotims
Claude dabar gali apibendrinti savo kontekstą ilgai vykstančių užduočių metu. Tai reiškia, kad agentinės kodavimo sesijos gali vykti daug ilgiau nepasiekiant konteksto lango ribų. Sudėtingiems daugiafailių pakeitimams, apimančiais šimtus įrankių iškvietimų, compaction palaiko sesijos produktyvumą be paleidimo iš naujo.
Adaptuotas mąstymas
Modelis paima kontekstinius ženklus apie reikiamą mąstymo gilumą. Paprastiems klausimams atsako greitai. Sudėtingoms kodavimo problemoms mąsto giliau. Kūrėjai taip pat gauna naujus pastangų valdiklius balansavimui tarp kainos, greičio ir intelekto kiekvienai užklausai.
1M tokenų konteksto langas
Kaip ir Claude Sonnet 4.6, Opus 4.6 turi 1M tokenų konteksto langą beta versijoje. Tai pirmas kartas Opus klasės modeliams, leidžiantis apdoroti visas dideles kodo bazes viena užklausa.
Claude Opus 4.6 kainos ir prieinamumas
Opus 4.6 prieinamas claude.ai, API (claude-opus-4-6), Amazon Bedrock ir Google Cloud Vertex AI už $5/$25 už milijoną tokenų.
Originalus šaltinis
https://www.anthropic.com/news/claude-opus-4-6Dažniausiai užduodami klausimai
Kuriuose etalonuose pirmauja Claude Opus 4.6?
Kas yra agent teams Claude Code?
Kas yra compaction Claude Opus 4.6?
Kiek kainuoja Claude Opus 4.6?
Būkite informuoti
Gaukite naujausias AI naujienas el. paštu.
