Claude Opus 4.6 etalontesta rezultāti
Claude Opus 4.6 ir Anthropic spējīgākais modelis, kas uzstāda jaunus rekordus kodēšanā, domāšanā un zināšanu darbā. Tas sasniedz augstāko rezultātu Terminal-Bench 2.0 — vadošajā agenturālās kodēšanas etalontestā — un vada visus priekšējās līnijas modeļus Humanity's Last Exam multidisciplinārajā domāšanas testā.
Izstrādātājiem, kas jau izmanto Claude Sonnet 4.6 kodēšanas uzdevumiem, Opus 4.6 ir nākamais veiktspējas līmenis sarežģītam, daudzsoļu agenturālam darbam.
Kodēšanas veiktspēja: #1 Terminal-Bench 2.0
Opus 4.6 uzlabo sava priekšteča kodēšanas prasmes katrā dimensijā:
- Rūpīga plānošana: Plāno pārdomātāk pirms koda rakstīšanas
- Ilgstošie agenturālie uzdevumi: Uztur kontekstu un kvalitāti garākās kodēšanas sesijās
- Lielu kodu bāžu navigācija: Darbojas uzticamāk sarežģītos, daudzfailu projektos
- Pašlabošana: Labākas koda pārskatīšanas un atkļūdošanas prasmes savu kļūdu atklāšanai
Terminal-Bench 2.0, kas testē reālus sistēmas administrēšanas un kodēšanas uzdevumus, Opus 4.6 sasniedz augstāko rezultātu starp visiem modeļiem.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Etalontests | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
GDPval-AA, kas mēra veiktspēju ekonomiski vērtīgos zināšanu darbos finanšu, juridiskajā un citās jomās, Opus 4.6 pārspēj GPT-5.2 par 144 Elo punktiem un savu priekšteci (Opus 4.5) par 190 punktiem.
Jaunas izstrādātāju funkcijas Claude Opus 4.6
Agent Teams Claude Code
Tagad varat sapulcēt aģentu komandas darbam pie uzdevumiem kopā Claude Code ietvaros. Vairākas Claude instances sadarbojas pie dažādām kodu bāzes daļām vienlaikus, paātrinot sarežģītas pārstrukturēšanas, funkciju izstrādi un kļūdu labošanu. Tā pati agent teams spēja darbina Claude Code Security, kas izmanto vairākus aģentus ievainojamību skenēšanai, pārbaudei un validācijai.
Compaction ilgstošiem uzdevumiem
Claude tagad var apkopot savu kontekstu ilgstošu uzdevumu laikā. Tas nozīmē, ka agenturālās kodēšanas sesijas var ilgt daudz ilgāk, nesasniedzot konteksta loga robežas. Sarežģītām, daudzfailu izmaiņām, kas ietver simtiem rīku izsaukumu, compaction uztur sesiju produktīvu bez restartēšanas.
Adaptīvā domāšana
Modelis uztver kontekstuālās norādes par to, cik daudz padziļinātas domāšanas piemērot. Vienkāršiem jautājumiem tas atbild ātri. Sarežģītām kodēšanas problēmām tas domā dziļāk. Izstrādātāji iegūst arī jaunas piepūles vadīklas, lai līdzsvarotu izmaksas, ātrumu un intelektu katram pieprasījumam.
1M tokenu konteksta logs
Tāpat kā Claude Sonnet 4.6, Opus 4.6 piedāvā 1M tokenu konteksta logu beta versijā. Tā ir pirmā reize Opus klases modeļiem, kas ļauj apstrādāt veselas lielas kodu bāzes vienā pieprasījumā.
Claude Opus 4.6 cena un pieejamība
Opus 4.6 ir pieejams claude.ai, API (claude-opus-4-6), Amazon Bedrock un Google Cloud Vertex AI par $5/$25 par miljonu tokenu.
Sākotnējais avots
https://www.anthropic.com/news/claude-opus-4-6Bieži uzdotie jautājumi
Kuros etalontestos Claude Opus 4.6 ir vadībā?
Kas ir agent teams Claude Code?
Kas ir compaction Claude Opus 4.6?
Cik maksā Claude Opus 4.6?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
