Matokeo ya Vipimo vya Claude Opus 4.6
Claude Opus 4.6 ni modeli yenye uwezo zaidi ya Anthropic, ikiweka rekodi mpya katika coding, kufikiri, na kazi za maarifa. Inapata alama ya juu zaidi kwenye Terminal-Bench 2.0, kipimo kinachoongoza kwa agentic coding, na inaongoza modeli zote za mbele kwenye Humanity's Last Exam, jaribio la kufikiri kwa taaluma nyingi.
Kwa watengenezaji wanaotumia tayari Claude Sonnet 4.6 kwa kazi za coding, Opus 4.6 inawakilisha ngazi inayofuata ya utendaji kwa kazi changamani za agentic zenye hatua nyingi.
Utendaji wa Coding: #1 kwenye Terminal-Bench 2.0
Opus 4.6 inaboresha ujuzi wa coding wa mtangulizi wake katika kila kipimo:
- Upangaji wa makini: Inapanga kwa makini zaidi kabla ya kuandika msimbo
- Kazi za agentic endelevu: Inadumisha muktadha na ubora katika vikao virefu vya coding
- Kuvinjari msingi mkubwa wa msimbo: Inafanya kazi kwa uhakika zaidi katika miradi changamani ya faili nyingi
- Kujisahihisha: Ujuzi bora wa mapitio ya msimbo na utatuzi ili kukamata makosa yake yenyewe
Kwenye Terminal-Bench 2.0, inayojaribu kazi halisi za usimamizi wa mfumo na coding, Opus 4.6 inapata alama ya juu zaidi ya modeli yoyote.
Claude Opus 4.6 dhidi ya GPT-5.2 dhidi ya Gemini 2.5
| Kipimo | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo dhidi ya GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Kwenye GDPval-AA, inayopima utendaji katika kazi za maarifa zenye thamani kiuchumi katika fedha, sheria, na nyanja nyingine, Opus 4.6 inazidi GPT-5.2 kwa pointi 144 za Elo na mtangulizi wake (Opus 4.5) kwa pointi 190.
Vipengele Vipya kwa Watengenezaji katika Claude Opus 4.6
Agent Teams katika Claude Code
Sasa unaweza kukusanya timu za mawakala kufanya kazi pamoja kwenye kazi ndani ya Claude Code. Mifano mingi ya Claude inashirikiana kwenye sehemu tofauti za msingi wa msimbo kwa wakati mmoja, ikiharakisha urekebishaji changamani, uendelezaji wa vipengele, na urekebishaji wa hitilafu. Uwezo huo huo wa agent teams unaendesha Claude Code Security, inayotumia mawakala wengi kukagua, kuthibitisha, na kuidhinisha udhaifu.
Compaction kwa Kazi za Muda Mrefu
Claude sasa inaweza kufanya muhtasari wa muktadha wake wakati wa kazi za muda mrefu. Hii inamaanisha vikao vya agentic coding vinaweza kuendelea kwa muda mrefu zaidi bila kufikia vikomo vya dirisha la muktadha. Kwa mabadiliko changamani ya faili nyingi yanayohusisha mamia ya wito wa zana, compaction inaendelea kufanya kikao kuwa na tija bila kuanzisha upya.
Kufikiri kwa Kubadilika
Modeli inatambua vidokezo vya muktadha kuhusu kiwango cha kufikiri kwa kina kinachohitajika. Kwa maswali rahisi, inajibu haraka. Kwa matatizo changamani ya coding, inafikiri kwa kina zaidi. Watengenezaji pia wanapata vidhibiti vipya vya juhudi ili kusawazisha gharama, kasi, na akili kwa kila ombi.
Dirisha la Muktadha la Tokeni 1M
Kama Claude Sonnet 4.6, Opus 4.6 ina dirisha la muktadha la tokeni 1M katika beta. Hii ni ya kwanza kwa modeli za daraja la Opus, ikihruhusu kuchakata msingi mzima mkubwa wa msimbo katika ombi moja.
Bei na Upatikanaji wa Claude Opus 4.6
Opus 4.6 inapatikana kwenye claude.ai, API (claude-opus-4-6), Amazon Bedrock, na Google Cloud Vertex AI kwa $5/$25 kwa tokeni milioni moja.
Chanzo asili
https://www.anthropic.com/news/claude-opus-4-6Maswali Yanayoulizwa Mara kwa Mara
Claude Opus 4.6 inaongoza vipimo gani?
Agent teams katika Claude Code ni nini?
Compaction katika Claude Opus 4.6 ni nini?
Claude Opus 4.6 inagharimu kiasi gani?
Baki na Habari
Pokea habari za hivi karibuni za AI kwenye barua pepe yako.
