Code Velocity
Modeli za AI

Claude Opus 4.6: #1 katika Vipimo vya Coding na Kufikiri

·7 dakika kusoma·Anthropic, OpenAI·Chanzo asili
Shiriki
Chati ya kulinganisha vipimo vya Claude Opus 4.6 inayoonyesha nafasi za #1 kwenye Terminal-Bench 2.0, Humanity's Last Exam, na GDPval-AA

Matokeo ya Vipimo vya Claude Opus 4.6

Claude Opus 4.6 ni modeli yenye uwezo zaidi ya Anthropic, ikiweka rekodi mpya katika coding, kufikiri, na kazi za maarifa. Inapata alama ya juu zaidi kwenye Terminal-Bench 2.0, kipimo kinachoongoza kwa agentic coding, na inaongoza modeli zote za mbele kwenye Humanity's Last Exam, jaribio la kufikiri kwa taaluma nyingi.

Kwa watengenezaji wanaotumia tayari Claude Sonnet 4.6 kwa kazi za coding, Opus 4.6 inawakilisha ngazi inayofuata ya utendaji kwa kazi changamani za agentic zenye hatua nyingi.

Utendaji wa Coding: #1 kwenye Terminal-Bench 2.0

Opus 4.6 inaboresha ujuzi wa coding wa mtangulizi wake katika kila kipimo:

  • Upangaji wa makini: Inapanga kwa makini zaidi kabla ya kuandika msimbo
  • Kazi za agentic endelevu: Inadumisha muktadha na ubora katika vikao virefu vya coding
  • Kuvinjari msingi mkubwa wa msimbo: Inafanya kazi kwa uhakika zaidi katika miradi changamani ya faili nyingi
  • Kujisahihisha: Ujuzi bora wa mapitio ya msimbo na utatuzi ili kukamata makosa yake yenyewe

Kwenye Terminal-Bench 2.0, inayojaribu kazi halisi za usimamizi wa mfumo na coding, Opus 4.6 inapata alama ya juu zaidi ya modeli yoyote.

Claude Opus 4.6 dhidi ya GPT-5.2 dhidi ya Gemini 2.5

KipimoOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo dhidi ya GPT-5.2)#2#3
BrowseComp#1#2

Kwenye GDPval-AA, inayopima utendaji katika kazi za maarifa zenye thamani kiuchumi katika fedha, sheria, na nyanja nyingine, Opus 4.6 inazidi GPT-5.2 kwa pointi 144 za Elo na mtangulizi wake (Opus 4.5) kwa pointi 190.

Vipengele Vipya kwa Watengenezaji katika Claude Opus 4.6

Agent Teams katika Claude Code

Sasa unaweza kukusanya timu za mawakala kufanya kazi pamoja kwenye kazi ndani ya Claude Code. Mifano mingi ya Claude inashirikiana kwenye sehemu tofauti za msingi wa msimbo kwa wakati mmoja, ikiharakisha urekebishaji changamani, uendelezaji wa vipengele, na urekebishaji wa hitilafu. Uwezo huo huo wa agent teams unaendesha Claude Code Security, inayotumia mawakala wengi kukagua, kuthibitisha, na kuidhinisha udhaifu.

Compaction kwa Kazi za Muda Mrefu

Claude sasa inaweza kufanya muhtasari wa muktadha wake wakati wa kazi za muda mrefu. Hii inamaanisha vikao vya agentic coding vinaweza kuendelea kwa muda mrefu zaidi bila kufikia vikomo vya dirisha la muktadha. Kwa mabadiliko changamani ya faili nyingi yanayohusisha mamia ya wito wa zana, compaction inaendelea kufanya kikao kuwa na tija bila kuanzisha upya.

Kufikiri kwa Kubadilika

Modeli inatambua vidokezo vya muktadha kuhusu kiwango cha kufikiri kwa kina kinachohitajika. Kwa maswali rahisi, inajibu haraka. Kwa matatizo changamani ya coding, inafikiri kwa kina zaidi. Watengenezaji pia wanapata vidhibiti vipya vya juhudi ili kusawazisha gharama, kasi, na akili kwa kila ombi.

Dirisha la Muktadha la Tokeni 1M

Kama Claude Sonnet 4.6, Opus 4.6 ina dirisha la muktadha la tokeni 1M katika beta. Hii ni ya kwanza kwa modeli za daraja la Opus, ikihruhusu kuchakata msingi mzima mkubwa wa msimbo katika ombi moja.

Bei na Upatikanaji wa Claude Opus 4.6

Opus 4.6 inapatikana kwenye claude.ai, API (claude-opus-4-6), Amazon Bedrock, na Google Cloud Vertex AI kwa $5/$25 kwa tokeni milioni moja.

Maswali Yanayoulizwa Mara kwa Mara

Claude Opus 4.6 inaongoza vipimo gani?
Claude Opus 4.6 inashikilia nafasi ya #1 kwenye vipimo vinne vikuu: Terminal-Bench 2.0 kwa agentic coding, Humanity's Last Exam kwa kufikiri kwa taaluma nyingi, BrowseComp kwa urejeshaji wa taarifa, na GDPval-AA kwa kazi za maarifa. Kwenye GDPval-AA, inazidi GPT-5.2 kwa pointi 144 za Elo na mtangulizi wake Opus 4.5 kwa pointi 190. Matokeo haya yanafanya kuwa modeli ya mbele yenye alama ya juu zaidi katika coding na kufikiri hadi Februari 2026.
Agent teams katika Claude Code ni nini?
Agent teams ni kipengele kipya katika Claude Code kinachoruhusu mifano mingi ya Claude kushirikiana kwenye kazi kwa wakati mmoja. Kwa mfano, wakala mmoja anaweza kurekebisha moduli wakati mwingine anaandika majaribio na wa tatu anasasisha nyaraka. Mbinu hii ya sambamba inaharakisha mabadiliko changamani ambayo yangemchukua wakala mmoja muda mrefu zaidi. Agent teams zilizinduliwa pamoja na Opus 4.6 na zinafanya kazi na modeli za Opus na Sonnet.
Compaction katika Claude Opus 4.6 ni nini?
Compaction ni kipengele cha usimamizi wa muktadha kinachoruhusu Claude kufanya muhtasari wa historia yake ya mazungumzo wakati wa kazi za muda mrefu za agentic. Wakati kikao cha coding kinakaribia kikomo cha dirisha la muktadha, compaction inabana muktadha wa awali kuwa muhtasari ili Claude iweze kuendelea kufanya kazi bila kupoteza mwelekeo. Hii ni muhimu sana kwa vikao vya kurekebisha faili nyingi vinavyohusisha mamia ya wito wa zana.
Claude Opus 4.6 inagharimu kiasi gani?
Claude Opus 4.6 inagharimu $5 kwa tokeni milioni moja za kuingiza na $25 kwa tokeni milioni moja za kutoa, bei sawa na modeli za Opus zilizotangulia. Inapatikana kwenye claude.ai, API ya Anthropic yenye kitambulisho cha modeli claude-opus-4-6, Amazon Bedrock, na Google Cloud Vertex AI. Kwa kulinganisha, Claude Sonnet 4.6 inatoa ubora sawa wa coding kwa $3/$15 kwa tokeni milioni moja.

Baki na Habari

Pokea habari za hivi karibuni za AI kwenye barua pepe yako.

Shiriki