Code Velocity
Modelet e IA-së

Claude Opus 4.6: #1 në Benchmark-et e Kodimit dhe Arsyetimit

·7 min lexim·Anthropic, OpenAI·Burimi origjinal
Ndaj
Grafiku krahasues i benchmark-eve të Claude Opus 4.6 që tregon renditjet #1 në Terminal-Bench 2.0, Humanity's Last Exam dhe GDPval-AA

Rezultatet e Benchmark-eve të Claude Opus 4.6

Claude Opus 4.6 është modeli më i aftë i Anthropic, duke vendosur rekorde të reja në kodim, arsyetim dhe punë me njohuri. Arrin rezultatin më të lartë në Terminal-Bench 2.0, benchmark-un udhëheqës për kodim agentik, dhe udhëheq të gjitha modelet e frontierës në Humanity's Last Exam, një test arsyetimi multidisiplinar.

Për zhvilluesit që tashmë përdorin Claude Sonnet 4.6 për detyra kodimi, Opus 4.6 përfaqëson nivelin tjetër të performancës për punë agentike komplekse me shumë hapa.

Performanca në Kodim: #1 në Terminal-Bench 2.0

Opus 4.6 përmirëson aftësitë e kodimit të paraardhësit të tij në çdo dimension:

  • Planifikim i kujdesshëm: Planifikon më me kujdes para se të shkruajë kod
  • Detyra agentike të qëndrueshme: Ruan kontekstin dhe cilësinë gjatë sesioneve më të gjata
  • Lundrim në codebase të mëdha: Operon me më shumë besueshmëri në projekte komplekse me shumë skedarë
  • Vetëkorrigjim: Aftësi më të mira rishikimi dhe debugging për të kapur gabimet e veta

Në Terminal-Bench 2.0, i cili teston detyra reale administrimi sistemesh dhe kodimi, Opus 4.6 arrin rezultatin më të lartë të çdo modeli.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Në GDPval-AA, i cili mat performancën në detyra ekonomikisht të vlefshme në financa, juridik dhe fusha të tjera, Opus 4.6 tejkalon GPT-5.2 me 144 pikë Elo dhe paraardhësin e vet (Opus 4.5) me 190 pikë.

Veçori të Reja për Zhvilluesit në Claude Opus 4.6

Agent Teams në Claude Code

Tani mund të montoni ekipe agjentësh për të punuar në detyra së bashku në Claude Code. Instanca të shumta të Claude-it bashkëpunojnë në pjesë të ndryshme të një codebase-i njëkohësisht, duke përshpejtuar rifaktorimet komplekse, zhvillimin e veçorive dhe riparimin e gabimeve. E njëjta aftësi agent teams drejton Claude Code Security, i cili përdor agjentë të shumtë për të skanuar, verifikuar dhe vlerësuar dobësi.

Compaction për Detyra Afatgjata

Claude tani mund të përmbledhë kontekstin e vet gjatë detyrave afatgjata. Kjo do të thotë se sesionet agentike të kodimit mund të ekzekutohen shumë më gjatë pa arritur limitet e dritares së kontekstit. Për ndryshime komplekse në shumë skedarë që përfshijnë qindra thirrje mjetesh, compaction e mban sesionin produktiv pa rinisje.

Mendim Adaptiv

Modeli kap shenja kontekstuale mbi sasinë e mendimit të zgjeruar që duhet zbatuar. Për pyetje të thjeshta, përgjigjet shpejt. Për probleme komplekse kodimi, mendon më thellë. Zhvilluesit gjithashtu përfitojnë kontrolle të reja përpjekjeje për të balancuar koston, shpejtësinë dhe inteligjencën për çdo kërkesë.

Dritarja e Kontekstit 1M Tokena

Ashtu si Claude Sonnet 4.6, Opus 4.6 ka një dritare konteksti 1M tokena në beta. Kjo është një e parë për modelet e klasës Opus, duke mundësuar përpunimin e codebase-ve të tëra në një kërkesë të vetme.

Çmimet dhe Disponueshmëria e Claude Opus 4.6

Opus 4.6 është i disponueshëm në claude.ai, API-në (claude-opus-4-6), Amazon Bedrock dhe Google Cloud Vertex AI me $5/$25 për milion tokena.

Pyetjet e bëra shpesh

Në cilat benchmark-e udhëheq Claude Opus 4.6?
Claude Opus 4.6 mban pozicionin #1 në katër benchmark-e kryesore: Terminal-Bench 2.0 për kodim agentik, Humanity's Last Exam për arsyetim multidisiplinar, BrowseComp për rikthim informacioni dhe GDPval-AA për punë me njohuri. Në GDPval-AA, tejkalon GPT-5.2 me 144 pikë Elo dhe paraardhësin e tij Opus 4.5 me 190 pikë. Këto rezultate e bëjnë modelin e frontierës me pikët më të larta në kodim dhe arsyetim deri në shkurt 2026.
Çfarë janë agent teams në Claude Code?
Agent teams është një veçori e re në Claude Code që lejon instanca të shumta të Claude-it të bashkëpunojnë në detyra paralelisht. Për shembull, një agjent mund të rifaktorojë një modul ndërsa një tjetër shkruan teste dhe i treti përditëson dokumentacionin. Kjo qasje paralele përshpejton ndryshimet komplekse të codebase-it që do t'i merrnin një agjenti të vetëm shumë më gjatë. Agent teams u lançuan së bashku me Opus 4.6 dhe punojnë me modelet Opus dhe Sonnet.
Çfarë është compaction në Claude Opus 4.6?
Compaction është një veçori menaxhimi konteksti që i lejon Claude-it të përmbledhë historikun e vet të bisedës gjatë detyrave agentike afatgjata. Kur një sesion kodimi i afrohet limitit të dritares së kontekstit, compaction kondenzon kontekstin e mëparshëm në një përmbledhje në mënyrë që Claude të vazhdojë punën pa humbur gjurmën e detyrës. Kjo është veçanërisht e dobishme për sesione rifaktorimi me shumë skedarë që përfshijnë qindra thirrje mjetesh.
Sa kushton Claude Opus 4.6?
Claude Opus 4.6 kushton $5 për milion tokena hyrje dhe $25 për milion tokena dalje, i njëjti çmim si modelet e mëparshme Opus. Është i disponueshëm në claude.ai, API-në e Anthropic me model ID claude-opus-4-6, Amazon Bedrock dhe Google Cloud Vertex AI. Për krahasim, Claude Sonnet 4.6 ofron cilësi të ngjashme kodimi me $3/$15 për milion tokena.

Qëndroni të përditësuar

Merrni lajmet më të fundit të AI në email.

Ndaj