Code Velocity
AI modeli

Claude Opus 4.6: #1 u referentnim testovima za programiranje i zaključivanje

·7 min čitanja·Anthropic, OpenAI·Izvorni izvor
Podijeli
Grafikon usporedbe rezultata Claude Opus 4.6 koji prikazuje #1 pozicije na Terminal-Bench 2.0, Humanity's Last Exam i GDPval-AA

Rezultati Claude Opus 4.6 na referentnim testovima

Claude Opus 4.6 je Anthropicov najsposobniji model koji postavlja nove rekorde u programiranju, zaključivanju i zadacima znanja. Postiže najbolji rezultat na Terminal-Bench 2.0, vodećem referentnom testu za agentsko programiranje, i vodi sve granične modele na Humanity's Last Exam, multidisciplinarnom testu zaključivanja.

Za programere koji već koriste Claude Sonnet 4.6 za zadatke programiranja, Opus 4.6 predstavlja sljedeću razinu performansi za složeni, višekoračni agentski rad.

Performanse programiranja: #1 na Terminal-Bench 2.0

Opus 4.6 poboljšava vještine programiranja svog prethodnika u svakoj dimenziji:

  • Pažljivo planiranje: Temeljitije planira prije pisanja koda
  • Održivi agentski zadaci: Održava kontekst i kvalitetu tijekom dužih sesija
  • Navigacija velikim bazama koda: Pouzdanije funkcionira u složenim, višedatotečnim projektima
  • Samokorekcija: Bolje vještine pregleda koda i debuggiranja za otkrivanje vlastitih grešaka

Na Terminal-Bench 2.0, koji testira stvarne zadatke administracije sustava i programiranja, Opus 4.6 postiže najviši rezultat od svih modela.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

Referentni testOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Na GDPval-AA, koji mjeri performanse na ekonomski vrijednim zadacima znanja u financijama, pravu i drugim domenama, Opus 4.6 nadmašuje GPT-5.2 za 144 Elo boda i svog prethodnika (Opus 4.5) za 190 bodova.

Nove značajke za programere u Claude Opus 4.6

Agent Teams u Claude Codeu

Sada možete sastaviti timove agenata za zajednički rad na zadacima unutar Claude Codea. Višestruke instance Claudea surađuju na različitim dijelovima baze koda istovremeno, ubrzavajući složena refaktoriranja, razvoj značajki i ispravljanje grešaka. Ista sposobnost agent teams pokreće Claude Code Security, koji koristi višestruke agente za skeniranje, verifikaciju i validaciju ranjivosti.

Compaction za dugotrajne zadatke

Claude sada može sažeti vlastiti kontekst tijekom dugotrajnih zadataka. Agentske sesije programiranja mogu trajati mnogo duže bez dosezanja granica kontekstualnog prozora. Za složene promjene u više datoteka koje uključuju stotine poziva alata, compaction održava sesiju produktivnom bez ponovnog pokretanja.

Adaptivno razmišljanje

Model prepoznaje kontekstualne znakove o tome koliko proširenog razmišljanja primijeniti. Za jednostavna pitanja odgovara brzo. Za složene probleme programiranja razmišlja dublje. Programeri dobivaju i nove kontrole napora za fino podešavanje omjera cijena/brzina/inteligencija po zahtjevu.

Kontekstualni prozor od 1M tokena

Poput Claude Sonnet 4.6, Opus 4.6 ima kontekstualni prozor od 1M tokena u beta verziji. To je novost za modele Opus klase, omogućujući obradu cijelih velikih baza koda u jednom zahtjevu.

Cijene i dostupnost Claude Opus 4.6

Opus 4.6 dostupan je na claude.ai, API-ju (claude-opus-4-6), Amazon Bedrocku i Google Cloud Vertex AI-ju po $5/$25 po milijun tokena.

Često postavljana pitanja

Na kojim referentnim testovima Claude Opus 4.6 vodi?
Claude Opus 4.6 drži poziciju #1 na četiri glavna referentna testa: Terminal-Bench 2.0 za agentsko programiranje, Humanity's Last Exam za multidisciplinarno zaključivanje, BrowseComp za pronalaženje informacija i GDPval-AA za zadatke znanja. Na GDPval-AA nadmašuje GPT-5.2 za 144 Elo boda i svog prethodnika Opus 4.5 za 190 bodova. Ovi rezultati čine ga najjačim graničnim modelom u programiranju i zaključivanju od veljače 2026.
Što su agent teams u Claude Codeu?
Agent teams nova je značajka u Claude Codeu koja omogućuje višestrukim instancama Claudea suradnju na zadacima paralelno. Primjerice, jedan agent može refaktorirati modul dok drugi piše testove, a treći ažurira dokumentaciju. Ovaj paralelni pristup ubrzava složene promjene baze koda koje bi jednom agentu trebale mnogo duže. Agent teams lansirani su zajedno s Opus 4.6 i rade s modelima Opus i Sonnet.
Što je compaction u Claude Opus 4.6?
Compaction je značajka upravljanja kontekstom koja omogućuje Claudeu sažimanje vlastite povijesti razgovora tijekom dugotrajnih agentskih zadataka. Kad sesija programiranja dosegne granicu kontekstualnog prozora, compaction kondenzira raniji kontekst u sažetak kako bi Claude mogao nastaviti raditi bez gubljenja niti zadatka. Ovo je posebno korisno za sesije refaktoriranja u više datoteka koje uključuju stotine poziva alata.
Koliko košta Claude Opus 4.6?
Claude Opus 4.6 košta $5 po milijun ulaznih tokena i $25 po milijun izlaznih tokena, ista cijena kao prethodni Opus modeli. Dostupan je na claude.ai, Anthropic API-ju s model ID-jem claude-opus-4-6, Amazon Bedrocku i Google Cloud Vertex AI-ju. Za usporedbu, Claude Sonnet 4.6 nudi sličnu kvalitetu programiranja po $3/$15 po milijun tokena.

Budite u toku

Primajte najnovije AI vijesti na e-mail.

Podijeli