Rezultati Claude Opus 4.6 na referentnim testovima
Claude Opus 4.6 je Anthropicov najsposobniji model koji postavlja nove rekorde u programiranju, zaključivanju i zadacima znanja. Postiže najbolji rezultat na Terminal-Bench 2.0, vodećem referentnom testu za agentsko programiranje, i vodi sve granične modele na Humanity's Last Exam, multidisciplinarnom testu zaključivanja.
Za programere koji već koriste Claude Sonnet 4.6 za zadatke programiranja, Opus 4.6 predstavlja sljedeću razinu performansi za složeni, višekoračni agentski rad.
Performanse programiranja: #1 na Terminal-Bench 2.0
Opus 4.6 poboljšava vještine programiranja svog prethodnika u svakoj dimenziji:
- Pažljivo planiranje: Temeljitije planira prije pisanja koda
- Održivi agentski zadaci: Održava kontekst i kvalitetu tijekom dužih sesija
- Navigacija velikim bazama koda: Pouzdanije funkcionira u složenim, višedatotečnim projektima
- Samokorekcija: Bolje vještine pregleda koda i debuggiranja za otkrivanje vlastitih grešaka
Na Terminal-Bench 2.0, koji testira stvarne zadatke administracije sustava i programiranja, Opus 4.6 postiže najviši rezultat od svih modela.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Referentni test | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Na GDPval-AA, koji mjeri performanse na ekonomski vrijednim zadacima znanja u financijama, pravu i drugim domenama, Opus 4.6 nadmašuje GPT-5.2 za 144 Elo boda i svog prethodnika (Opus 4.5) za 190 bodova.
Nove značajke za programere u Claude Opus 4.6
Agent Teams u Claude Codeu
Sada možete sastaviti timove agenata za zajednički rad na zadacima unutar Claude Codea. Višestruke instance Claudea surađuju na različitim dijelovima baze koda istovremeno, ubrzavajući složena refaktoriranja, razvoj značajki i ispravljanje grešaka. Ista sposobnost agent teams pokreće Claude Code Security, koji koristi višestruke agente za skeniranje, verifikaciju i validaciju ranjivosti.
Compaction za dugotrajne zadatke
Claude sada može sažeti vlastiti kontekst tijekom dugotrajnih zadataka. Agentske sesije programiranja mogu trajati mnogo duže bez dosezanja granica kontekstualnog prozora. Za složene promjene u više datoteka koje uključuju stotine poziva alata, compaction održava sesiju produktivnom bez ponovnog pokretanja.
Adaptivno razmišljanje
Model prepoznaje kontekstualne znakove o tome koliko proširenog razmišljanja primijeniti. Za jednostavna pitanja odgovara brzo. Za složene probleme programiranja razmišlja dublje. Programeri dobivaju i nove kontrole napora za fino podešavanje omjera cijena/brzina/inteligencija po zahtjevu.
Kontekstualni prozor od 1M tokena
Poput Claude Sonnet 4.6, Opus 4.6 ima kontekstualni prozor od 1M tokena u beta verziji. To je novost za modele Opus klase, omogućujući obradu cijelih velikih baza koda u jednom zahtjevu.
Cijene i dostupnost Claude Opus 4.6
Opus 4.6 dostupan je na claude.ai, API-ju (claude-opus-4-6), Amazon Bedrocku i Google Cloud Vertex AI-ju po $5/$25 po milijun tokena.
Izvorni izvor
https://www.anthropic.com/news/claude-opus-4-6Često postavljana pitanja
Na kojim referentnim testovima Claude Opus 4.6 vodi?
Što su agent teams u Claude Codeu?
Što je compaction u Claude Opus 4.6?
Koliko košta Claude Opus 4.6?
Budite u toku
Primajte najnovije AI vijesti na e-mail.
