Резултати перформанси Claude Opus 4.6
Claude Opus 4.6 је најспособнији модел Anthropic-а, постављајући нове рекорде у кодирању, закључивању и раду са знањем. Постиже највиши резултат на Terminal-Bench 2.0, водећем тесту за агентно кодирање, и води све моделе на Humanity's Last Exam, тесту мултидисциплинарног закључивања.
За програмере који већ користе Claude Sonnet 4.6 за задатке кодирања, Opus 4.6 представља следећи ниво перформанси за сложен, вишекорачни агентни рад.
Перформансе кодирања: #1 на Terminal-Bench 2.0
Opus 4.6 побољшава вештине кодирања свог претходника у свим димензијама:
- Пажљиво планирање: Промишљеније планира пре писања кода
- Трајни агентни задаци: Одржава контекст и квалитет током дужих сесија кодирања
- Навигација великим кодним базама: Поузданије ради у сложеним пројектима са више датотека
- Самоисправљање: Боље вештине прегледа и дебаговања кода за хватање сопствених грешака
На Terminal-Bench 2.0, који тестира реалне задатке системске администрације и кодирања, Opus 4.6 постиже највиши резултат било ког модела.
Claude Opus 4.6 против GPT-5.2 против Gemini 2.5
| Тест | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo против GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
На GDPval-AA, који мери перформансе у економски вредним задацима знања у финансијама, праву и другим доменима, Opus 4.6 надмашује GPT-5.2 за 144 Elo поена и свог претходника (Opus 4.5) за 190 поена.
Нове функције за програмере у Claude Opus 4.6
Тимови агената у Claude Code
Сада можете саставити тимове агената да заједно раде на задацима у Claude Code. Више инстанци Claude-а сарађује на различитим деловима кодне базе истовремено, убрзавајући сложене рефакторизације, развој функционалности и исправљање грешака. Иста способност тимова агената покреће Claude Code Security, који користи више агената за скенирање, верификацију и валидацију рањивости.
Компресија за дуготрајне задатке
Claude сада може сажимати сопствени контекст током дуготрајних задатака. Агентне сесије кодирања могу трајати много дуже без достизања ограничења контекстног прозора. За сложене промене у више датотека које укључују стотине позива алата, компресија одржава продуктивност сесије без поновног покретања.
Адаптивно размишљање
Модел препознаје контекстуалне сигнале о томе колико продуженог размишљања да примени. За једноставна питања одговара брзо. За сложене проблеме кодирања размишља дубље. Програмери такође добијају нове контроле напора за финоподешавање односа цене, брзине и интелигенције по захтеву.
Контекстни прозор од 1M токена
Као и Claude Sonnet 4.6, Opus 4.6 има контекстни прозор од 1M токена у бета верзији. Ово је прво за моделе Opus класе, омогућавајући обраду целих великих кодних база у једном захтеву.
Цена и доступност Claude Opus 4.6
Opus 4.6 је доступан на claude.ai, преко АПИ-ја (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI по цени од $5/$25 по милиону токена.
Originalni izvor
https://www.anthropic.com/news/claude-opus-4-6Često postavljana pitanja
На којим тестовима Claude Opus 4.6 води?
Шта су тимови агената у Claude Code?
Шта је компресија у Claude Opus 4.6?
Колико кошта Claude Opus 4.6?
Будите у току
Примајте најновије AI вести на имејл.
