Результати бенчмарків Claude Opus 4.6
Claude Opus 4.6 — найпотужніша модель Anthropic, яка встановлює нові рекорди в кодуванні, міркуванні та інтелектуальній роботі. Вона досягає найвищого результату на Terminal-Bench 2.0, провідному бенчмарку агентного кодування, та лідирує серед усіх фронтирних моделей на Humanity's Last Exam — мультидисциплінарному тесті міркування.
Для розробників, які вже використовують Claude Sonnet 4.6 для завдань кодування, Opus 4.6 представляє наступний рівень продуктивності для складної, багатокрокової агентної роботи.
Продуктивність кодування: #1 на Terminal-Bench 2.0
Opus 4.6 покращує навички кодування свого попередника в усіх аспектах:
- Ретельне планування: Більш продуманий підхід перед написанням коду
- Тривалі агентні завдання: Підтримка контексту та якості під час довших сеансів кодування
- Навігація великими кодовими базами: Більш надійна робота у складних, багатофайлових проєктах
- Самокорекція: Покращені навички перевірки коду та відлагодження для виявлення власних помилок
На Terminal-Bench 2.0, який тестує реальні завдання системного адміністрування та кодування, Opus 4.6 досягає найвищого результату серед усіх моделей.
Claude Opus 4.6 проти GPT-5.2 проти Gemini 2.5
| Бенчмарк | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo проти GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
На GDPval-AA, який вимірює продуктивність в економічно цінних інтелектуальних завданнях у фінансах, юриспруденції та інших сферах, Opus 4.6 перевершує GPT-5.2 на 144 бали Elo та свого попередника (Opus 4.5) на 190 балів.
Нові функції для розробників у Claude Opus 4.6
Agent Teams у Claude Code
Тепер ви можете збирати команди агентів для спільної роботи над завданнями в Claude Code. Кілька екземплярів Claude працюють над різними частинами кодової бази одночасно, прискорюючи складні рефакторинги, розробку функцій та виправлення помилок. Та ж функція agent teams лежить в основі Claude Code Security, який використовує кілька агентів для сканування, перевірки та валідації вразливостей.
Compaction для тривалих завдань
Claude тепер може стискати власний контекст під час тривалих завдань. Це означає, що агентні сеанси кодування можуть тривати набагато довше без досягнення лімітів контекстного вікна. Для складних, багатофайлових змін із сотнями викликів інструментів compaction підтримує продуктивність сеансу без перезапуску.
Адаптивне мислення
Модель вловлює контекстні підказки щодо обсягу розширеного мислення. Для простих питань вона відповідає швидко. Для складних задач кодування вона думає глибше. Розробники також отримують нові елементи керування зусиллям для балансування вартості, швидкості та інтелектуальності для кожного запиту.
Контекстне вікно 1M токенів
Як і Claude Sonnet 4.6, Opus 4.6 має контекстне вікно 1M токенів у бета-версії. Це вперше для моделей класу Opus, що дозволяє обробляти цілі великі кодові бази в одному запиті.
Ціни та доступність Claude Opus 4.6
Opus 4.6 доступний на claude.ai, в API (claude-opus-4-6), Amazon Bedrock та Google Cloud Vertex AI за ціною $5/$25 за мільйон токенів.
Першоджерело
https://www.anthropic.com/news/claude-opus-4-6Поширені запитання
У яких бенчмарках лідирує Claude Opus 4.6?
Що таке agent teams у Claude Code?
Що таке compaction у Claude Opus 4.6?
Скільки коштує Claude Opus 4.6?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
