Code Velocity
Моделі ШІ

Claude Opus 4.6: #1 у бенчмарках кодування та міркування

·7 хв читання·Anthropic, OpenAI·Першоджерело
Поділитися
Порівняльна діаграма бенчмарків Claude Opus 4.6 із позиціями #1 на Terminal-Bench 2.0, Humanity's Last Exam та GDPval-AA

Результати бенчмарків Claude Opus 4.6

Claude Opus 4.6 — найпотужніша модель Anthropic, яка встановлює нові рекорди в кодуванні, міркуванні та інтелектуальній роботі. Вона досягає найвищого результату на Terminal-Bench 2.0, провідному бенчмарку агентного кодування, та лідирує серед усіх фронтирних моделей на Humanity's Last Exam — мультидисциплінарному тесті міркування.

Для розробників, які вже використовують Claude Sonnet 4.6 для завдань кодування, Opus 4.6 представляє наступний рівень продуктивності для складної, багатокрокової агентної роботи.

Продуктивність кодування: #1 на Terminal-Bench 2.0

Opus 4.6 покращує навички кодування свого попередника в усіх аспектах:

  • Ретельне планування: Більш продуманий підхід перед написанням коду
  • Тривалі агентні завдання: Підтримка контексту та якості під час довших сеансів кодування
  • Навігація великими кодовими базами: Більш надійна робота у складних, багатофайлових проєктах
  • Самокорекція: Покращені навички перевірки коду та відлагодження для виявлення власних помилок

На Terminal-Bench 2.0, який тестує реальні завдання системного адміністрування та кодування, Opus 4.6 досягає найвищого результату серед усіх моделей.

Claude Opus 4.6 проти GPT-5.2 проти Gemini 2.5

БенчмаркOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo проти GPT-5.2)#2#3
BrowseComp#1#2

На GDPval-AA, який вимірює продуктивність в економічно цінних інтелектуальних завданнях у фінансах, юриспруденції та інших сферах, Opus 4.6 перевершує GPT-5.2 на 144 бали Elo та свого попередника (Opus 4.5) на 190 балів.

Нові функції для розробників у Claude Opus 4.6

Agent Teams у Claude Code

Тепер ви можете збирати команди агентів для спільної роботи над завданнями в Claude Code. Кілька екземплярів Claude працюють над різними частинами кодової бази одночасно, прискорюючи складні рефакторинги, розробку функцій та виправлення помилок. Та ж функція agent teams лежить в основі Claude Code Security, який використовує кілька агентів для сканування, перевірки та валідації вразливостей.

Compaction для тривалих завдань

Claude тепер може стискати власний контекст під час тривалих завдань. Це означає, що агентні сеанси кодування можуть тривати набагато довше без досягнення лімітів контекстного вікна. Для складних, багатофайлових змін із сотнями викликів інструментів compaction підтримує продуктивність сеансу без перезапуску.

Адаптивне мислення

Модель вловлює контекстні підказки щодо обсягу розширеного мислення. Для простих питань вона відповідає швидко. Для складних задач кодування вона думає глибше. Розробники також отримують нові елементи керування зусиллям для балансування вартості, швидкості та інтелектуальності для кожного запиту.

Контекстне вікно 1M токенів

Як і Claude Sonnet 4.6, Opus 4.6 має контекстне вікно 1M токенів у бета-версії. Це вперше для моделей класу Opus, що дозволяє обробляти цілі великі кодові бази в одному запиті.

Ціни та доступність Claude Opus 4.6

Opus 4.6 доступний на claude.ai, в API (claude-opus-4-6), Amazon Bedrock та Google Cloud Vertex AI за ціною $5/$25 за мільйон токенів.

Поширені запитання

У яких бенчмарках лідирує Claude Opus 4.6?
Claude Opus 4.6 посідає позицію #1 у чотирьох основних бенчмарках: Terminal-Bench 2.0 для агентного кодування, Humanity's Last Exam для мультидисциплінарного міркування, BrowseComp для пошуку інформації та GDPval-AA для інтелектуальної роботи. На GDPval-AA він перевершує GPT-5.2 на 144 бали Elo та свого попередника Opus 4.5 на 190 балів. Ці результати роблять його найвищим за рейтингом фронтирною моделлю як у кодуванні, так і в міркуванні станом на лютий 2026 року.
Що таке agent teams у Claude Code?
Agent teams — це нова функція Claude Code, яка дозволяє кільком екземплярам Claude співпрацювати над завданнями паралельно. Наприклад, один агент може рефакторити модуль, інший писати тести, а третій оновлювати документацію. Цей паралельний підхід прискорює складні зміни кодової бази. Agent teams випущені разом з Opus 4.6 і працюють як з моделями Opus, так і з Sonnet.
Що таке compaction у Claude Opus 4.6?
Compaction — це функція управління контекстом, яка дозволяє Claude стискати власну історію розмови під час тривалих агентних завдань. Коли сеанс кодування наближається до ліміту контекстного вікна, compaction конденсує попередній контекст у резюме, щоб Claude міг продовжувати працювати, не втрачаючи хід завдання. Це особливо корисно для сеансів рефакторингу кількох файлів із сотнями викликів інструментів.
Скільки коштує Claude Opus 4.6?
Claude Opus 4.6 коштує $5 за мільйон вхідних токенів та $25 за мільйон вихідних токенів — така ж ціна, як у попередніх моделей Opus. Він доступний на claude.ai, в API Anthropic з model ID claude-opus-4-6, Amazon Bedrock та Google Cloud Vertex AI. Для порівняння, Claude Sonnet 4.6 пропонує аналогічну якість кодування за $3/$15 за мільйон токенів.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися