Code Velocity
Модели ИИ

Claude Opus 4.6: #1 в бенчмарках кода и рассуждений

·7 мин чтения·Anthropic, OpenAI·Первоисточник
Поделиться
Сравнительная диаграмма бенчмарков Claude Opus 4.6, показывающая позиции #1 на Terminal-Bench 2.0, Humanity's Last Exam и GDPval-AA

Результаты бенчмарков Claude Opus 4.6

Claude Opus 4.6 — самая мощная модель Anthropic, устанавливающая новые рекорды в программировании, рассуждениях и интеллектуальной работе. Достигает наивысшего балла на Terminal-Bench 2.0, ведущем бенчмарке агентного программирования, и лидирует среди всех передовых моделей на Humanity's Last Exam, тесте мультидисциплинарных рассуждений.

Для разработчиков, уже использующих Claude Sonnet 4.6 для задач программирования, Opus 4.6 представляет следующий уровень производительности для сложной многоэтапной агентной работы.

Производительность в коде: #1 на Terminal-Bench 2.0

Opus 4.6 улучшает навыки программирования предшественника во всех измерениях:

  • Тщательное планирование: Более продуманное планирование перед написанием кода
  • Устойчивые агентные задачи: Сохраняет контекст и качество в длительных сессиях программирования
  • Навигация по большим кодовым базам: Более надёжная работа в сложных многофайловых проектах
  • Самокоррекция: Улучшенные навыки ревью кода и отладки для обнаружения собственных ошибок

На Terminal-Bench 2.0, тестирующем реальные задачи системного администрирования и программирования, Opus 4.6 достигает наивысшего балла среди всех моделей.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

БенчмаркOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

На GDPval-AA, измеряющем производительность в экономически ценных задачах в финансах, юриспруденции и других областях, Opus 4.6 опережает GPT-5.2 на 144 пункта Elo и собственного предшественника (Opus 4.5) на 190 пунктов.

Новые функции для разработчиков в Claude Opus 4.6

Agent Teams в Claude Code

Теперь можно собирать команды агентов для совместной работы в Claude Code. Несколько экземпляров Claude работают над разными частями кодовой базы одновременно, ускоряя сложный рефакторинг, разработку функций и исправление багов. Та же возможность agent teams обеспечивает работу Claude Code Security, который использует несколько агентов для сканирования, проверки и валидации уязвимостей.

Compaction для длительных задач

Claude теперь может резюмировать собственный контекст во время длительных задач. Агентные сессии программирования могут работать значительно дольше без достижения лимитов контекстного окна. Для сложных многофайловых изменений, включающих сотни вызовов инструментов, compaction поддерживает продуктивность сессии без перезапуска.

Адаптивное мышление

Модель улавливает контекстные сигналы о том, сколько расширенного мышления применить. Для простых вопросов отвечает быстро. Для сложных задач программирования думает глубже. Разработчики также получают новые элементы управления уровнем усилий для баланса стоимости, скорости и интеллекта в каждом запросе.

Контекстное окно 1M токенов

Как и Claude Sonnet 4.6, Opus 4.6 имеет контекстное окно 1M токенов в бета-версии. Это первый раз для моделей класса Opus, позволяющий обрабатывать целые большие кодовые базы в одном запросе.

Цена и доступность Claude Opus 4.6

Opus 4.6 доступен на claude.ai, API (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI по цене $5/$25 за миллион токенов.

Часто задаваемые вопросы

В каких бенчмарках лидирует Claude Opus 4.6?
Claude Opus 4.6 занимает позицию #1 в четырёх основных бенчмарках: Terminal-Bench 2.0 для агентного программирования, Humanity's Last Exam для мультидисциплинарных рассуждений, BrowseComp для извлечения информации и GDPval-AA для интеллектуальной работы. На GDPval-AA он опережает GPT-5.2 на 144 пункта Elo и своего предшественника Opus 4.5 на 190 пунктов. Эти результаты делают его моделью с наивысшими баллами в области кода и рассуждений по состоянию на февраль 2026 года.
Что такое agent teams в Claude Code?
Agent teams — это новая функция Claude Code, позволяющая нескольким экземплярам Claude совместно работать над задачами параллельно. Например, один агент может рефакторить модуль, другой писать тесты, а третий обновлять документацию. Такой параллельный подход ускоряет сложные изменения кодовой базы, которые заняли бы значительно больше времени у одного агента. Agent teams запущены вместе с Opus 4.6 и работают с моделями Opus и Sonnet.
Что такое compaction в Claude Opus 4.6?
Compaction — это функция управления контекстом, позволяющая Claude резюмировать собственную историю разговора во время длительных агентных задач. Когда сессия программирования приближается к лимиту контекстного окна, compaction сжимает предыдущий контекст в сводку, чтобы Claude мог продолжать работу, не теряя нить задачи. Это особенно полезно для сессий рефакторинга нескольких файлов, включающих сотни вызовов инструментов.
Сколько стоит Claude Opus 4.6?
Claude Opus 4.6 стоит $5 за миллион входных токенов и $25 за миллион выходных токенов — та же цена, что и у предыдущих моделей Opus. Доступен на claude.ai, API Anthropic с идентификатором модели claude-opus-4-6, Amazon Bedrock и Google Cloud Vertex AI. Для сравнения, Claude Sonnet 4.6 предлагает аналогичное качество кода за $3/$15 за миллион токенов.

Будьте в курсе

Получайте последние новости ИИ на почту.

Поделиться