Результаты бенчмарков Claude Opus 4.6
Claude Opus 4.6 — самая мощная модель Anthropic, устанавливающая новые рекорды в программировании, рассуждениях и интеллектуальной работе. Достигает наивысшего балла на Terminal-Bench 2.0, ведущем бенчмарке агентного программирования, и лидирует среди всех передовых моделей на Humanity's Last Exam, тесте мультидисциплинарных рассуждений.
Для разработчиков, уже использующих Claude Sonnet 4.6 для задач программирования, Opus 4.6 представляет следующий уровень производительности для сложной многоэтапной агентной работы.
Производительность в коде: #1 на Terminal-Bench 2.0
Opus 4.6 улучшает навыки программирования предшественника во всех измерениях:
- Тщательное планирование: Более продуманное планирование перед написанием кода
- Устойчивые агентные задачи: Сохраняет контекст и качество в длительных сессиях программирования
- Навигация по большим кодовым базам: Более надёжная работа в сложных многофайловых проектах
- Самокоррекция: Улучшенные навыки ревью кода и отладки для обнаружения собственных ошибок
На Terminal-Bench 2.0, тестирующем реальные задачи системного администрирования и программирования, Opus 4.6 достигает наивысшего балла среди всех моделей.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Бенчмарк | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
На GDPval-AA, измеряющем производительность в экономически ценных задачах в финансах, юриспруденции и других областях, Opus 4.6 опережает GPT-5.2 на 144 пункта Elo и собственного предшественника (Opus 4.5) на 190 пунктов.
Новые функции для разработчиков в Claude Opus 4.6
Agent Teams в Claude Code
Теперь можно собирать команды агентов для совместной работы в Claude Code. Несколько экземпляров Claude работают над разными частями кодовой базы одновременно, ускоряя сложный рефакторинг, разработку функций и исправление багов. Та же возможность agent teams обеспечивает работу Claude Code Security, который использует несколько агентов для сканирования, проверки и валидации уязвимостей.
Compaction для длительных задач
Claude теперь может резюмировать собственный контекст во время длительных задач. Агентные сессии программирования могут работать значительно дольше без достижения лимитов контекстного окна. Для сложных многофайловых изменений, включающих сотни вызовов инструментов, compaction поддерживает продуктивность сессии без перезапуска.
Адаптивное мышление
Модель улавливает контекстные сигналы о том, сколько расширенного мышления применить. Для простых вопросов отвечает быстро. Для сложных задач программирования думает глубже. Разработчики также получают новые элементы управления уровнем усилий для баланса стоимости, скорости и интеллекта в каждом запросе.
Контекстное окно 1M токенов
Как и Claude Sonnet 4.6, Opus 4.6 имеет контекстное окно 1M токенов в бета-версии. Это первый раз для моделей класса Opus, позволяющий обрабатывать целые большие кодовые базы в одном запросе.
Цена и доступность Claude Opus 4.6
Opus 4.6 доступен на claude.ai, API (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI по цене $5/$25 за миллион токенов.
Первоисточник
https://www.anthropic.com/news/claude-opus-4-6Часто задаваемые вопросы
В каких бенчмарках лидирует Claude Opus 4.6?
Что такое agent teams в Claude Code?
Что такое compaction в Claude Opus 4.6?
Сколько стоит Claude Opus 4.6?
Будьте в курсе
Получайте последние новости ИИ на почту.
