Резултати от бенчмаркове на Claude Opus 4.6
Claude Opus 4.6 е най-способният модел на Anthropic, поставящ нови рекорди в програмиране, разсъждение и работа със знание. Постига най-високия резултат на Terminal-Bench 2.0 — водещия бенчмарк за агентно програмиране — и води всички модели на фронтиера на Humanity's Last Exam, тест за мултидисциплинарно разсъждение.
За разработчици, които вече използват Claude Sonnet 4.6 за задачи за програмиране, Opus 4.6 представлява следващото ниво на производителност за сложна, многостъпкова агентна работа.
Производителност в програмирането: #1 на Terminal-Bench 2.0
Opus 4.6 подобрява уменията за програмиране на предшественика си във всяко измерение:
- Внимателно планиране: Планира по-обмислено преди писане на код
- Устойчиви агентни задачи: Поддържа контекст и качество по време на по-дълги сесии
- Навигация в големи кодови бази: Работи по-надеждно в сложни проекти с множество файлове
- Самокорекция: По-добри умения за преглед на код и отстраняване на грешки за откриване на собствените си грешки
На Terminal-Bench 2.0, който тества реални задачи за системна администрация и програмиране, Opus 4.6 постига най-високия резултат от всеки модел.
Claude Opus 4.6 срещу GPT-5.2 срещу Gemini 2.5
| Бенчмарк | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo срещу GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
На GDPval-AA, който измерва производителността в икономически ценна работа със знание във финансите, правото и други области, Opus 4.6 изпреварва GPT-5.2 със 144 точки Elo и собствения си предшественик (Opus 4.5) със 190 точки.
Нови функции за разработчици в Claude Opus 4.6
Agent Teams в Claude Code
Вече можете да сформирате агентни екипи за съвместна работа по задачи в Claude Code. Множество инстанции на Claude си сътрудничат по различни части на кодовата база едновременно, ускорявайки сложни рефакторинги, разработка на функции и отстраняване на грешки. Същата способност за agent teams захранва Claude Code Security, който използва множество агенти за сканиране, проверка и валидиране на уязвимости.
Compaction за дългосрочни задачи
Claude вече може да обобщава собствения си контекст по време на дългосрочни задачи. Агентните сесии за програмиране могат да работят много по-дълго без достигане на лимитите на контекстния прозорец. За сложни промени в множество файлове, включващи стотици извиквания на инструменти, compaction поддържа продуктивността на сесията без рестартиране.
Адаптивно мислене
Моделът улавя контекстуални подсказки за количеството разширено мислене, което да приложи. За прости въпроси отговаря бързо. За сложни проблеми с програмиране мисли по-задълбочено. Разработчиците получават и нови контроли за усилие за балансиране на цена, скорост и интелигентност за всяка заявка.
Контекстен прозорец от 1M токена
Подобно на Claude Sonnet 4.6, Opus 4.6 разполага с контекстен прозорец от 1M токена в бета версия. Това е първо за модели от клас Opus, позволявайки обработка на цели големи кодови бази в една заявка.
Цени и наличност на Claude Opus 4.6
Opus 4.6 е наличен на claude.ai, API (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI на $5/$25 за милион токена.
Оригинален източник
https://www.anthropic.com/news/claude-opus-4-6Често задавани въпроси
В кои бенчмаркове води Claude Opus 4.6?
Какво са agent teams в Claude Code?
Какво е compaction в Claude Opus 4.6?
Колко струва Claude Opus 4.6?
Бъдете информирани
Получавайте последните AI новини по имейл.
