Code Velocity
AI модели

Claude Opus 4.6: #1 в бенчмаркове за програмиране и разсъждение

·7 мин четене·Anthropic, OpenAI·Оригинален източник
Сподели
Диаграма за сравнение на бенчмаркове на Claude Opus 4.6, показваща #1 класации на Terminal-Bench 2.0, Humanity's Last Exam и GDPval-AA

Резултати от бенчмаркове на Claude Opus 4.6

Claude Opus 4.6 е най-способният модел на Anthropic, поставящ нови рекорди в програмиране, разсъждение и работа със знание. Постига най-високия резултат на Terminal-Bench 2.0 — водещия бенчмарк за агентно програмиране — и води всички модели на фронтиера на Humanity's Last Exam, тест за мултидисциплинарно разсъждение.

За разработчици, които вече използват Claude Sonnet 4.6 за задачи за програмиране, Opus 4.6 представлява следващото ниво на производителност за сложна, многостъпкова агентна работа.

Производителност в програмирането: #1 на Terminal-Bench 2.0

Opus 4.6 подобрява уменията за програмиране на предшественика си във всяко измерение:

  • Внимателно планиране: Планира по-обмислено преди писане на код
  • Устойчиви агентни задачи: Поддържа контекст и качество по време на по-дълги сесии
  • Навигация в големи кодови бази: Работи по-надеждно в сложни проекти с множество файлове
  • Самокорекция: По-добри умения за преглед на код и отстраняване на грешки за откриване на собствените си грешки

На Terminal-Bench 2.0, който тества реални задачи за системна администрация и програмиране, Opus 4.6 постига най-високия резултат от всеки модел.

Claude Opus 4.6 срещу GPT-5.2 срещу Gemini 2.5

БенчмаркOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo срещу GPT-5.2)#2#3
BrowseComp#1#2

На GDPval-AA, който измерва производителността в икономически ценна работа със знание във финансите, правото и други области, Opus 4.6 изпреварва GPT-5.2 със 144 точки Elo и собствения си предшественик (Opus 4.5) със 190 точки.

Нови функции за разработчици в Claude Opus 4.6

Agent Teams в Claude Code

Вече можете да сформирате агентни екипи за съвместна работа по задачи в Claude Code. Множество инстанции на Claude си сътрудничат по различни части на кодовата база едновременно, ускорявайки сложни рефакторинги, разработка на функции и отстраняване на грешки. Същата способност за agent teams захранва Claude Code Security, който използва множество агенти за сканиране, проверка и валидиране на уязвимости.

Compaction за дългосрочни задачи

Claude вече може да обобщава собствения си контекст по време на дългосрочни задачи. Агентните сесии за програмиране могат да работят много по-дълго без достигане на лимитите на контекстния прозорец. За сложни промени в множество файлове, включващи стотици извиквания на инструменти, compaction поддържа продуктивността на сесията без рестартиране.

Адаптивно мислене

Моделът улавя контекстуални подсказки за количеството разширено мислене, което да приложи. За прости въпроси отговаря бързо. За сложни проблеми с програмиране мисли по-задълбочено. Разработчиците получават и нови контроли за усилие за балансиране на цена, скорост и интелигентност за всяка заявка.

Контекстен прозорец от 1M токена

Подобно на Claude Sonnet 4.6, Opus 4.6 разполага с контекстен прозорец от 1M токена в бета версия. Това е първо за модели от клас Opus, позволявайки обработка на цели големи кодови бази в една заявка.

Цени и наличност на Claude Opus 4.6

Opus 4.6 е наличен на claude.ai, API (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI на $5/$25 за милион токена.

Оригинален източник

https://www.anthropic.com/news/claude-opus-4-6

Често задавани въпроси

В кои бенчмаркове води Claude Opus 4.6?
Claude Opus 4.6 заема позиция #1 в четири основни бенчмарка: Terminal-Bench 2.0 за агентно програмиране, Humanity's Last Exam за мултидисциплинарно разсъждение, BrowseComp за извличане на информация и GDPval-AA за работа със знание. На GDPval-AA изпреварва GPT-5.2 със 144 точки Elo и предшественика си Opus 4.5 със 190 точки. Тези резултати го правят модела с най-висок резултат в програмиране и разсъждение към февруари 2026 г.
Какво са agent teams в Claude Code?
Agent teams е нова функция в Claude Code, която позволява на множество инстанции на Claude да си сътрудничат по задачи паралелно. Например един агент може да рефакторира модул, докато друг пише тестове, а трети актуализира документацията. Този паралелен подход ускорява сложните промени в кодовата база, които биха отнели много повече време на единичен агент. Agent teams стартираха заедно с Opus 4.6 и работят с модели Opus и Sonnet.
Какво е compaction в Claude Opus 4.6?
Compaction е функция за управление на контекста, която позволява на Claude да обобщава собствената си история на разговора по време на дългосрочни агентни задачи. Когато сесия за програмиране наближи лимита на контекстния прозорец, compaction кондензира по-ранния контекст в резюме, за да може Claude да продължи да работи без загуба на нишката на задачата. Това е особено полезно за сесии за рефакториране на множество файлове, включващи стотици извиквания на инструменти.
Колко струва Claude Opus 4.6?
Claude Opus 4.6 струва $5 за милион входни токена и $25 за милион изходни токена — същата цена като предишните модели Opus. Наличен е на claude.ai, API на Anthropic с model ID claude-opus-4-6, Amazon Bedrock и Google Cloud Vertex AI. За сравнение Claude Sonnet 4.6 предлага подобно качество на програмиране за $3/$15 за милион токена.

Бъдете информирани

Получавайте последните AI новини по имейл.

Сподели