Code Velocity
Модели на ВИ

Claude Opus 4.6: #1 на бенчмаркови за кодирање и размислување

·7 мин читање·Anthropic, OpenAI·Оригинален извор
Сподели
Споредбен графикон на бенчмаркови на Claude Opus 4.6 покажувајќи рангирања #1 на Terminal-Bench 2.0, Humanity's Last Exam и GDPval-AA

Резултати на бенчмаркови на Claude Opus 4.6

Claude Opus 4.6 е најспособниот модел на Anthropic, поставувајќи нови рекорди во кодирање, размислување и работа со знаење. Го постигнува врвниот резултат на Terminal-Bench 2.0, водечкиот бенчмарк за агентско кодирање, и води меѓу сите гранични модели на Humanity's Last Exam, тест за мултидисциплинарно размислување.

За програмерите кои веќе го користат Claude Sonnet 4.6 за задачи за кодирање, Opus 4.6 го претставува следното ниво на перформанси за сложена, повеќечекорна агентска работа.

Перформанси во кодирање: #1 на Terminal-Bench 2.0

Opus 4.6 ги подобрува вештините за кодирање на својот претходник во секоја димензија:

  • Внимателно планирање: Планира попромислено пред да пишува код
  • Одржливи агентски задачи: Го одржува контекстот и квалитетот во подолги сесии
  • Навигација во големи бази на код: Работи поверодостојно во сложени проекти со повеќе датотеки
  • Самокорекција: Подобри вештини за преглед и дебагирање за фаќање на сопствените грешки

На Terminal-Bench 2.0, кој тестира реални задачи за системска администрација и кодирање, Opus 4.6 го постигнува најдобриот резултат од сите модели.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

БенчмаркOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

На GDPval-AA, кој ги мери перформансите на економски вредни задачи во финансии, право и други домени, Opus 4.6 го надминува GPT-5.2 за 144 Elo поени и својот претходник (Opus 4.5) за 190 поени.

Нови функции за програмери во Claude Opus 4.6

Agent Teams во Claude Code

Сега можете да составите тимови агенти кои работат на задачи заедно во Claude Code. Повеќе инстанции на Claude соработуваат на различни делови од базата на код истовремено, забрзувајќи сложени рефакторирања, развој на функции и поправка на грешки. Истата способност за agent teams го управува Claude Code Security, кој користи повеќе агенти за скенирање, верификација и валидација на ранливости.

Compaction за долготрајни задачи

Claude сега може да го сумира сопствениот контекст за време на долготрајни задачи. Ова значи агентските сесии за кодирање можат да работат многу подолго без да ги достигнат лимитите на прозорецот за контекст. За сложени промени на повеќе датотеки кои вклучуваат стотици повици на алатки, compaction ја одржува сесијата продуктивна без рестартирање.

Адаптивно размислување

Моделот ги фаќа контекстуалните знаци за тоа колку продлабочено размислување да примени. За едноставни прашања, одговара брзо. За сложени проблеми со кодирање, размислува подлабоко. Програмерите исто така добиваат нови контроли за напор за балансирање на цена, брзина и интелигенција по барање.

Прозорец за контекст од 1M токени

Како и Claude Sonnet 4.6, Opus 4.6 има прозорец за контекст од 1M токени во бета. Ова е прво за моделите од класата Opus, овозможувајќи обработка на цели големи бази на код во едно барање.

Цени и достапност на Claude Opus 4.6

Opus 4.6 е достапен на claude.ai, API-то (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI по $5/$25 за милион токени.

Оригинален извор

https://www.anthropic.com/news/claude-opus-4-6

Често поставувани прашања

На кои бенчмаркови води Claude Opus 4.6?
Claude Opus 4.6 ја држи позицијата #1 на четири главни бенчмаркови: Terminal-Bench 2.0 за агентско кодирање, Humanity's Last Exam за мултидисциплинарно размислување, BrowseComp за враќање информации и GDPval-AA за работа со знаење. На GDPval-AA, го надминува GPT-5.2 за 144 Elo поени и својот претходник Opus 4.5 за 190 поени. Овие резултати го прават најдобро рангираниот граничен модел за кодирање и размислување до февруари 2026.
Што се agent teams во Claude Code?
Agent teams е нова функција во Claude Code која овозможува повеќе инстанции на Claude да соработуваат на задачи паралелно. На пример, еден агент може да рефакторира модул додека друг пишува тестови а трет ја ажурира документацијата. Овој паралелен пристап ги забрзува сложените промени на базата на код кои би му одзеле на еден агент многу повеќе време. Agent teams беа лансирани заедно со Opus 4.6 и работат со моделите Opus и Sonnet.
Што е compaction во Claude Opus 4.6?
Compaction е функција за управување со контекст која му овозможува на Claude да го сумира сопствениот историјат на разговор за време на долготрајни агентски задачи. Кога сесија за кодирање се приближува до лимитот на прозорецот за контекст, compaction го кондензира претходниот контекст во резиме за Claude да продолжи да работи без да ја изгуби нишката на задачата. Ова е особено корисно за сесии за рефакторирање со повеќе датотеки кои вклучуваат стотици повици на алатки.
Колку чини Claude Opus 4.6?
Claude Opus 4.6 чини $5 за милион влезни токени и $25 за милион излезни токени, иста цена како претходните Opus модели. Достапен е на claude.ai, API-то на Anthropic со model ID claude-opus-4-6, Amazon Bedrock и Google Cloud Vertex AI. За споредба, Claude Sonnet 4.6 нуди сличен квалитет на кодирање по $3/$15 за милион токени.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели