Резултати на бенчмаркови на Claude Opus 4.6
Claude Opus 4.6 е најспособниот модел на Anthropic, поставувајќи нови рекорди во кодирање, размислување и работа со знаење. Го постигнува врвниот резултат на Terminal-Bench 2.0, водечкиот бенчмарк за агентско кодирање, и води меѓу сите гранични модели на Humanity's Last Exam, тест за мултидисциплинарно размислување.
За програмерите кои веќе го користат Claude Sonnet 4.6 за задачи за кодирање, Opus 4.6 го претставува следното ниво на перформанси за сложена, повеќечекорна агентска работа.
Перформанси во кодирање: #1 на Terminal-Bench 2.0
Opus 4.6 ги подобрува вештините за кодирање на својот претходник во секоја димензија:
- Внимателно планирање: Планира попромислено пред да пишува код
- Одржливи агентски задачи: Го одржува контекстот и квалитетот во подолги сесии
- Навигација во големи бази на код: Работи поверодостојно во сложени проекти со повеќе датотеки
- Самокорекција: Подобри вештини за преглед и дебагирање за фаќање на сопствените грешки
На Terminal-Bench 2.0, кој тестира реални задачи за системска администрација и кодирање, Opus 4.6 го постигнува најдобриот резултат од сите модели.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Бенчмарк | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
На GDPval-AA, кој ги мери перформансите на економски вредни задачи во финансии, право и други домени, Opus 4.6 го надминува GPT-5.2 за 144 Elo поени и својот претходник (Opus 4.5) за 190 поени.
Нови функции за програмери во Claude Opus 4.6
Agent Teams во Claude Code
Сега можете да составите тимови агенти кои работат на задачи заедно во Claude Code. Повеќе инстанции на Claude соработуваат на различни делови од базата на код истовремено, забрзувајќи сложени рефакторирања, развој на функции и поправка на грешки. Истата способност за agent teams го управува Claude Code Security, кој користи повеќе агенти за скенирање, верификација и валидација на ранливости.
Compaction за долготрајни задачи
Claude сега може да го сумира сопствениот контекст за време на долготрајни задачи. Ова значи агентските сесии за кодирање можат да работат многу подолго без да ги достигнат лимитите на прозорецот за контекст. За сложени промени на повеќе датотеки кои вклучуваат стотици повици на алатки, compaction ја одржува сесијата продуктивна без рестартирање.
Адаптивно размислување
Моделот ги фаќа контекстуалните знаци за тоа колку продлабочено размислување да примени. За едноставни прашања, одговара брзо. За сложени проблеми со кодирање, размислува подлабоко. Програмерите исто така добиваат нови контроли за напор за балансирање на цена, брзина и интелигенција по барање.
Прозорец за контекст од 1M токени
Како и Claude Sonnet 4.6, Opus 4.6 има прозорец за контекст од 1M токени во бета. Ова е прво за моделите од класата Opus, овозможувајќи обработка на цели големи бази на код во едно барање.
Цени и достапност на Claude Opus 4.6
Opus 4.6 е достапен на claude.ai, API-то (claude-opus-4-6), Amazon Bedrock и Google Cloud Vertex AI по $5/$25 за милион токени.
Оригинален извор
https://www.anthropic.com/news/claude-opus-4-6Често поставувани прашања
На кои бенчмаркови води Claude Opus 4.6?
Што се agent teams во Claude Code?
Што е compaction во Claude Opus 4.6?
Колку чини Claude Opus 4.6?
Бидете информирани
Добивајте ги најновите AI вести на е-пошта.
