Claude Opus 4.6 benchmark eredmények
A Claude Opus 4.6 az Anthropic legképesebb modellje, amely új rekordokat állít fel kódolásban, gondolkodásban és tudásmunkában. A legmagasabb pontszámot éri el a Terminal-Bench 2.0-n, az agens kódolás vezető benchmarkján, és minden élvonalbeli modellt megelőz a Humanity's Last Exam-on, egy multidiszciplináris gondolkodási teszten.
A Claude Sonnet 4.6-ot már kódolási feladatokra használó fejlesztők számára az Opus 4.6 a következő teljesítményszintet jelenti az összetett, többlépéses agens munkához.
Kódolási teljesítmény: #1 a Terminal-Bench 2.0-n
Az Opus 4.6 minden dimenzióban javítja elődje kódolási képességeit:
- Gondos tervezés: Alaposabban tervez a kód megírása előtt
- Tartós agens feladatok: Kontextust és minőséget tart fenn hosszabb kódolási munkamenetekben
- Nagy kódbázis navigáció: Megbízhatóbban működik összetett, több fájlból álló projektekben
- Önjavítás: Jobb kódellenőrzési és hibakeresési képességek saját hibáinak felismerésére
A Terminal-Bench 2.0-n, amely valós rendszeradminisztrációs és kódolási feladatokat tesztel, az Opus 4.6 a legmagasabb pontszámot éri el bármely modell közül.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
A GDPval-AA-n, amely a gazdaságilag értékes tudásmunkák teljesítményét méri pénzügy, jogi és más területeken, az Opus 4.6 144 Elo ponttal előzi meg a GPT-5.2-t és 190 ponttal saját elődjét (Opus 4.5).
Új fejlesztői funkciók a Claude Opus 4.6-ban
Agent Teams a Claude Code-ban
Mostantól összeállíthatók ágens csapatok, amelyek együtt dolgoznak feladatokon a Claude Code-ban. Több Claude példány egyszerre dolgozik a kódbázis különböző részein, felgyorsítva az összetett refaktorálásokat, funkciófejlesztést és hibajavítást. Ugyanez az agent teams képesség működteti a Claude Code Security-t, amely több ágenst használ sebezhetőségek keresésére, ellenőrzésére és validálására.
Compaction hosszú futású feladatokhoz
A Claude mostantól képes összefoglalni saját kontextusát hosszú futású feladatok során. Az agens kódolási munkamenetek jóval tovább futhatnak anélkül, hogy elérnék a kontextusablak korlátait. Összetett, több fájlra kiterjedő változtatásoknál, amelyek több száz eszközhívást tartalmaznak, a compaction produktívan tartja a munkamenetet újraindítás nélkül.
Adaptív gondolkodás
A modell kontextuális jelzésekből érzékeli, mennyi kiterjesztett gondolkodást kell alkalmaznia. Egyszerű kérdéseknél gyorsan válaszol. Összetett kódolási problémáknál mélyebben gondolkodik. A fejlesztők új erőfeszítés-szabályozókat is kapnak a költség, sebesség és intelligencia kérésenkénti finomhangolásához.
1M tokenes kontextusablak
A Claude Sonnet 4.6-hoz hasonlóan az Opus 4.6 is 1M tokenes kontextusablakkal rendelkezik béta verzióban. Ez elsőként fordult elő Opus-osztályú modelleknél, lehetővé téve teljes nagy kódbázisok feldolgozását egyetlen kérésben.
Claude Opus 4.6 árazás és elérhetőség
Az Opus 4.6 elérhető a claude.ai-on, az API-n (claude-opus-4-6), Amazon Bedrock-on és Google Cloud Vertex AI-on $5/$25-ért millió tokenenként.
Eredeti forrás
https://www.anthropic.com/news/claude-opus-4-6Gyakran ismételt kérdések
Mely benchmarkokban vezet a Claude Opus 4.6?
Mik azok az agent teams a Claude Code-ban?
Mi az a compaction a Claude Opus 4.6-ban?
Mennyibe kerül a Claude Opus 4.6?
Maradjon naprakész
Kapja meg a legfrissebb AI híreket e-mailben.
