Code Velocity
MI modellek

Claude Opus 4.6: #1 a kódolási és gondolkodási benchmarkokban

·7 perc olvasás·Anthropic, OpenAI·Eredeti forrás
Megosztás
Claude Opus 4.6 benchmark összehasonlító diagram #1 rangsorolással a Terminal-Bench 2.0, Humanity's Last Exam és GDPval-AA területén

Claude Opus 4.6 benchmark eredmények

A Claude Opus 4.6 az Anthropic legképesebb modellje, amely új rekordokat állít fel kódolásban, gondolkodásban és tudásmunkában. A legmagasabb pontszámot éri el a Terminal-Bench 2.0-n, az agens kódolás vezető benchmarkján, és minden élvonalbeli modellt megelőz a Humanity's Last Exam-on, egy multidiszciplináris gondolkodási teszten.

A Claude Sonnet 4.6-ot már kódolási feladatokra használó fejlesztők számára az Opus 4.6 a következő teljesítményszintet jelenti az összetett, többlépéses agens munkához.

Kódolási teljesítmény: #1 a Terminal-Bench 2.0-n

Az Opus 4.6 minden dimenzióban javítja elődje kódolási képességeit:

  • Gondos tervezés: Alaposabban tervez a kód megírása előtt
  • Tartós agens feladatok: Kontextust és minőséget tart fenn hosszabb kódolási munkamenetekben
  • Nagy kódbázis navigáció: Megbízhatóbban működik összetett, több fájlból álló projektekben
  • Önjavítás: Jobb kódellenőrzési és hibakeresési képességek saját hibáinak felismerésére

A Terminal-Bench 2.0-n, amely valós rendszeradminisztrációs és kódolási feladatokat tesztel, az Opus 4.6 a legmagasabb pontszámot éri el bármely modell közül.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

A GDPval-AA-n, amely a gazdaságilag értékes tudásmunkák teljesítményét méri pénzügy, jogi és más területeken, az Opus 4.6 144 Elo ponttal előzi meg a GPT-5.2-t és 190 ponttal saját elődjét (Opus 4.5).

Új fejlesztői funkciók a Claude Opus 4.6-ban

Agent Teams a Claude Code-ban

Mostantól összeállíthatók ágens csapatok, amelyek együtt dolgoznak feladatokon a Claude Code-ban. Több Claude példány egyszerre dolgozik a kódbázis különböző részein, felgyorsítva az összetett refaktorálásokat, funkciófejlesztést és hibajavítást. Ugyanez az agent teams képesség működteti a Claude Code Security-t, amely több ágenst használ sebezhetőségek keresésére, ellenőrzésére és validálására.

Compaction hosszú futású feladatokhoz

A Claude mostantól képes összefoglalni saját kontextusát hosszú futású feladatok során. Az agens kódolási munkamenetek jóval tovább futhatnak anélkül, hogy elérnék a kontextusablak korlátait. Összetett, több fájlra kiterjedő változtatásoknál, amelyek több száz eszközhívást tartalmaznak, a compaction produktívan tartja a munkamenetet újraindítás nélkül.

Adaptív gondolkodás

A modell kontextuális jelzésekből érzékeli, mennyi kiterjesztett gondolkodást kell alkalmaznia. Egyszerű kérdéseknél gyorsan válaszol. Összetett kódolási problémáknál mélyebben gondolkodik. A fejlesztők új erőfeszítés-szabályozókat is kapnak a költség, sebesség és intelligencia kérésenkénti finomhangolásához.

1M tokenes kontextusablak

A Claude Sonnet 4.6-hoz hasonlóan az Opus 4.6 is 1M tokenes kontextusablakkal rendelkezik béta verzióban. Ez elsőként fordult elő Opus-osztályú modelleknél, lehetővé téve teljes nagy kódbázisok feldolgozását egyetlen kérésben.

Claude Opus 4.6 árazás és elérhetőség

Az Opus 4.6 elérhető a claude.ai-on, az API-n (claude-opus-4-6), Amazon Bedrock-on és Google Cloud Vertex AI-on $5/$25-ért millió tokenenként.

Gyakran ismételt kérdések

Mely benchmarkokban vezet a Claude Opus 4.6?
A Claude Opus 4.6 az #1 pozíciót foglalja el négy fő benchmarkban: Terminal-Bench 2.0 az agens kódolásban, Humanity's Last Exam a multidiszciplináris gondolkodásban, BrowseComp az információkeresésben és GDPval-AA a tudásmunkában. A GDPval-AA-n 144 Elo ponttal előzi meg a GPT-5.2-t és 190 ponttal elődjét, az Opus 4.5-öt. Ezek az eredmények 2026 februárjától a legmagasabb pontszámú élvonalbeli modellé teszik kódolásban és gondolkodásban egyaránt.
Mik azok az agent teams a Claude Code-ban?
Az agent teams egy új funkció a Claude Code-ban, amely lehetővé teszi több Claude példány párhuzamos együttműködését feladatokon. Például egy ágens refaktorálhat egy modult, miközben egy másik teszteket ír és egy harmadik dokumentációt frissít. Ez a párhuzamos megközelítés felgyorsítja az összetett kódbázis-változtatásokat, amelyek egyetlen ágensnek jóval tovább tartanának. Az agent teams az Opus 4.6 mellett jelent meg és Opus és Sonnet modellekkel egyaránt működik.
Mi az a compaction a Claude Opus 4.6-ban?
A compaction egy kontextuskezelési funkció, amely lehetővé teszi a Claude számára, hogy összefoglalja saját beszélgetési előzményeit hosszú futású agens feladatok során. Amikor egy kódolási munkamenet megközelíti a kontextusablak határát, a compaction tömöríti a korábbi kontextust összefoglalássá, így a Claude tovább dolgozhat anélkül, hogy elveszítené a feladat fonalát. Ez különösen hasznos több fájlra kiterjedő refaktorálási munkamenetekhez, amelyek több száz eszközhívást és fájlolvasást tartalmaznak.
Mennyibe kerül a Claude Opus 4.6?
A Claude Opus 4.6 ára $5 millió bemeneti tokenenként és $25 millió kimeneti tokenenként, ugyanaz, mint a korábbi Opus modellek. Elérhető a claude.ai-on, az Anthropic API-n claude-opus-4-6 modell azonosítóval, Amazon Bedrock-on és Google Cloud Vertex AI-on. Összehasonlításképpen a Claude Sonnet 4.6 hasonló kódolási minőséget kínál $3/$15-ért millió tokenenként.

Maradjon naprakész

Kapja meg a legfrissebb AI híreket e-mailben.

Megosztás