Code Velocity
Tekoälymallit

Claude Opus 4.6: #1 koodauksen ja päättelyn suorituskykytesteissä

·7 min lukuaika·Anthropic, OpenAI·Alkuperäinen lähde
Jaa
Claude Opus 4.6 -suorituskykytestivertailu, jossa näkyvät #1-sijoitukset Terminal-Bench 2.0:ssa, Humanity's Last Exam:issa ja GDPval-AA:ssa

Claude Opus 4.6:n suorituskykytulokset

Claude Opus 4.6 on Anthropicin kyvykkäin malli, joka asettaa uusia ennätyksiä koodauksessa, päättelyssä ja tietotyössä. Se saavuttaa korkeimman pistemäärän Terminal-Bench 2.0:ssa, agenttisen koodauksen johtavassa suorituskykytestissä, ja johtaa kaikkia eturintaman malleja Humanity's Last Exam:issa, monitieteisessä päättelytestissä.

Kehittäjille, jotka jo käyttävät Claude Sonnet 4.6:ta koodaustehtäviin, Opus 4.6 edustaa seuraavaa suorituskykytasoa monimutkaiseen, monivaiheiseen agenttiseen työhön.

Koodaussuorituskyky: #1 Terminal-Bench 2.0:ssa

Opus 4.6 parantaa edeltäjänsä koodaustaitoja kaikilla ulottuvuuksilla:

  • Huolellinen suunnittelu: Suunnittelee harkitummin ennen koodin kirjoittamista
  • Pitkäkestoiset agenttiset tehtävät: Ylläpitää kontekstia ja laatua pidemmissä koodaussessioissa
  • Suurten koodikantojen navigointi: Toimii luotettavammin monimutkaisissa, monitiedostoisissa projekteissa
  • Itsekorjaus: Paremmat koodiarviointi- ja virheenkorjaustaidot omien virheiden löytämiseen

Terminal-Bench 2.0:ssa, joka testaa todellisia järjestelmänhallinta- ja koodaustehtäviä, Opus 4.6 saavuttaa kaikkien mallien korkeimman pistemäärän.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

SuorituskykytestiOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

GDPval-AA:ssa, joka mittaa suorituskykyä taloudellisesti arvokkaissa tietotyötehtävissä rahoituksen, oikeuden ja muiden alojen parissa, Opus 4.6 voittaa GPT-5.2:n 144 Elo-pisteellä ja edeltäjänsä (Opus 4.5) 190 pisteellä.

Uudet kehittäjäominaisuudet Claude Opus 4.6:ssa

Agent Teams Claude Codessa

Voit nyt koota agenttitiilejä työskentelemään tehtävissä yhdessä Claude Codessa. Useat Claude-instanssit tekevät yhteistyötä koodikannan eri osissa samanaikaisesti, nopeuttaen monimutkaisia refaktorointeja, ominaisuuksien kehitystä ja virheiden korjauksia. Sama agent teams -ominaisuus toimii myös Claude Code Securityn pohjana, joka käyttää useita agentteja haavoittuvuuksien skannaukseen, todentamiseen ja validointiin.

Compaction pitkäkestoisille tehtäville

Claude voi nyt tiivistää oman kontekstinsa pitkäkestoisten tehtävien aikana. Tämä tarkoittaa, että agenttiset koodaussessiot voivat kestää paljon pidempään ilman konteksti-ikkunan rajoihin osumista. Monimutkaisissa, useita tiedostoja koskevissa muutoksissa, jotka sisältävät satoja työkalukutsuja, compaction pitää session tuottavana ilman uudelleenkäynnistystä.

Adaptiivinen ajattelu

Malli havaitsee kontekstuvihjeitä siitä, kuinka paljon laajennettua ajattelua soveltaa. Yksinkertaisiin kysymyksiin se vastaa nopeasti. Monimutkaisiin koodausongelmiin se ajattelee syvällisemmin. Kehittäjät saavat myös uudet panostuksen säätömahdollisuudet kustannusten, nopeuden ja älykkyyden tasapainottamiseen pyyntökohtaisesti.

1M tokenin konteksti-ikkuna

Kuten Claude Sonnet 4.6, Opus 4.6 sisältää 1M tokenin konteksti-ikkunan betana. Tämä on ensimmäinen kerta Opus-luokan malleille, mahdollistaen kokonaisten suurten koodikantojen käsittelyn yhdessä pyynnössä.

Claude Opus 4.6:n hinnoittelu ja saatavuus

Opus 4.6 on saatavilla claude.ai:ssa, API:ssa (claude-opus-4-6), Amazon Bedrockissa ja Google Cloud Vertex AI:ssa hintaan $5/$25 per miljoona tokenia.

Usein kysytyt kysymykset

Missä suorituskykytesteissä Claude Opus 4.6 johtaa?
Claude Opus 4.6 on #1 neljässä merkittävässä suorituskykytestissä: Terminal-Bench 2.0 agenttisessa koodauksessa, Humanity's Last Exam monitieteisessä päättelyssä, BrowseComp tiedonhaussa ja GDPval-AA tietotyössä. GDPval-AA:ssa se voittaa GPT-5.2:n 144 Elo-pisteellä ja edeltäjänsä Opus 4.5:n 190 pisteellä. Nämä tulokset tekevät siitä korkeimman pistemäärän saavan eturintaman mallin sekä koodauksessa että päättelyssä helmikuussa 2026.
Mitä ovat agent teams Claude Codessa?
Agent teams on uusi ominaisuus Claude Codessa, joka mahdollistaa useiden Claude-instanssien yhteistyön tehtävissä rinnakkain. Esimerkiksi yksi agentti voi refaktoroida moduulin, toinen kirjoittaa testejä ja kolmas päivittää dokumentaatiota. Tämä rinnakkainen lähestymistapa nopeuttaa monimutkaisia koodikantojen muutoksia. Agent teams julkaistiin Opus 4.6:n yhteydessä ja toimii sekä Opus- että Sonnet-mallien kanssa.
Mikä on compaction Claude Opus 4.6:ssa?
Compaction on kontekstinhallinnan ominaisuus, joka mahdollistaa Clauden tiivistää oman keskusteluhistoriansa pitkäkestoisten agenttisten tehtävien aikana. Kun koodaussessio lähestyy konteksti-ikkunan rajaa, compaction tiivistää aiemman kontekstin yhteenvedoksi, jotta Claude voi jatkaa työskentelyä menettämättä tehtävän punaista lankaa. Tämä on erityisen hyödyllistä monitiedostoisissa refaktorointisessioissa, jotka sisältävät satoja työkalukutsuja.
Paljonko Claude Opus 4.6 maksaa?
Claude Opus 4.6 maksaa $5 per miljoona syötetokenia ja $25 per miljoona tulostetokenia, sama hinnoittelu kuin aiemmilla Opus-malleilla. Se on saatavilla claude.ai:ssa, Anthropic API:ssa model ID:llä claude-opus-4-6, Amazon Bedrockissa ja Google Cloud Vertex AI:ssa. Vertailun vuoksi Claude Sonnet 4.6 tarjoaa vastaavaa koodauslaatua hintaan $3/$15 per miljoona tokenia.

Pysy ajan tasalla

Saa uusimmat tekoälyuutiset sähköpostiisi.

Jaa