Claude Opus 4.6:n suorituskykytulokset
Claude Opus 4.6 on Anthropicin kyvykkäin malli, joka asettaa uusia ennätyksiä koodauksessa, päättelyssä ja tietotyössä. Se saavuttaa korkeimman pistemäärän Terminal-Bench 2.0:ssa, agenttisen koodauksen johtavassa suorituskykytestissä, ja johtaa kaikkia eturintaman malleja Humanity's Last Exam:issa, monitieteisessä päättelytestissä.
Kehittäjille, jotka jo käyttävät Claude Sonnet 4.6:ta koodaustehtäviin, Opus 4.6 edustaa seuraavaa suorituskykytasoa monimutkaiseen, monivaiheiseen agenttiseen työhön.
Koodaussuorituskyky: #1 Terminal-Bench 2.0:ssa
Opus 4.6 parantaa edeltäjänsä koodaustaitoja kaikilla ulottuvuuksilla:
- Huolellinen suunnittelu: Suunnittelee harkitummin ennen koodin kirjoittamista
- Pitkäkestoiset agenttiset tehtävät: Ylläpitää kontekstia ja laatua pidemmissä koodaussessioissa
- Suurten koodikantojen navigointi: Toimii luotettavammin monimutkaisissa, monitiedostoisissa projekteissa
- Itsekorjaus: Paremmat koodiarviointi- ja virheenkorjaustaidot omien virheiden löytämiseen
Terminal-Bench 2.0:ssa, joka testaa todellisia järjestelmänhallinta- ja koodaustehtäviä, Opus 4.6 saavuttaa kaikkien mallien korkeimman pistemäärän.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Suorituskykytesti | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
GDPval-AA:ssa, joka mittaa suorituskykyä taloudellisesti arvokkaissa tietotyötehtävissä rahoituksen, oikeuden ja muiden alojen parissa, Opus 4.6 voittaa GPT-5.2:n 144 Elo-pisteellä ja edeltäjänsä (Opus 4.5) 190 pisteellä.
Uudet kehittäjäominaisuudet Claude Opus 4.6:ssa
Agent Teams Claude Codessa
Voit nyt koota agenttitiilejä työskentelemään tehtävissä yhdessä Claude Codessa. Useat Claude-instanssit tekevät yhteistyötä koodikannan eri osissa samanaikaisesti, nopeuttaen monimutkaisia refaktorointeja, ominaisuuksien kehitystä ja virheiden korjauksia. Sama agent teams -ominaisuus toimii myös Claude Code Securityn pohjana, joka käyttää useita agentteja haavoittuvuuksien skannaukseen, todentamiseen ja validointiin.
Compaction pitkäkestoisille tehtäville
Claude voi nyt tiivistää oman kontekstinsa pitkäkestoisten tehtävien aikana. Tämä tarkoittaa, että agenttiset koodaussessiot voivat kestää paljon pidempään ilman konteksti-ikkunan rajoihin osumista. Monimutkaisissa, useita tiedostoja koskevissa muutoksissa, jotka sisältävät satoja työkalukutsuja, compaction pitää session tuottavana ilman uudelleenkäynnistystä.
Adaptiivinen ajattelu
Malli havaitsee kontekstuvihjeitä siitä, kuinka paljon laajennettua ajattelua soveltaa. Yksinkertaisiin kysymyksiin se vastaa nopeasti. Monimutkaisiin koodausongelmiin se ajattelee syvällisemmin. Kehittäjät saavat myös uudet panostuksen säätömahdollisuudet kustannusten, nopeuden ja älykkyyden tasapainottamiseen pyyntökohtaisesti.
1M tokenin konteksti-ikkuna
Kuten Claude Sonnet 4.6, Opus 4.6 sisältää 1M tokenin konteksti-ikkunan betana. Tämä on ensimmäinen kerta Opus-luokan malleille, mahdollistaen kokonaisten suurten koodikantojen käsittelyn yhdessä pyynnössä.
Claude Opus 4.6:n hinnoittelu ja saatavuus
Opus 4.6 on saatavilla claude.ai:ssa, API:ssa (claude-opus-4-6), Amazon Bedrockissa ja Google Cloud Vertex AI:ssa hintaan $5/$25 per miljoona tokenia.
Alkuperäinen lähde
https://www.anthropic.com/news/claude-opus-4-6Usein kysytyt kysymykset
Missä suorituskykytesteissä Claude Opus 4.6 johtaa?
Mitä ovat agent teams Claude Codessa?
Mikä on compaction Claude Opus 4.6:ssa?
Paljonko Claude Opus 4.6 maksaa?
Pysy ajan tasalla
Saa uusimmat tekoälyuutiset sähköpostiisi.
