Claude Opus 4.6 Viðmiðaniðurstöður
Claude Opus 4.6 er hæfasta líkan Anthropic og setur ný met í forritun, rökhugsun og þekkingastörfum. Það nær hæsta skori á Terminal-Bench 2.0, leiðandi viðmiðinu fyrir agentíska forritun, og leiðir öll landamæralíkön á Humanity's Last Exam, fjölfaglegu rökhugsanaprófi.
Fyrir forritara sem þegar nota Claude Sonnet 4.6 fyrir forritunarverkefni táknar Opus 4.6 næsta stig frammistöðu fyrir flókin, fjölþrepa agentísk störf.
Forritunarframmistaða: #1 á Terminal-Bench 2.0
Opus 4.6 bætir forritunarfærni forvera síns á öllum sviðum:
- Vandleg skipulagning: Skipuleggur vandlegar áður en kóði er skrifaður
- Viðvarandi agentísk verkefni: Viðheldur samhengi og gæðum yfir lengri forritunarlotur
- Stórt kóðagrunnsyfirlit: Starfar áreiðanlegar í flóknum fjölskráarverkefnum
- Sjálfleiðrétting: Betri kóðaendurskoðunar- og villuleitarfærni til að nema eigin mistök
Á Terminal-Bench 2.0, sem prófar raunveruleg kerfisstjórnunar- og forritunarverkefni, nær Opus 4.6 hæsta skori allra líkana.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Viðmið | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Á GDPval-AA, sem mælir frammistöðu á hagkvæmum þekkingastörfum í fjármálum, lögfræði og öðrum sviðum, slær Opus 4.6 GPT-5.2 um 144 Elo stig og eigin forvera (Opus 4.5) um 190 stig.
Nýir Forritunareiginleikar í Claude Opus 4.6
Agenthópar í Claude Code
Nú er hægt að setja saman agenthópa til að vinna saman á verkefnum í Claude Code. Mörg Claude tilvik vinna saman á mismunandi hlutum kóðagrunns samtímis og flýta flóknum endurskipulagningu, eiginleikaþróun og villuleiðréttingum. Sama agenthópagetan knýr Claude Code Security, sem notar marga agenta til að skanna, sannreyna og staðfesta veikleika.
Samþjöppun fyrir Langvarandi Verkefni
Claude getur nú dregið saman eigið samhengi meðan á langvarandi verkefnum stendur. Þetta þýðir að agentískar forritunarlotur geta keyrt mun lengur án þess að ná samhengisgluggamörkum. Fyrir flóknar, fjölskráar breytingar sem fela í sér hundruð verkfærakalla, heldur samþjöppun lotunni afkastamikilli án þess að þurfa að byrja upp á nýtt.
Aðlagandi Hugsun
Líkanið nemur samhengislegar vísbendingar um hversu mikla aukna hugsun á að beita. Fyrir einfaldar spurningar svarar það hratt. Fyrir flókin forritunarvandamál hugsar það dýpra. Forritarar fá einnig nýjar áreynslurstillingar til að stilla jafnvægi kostnaðar, hraða og greinda á hverja beiðni.
1M Tókana Samhengisgluggi
Líkt og Claude Sonnet 4.6 er Opus 4.6 með 1M tókana samhengisglugga í beta. Þetta er í fyrsta sinn fyrir Opus-flokks líkön og gerir kleift að vinna úr heilum stórum kóðagrunnum í einni beiðni.
Claude Opus 4.6 Verðlagning og Aðgengi
Opus 4.6 er aðgengilegt á claude.ai, API (claude-opus-4-6), Amazon Bedrock og Google Cloud Vertex AI á $5/$25 á milljón tókana.
Upprunaleg heimild
https://www.anthropic.com/news/claude-opus-4-6Algengar spurningar
Á hvaða viðmiðum leiðir Claude Opus 4.6?
Hvað eru agenthópar í Claude Code?
Hvað er samþjöppun í Claude Opus 4.6?
Hvað kostar Claude Opus 4.6?
Fylgstu með
Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.
