Rezultatet e Benchmark-eve të Claude Opus 4.6
Claude Opus 4.6 është modeli më i aftë i Anthropic, duke vendosur rekorde të reja në kodim, arsyetim dhe punë me njohuri. Arrin rezultatin më të lartë në Terminal-Bench 2.0, benchmark-un udhëheqës për kodim agentik, dhe udhëheq të gjitha modelet e frontierës në Humanity's Last Exam, një test arsyetimi multidisiplinar.
Për zhvilluesit që tashmë përdorin Claude Sonnet 4.6 për detyra kodimi, Opus 4.6 përfaqëson nivelin tjetër të performancës për punë agentike komplekse me shumë hapa.
Performanca në Kodim: #1 në Terminal-Bench 2.0
Opus 4.6 përmirëson aftësitë e kodimit të paraardhësit të tij në çdo dimension:
- Planifikim i kujdesshëm: Planifikon më me kujdes para se të shkruajë kod
- Detyra agentike të qëndrueshme: Ruan kontekstin dhe cilësinë gjatë sesioneve më të gjata
- Lundrim në codebase të mëdha: Operon me më shumë besueshmëri në projekte komplekse me shumë skedarë
- Vetëkorrigjim: Aftësi më të mira rishikimi dhe debugging për të kapur gabimet e veta
Në Terminal-Bench 2.0, i cili teston detyra reale administrimi sistemesh dhe kodimi, Opus 4.6 arrin rezultatin më të lartë të çdo modeli.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Në GDPval-AA, i cili mat performancën në detyra ekonomikisht të vlefshme në financa, juridik dhe fusha të tjera, Opus 4.6 tejkalon GPT-5.2 me 144 pikë Elo dhe paraardhësin e vet (Opus 4.5) me 190 pikë.
Veçori të Reja për Zhvilluesit në Claude Opus 4.6
Agent Teams në Claude Code
Tani mund të montoni ekipe agjentësh për të punuar në detyra së bashku në Claude Code. Instanca të shumta të Claude-it bashkëpunojnë në pjesë të ndryshme të një codebase-i njëkohësisht, duke përshpejtuar rifaktorimet komplekse, zhvillimin e veçorive dhe riparimin e gabimeve. E njëjta aftësi agent teams drejton Claude Code Security, i cili përdor agjentë të shumtë për të skanuar, verifikuar dhe vlerësuar dobësi.
Compaction për Detyra Afatgjata
Claude tani mund të përmbledhë kontekstin e vet gjatë detyrave afatgjata. Kjo do të thotë se sesionet agentike të kodimit mund të ekzekutohen shumë më gjatë pa arritur limitet e dritares së kontekstit. Për ndryshime komplekse në shumë skedarë që përfshijnë qindra thirrje mjetesh, compaction e mban sesionin produktiv pa rinisje.
Mendim Adaptiv
Modeli kap shenja kontekstuale mbi sasinë e mendimit të zgjeruar që duhet zbatuar. Për pyetje të thjeshta, përgjigjet shpejt. Për probleme komplekse kodimi, mendon më thellë. Zhvilluesit gjithashtu përfitojnë kontrolle të reja përpjekjeje për të balancuar koston, shpejtësinë dhe inteligjencën për çdo kërkesë.
Dritarja e Kontekstit 1M Tokena
Ashtu si Claude Sonnet 4.6, Opus 4.6 ka një dritare konteksti 1M tokena në beta. Kjo është një e parë për modelet e klasës Opus, duke mundësuar përpunimin e codebase-ve të tëra në një kërkesë të vetme.
Çmimet dhe Disponueshmëria e Claude Opus 4.6
Opus 4.6 është i disponueshëm në claude.ai, API-në (claude-opus-4-6), Amazon Bedrock dhe Google Cloud Vertex AI me $5/$25 për milion tokena.
Burimi origjinal
https://www.anthropic.com/news/claude-opus-4-6Pyetjet e bëra shpesh
Në cilat benchmark-e udhëheq Claude Opus 4.6?
Çfarë janë agent teams në Claude Code?
Çfarë është compaction në Claude Opus 4.6?
Sa kushton Claude Opus 4.6?
Qëndroni të përditësuar
Merrni lajmet më të fundit të AI në email.
