Rezultatele Benchmark ale Claude Opus 4.6
Claude Opus 4.6 este cel mai capabil model al Anthropic, stabilind recorduri noi în programare, raționament și sarcini din lumea reală. Obține cel mai mare scor pe Terminal-Bench 2.0, principalul benchmark pentru programare agentică, și conduce toate modelele de frontieră pe Humanity's Last Exam, un test de raționament multidisciplinar.
Pentru dezvoltatorii care deja folosesc Claude Sonnet 4.6 pentru sarcini de programare, Opus 4.6 reprezintă următorul nivel de performanță pentru muncă agentică complexă și în mai mulți pași.
Performanță în Programare: #1 pe Terminal-Bench 2.0
Opus 4.6 îmbunătățește abilitățile de programare ale predecesorului în toate dimensiunile:
- Planificare atentă: Planifică mai atent înainte de a scrie cod
- Sarcini agentice susținute: Menține contextul și calitatea pe sesiuni mai lungi
- Navigare în codebase-uri mari: Operează mai fiabil în proiecte complexe multi-fișier
- Autocorectare: Abilități mai bune de revizuire și debugging pentru a-și detecta propriile erori
Pe Terminal-Bench 2.0, care testează sarcini reale de administrare a sistemelor și programare, Opus 4.6 obține cel mai mare scor al oricărui model.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Pe GDPval-AA, care măsoară performanța în sarcini economice valoroase în finanțe, juridic și alte domenii, Opus 4.6 depășește GPT-5.2 cu 144 de puncte Elo și predecesorul său (Opus 4.5) cu 190 de puncte.
Funcționalități Noi pentru Dezvoltatori în Claude Opus 4.6
Agent Teams în Claude Code
Acum poți asambla echipe de agenți pentru a lucra la sarcini împreună în Claude Code. Mai multe instanțe Claude colaborează la diferite părți ale unui codebase simultan, accelerând refactorizări complexe, dezvoltare de funcționalități și corectare de bug-uri. Aceeași capabilitate de agent teams alimentează Claude Code Security, care folosește mai mulți agenți pentru a scana, verifica și valida vulnerabilități.
Compaction pentru Sarcini de Lungă Durată
Claude poate acum să rezume propriul context în timpul sarcinilor de lungă durată. Sesiunile agentice de programare pot rula mult mai mult fără a atinge limitele ferestrei de context. Pentru modificări complexe în mai multe fișiere care implică sute de apeluri de instrumente, compaction menține sesiunea productivă fără repornire.
Gândire Adaptivă
Modelul captează indicii contextuale despre cât de multă reflecție extinsă să aplice. Pentru întrebări simple, răspunde rapid. Pentru probleme complexe de programare, gândește mai profund. Dezvoltatorii primesc și controale noi de efort pentru ajustări fine de cost/viteză/inteligență.
Fereastră de Context de 1M Tokeni
La fel ca Claude Sonnet 4.6, Opus 4.6 dispune de o fereastră de context de 1M tokeni în beta. Este o premieră pentru modelele de clasă Opus, permițând procesarea de codebase-uri întregi într-o singură cerere.
Preț și Disponibilitate Claude Opus 4.6
Opus 4.6 este disponibil pe claude.ai, API (claude-opus-4-6), Amazon Bedrock și Google Cloud Vertex AI la $5/$25 per milion de tokeni.
Sursa originală
https://www.anthropic.com/news/claude-opus-4-6Întrebări frecvente
În ce benchmark-uri conduce Claude Opus 4.6?
Ce sunt agent teams în Claude Code?
Ce este compaction în Claude Opus 4.6?
Cât costă Claude Opus 4.6?
Rămâi la curent
Primește ultimele știri AI în inbox-ul tău.
