Code Velocity
Modele IA

Claude Opus 4.6: #1 în Benchmark-uri de Cod și Raționament

·7 min de citit·Anthropic, OpenAI·Sursa originală
Distribuie
Grafic comparativ de benchmark-uri al Claude Opus 4.6 arătând clasamente #1 pe Terminal-Bench 2.0, Humanity's Last Exam și GDPval-AA

Rezultatele Benchmark ale Claude Opus 4.6

Claude Opus 4.6 este cel mai capabil model al Anthropic, stabilind recorduri noi în programare, raționament și sarcini din lumea reală. Obține cel mai mare scor pe Terminal-Bench 2.0, principalul benchmark pentru programare agentică, și conduce toate modelele de frontieră pe Humanity's Last Exam, un test de raționament multidisciplinar.

Pentru dezvoltatorii care deja folosesc Claude Sonnet 4.6 pentru sarcini de programare, Opus 4.6 reprezintă următorul nivel de performanță pentru muncă agentică complexă și în mai mulți pași.

Performanță în Programare: #1 pe Terminal-Bench 2.0

Opus 4.6 îmbunătățește abilitățile de programare ale predecesorului în toate dimensiunile:

  • Planificare atentă: Planifică mai atent înainte de a scrie cod
  • Sarcini agentice susținute: Menține contextul și calitatea pe sesiuni mai lungi
  • Navigare în codebase-uri mari: Operează mai fiabil în proiecte complexe multi-fișier
  • Autocorectare: Abilități mai bune de revizuire și debugging pentru a-și detecta propriile erori

Pe Terminal-Bench 2.0, care testează sarcini reale de administrare a sistemelor și programare, Opus 4.6 obține cel mai mare scor al oricărui model.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Pe GDPval-AA, care măsoară performanța în sarcini economice valoroase în finanțe, juridic și alte domenii, Opus 4.6 depășește GPT-5.2 cu 144 de puncte Elo și predecesorul său (Opus 4.5) cu 190 de puncte.

Funcționalități Noi pentru Dezvoltatori în Claude Opus 4.6

Agent Teams în Claude Code

Acum poți asambla echipe de agenți pentru a lucra la sarcini împreună în Claude Code. Mai multe instanțe Claude colaborează la diferite părți ale unui codebase simultan, accelerând refactorizări complexe, dezvoltare de funcționalități și corectare de bug-uri. Aceeași capabilitate de agent teams alimentează Claude Code Security, care folosește mai mulți agenți pentru a scana, verifica și valida vulnerabilități.

Compaction pentru Sarcini de Lungă Durată

Claude poate acum să rezume propriul context în timpul sarcinilor de lungă durată. Sesiunile agentice de programare pot rula mult mai mult fără a atinge limitele ferestrei de context. Pentru modificări complexe în mai multe fișiere care implică sute de apeluri de instrumente, compaction menține sesiunea productivă fără repornire.

Gândire Adaptivă

Modelul captează indicii contextuale despre cât de multă reflecție extinsă să aplice. Pentru întrebări simple, răspunde rapid. Pentru probleme complexe de programare, gândește mai profund. Dezvoltatorii primesc și controale noi de efort pentru ajustări fine de cost/viteză/inteligență.

Fereastră de Context de 1M Tokeni

La fel ca Claude Sonnet 4.6, Opus 4.6 dispune de o fereastră de context de 1M tokeni în beta. Este o premieră pentru modelele de clasă Opus, permițând procesarea de codebase-uri întregi într-o singură cerere.

Preț și Disponibilitate Claude Opus 4.6

Opus 4.6 este disponibil pe claude.ai, API (claude-opus-4-6), Amazon Bedrock și Google Cloud Vertex AI la $5/$25 per milion de tokeni.

Întrebări frecvente

În ce benchmark-uri conduce Claude Opus 4.6?
Claude Opus 4.6 deține poziția #1 în patru benchmark-uri majore: Terminal-Bench 2.0 pentru programare agentică, Humanity's Last Exam pentru raționament multidisciplinar, BrowseComp pentru recuperarea informației și GDPval-AA pentru muncă bazată pe cunoștințe. Pe GDPval-AA, depășește GPT-5.2 cu 144 de puncte Elo și predecesorul său Opus 4.5 cu 190 de puncte. Aceste rezultate îl fac modelul de frontieră cu cel mai mare scor atât în programare cât și în raționament din februarie 2026.
Ce sunt agent teams în Claude Code?
Agent teams este o funcționalitate nouă în Claude Code care permite mai multor instanțe Claude să colaboreze la sarcini în paralel. De exemplu, un agent poate refactoriza un modul în timp ce altul scrie teste și un al treilea actualizează documentația. Această abordare paralelă accelerează modificările complexe care ar dura mult mai mult cu un singur agent. Agent teams a fost lansat odată cu Opus 4.6 și funcționează cu modelele Opus și Sonnet.
Ce este compaction în Claude Opus 4.6?
Compaction este o funcționalitate de gestionare a contextului care permite lui Claude să rezume propriul istoric de conversație în timpul sarcinilor agentice de lungă durată. Când o sesiune de programare se apropie de limita ferestrei de context, compaction condensează contextul anterior într-un rezumat pentru ca Claude să continue lucrul fără a pierde firul sarcinii. Este deosebit de util pentru sesiuni de refactorizare multi-fișier care implică sute de apeluri de instrumente.
Cât costă Claude Opus 4.6?
Claude Opus 4.6 costă $5 per milion de tokeni de intrare și $25 per milion de tokeni de ieșire, același preț ca modelele Opus anterioare. Este disponibil pe claude.ai, API-ul Anthropic cu model ID claude-opus-4-6, Amazon Bedrock și Google Cloud Vertex AI. Pentru comparație, Claude Sonnet 4.6 oferă calitate similară a codului la $3/$15 per milion de tokeni.

Rămâi la curent

Primește ultimele știri AI în inbox-ul tău.

Distribuie