Code Velocity
Models d'IA

Claude Opus 4.6: #1 en benchmarks de codi i raonament

·7 min de lectura·Anthropic, OpenAI·Font original
Compartir
Gràfic comparatiu de benchmarks de Claude Opus 4.6 mostrant els rànquings #1 a Terminal-Bench 2.0, Humanity's Last Exam i GDPval-AA

Resultats de benchmarks de Claude Opus 4.6

Claude Opus 4.6 és el model més capaç d'Anthropic, establint nous rècords en codi, raonament i treball de coneixement. Aconsegueix la puntuació més alta a Terminal-Bench 2.0, el benchmark líder per a codi agèntic, i lidera tots els models de frontera a Humanity's Last Exam, una prova de raonament multidisciplinari.

Per als desenvolupadors que ja utilitzen Claude Sonnet 4.6 per a tasques de codi, Opus 4.6 representa el següent nivell de rendiment per a treball agèntic complex i de múltiples passos.

Rendiment en codi: #1 a Terminal-Bench 2.0

Opus 4.6 millora les habilitats de codi del seu predecessor en totes les dimensions:

  • Planificació acurada: Planifica amb més cura abans d'escriure codi
  • Tasques agèntiques sostingudes: Manté context i qualitat en sessions més llargues
  • Navegació en codis grans: Opera amb més fiabilitat en projectes complexos multi-fitxer
  • Autocorrecció: Millors habilitats de revisió i depuració per detectar els seus propis errors

A Terminal-Bench 2.0, que avalua tasques reals d'administració de sistemes i codi, Opus 4.6 obté la puntuació més alta de qualsevol model.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

A GDPval-AA, que mesura el rendiment en tasques econòmicament valuoses en finances, dret i altres dominis, Opus 4.6 supera GPT-5.2 per 144 punts Elo i el seu predecessor (Opus 4.5) per 190 punts.

Noves funcionalitats per a desenvolupadors a Claude Opus 4.6

Agent Teams a Claude Code

Ara podeu formar equips d'agents per treballar junts en tasques dins de Claude Code. Múltiples instàncies de Claude col·laboren en diferents parts d'un codi simultàniament, accelerant refactoritzacions complexes, desenvolupament de funcionalitats i correcció d'errors. La mateixa capacitat d'agent teams impulsa Claude Code Security, que utilitza múltiples agents per escanejar, verificar i validar vulnerabilitats.

Compaction per a tasques de llarga durada

Claude ara pot resumir el seu propi context durant tasques de llarga durada. Les sessions agèntiques de codi poden funcionar molt més temps sense arribar als límits de la finestra de context. Per a canvis complexos en múltiples fitxers que impliquen centenars de crides a eines, el compaction manté la sessió productiva sense necessitat de reiniciar.

Pensament adaptatiu

El model capta pistes contextuals sobre quanta reflexió estesa aplicar. Per a preguntes simples, respon ràpidament. Per a problemes complexos de codi, pensa més profundament. Els desenvolupadors també obtenen nous controls d'esforç per equilibrar cost, velocitat i intel·ligència per petició.

Finestra de context d'1M de tokens

Com Claude Sonnet 4.6, Opus 4.6 inclou una finestra de context d'1M de tokens en beta. És una primera per als models de classe Opus, permetent processar codis sencers en una sola petició.

Preus i disponibilitat de Claude Opus 4.6

Opus 4.6 està disponible a claude.ai, l'API (claude-opus-4-6), Amazon Bedrock i Google Cloud Vertex AI a $5/$25 per milió de tokens.

Preguntes freqüents

En quins benchmarks lidera Claude Opus 4.6?
Claude Opus 4.6 ocupa la posició #1 en quatre benchmarks principals: Terminal-Bench 2.0 per a codi agèntic, Humanity's Last Exam per a raonament multidisciplinari, BrowseComp per a recuperació d'informació i GDPval-AA per a treball de coneixement. A GDPval-AA, supera GPT-5.2 per 144 punts Elo i el seu predecessor Opus 4.5 per 190 punts. Aquests resultats el converteixen en el model de frontera amb la puntuació més alta en codi i raonament a febrer de 2026.
Què són els agent teams a Claude Code?
Agent teams és una nova funcionalitat a Claude Code que permet que múltiples instàncies de Claude col·laborin en tasques en paral·lel. Per exemple, un agent pot refactoritzar un mòdul mentre un altre escriu proves i un tercer actualitza documentació. Aquesta aproximació paral·lela accelera canvis complexos al codi que trigarien molt més amb un sol agent. Agent teams es van llançar juntament amb Opus 4.6 i funcionen amb models Opus i Sonnet.
Què és el compaction a Claude Opus 4.6?
El compaction és una funcionalitat de gestió de context que permet a Claude resumir el seu propi historial de conversa durant tasques agèntiques de llarga durada. Quan una sessió de codi s'acosta al límit de la finestra de context, el compaction condensa el context anterior en un resum perquè Claude pugui continuar treballant sense perdre el fil de la tasca. Això és especialment útil per a sessions de refactorització multi-fitxer que impliquen centenars de crides a eines.
Quant costa Claude Opus 4.6?
Claude Opus 4.6 costa $5 per milió de tokens d'entrada i $25 per milió de tokens de sortida, el mateix preu que els models Opus anteriors. Està disponible a claude.ai, a l'API d'Anthropic amb model ID claude-opus-4-6, Amazon Bedrock i Google Cloud Vertex AI. Per comparació, Claude Sonnet 4.6 ofereix qualitat de codi similar a $3/$15 per milió de tokens.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.

Compartir