Resultats de benchmarks de Claude Opus 4.6
Claude Opus 4.6 és el model més capaç d'Anthropic, establint nous rècords en codi, raonament i treball de coneixement. Aconsegueix la puntuació més alta a Terminal-Bench 2.0, el benchmark líder per a codi agèntic, i lidera tots els models de frontera a Humanity's Last Exam, una prova de raonament multidisciplinari.
Per als desenvolupadors que ja utilitzen Claude Sonnet 4.6 per a tasques de codi, Opus 4.6 representa el següent nivell de rendiment per a treball agèntic complex i de múltiples passos.
Rendiment en codi: #1 a Terminal-Bench 2.0
Opus 4.6 millora les habilitats de codi del seu predecessor en totes les dimensions:
- Planificació acurada: Planifica amb més cura abans d'escriure codi
- Tasques agèntiques sostingudes: Manté context i qualitat en sessions més llargues
- Navegació en codis grans: Opera amb més fiabilitat en projectes complexos multi-fitxer
- Autocorrecció: Millors habilitats de revisió i depuració per detectar els seus propis errors
A Terminal-Bench 2.0, que avalua tasques reals d'administració de sistemes i codi, Opus 4.6 obté la puntuació més alta de qualsevol model.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
A GDPval-AA, que mesura el rendiment en tasques econòmicament valuoses en finances, dret i altres dominis, Opus 4.6 supera GPT-5.2 per 144 punts Elo i el seu predecessor (Opus 4.5) per 190 punts.
Noves funcionalitats per a desenvolupadors a Claude Opus 4.6
Agent Teams a Claude Code
Ara podeu formar equips d'agents per treballar junts en tasques dins de Claude Code. Múltiples instàncies de Claude col·laboren en diferents parts d'un codi simultàniament, accelerant refactoritzacions complexes, desenvolupament de funcionalitats i correcció d'errors. La mateixa capacitat d'agent teams impulsa Claude Code Security, que utilitza múltiples agents per escanejar, verificar i validar vulnerabilitats.
Compaction per a tasques de llarga durada
Claude ara pot resumir el seu propi context durant tasques de llarga durada. Les sessions agèntiques de codi poden funcionar molt més temps sense arribar als límits de la finestra de context. Per a canvis complexos en múltiples fitxers que impliquen centenars de crides a eines, el compaction manté la sessió productiva sense necessitat de reiniciar.
Pensament adaptatiu
El model capta pistes contextuals sobre quanta reflexió estesa aplicar. Per a preguntes simples, respon ràpidament. Per a problemes complexos de codi, pensa més profundament. Els desenvolupadors també obtenen nous controls d'esforç per equilibrar cost, velocitat i intel·ligència per petició.
Finestra de context d'1M de tokens
Com Claude Sonnet 4.6, Opus 4.6 inclou una finestra de context d'1M de tokens en beta. És una primera per als models de classe Opus, permetent processar codis sencers en una sola petició.
Preus i disponibilitat de Claude Opus 4.6
Opus 4.6 està disponible a claude.ai, l'API (claude-opus-4-6), Amazon Bedrock i Google Cloud Vertex AI a $5/$25 per milió de tokens.
Font original
https://www.anthropic.com/news/claude-opus-4-6Preguntes freqüents
En quins benchmarks lidera Claude Opus 4.6?
Què són els agent teams a Claude Code?
Què és el compaction a Claude Opus 4.6?
Quant costa Claude Opus 4.6?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
