Résultats des benchmarks de Claude Opus 4.6
Claude Opus 4.6 est le modèle le plus performant d'Anthropic, établissant de nouveaux records en code, raisonnement et travail de connaissance. Il atteint le meilleur score sur Terminal-Bench 2.0, le benchmark de référence pour le codage agentique, et mène tous les modèles de frontière sur Humanity's Last Exam, un test de raisonnement multidisciplinaire.
Pour les développeurs utilisant déjà Claude Sonnet 4.6 pour les tâches de code, Opus 4.6 représente le niveau supérieur de performance pour le travail agentique complexe et multi-étapes.
Performance en code : #1 sur Terminal-Bench 2.0
Opus 4.6 améliore les compétences en code de son prédécesseur dans toutes les dimensions :
- Planification soignée : planifie plus rigoureusement avant d'écrire du code
- Tâches agentiques soutenues : maintient le contexte et la qualité sur des sessions plus longues
- Navigation dans les grandes codebases : fonctionne de manière plus fiable dans les projets complexes multi-fichiers
- Autocorrection : meilleures compétences en revue de code et débogage pour détecter ses propres erreurs
Sur Terminal-Bench 2.0, qui teste des tâches réelles d'administration système et de code, Opus 4.6 obtient le score le plus élevé de tous les modèles.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Sur GDPval-AA, qui mesure la performance sur des tâches à forte valeur économique en finance, juridique et autres domaines, Opus 4.6 surpasse GPT-5.2 de 144 points Elo et son prédécesseur (Opus 4.5) de 190 points.
Nouvelles fonctionnalités pour les développeurs dans Claude Opus 4.6
Agent Teams dans Claude Code
Vous pouvez désormais constituer des équipes d'agents pour travailler ensemble sur des tâches dans Claude Code. Plusieurs instances de Claude collaborent sur différentes parties d'une codebase simultanément, accélérant les refactorisations complexes, le développement de fonctionnalités et la correction de bugs. La même capacité d'agent teams alimente Claude Code Security, qui utilise plusieurs agents pour scanner, vérifier et valider les vulnérabilités.
Compaction pour les tâches de longue durée
Claude peut désormais résumer son propre contexte durant les tâches de longue durée. Les sessions de codage agentique peuvent durer beaucoup plus longtemps sans atteindre les limites de la fenêtre de contexte. Pour les modifications complexes multi-fichiers impliquant des centaines d'appels d'outils, la compaction maintient la session productive sans redémarrage.
Pensée adaptative
Le modèle capte les indices contextuels sur le niveau de réflexion étendue à appliquer. Pour les questions simples, il répond rapidement. Pour les problèmes de code complexes, il réfléchit plus en profondeur. Les développeurs disposent également de nouveaux contrôles d'effort pour ajuster finement le rapport coût/vitesse/intelligence par requête.
Fenêtre de contexte de 1M de tokens
Comme Claude Sonnet 4.6, Opus 4.6 dispose d'une fenêtre de contexte de 1M de tokens en bêta. C'est une première pour les modèles de classe Opus, permettant de traiter des codebases entières en une seule requête.
Tarification et disponibilité de Claude Opus 4.6
Opus 4.6 est disponible sur claude.ai, l'API (claude-opus-4-6), Amazon Bedrock et Google Cloud Vertex AI à 5 $/25 $ par million de tokens.
Source originale
https://www.anthropic.com/news/claude-opus-4-6Questions Fréquentes
Sur quels benchmarks Claude Opus 4.6 est-il en tête ?
Que sont les agent teams dans Claude Code ?
Qu'est-ce que la compaction dans Claude Opus 4.6 ?
Combien coûte Claude Opus 4.6 ?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
