Claude Opus 4.6 : #1 en benchmarks de code et de raisonnement

Résultats des benchmarks de Claude Opus 4.6

Claude Opus 4.6 est le modèle le plus performant d'Anthropic, établissant de nouveaux records en code, raisonnement et travail de connaissance. Il atteint le meilleur score sur Terminal-Bench 2.0, le benchmark de référence pour le codage agentique, et mène tous les modèles de frontière sur Humanity's Last Exam, un test de raisonnement multidisciplinaire.

Pour les développeurs utilisant déjà Claude Sonnet 4.6 pour les tâches de code, Opus 4.6 représente le niveau supérieur de performance pour le travail agentique complexe et multi-étapes.

Performance en code : #1 sur Terminal-Bench 2.0

Opus 4.6 améliore les compétences en code de son prédécesseur dans toutes les dimensions :

Planification soignée : planifie plus rigoureusement avant d'écrire du code
Tâches agentiques soutenues : maintient le contexte et la qualité sur des sessions plus longues
Navigation dans les grandes codebases : fonctionne de manière plus fiable dans les projets complexes multi-fichiers
Autocorrection : meilleures compétences en revue de code et débogage pour détecter ses propres erreurs

Sur Terminal-Bench 2.0, qui teste des tâches réelles d'administration système et de code, Opus 4.6 obtient le score le plus élevé de tous les modèles.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

Benchmark	Opus 4.6	GPT-5.2	Gemini 2.5
Terminal-Bench 2.0	#1	#2	#3
Humanity's Last Exam	#1	#3	#2
GDPval-AA	#1 (+144 Elo vs GPT-5.2)	#2	#3
BrowseComp	#1	#2	—

Sur GDPval-AA, qui mesure la performance sur des tâches à forte valeur économique en finance, juridique et autres domaines, Opus 4.6 surpasse GPT-5.2 de 144 points Elo et son prédécesseur (Opus 4.5) de 190 points.

Nouvelles fonctionnalités pour les développeurs dans Claude Opus 4.6

Agent Teams dans Claude Code

Vous pouvez désormais constituer des équipes d'agents pour travailler ensemble sur des tâches dans Claude Code. Plusieurs instances de Claude collaborent sur différentes parties d'une codebase simultanément, accélérant les refactorisations complexes, le développement de fonctionnalités et la correction de bugs. La même capacité d'agent teams alimente Claude Code Security, qui utilise plusieurs agents pour scanner, vérifier et valider les vulnérabilités.

Compaction pour les tâches de longue durée

Claude peut désormais résumer son propre contexte durant les tâches de longue durée. Les sessions de codage agentique peuvent durer beaucoup plus longtemps sans atteindre les limites de la fenêtre de contexte. Pour les modifications complexes multi-fichiers impliquant des centaines d'appels d'outils, la compaction maintient la session productive sans redémarrage.

Pensée adaptative

Le modèle capte les indices contextuels sur le niveau de réflexion étendue à appliquer. Pour les questions simples, il répond rapidement. Pour les problèmes de code complexes, il réfléchit plus en profondeur. Les développeurs disposent également de nouveaux contrôles d'effort pour ajuster finement le rapport coût/vitesse/intelligence par requête.

Fenêtre de contexte de 1M de tokens

Comme Claude Sonnet 4.6, Opus 4.6 dispose d'une fenêtre de contexte de 1M de tokens en bêta. C'est une première pour les modèles de classe Opus, permettant de traiter des codebases entières en une seule requête.

Tarification et disponibilité de Claude Opus 4.6

Opus 4.6 est disponible sur claude.ai, l'API (claude-opus-4-6), Amazon Bedrock et Google Cloud Vertex AI à 5 $/25 $ par million de tokens.

Questions Fréquentes

Sur quels benchmarks Claude Opus 4.6 est-il en tête ?

Claude Opus 4.6 occupe la position #1 sur quatre benchmarks majeurs : Terminal-Bench 2.0 pour le codage agentique, Humanity's Last Exam pour le raisonnement multidisciplinaire, BrowseComp pour la recherche d'information et GDPval-AA pour le travail de connaissance. Sur GDPval-AA, il surpasse GPT-5.2 de 144 points Elo et son prédécesseur Opus 4.5 de 190 points. Ces résultats en font le modèle de frontière le mieux noté en code et en raisonnement en février 2026.

Que sont les agent teams dans Claude Code ?

Agent teams est une nouvelle fonctionnalité de Claude Code permettant à plusieurs instances de Claude de collaborer en parallèle sur des tâches. Par exemple, un agent peut refactoriser un module pendant qu'un autre écrit des tests et qu'un troisième met à jour la documentation. Cette approche parallèle accélère les modifications complexes de codebase qui prendraient beaucoup plus de temps avec un seul agent. Agent teams a été lancé avec Opus 4.6 et fonctionne avec les modèles Opus et Sonnet.

Qu'est-ce que la compaction dans Claude Opus 4.6 ?

La compaction est une fonctionnalité de gestion du contexte permettant à Claude de résumer son propre historique de conversation durant les tâches agentiques de longue durée. Lorsqu'une session de codage approche de la limite de la fenêtre de contexte, la compaction condense le contexte antérieur en un résumé pour que Claude continue à travailler sans perdre le fil. C'est particulièrement utile pour les refactorisations multi-fichiers impliquant des centaines d'appels d'outils.

Combien coûte Claude Opus 4.6 ?

Claude Opus 4.6 coûte 5 $ par million de tokens en entrée et 25 $ par million de tokens en sortie, le même tarif que les modèles Opus précédents. Il est disponible sur claude.ai, l'API Anthropic avec l'identifiant claude-opus-4-6, Amazon Bedrock et Google Cloud Vertex AI. À titre de comparaison, Claude Sonnet 4.6 offre une qualité de code similaire à 3 $/15 $ par million de tokens.