Risultati benchmark di Claude Opus 4.6
Claude Opus 4.6 è il modello più capace di Anthropic, stabilendo nuovi record nel codice, nel ragionamento e nel lavoro di conoscenza. Raggiunge il punteggio più alto su Terminal-Bench 2.0, il benchmark di riferimento per il coding agentico, e guida tutti i modelli frontier su Humanity's Last Exam, un test di ragionamento multidisciplinare.
Per gli sviluppatori che già utilizzano Claude Sonnet 4.6 per attività di coding, Opus 4.6 rappresenta il livello successivo di prestazioni per il lavoro agentico complesso e multi-step.
Performance nel codice: #1 su Terminal-Bench 2.0
Opus 4.6 migliora le capacità di coding del predecessore in ogni dimensione:
- Pianificazione attenta: Pianifica più accuratamente prima di scrivere codice
- Attività agentiche prolungate: Mantiene contesto e qualità nelle sessioni di coding più lunghe
- Navigazione in codebase grandi: Opera con maggiore affidabilità in progetti complessi multi-file
- Autocorrezione: Migliori capacità di code review e debugging per individuare i propri errori
Su Terminal-Bench 2.0, che testa attività reali di amministrazione di sistema e coding, Opus 4.6 raggiunge il punteggio più alto di qualsiasi modello.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
Su GDPval-AA, che misura le prestazioni in attività di conoscenza economicamente rilevanti in finanza, legale e altri ambiti, Opus 4.6 supera GPT-5.2 di 144 punti Elo e il proprio predecessore (Opus 4.5) di 190 punti.
Nuove funzionalità per sviluppatori in Claude Opus 4.6
Agent Teams in Claude Code
Ora è possibile assemblare team di agenti per lavorare insieme su attività in Claude Code. Più istanze di Claude collaborano su diverse parti del codebase simultaneamente, accelerando refactoring complessi, sviluppo di funzionalità e correzione di bug. La stessa capacità di agent teams alimenta Claude Code Security, che utilizza più agenti per scansionare, verificare e validare vulnerabilità.
Compaction per attività di lunga durata
Claude può ora riassumere il proprio contesto durante attività di lunga durata. Le sessioni di coding agentico possono durare molto più a lungo senza raggiungere i limiti della finestra di contesto. Per modifiche complesse multi-file che coinvolgono centinaia di chiamate a strumenti, il compaction mantiene la sessione produttiva senza dover riavviare.
Pensiero adattivo
Il modello coglie segnali contestuali sulla quantità di ragionamento esteso da applicare. Per domande semplici, risponde rapidamente. Per problemi di coding complessi, pensa più a fondo. Gli sviluppatori ottengono anche nuovi controlli sull'impegno per bilanciare costo, velocità e intelligenza per ogni richiesta.
Finestra di contesto da 1M token
Come Claude Sonnet 4.6, Opus 4.6 dispone di una finestra di contesto da 1M token in beta. È una prima per i modelli di classe Opus, consentendo di elaborare intere codebase in una singola richiesta.
Prezzo e disponibilità di Claude Opus 4.6
Opus 4.6 è disponibile su claude.ai, tramite API (claude-opus-4-6), Amazon Bedrock e Google Cloud Vertex AI a $5/$25 per milione di token.
Fonte originale
https://www.anthropic.com/news/claude-opus-4-6Domande Frequenti
In quali benchmark è leader Claude Opus 4.6?
Cosa sono gli agent teams in Claude Code?
Cos'è il compaction in Claude Opus 4.6?
Quanto costa Claude Opus 4.6?
Resta aggiornato
Ricevi le ultime notizie sull'IA nella tua casella.
