Code Velocity
Modelli di IA

Claude Opus 4.6: #1 nei benchmark di codice e ragionamento

·7 min di lettura·Anthropic, OpenAI·Fonte originale
Condividi
Grafico comparativo dei benchmark di Claude Opus 4.6 con posizioni #1 su Terminal-Bench 2.0, Humanity's Last Exam e GDPval-AA

Risultati benchmark di Claude Opus 4.6

Claude Opus 4.6 è il modello più capace di Anthropic, stabilendo nuovi record nel codice, nel ragionamento e nel lavoro di conoscenza. Raggiunge il punteggio più alto su Terminal-Bench 2.0, il benchmark di riferimento per il coding agentico, e guida tutti i modelli frontier su Humanity's Last Exam, un test di ragionamento multidisciplinare.

Per gli sviluppatori che già utilizzano Claude Sonnet 4.6 per attività di coding, Opus 4.6 rappresenta il livello successivo di prestazioni per il lavoro agentico complesso e multi-step.

Performance nel codice: #1 su Terminal-Bench 2.0

Opus 4.6 migliora le capacità di coding del predecessore in ogni dimensione:

  • Pianificazione attenta: Pianifica più accuratamente prima di scrivere codice
  • Attività agentiche prolungate: Mantiene contesto e qualità nelle sessioni di coding più lunghe
  • Navigazione in codebase grandi: Opera con maggiore affidabilità in progetti complessi multi-file
  • Autocorrezione: Migliori capacità di code review e debugging per individuare i propri errori

Su Terminal-Bench 2.0, che testa attività reali di amministrazione di sistema e coding, Opus 4.6 raggiunge il punteggio più alto di qualsiasi modello.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

Su GDPval-AA, che misura le prestazioni in attività di conoscenza economicamente rilevanti in finanza, legale e altri ambiti, Opus 4.6 supera GPT-5.2 di 144 punti Elo e il proprio predecessore (Opus 4.5) di 190 punti.

Nuove funzionalità per sviluppatori in Claude Opus 4.6

Agent Teams in Claude Code

Ora è possibile assemblare team di agenti per lavorare insieme su attività in Claude Code. Più istanze di Claude collaborano su diverse parti del codebase simultaneamente, accelerando refactoring complessi, sviluppo di funzionalità e correzione di bug. La stessa capacità di agent teams alimenta Claude Code Security, che utilizza più agenti per scansionare, verificare e validare vulnerabilità.

Compaction per attività di lunga durata

Claude può ora riassumere il proprio contesto durante attività di lunga durata. Le sessioni di coding agentico possono durare molto più a lungo senza raggiungere i limiti della finestra di contesto. Per modifiche complesse multi-file che coinvolgono centinaia di chiamate a strumenti, il compaction mantiene la sessione produttiva senza dover riavviare.

Pensiero adattivo

Il modello coglie segnali contestuali sulla quantità di ragionamento esteso da applicare. Per domande semplici, risponde rapidamente. Per problemi di coding complessi, pensa più a fondo. Gli sviluppatori ottengono anche nuovi controlli sull'impegno per bilanciare costo, velocità e intelligenza per ogni richiesta.

Finestra di contesto da 1M token

Come Claude Sonnet 4.6, Opus 4.6 dispone di una finestra di contesto da 1M token in beta. È una prima per i modelli di classe Opus, consentendo di elaborare intere codebase in una singola richiesta.

Prezzo e disponibilità di Claude Opus 4.6

Opus 4.6 è disponibile su claude.ai, tramite API (claude-opus-4-6), Amazon Bedrock e Google Cloud Vertex AI a $5/$25 per milione di token.

Domande Frequenti

In quali benchmark è leader Claude Opus 4.6?
Claude Opus 4.6 detiene la posizione #1 in quattro benchmark principali: Terminal-Bench 2.0 per il coding agentico, Humanity's Last Exam per il ragionamento multidisciplinare, BrowseComp per il recupero di informazioni e GDPval-AA per il lavoro di conoscenza. Su GDPval-AA, supera GPT-5.2 di 144 punti Elo e il suo predecessore Opus 4.5 di 190 punti. Questi risultati lo rendono il modello frontier con i punteggi più alti in codice e ragionamento a febbraio 2026.
Cosa sono gli agent teams in Claude Code?
Agent teams è una nuova funzionalità di Claude Code che consente a più istanze di Claude di collaborare su attività in parallelo. Per esempio, un agente può refactorizzare un modulo mentre un altro scrive test e un terzo aggiorna la documentazione. Questo approccio parallelo accelera le modifiche complesse al codebase che richiederebbero molto più tempo con un singolo agente. Agent teams è stato lanciato insieme a Opus 4.6 e funziona con entrambi i modelli Opus e Sonnet.
Cos'è il compaction in Claude Opus 4.6?
Il compaction è una funzionalità di gestione del contesto che permette a Claude di riassumere la propria cronologia di conversazione durante attività agentiche di lunga durata. Quando una sessione di coding si avvicina al limite della finestra di contesto, il compaction condensa il contesto precedente in un riassunto per consentire a Claude di continuare a lavorare senza perdere il filo dell'attività. Questo è particolarmente utile per sessioni di refactoring multi-file che coinvolgono centinaia di chiamate a strumenti.
Quanto costa Claude Opus 4.6?
Claude Opus 4.6 costa $5 per milione di token in input e $25 per milione di token in output, lo stesso prezzo dei modelli Opus precedenti. È disponibile su claude.ai, tramite API Anthropic con model ID claude-opus-4-6, Amazon Bedrock e Google Cloud Vertex AI. Per confronto, Claude Sonnet 4.6 offre qualità di codice simile a $3/$15 per milione di token.

Resta aggiornato

Ricevi le ultime notizie sull'IA nella tua casella.

Condividi