Resultados de Benchmark do Claude Opus 4.6
Claude Opus 4.6 é o modelo mais capaz da Anthropic, estabelecendo novos recordes em código, raciocínio e tarefas do mundo real. Alcança o maior score no Terminal-Bench 2.0, o principal benchmark para código agêntico, e lidera todos os modelos de fronteira no Humanity's Last Exam, um teste de raciocínio multidisciplinar.
Para desenvolvedores que já usam o Claude Sonnet 4.6 para tarefas de código, o Opus 4.6 representa o próximo nível de performance para trabalho agêntico complexo e multi-etapas.
Performance em Código: #1 no Terminal-Bench 2.0
Opus 4.6 melhora as habilidades de código do seu predecessor em todas as dimensões:
- Planejamento cuidadoso: Planeja mais cuidadosamente antes de escrever código
- Tarefas agênticas sustentadas: Mantém contexto e qualidade em sessões mais longas
- Navegação em codebases grandes: Opera com mais confiabilidade em projetos complexos multi-arquivo
- Autocorreção: Melhores habilidades de revisão e debugging para detectar seus próprios erros
No Terminal-Bench 2.0, que testa tarefas reais de administração de sistemas e código, Opus 4.6 alcança o maior score de qualquer modelo.
Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 2.5 |
|---|---|---|---|
| Terminal-Bench 2.0 | #1 | #2 | #3 |
| Humanity's Last Exam | #1 | #3 | #2 |
| GDPval-AA | #1 (+144 Elo vs GPT-5.2) | #2 | #3 |
| BrowseComp | #1 | #2 | — |
No GDPval-AA, que mede performance em tarefas economicamente valiosas em finanças, jurídico e outros domínios, Opus 4.6 supera o GPT-5.2 por 144 pontos Elo e seu predecessor (Opus 4.5) por 190 pontos.
Novas Funcionalidades para Desenvolvedores no Claude Opus 4.6
Agent Teams no Claude Code
Agora é possível montar times de agentes para trabalhar em tarefas juntos no Claude Code. Múltiplas instâncias do Claude colaboram em diferentes partes de um codebase simultaneamente, acelerando refatorações complexas, desenvolvimento de features e correção de bugs. A mesma capacidade de agent teams alimenta o Claude Code Security, que usa múltiplos agentes para escanear, verificar e validar vulnerabilidades.
Compaction para Tarefas de Longa Duração
Claude agora pode resumir seu próprio contexto durante tarefas de longa duração. Sessões agênticas de código podem rodar muito mais tempo sem atingir limites de janela de contexto. Para mudanças complexas em múltiplos arquivos que envolvem centenas de chamadas de ferramentas, o compaction mantém a sessão produtiva sem necessidade de reiniciar.
Pensamento Adaptativo
O modelo capta pistas contextuais sobre quanta reflexão estendida aplicar. Para perguntas simples, responde rapidamente. Para problemas complexos de código, pensa mais profundamente. Desenvolvedores também ganham novos controles de esforço para ajustes refinados de custo/velocidade/inteligência.
Janela de Contexto de 1M Tokens
Assim como o Claude Sonnet 4.6, Opus 4.6 possui janela de contexto de 1M tokens em beta. É uma primeira para modelos de classe Opus, permitindo processar codebases inteiros em uma única requisição.
Preço e Disponibilidade do Claude Opus 4.6
Opus 4.6 está disponível no claude.ai, na API (claude-opus-4-6), Amazon Bedrock e Google Cloud Vertex AI a $5/$25 por milhão de tokens.
Fonte original
https://www.anthropic.com/news/claude-opus-4-6Perguntas Frequentes
Em quais benchmarks o Claude Opus 4.6 lidera?
O que são agent teams no Claude Code?
O que é compaction no Claude Opus 4.6?
Quanto custa o Claude Opus 4.6?
Fique Atualizado
Receba as últimas novidades de IA no seu e-mail.
