Code Velocity
Modelos de IA

Claude Opus 4.6: #1 em Benchmarks de Código e Raciocínio

·7 min de leitura·Anthropic, OpenAI·Fonte original
Compartilhar
Gráfico comparativo de benchmarks do Claude Opus 4.6 mostrando rankings #1 no Terminal-Bench 2.0, Humanity's Last Exam e GDPval-AA

Resultados de Benchmark do Claude Opus 4.6

Claude Opus 4.6 é o modelo mais capaz da Anthropic, estabelecendo novos recordes em código, raciocínio e tarefas do mundo real. Alcança o maior score no Terminal-Bench 2.0, o principal benchmark para código agêntico, e lidera todos os modelos de fronteira no Humanity's Last Exam, um teste de raciocínio multidisciplinar.

Para desenvolvedores que já usam o Claude Sonnet 4.6 para tarefas de código, o Opus 4.6 representa o próximo nível de performance para trabalho agêntico complexo e multi-etapas.

Performance em Código: #1 no Terminal-Bench 2.0

Opus 4.6 melhora as habilidades de código do seu predecessor em todas as dimensões:

  • Planejamento cuidadoso: Planeja mais cuidadosamente antes de escrever código
  • Tarefas agênticas sustentadas: Mantém contexto e qualidade em sessões mais longas
  • Navegação em codebases grandes: Opera com mais confiabilidade em projetos complexos multi-arquivo
  • Autocorreção: Melhores habilidades de revisão e debugging para detectar seus próprios erros

No Terminal-Bench 2.0, que testa tarefas reais de administração de sistemas e código, Opus 4.6 alcança o maior score de qualquer modelo.

Claude Opus 4.6 vs GPT-5.2 vs Gemini 2.5

BenchmarkOpus 4.6GPT-5.2Gemini 2.5
Terminal-Bench 2.0#1#2#3
Humanity's Last Exam#1#3#2
GDPval-AA#1 (+144 Elo vs GPT-5.2)#2#3
BrowseComp#1#2

No GDPval-AA, que mede performance em tarefas economicamente valiosas em finanças, jurídico e outros domínios, Opus 4.6 supera o GPT-5.2 por 144 pontos Elo e seu predecessor (Opus 4.5) por 190 pontos.

Novas Funcionalidades para Desenvolvedores no Claude Opus 4.6

Agent Teams no Claude Code

Agora é possível montar times de agentes para trabalhar em tarefas juntos no Claude Code. Múltiplas instâncias do Claude colaboram em diferentes partes de um codebase simultaneamente, acelerando refatorações complexas, desenvolvimento de features e correção de bugs. A mesma capacidade de agent teams alimenta o Claude Code Security, que usa múltiplos agentes para escanear, verificar e validar vulnerabilidades.

Compaction para Tarefas de Longa Duração

Claude agora pode resumir seu próprio contexto durante tarefas de longa duração. Sessões agênticas de código podem rodar muito mais tempo sem atingir limites de janela de contexto. Para mudanças complexas em múltiplos arquivos que envolvem centenas de chamadas de ferramentas, o compaction mantém a sessão produtiva sem necessidade de reiniciar.

Pensamento Adaptativo

O modelo capta pistas contextuais sobre quanta reflexão estendida aplicar. Para perguntas simples, responde rapidamente. Para problemas complexos de código, pensa mais profundamente. Desenvolvedores também ganham novos controles de esforço para ajustes refinados de custo/velocidade/inteligência.

Janela de Contexto de 1M Tokens

Assim como o Claude Sonnet 4.6, Opus 4.6 possui janela de contexto de 1M tokens em beta. É uma primeira para modelos de classe Opus, permitindo processar codebases inteiros em uma única requisição.

Preço e Disponibilidade do Claude Opus 4.6

Opus 4.6 está disponível no claude.ai, na API (claude-opus-4-6), Amazon Bedrock e Google Cloud Vertex AI a $5/$25 por milhão de tokens.

Perguntas Frequentes

Em quais benchmarks o Claude Opus 4.6 lidera?
Claude Opus 4.6 ocupa a posição #1 em quatro benchmarks principais: Terminal-Bench 2.0 para código agêntico, Humanity's Last Exam para raciocínio multidisciplinar, BrowseComp para recuperação de informação e GDPval-AA para trabalho com conhecimento. No GDPval-AA, supera o GPT-5.2 por 144 pontos Elo e seu predecessor Opus 4.5 por 190 pontos. Esses resultados fazem dele o modelo de fronteira com maior pontuação em código e raciocínio até fevereiro de 2026.
O que são agent teams no Claude Code?
Agent teams é uma nova funcionalidade no Claude Code que permite múltiplas instâncias do Claude colaborarem em tarefas em paralelo. Por exemplo, um agente pode refatorar um módulo enquanto outro escreve testes e um terceiro atualiza documentação. Essa abordagem paralela acelera mudanças complexas que levariam muito mais tempo com um único agente. Agent teams foram lançados junto com o Opus 4.6 e funcionam com modelos Opus e Sonnet.
O que é compaction no Claude Opus 4.6?
Compaction é um recurso de gerenciamento de contexto que permite ao Claude resumir seu próprio histórico de conversa durante tarefas agênticas de longa duração. Quando uma sessão de código se aproxima do limite da janela de contexto, o compaction condensa o contexto anterior em um resumo para que o Claude continue trabalhando sem perder o fio da tarefa. Isso é especialmente útil para sessões de refatoração multi-arquivo que envolvem centenas de chamadas de ferramentas.
Quanto custa o Claude Opus 4.6?
Claude Opus 4.6 custa $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída, mesmo preço dos modelos Opus anteriores. Está disponível no claude.ai, na API da Anthropic com model ID claude-opus-4-6, Amazon Bedrock e Google Cloud Vertex AI. Para comparação, o Claude Sonnet 4.6 oferece qualidade de código similar a $3/$15 por milhão de tokens.

Fique Atualizado

Receba as últimas novidades de IA no seu e-mail.

Compartilhar