GPT-5.2-Codex: Modelo Agêntico de Código da OpenAI

Resultados de Benchmark do GPT-5.2-Codex

A OpenAI lançou o GPT-5.2-Codex em 14 de janeiro de 2026, cinco semanas após o modelo base GPT-5.2. Foi construído para código agêntico: sessões sustentadas e multi-etapas de engenharia de software onde o modelo planeja, escreve código, roda testes e itera sobre falhas.

O modelo marca 56.4% no SWE-Bench Pro (acima dos 55.6% do GPT-5.2 base) e 64.0% no Terminal-Bench 2.0 (acima dos 62.2%). Ambos os benchmarks testam tarefas reais de código em vez de geração isolada.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
Contexto (entrada)	400K	128K	200K (1M beta)
Tokens de saída	128K	128K	128K

Para desenvolvedores comparando modelos de código, GPT-5.2-Codex oferece bom equilíbrio entre custo e performance. Claude Opus 4.6 lidera o Terminal-Bench 2.0 e Humanity's Last Exam, enquanto GPT-5.2-Codex compete em preço e tamanho de contexto.

Funcionalidades Principais para Desenvolvedores

Compactação de Contexto

Como o recurso de compaction no Claude Opus 4.6, GPT-5.2-Codex pode comprimir contexto anterior preservando o estado crítico da tarefa. Isso permite sessões de código de várias horas onde o modelo mantém consciência do projeto inteiro mesmo quando a conversa cresce além da janela de contexto.

Conclusão de Tarefas de Longo Prazo

O modelo é otimizado para tarefas que abrangem muitas etapas: refatorações grandes, migrações de codebase e implementação de features multi-arquivo. Quando uma abordagem falha, GPT-5.2-Codex ajusta e tenta novamente em vez de reiniciar a tarefa inteira.

Detecção de Vulnerabilidades Integrada

GPT-5.2-Codex inclui detecção de vulnerabilidades durante a geração de código. Para equipes que precisam de escaneamento de segurança mais profundo, ferramentas dedicadas como o Claude Code Security oferecem verificação multi-estágio com filtragem de falsos positivos.

Suporte ao Ambiente Windows

A OpenAI melhorou a performance do GPT-5.2-Codex em fluxos de trabalho de desenvolvimento Windows, corrigindo a otimização centrada em Unix que caracterizava modelos anteriores.

Preço do GPT-5.2-Codex

Nível	Custo por Milhão de Tokens
Entrada	$1.75
Saída	$14.00
Entrada em cache	$0.175 (90% desconto)

GPT-5.2-Codex está disponível em todas as plataformas Codex para usuários pagos do ChatGPT e como modelo API standalone para aplicações agênticas customizadas.

O Que o GPT-5.2-Codex Significa para Código Agêntico

O lançamento continua uma tendência em toda a indústria: modelos de IA estão mudando de completar código para agentes de código sustentados. O Codex da OpenAI, o Claude Code da Anthropic e ferramentas como GitHub Agentic Workflows apontam para um futuro onde IA lida com tarefas de engenharia multi-etapas com intervenção humana mínima.

Perguntas Frequentes

O que é o GPT-5.2-Codex?

GPT-5.2-Codex é a variante otimizada para código do modelo GPT-5.2 da OpenAI, lançado em 14 de janeiro de 2026. Foi construído especificamente para fluxos de trabalho agênticos onde o modelo executa sessões sustentadas e multi-etapas de engenharia de software. Marca 56.4% no SWE-Bench Pro e 64.0% no Terminal-Bench 2.0, melhorando os 55.6% e 62.2% do modelo base GPT-5.2 respectivamente. O modelo suporta janela de contexto de 400K tokens de entrada e 128K de saída.

Quanto custa o GPT-5.2-Codex?

GPT-5.2-Codex custa $1.75 por milhão de tokens de entrada e $14 por milhão de tokens de saída. Entradas em cache recebem 90% de desconto, resultando em $0.175 por milhão de tokens. Isso o torna significativamente mais barato que o Claude Opus 4.6 a $5/$25 por milhão de tokens, embora os dois modelos difiram em performance nos benchmarks e funcionalidades.

O que é compactação de contexto no GPT-5.2-Codex?

Compactação de contexto é um recurso que comprime contexto anterior da conversa preservando o estado crítico da tarefa. Permite que o GPT-5.2-Codex sustente sessões de código de várias horas sem perder o escopo do projeto. Quando a sessão se aproxima do limite da janela de contexto, o modelo resume o contexto mais antigo em vez de descartá-lo, possibilitando tarefas mais longas e complexas sem reiniciar.

Como o GPT-5.2-Codex se compara ao Claude Opus 4.6?

No Terminal-Bench 2.0, Claude Opus 4.6 tem o maior score, à frente dos 64.0% do GPT-5.2-Codex. No SWE-Bench Pro, GPT-5.2-Codex marca 56.4%. Os modelos têm abordagens diferentes: GPT-5.2-Codex oferece contexto de entrada maior (400K tokens vs. 200K padrão do Claude) e preço menor, enquanto Claude Opus 4.6 oferece agent teams e scores mais altos em raciocínio como Humanity's Last Exam.