GPT-5.2-Codex: El model de codi agèntic d'OpenAI

Resultats de benchmarks de GPT-5.2-Codex

OpenAI va llançar GPT-5.2-Codex el 14 de gener de 2026, cinc setmanes després del model base GPT-5.2. Està orientat al codi agèntic: sessions de múltiples passos on el model planifica, escriu codi, executa proves i itera sobre els errors.

El model obté un 56,4% a SWE-Bench Pro (pujant des del 55,6% del GPT-5.2 base) i un 64,0% a Terminal-Bench 2.0 (pujant des del 62,2%). Ambdós benchmarks avaluen tasques de codi del món real, no generació de codi aïllada.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4%	55,6%	—
Terminal-Bench 2.0	64,0%	62,2%	#1
Finestra de context (entrada)	400K	128K	200K (1M beta)
Tokens de sortida	128K	128K	128K

GPT-5.2-Codex equilibra cost i rendiment. Claude Opus 4.6 lidera Terminal-Bench 2.0 i Humanity's Last Exam, mentre que GPT-5.2-Codex competeix en preu i mida de finestra de context.

Funcionalitats clau per a desenvolupadors

Compactació de context

Com la funcionalitat de compactació de Claude Opus 4.6, GPT-5.2-Codex comprimeix el context anterior mantenint l'estat de la tasca. Això permet sessions de codi de diverses hores on el model fa seguiment del projecte complet fins i tot quan la conversa supera la finestra de context.

Completament de tasques de llarg termini

El model està optimitzat per a tasques que abarquen molts passos: refactoritzacions grans, migracions de codi i implementacions de funcionalitats en múltiples fitxers. Quan un enfocament falla, GPT-5.2-Codex s'ajusta i reintenta en lloc de reiniciar la tasca.

Detecció de vulnerabilitats integrada

GPT-5.2-Codex inclou detecció de vulnerabilitats durant la generació de codi. Els equips que necessiten escanejos més profunds poden utilitzar eines dedicades com Claude Code Security, que ofereix verificació en múltiples etapes amb filtratge de falsos positius.

Suport per a entorn Windows

OpenAI va millorar el rendiment de GPT-5.2-Codex en entorns de desenvolupament Windows, abordant l'optimització centrada en Unix dels models anteriors.

Preus de GPT-5.2-Codex

Nivell	Cost per milió de tokens
Entrada	$1,75
Sortida	$14,00
Entrada en memòria cau	$0,175 (descompte del 90%)

GPT-5.2-Codex està disponible a totes les superfícies de Codex per a usuaris de pagament de ChatGPT i com a model d'API independent.

Què significa GPT-5.2-Codex per al codi agèntic

El llançament reflecteix un canvi sectorial de la completació de codi cap als agents de codi sostinguts. Codex d'OpenAI, Claude Code d'Anthropic i els GitHub Agentic Workflows apunten tots a tasques d'enginyeria de múltiples passos amb mínima intervenció humana.

Preguntes freqüents

Què és GPT-5.2-Codex?

GPT-5.2-Codex és la variant optimitzada per a codi del model GPT-5.2 d'OpenAI, llançada el 14 de gener de 2026. Està dissenyat específicament per a fluxos de treball de codi agèntic on el model executa sessions d'enginyeria de programari sostingudes i de múltiples passos. Obté un 56,4% a SWE-Bench Pro i un 64,0% a Terminal-Bench 2.0, millorant el 55,6% i el 62,2% respectivament del model base GPT-5.2. Suporta una finestra de context de 400K tokens d'entrada i 128K de sortida.

Quant costa GPT-5.2-Codex?

GPT-5.2-Codex costa $1,75 per milió de tokens d'entrada i $14 per milió de tokens de sortida. Les entrades en memòria cau reben un descompte del 90%, reduint la tarifa efectiva a $0,175 per milió de tokens. Això el fa significativament més barat que Claude Opus 4.6 a $5/$25 per milió de tokens, tot i que els dos models difereixen en rendiment de benchmarks i conjunt de funcionalitats.

Què és la compactació de context a GPT-5.2-Codex?

La compactació de context és una funcionalitat que comprimeix el context anterior de la conversa mantenint l'estat crític de la tasca. Això permet a GPT-5.2-Codex mantenir sessions de codi de diverses hores sense perdre el fil de l'abast del projecte. Quan una sessió s'acosta al límit de la finestra de context, el model resumeix el context anterior en lloc de descartar-lo, permetent tasques de codi més llargues i complexes sense reiniciar.

Com es compara GPT-5.2-Codex amb Claude Opus 4.6?

A Terminal-Bench 2.0, Claude Opus 4.6 manté la puntuació més alta, per davant del 64,0% de GPT-5.2-Codex. A SWE-Bench Pro, GPT-5.2-Codex obté un 56,4%. Els dos models adopten enfocaments diferents: GPT-5.2-Codex ofereix un context d'entrada més gran (400K tokens vs. 200K estàndard de Claude) i preus més baixos, mentre que Claude Opus 4.6 ofereix equips d'agents i puntuacions més altes en tasques de raonament com Humanity's Last Exam.