GPT-5.2-Codex: il modello di coding agentico di OpenAI

Risultati benchmark di GPT-5.2-Codex

OpenAI ha rilasciato GPT-5.2-Codex il 14 gennaio 2026, cinque settimane dopo il modello base GPT-5.2. È orientato al coding agentico: sessioni multi-step in cui il modello pianifica, scrive codice, esegue test e itera sugli errori.

Il modello ottiene 56,4% su SWE-Bench Pro (rispetto al 55,6% del GPT-5.2 base) e 64,0% su Terminal-Bench 2.0 (rispetto al 62,2%). Entrambi i benchmark testano attività di coding reali, non generazione di codice isolata.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4%	55,6%	—
Terminal-Bench 2.0	64,0%	62,2%	#1
Finestra di contesto (input)	400K	128K	200K (1M beta)
Token in output	128K	128K	128K

GPT-5.2-Codex bilancia costo e performance. Claude Opus 4.6 guida Terminal-Bench 2.0 e Humanity's Last Exam, mentre GPT-5.2-Codex compete su prezzo e dimensione della finestra di contesto.

Funzionalità chiave per gli sviluppatori

Context Compaction

Come la funzionalità di compaction di Claude Opus 4.6, GPT-5.2-Codex comprime il contesto precedente preservando lo stato dell'attività. Questo consente sessioni di coding di più ore in cui il modello tiene traccia dell'intero progetto anche quando la conversazione supera la finestra di contesto.

Completamento di attività a lungo termine

Il modello è ottimizzato per attività che richiedono molti passaggi: refactoring su larga scala, migrazioni di codebase e implementazioni di funzionalità multi-file. Quando un approccio fallisce, GPT-5.2-Codex corregge e riprova invece di ricominciare l'attività da zero.

Rilevamento vulnerabilità integrato

GPT-5.2-Codex include il rilevamento di vulnerabilità durante la generazione del codice. I team che necessitano di scansioni più approfondite possono usare strumenti dedicati come Claude Code Security, che offre verifica multi-stadio con filtraggio dei falsi positivi.

Supporto per l'ambiente Windows

OpenAI ha migliorato le prestazioni di GPT-5.2-Codex su Windows, superando l'ottimizzazione incentrata su Unix dei modelli precedenti.

Prezzi di GPT-5.2-Codex

Livello	Costo per milione di token
Input	$1,75
Output	$14,00
Input in cache	$0,175 (sconto 90%)

GPT-5.2-Codex è disponibile su tutte le piattaforme Codex per gli utenti ChatGPT a pagamento e come modello API indipendente.

Cosa significa GPT-5.2-Codex per il coding agentico

Il rilascio riflette un cambiamento settoriale dal completamento del codice ad agenti di coding completi. Codex di OpenAI, Claude Code di Anthropic e GitHub Agentic Workflows puntano tutti su attività di ingegneria multi-step con intervento umano minimo.

Domande Frequenti

Cos'è GPT-5.2-Codex?

GPT-5.2-Codex è la variante di GPT-5.2 ottimizzata per il coding, rilasciata da OpenAI il 14 gennaio 2026. È progettata specificamente per flussi di lavoro di coding agentico, in cui il modello esegue sessioni di ingegneria del software prolungate e multi-step. Ottiene 56,4% su SWE-Bench Pro e 64,0% su Terminal-Bench 2.0, migliorando rispetto ai 55,6% e 62,2% del modello base GPT-5.2. Il modello supporta una finestra di contesto di 400K token in input e 128K in output.

Quanto costa GPT-5.2-Codex?

GPT-5.2-Codex costa $1,75 per milione di token in input e $14 per milione di token in output. Gli input memorizzati nella cache ricevono uno sconto del 90%, portando il costo effettivo a $0,175 per milione di token. Questo lo rende significativamente più economico di Claude Opus 4.6 a $5/$25 per milione di token, anche se i due modelli differiscono per performance nei benchmark e set di funzionalità.

Cos'è il context compaction in GPT-5.2-Codex?

Il context compaction è una funzionalità che comprime il contesto precedente della conversazione preservando lo stato critico dell'attività. Questo permette a GPT-5.2-Codex di sostenere sessioni di coding di più ore senza perdere la visione d'insieme del progetto. Quando una sessione si avvicina al limite della finestra di contesto, il modello riassume il contesto più vecchio invece di eliminarlo, consentendo attività di coding più lunghe e complesse senza dover riavviare.

Come si confronta GPT-5.2-Codex con Claude Opus 4.6?

Su Terminal-Bench 2.0, Claude Opus 4.6 detiene il punteggio più alto, davanti al 64,0% di GPT-5.2-Codex. Su SWE-Bench Pro, GPT-5.2-Codex ottiene 56,4%. I due modelli adottano approcci diversi: GPT-5.2-Codex offre un contesto di input più ampio (400K token contro i 200K standard di Claude) e prezzi più bassi, mentre Claude Opus 4.6 offre agent teams e punteggi più alti nei benchmark di ragionamento come Humanity's Last Exam.