GPT-5.2-Codex : le modèle de codage agentique d'OpenAI

Résultats des benchmarks de GPT-5.2-Codex

OpenAI a publié GPT-5.2-Codex le 14 janvier 2026, cinq semaines après le modèle de base GPT-5.2. Il cible le codage agentique : des sessions multi-étapes où le modèle planifie, écrit du code, exécute des tests et itère sur les échecs.

Le modèle obtient 56,4 % sur SWE-Bench Pro (contre 55,6 % pour le GPT-5.2 de base) et 64,0 % sur Terminal-Bench 2.0 (contre 62,2 %). Ces deux benchmarks testent des tâches de codage réelles, pas de la génération de code isolée.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4 %	55,6 %	—
Terminal-Bench 2.0	64,0 %	62,2 %	#1
Fenêtre de contexte (entrée)	400K	128K	200K (1M bêta)
Tokens en sortie	128K	128K	128K

GPT-5.2-Codex équilibre coût et performance. Claude Opus 4.6 mène sur Terminal-Bench 2.0 et Humanity's Last Exam, tandis que GPT-5.2-Codex rivalise sur le prix et la taille de la fenêtre de contexte.

Fonctionnalités clés pour les développeurs

Compaction de contexte

Comme la fonctionnalité de compaction de Claude Opus 4.6, GPT-5.2-Codex compresse le contexte antérieur tout en préservant l'état de la tâche. Cela permet des sessions de codage de plusieurs heures où le modèle suit l'ensemble du projet même lorsque la conversation dépasse la fenêtre de contexte.

Complétion de tâches à long terme

Le modèle est optimisé pour les tâches s'étendant sur de nombreuses étapes : refactorisations majeures, migrations de codebase et implémentations de fonctionnalités multi-fichiers. Lorsqu'une approche échoue, GPT-5.2-Codex s'ajuste et réessaie plutôt que de redémarrer la tâche.

Détection de vulnérabilités intégrée

GPT-5.2-Codex inclut la détection de vulnérabilités lors de la génération de code. Les équipes nécessitant une analyse plus approfondie peuvent utiliser des outils dédiés comme Claude Code Security, qui offre une vérification multi-étapes avec filtrage des faux positifs.

Support des environnements Windows

OpenAI a amélioré les performances de GPT-5.2-Codex pour le développement sous Windows, corrigeant l'optimisation centrée sur Unix des modèles précédents.

Tarification de GPT-5.2-Codex

Niveau	Coût par million de tokens
Entrée	1,75 $
Sortie	14,00 $
Entrée en cache	0,175 $ (remise de 90 %)

GPT-5.2-Codex est disponible sur toutes les surfaces Codex pour les utilisateurs payants de ChatGPT et en tant que modèle API autonome.

Ce que GPT-5.2-Codex signifie pour le codage agentique

Cette sortie reflète un virage à l'échelle de l'industrie, de la complétion de code vers des agents de codage soutenus. Le Codex d'OpenAI, Claude Code d'Anthropic et les GitHub Agentic Workflows ciblent tous des tâches d'ingénierie multi-étapes avec une intervention humaine minimale.

Questions Fréquentes

Qu'est-ce que GPT-5.2-Codex ?

GPT-5.2-Codex est la variante de GPT-5.2 optimisée pour le code, publiée par OpenAI le 14 janvier 2026. Il est conçu pour les workflows de codage agentique où le modèle mène des sessions d'ingénierie logicielle soutenues et multi-étapes. Il obtient 56,4 % sur SWE-Bench Pro et 64,0 % sur Terminal-Bench 2.0, améliorant respectivement les scores de 55,6 % et 62,2 % du modèle de base GPT-5.2. Le modèle prend en charge une fenêtre de contexte de 400K tokens en entrée et 128K en sortie.

Combien coûte GPT-5.2-Codex ?

GPT-5.2-Codex coûte 1,75 $ par million de tokens en entrée et 14 $ par million de tokens en sortie. Les entrées en cache bénéficient d'une remise de 90 %, ramenant le tarif effectif à 0,175 $ par million de tokens. Cela le rend nettement moins cher que Claude Opus 4.6 à 5 $/25 $ par million de tokens, bien que les deux modèles diffèrent en termes de performances et de fonctionnalités.

Qu'est-ce que la compaction de contexte dans GPT-5.2-Codex ?

La compaction de contexte est une fonctionnalité qui compresse le contexte conversationnel antérieur tout en préservant l'état critique de la tâche. Cela permet à GPT-5.2-Codex de maintenir des sessions de codage de plusieurs heures sans perdre le fil du projet. Lorsqu'une session approche de la limite de la fenêtre de contexte, le modèle résume le contexte plus ancien plutôt que de le supprimer, permettant des tâches de codage plus longues et plus complexes sans redémarrage.

Comment GPT-5.2-Codex se compare-t-il à Claude Opus 4.6 ?

Sur Terminal-Bench 2.0, Claude Opus 4.6 détient le meilleur score, devant les 64,0 % de GPT-5.2-Codex. Sur SWE-Bench Pro, GPT-5.2-Codex obtient 56,4 %. Les deux modèles adoptent des approches différentes : GPT-5.2-Codex offre un contexte d'entrée plus large (400K tokens contre 200K standard pour Claude) et des tarifs inférieurs, tandis que Claude Opus 4.6 propose les agent teams et des scores supérieurs sur les tâches de raisonnement comme Humanity's Last Exam.