GPT-5.2-Codex：OpenAI 的智能体编程模型

GPT-5.2-Codex 基准测试结果

OpenAI 于 2026 年 1 月 14 日发布了 GPT-5.2-Codex，距离基础版 GPT-5.2 模型发布五周。它面向智能体编程场景：模型规划、编写代码、运行测试并对失败进行迭代的多步骤会话。

该模型在 SWE-Bench Pro 上得分 56.4%（基础版 GPT-5.2 为 55.6%），Terminal-Bench 2.0 上得分 64.0%（基础版为 62.2%）。两个基准测试都评估真实世界的编程任务，而非孤立的代码生成。

GPT-5.2-Codex 对比 GPT-5.2 对比 Claude Opus 4.6

基准测试	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
上下文窗口（输入）	400K	128K	200K（1M 测试版）
输出 token	128K	128K	128K

GPT-5.2-Codex 在成本和性能之间取得了平衡。Claude Opus 4.6 在 Terminal-Bench 2.0 和 Humanity's Last Exam 上领先，而 GPT-5.2-Codex 在价格和上下文窗口大小上更具竞争力。

开发者核心功能

上下文压缩

与 Claude Opus 4.6 的压缩功能类似，GPT-5.2-Codex 在保留任务状态的同时压缩早期上下文。这使得多小时编程会话成为可能，即使对话超出上下文窗口，模型仍能追踪整个项目。

长期任务完成

该模型针对跨越多个步骤的任务进行了优化：大规模重构、代码库迁移和多文件功能实现。当某种方法失败时，GPT-5.2-Codex 会调整并重试，而不是重新开始任务。

内置漏洞检测

GPT-5.2-Codex 在代码生成过程中包含漏洞检测功能。需要更深入扫描的团队可以使用专用工具，如 Claude Code Security，它提供多阶段验证和误报过滤。

Windows 环境支持

OpenAI 改善了 GPT-5.2-Codex 的 Windows 开发性能，解决了早期模型以 Unix 为中心的优化问题。

GPT-5.2-Codex 定价

层级	每百万 token 费用
输入	$1.75
输出	$14.00
缓存输入	$0.175（90% 折扣）

GPT-5.2-Codex 可通过所有 Codex 接口面向付费 ChatGPT 用户使用，也可作为独立 API 模型使用。

GPT-5.2-Codex 对智能体编程的意义

此次发布反映了行业从代码补全向持续编程智能体的整体转变。OpenAI 的 Codex、Anthropic 的 Claude Code 以及 GitHub Agentic Workflows 都面向以最少人工干预完成多步骤工程任务。

常见问题

什么是 GPT-5.2-Codex？

GPT-5.2-Codex 是 OpenAI 于 2026 年 1 月 14 日发布的 GPT-5.2 编程优化版本。它专为智能体编程工作流设计，支持模型运行持续性的多步骤软件工程会话。在 SWE-Bench Pro 上得分 56.4%，Terminal-Bench 2.0 上得分 64.0%，分别高于基础版 GPT-5.2 的 55.6% 和 62.2%。该模型支持 400K 输入和 128K 输出上下文窗口。

GPT-5.2-Codex 的定价是多少？

GPT-5.2-Codex 的输入价格为每百万 token $1.75，输出价格为每百万 token $14。缓存输入可享受 90% 的折扣，有效缓存价格降至每百万 token $0.175。这使其价格远低于 Claude Opus 4.6 的 $5/$25 每百万 token，尽管两个模型在基准性能和功能集方面有所不同。

GPT-5.2-Codex 中的上下文压缩是什么？

上下文压缩是一项功能，它在保留关键任务状态的同时压缩早期对话上下文。这使 GPT-5.2-Codex 能够维持多小时的编程会话而不丢失项目范围。当会话接近上下文窗口限制时，模型会总结旧的上下文而不是丢弃它，从而实现更长、更复杂的编程任务而无需重新开始。

GPT-5.2-Codex 与 Claude Opus 4.6 相比如何？

在 Terminal-Bench 2.0 上，Claude Opus 4.6 保持最高分，领先于 GPT-5.2-Codex 的 64.0%。在 SWE-Bench Pro 上，GPT-5.2-Codex 得分 56.4%。两个模型采取不同策略：GPT-5.2-Codex 提供更大的输入上下文（400K token 对比 Claude 的 200K 标准）和更低的价格，而 Claude Opus 4.6 提供 agent teams 以及在 Humanity's Last Exam 等推理任务上更高的基准分数。