GPT-5.2-Codex 基准测试结果
OpenAI 于 2026 年 1 月 14 日发布了 GPT-5.2-Codex,距离基础版 GPT-5.2 模型发布五周。它面向智能体编程场景:模型规划、编写代码、运行测试并对失败进行迭代的多步骤会话。
该模型在 SWE-Bench Pro 上得分 56.4%(基础版 GPT-5.2 为 55.6%),Terminal-Bench 2.0 上得分 64.0%(基础版为 62.2%)。两个基准测试都评估真实世界的编程任务,而非孤立的代码生成。
GPT-5.2-Codex 对比 GPT-5.2 对比 Claude Opus 4.6
| 基准测试 | GPT-5.2-Codex | GPT-5.2 | Claude Opus 4.6 |
|---|---|---|---|
| SWE-Bench Pro | 56.4% | 55.6% | — |
| Terminal-Bench 2.0 | 64.0% | 62.2% | #1 |
| 上下文窗口(输入) | 400K | 128K | 200K(1M 测试版) |
| 输出 token | 128K | 128K | 128K |
GPT-5.2-Codex 在成本和性能之间取得了平衡。Claude Opus 4.6 在 Terminal-Bench 2.0 和 Humanity's Last Exam 上领先,而 GPT-5.2-Codex 在价格和上下文窗口大小上更具竞争力。
开发者核心功能
上下文压缩
与 Claude Opus 4.6 的压缩功能类似,GPT-5.2-Codex 在保留任务状态的同时压缩早期上下文。这使得多小时编程会话成为可能,即使对话超出上下文窗口,模型仍能追踪整个项目。
长期任务完成
该模型针对跨越多个步骤的任务进行了优化:大规模重构、代码库迁移和多文件功能实现。当某种方法失败时,GPT-5.2-Codex 会调整并重试,而不是重新开始任务。
内置漏洞检测
GPT-5.2-Codex 在代码生成过程中包含漏洞检测功能。需要更深入扫描的团队可以使用专用工具,如 Claude Code Security,它提供多阶段验证和误报过滤。
Windows 环境支持
OpenAI 改善了 GPT-5.2-Codex 的 Windows 开发性能,解决了早期模型以 Unix 为中心的优化问题。
GPT-5.2-Codex 定价
| 层级 | 每百万 token 费用 |
|---|---|
| 输入 | $1.75 |
| 输出 | $14.00 |
| 缓存输入 | $0.175(90% 折扣) |
GPT-5.2-Codex 可通过所有 Codex 接口面向付费 ChatGPT 用户使用,也可作为独立 API 模型使用。
GPT-5.2-Codex 对智能体编程的意义
此次发布反映了行业从代码补全向持续编程智能体的整体转变。OpenAI 的 Codex、Anthropic 的 Claude Code 以及 GitHub Agentic Workflows 都面向以最少人工干预完成多步骤工程任务。
常见问题
什么是 GPT-5.2-Codex?
GPT-5.2-Codex 的定价是多少?
GPT-5.2-Codex 中的上下文压缩是什么?
GPT-5.2-Codex 与 Claude Opus 4.6 相比如何?
保持更新
将最新AI新闻发送到您的收件箱。
