Code Velocity
AI 模型

GPT-5.2-Codex:OpenAI 的智能体编程模型

·6 分钟阅读·OpenAI·原始来源
分享
GPT-5.2-Codex 基准测试图表,展示 SWE-Bench Pro 和 Terminal-Bench 2.0 得分与 GPT-5.2 基础模型的对比

GPT-5.2-Codex 基准测试结果

OpenAI 于 2026 年 1 月 14 日发布了 GPT-5.2-Codex,距离基础版 GPT-5.2 模型发布五周。它面向智能体编程场景:模型规划、编写代码、运行测试并对失败进行迭代的多步骤会话。

该模型在 SWE-Bench Pro 上得分 56.4%(基础版 GPT-5.2 为 55.6%),Terminal-Bench 2.0 上得分 64.0%(基础版为 62.2%)。两个基准测试都评估真实世界的编程任务,而非孤立的代码生成。

GPT-5.2-Codex 对比 GPT-5.2 对比 Claude Opus 4.6

基准测试GPT-5.2-CodexGPT-5.2Claude Opus 4.6
SWE-Bench Pro56.4%55.6%
Terminal-Bench 2.064.0%62.2%#1
上下文窗口(输入)400K128K200K(1M 测试版)
输出 token128K128K128K

GPT-5.2-Codex 在成本和性能之间取得了平衡。Claude Opus 4.6 在 Terminal-Bench 2.0 和 Humanity's Last Exam 上领先,而 GPT-5.2-Codex 在价格和上下文窗口大小上更具竞争力。

开发者核心功能

上下文压缩

Claude Opus 4.6 的压缩功能类似,GPT-5.2-Codex 在保留任务状态的同时压缩早期上下文。这使得多小时编程会话成为可能,即使对话超出上下文窗口,模型仍能追踪整个项目。

长期任务完成

该模型针对跨越多个步骤的任务进行了优化:大规模重构、代码库迁移和多文件功能实现。当某种方法失败时,GPT-5.2-Codex 会调整并重试,而不是重新开始任务。

内置漏洞检测

GPT-5.2-Codex 在代码生成过程中包含漏洞检测功能。需要更深入扫描的团队可以使用专用工具,如 Claude Code Security,它提供多阶段验证和误报过滤。

Windows 环境支持

OpenAI 改善了 GPT-5.2-Codex 的 Windows 开发性能,解决了早期模型以 Unix 为中心的优化问题。

GPT-5.2-Codex 定价

层级每百万 token 费用
输入$1.75
输出$14.00
缓存输入$0.175(90% 折扣)

GPT-5.2-Codex 可通过所有 Codex 接口面向付费 ChatGPT 用户使用,也可作为独立 API 模型使用。

GPT-5.2-Codex 对智能体编程的意义

此次发布反映了行业从代码补全向持续编程智能体的整体转变。OpenAI 的 Codex、Anthropic 的 Claude Code 以及 GitHub Agentic Workflows 都面向以最少人工干预完成多步骤工程任务。

常见问题

什么是 GPT-5.2-Codex?
GPT-5.2-Codex 是 OpenAI 于 2026 年 1 月 14 日发布的 GPT-5.2 编程优化版本。它专为智能体编程工作流设计,支持模型运行持续性的多步骤软件工程会话。在 SWE-Bench Pro 上得分 56.4%,Terminal-Bench 2.0 上得分 64.0%,分别高于基础版 GPT-5.2 的 55.6% 和 62.2%。该模型支持 400K 输入和 128K 输出上下文窗口。
GPT-5.2-Codex 的定价是多少?
GPT-5.2-Codex 的输入价格为每百万 token $1.75,输出价格为每百万 token $14。缓存输入可享受 90% 的折扣,有效缓存价格降至每百万 token $0.175。这使其价格远低于 Claude Opus 4.6 的 $5/$25 每百万 token,尽管两个模型在基准性能和功能集方面有所不同。
GPT-5.2-Codex 中的上下文压缩是什么?
上下文压缩是一项功能,它在保留关键任务状态的同时压缩早期对话上下文。这使 GPT-5.2-Codex 能够维持多小时的编程会话而不丢失项目范围。当会话接近上下文窗口限制时,模型会总结旧的上下文而不是丢弃它,从而实现更长、更复杂的编程任务而无需重新开始。
GPT-5.2-Codex 与 Claude Opus 4.6 相比如何?
在 Terminal-Bench 2.0 上,Claude Opus 4.6 保持最高分,领先于 GPT-5.2-Codex 的 64.0%。在 SWE-Bench Pro 上,GPT-5.2-Codex 得分 56.4%。两个模型采取不同策略:GPT-5.2-Codex 提供更大的输入上下文(400K token 对比 Claude 的 200K 标准)和更低的价格,而 Claude Opus 4.6 提供 agent teams 以及在 Humanity's Last Exam 等推理任务上更高的基准分数。

保持更新

将最新AI新闻发送到您的收件箱。

分享