GPT-5.2-Codex: Mô Hình Lập Trình Tự Chủ Của OpenAI

Kết Quả Benchmark GPT-5.2-Codex

OpenAI phát hành GPT-5.2-Codex vào ngày 14 tháng 1 năm 2026, năm tuần sau mô hình GPT-5.2 cơ bản. Mô hình nhắm đến lập trình tự chủ: các phiên nhiều bước trong đó mô hình lên kế hoạch, viết mã, chạy kiểm thử và lặp lại khi gặp lỗi.

Mô hình đạt 56,4% trên SWE-Bench Pro (tăng từ 55,6% của GPT-5.2 cơ bản) và 64,0% trên Terminal-Bench 2.0 (tăng từ 62,2%). Cả hai benchmark đều kiểm tra các tác vụ lập trình thực tế, không phải tạo mã riêng lẻ.

GPT-5.2-Codex vs GPT-5.2 vs Claude Opus 4.6

Benchmark	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56,4%	55,6%	—
Terminal-Bench 2.0	64,0%	62,2%	#1
Cửa sổ ngữ cảnh (đầu vào)	400K	128K	200K (1M beta)
Token đầu ra	128K	128K	128K

GPT-5.2-Codex cân bằng giữa chi phí và hiệu suất. Claude Opus 4.6 dẫn đầu Terminal-Bench 2.0 và Humanity's Last Exam, trong khi GPT-5.2-Codex cạnh tranh về giá và kích thước cửa sổ ngữ cảnh.

Tính Năng Chính Cho Nhà Phát Triển

Nén Ngữ Cảnh

Tương tự tính năng nén của Claude Opus 4.6, GPT-5.2-Codex nén ngữ cảnh trước đó trong khi giữ nguyên trạng thái tác vụ. Điều này cho phép các phiên lập trình nhiều giờ trong đó mô hình theo dõi toàn bộ dự án ngay cả khi cuộc hội thoại vượt quá cửa sổ ngữ cảnh.

Hoàn Thành Tác Vụ Dài Hạn

Mô hình được tối ưu hóa cho các tác vụ kéo dài nhiều bước: tái cấu trúc lớn, di chuyển codebase và triển khai tính năng đa tệp. Khi một cách tiếp cận thất bại, GPT-5.2-Codex điều chỉnh và thử lại thay vì khởi động lại tác vụ.

Phát Hiện Lỗ Hổng Tích Hợp

GPT-5.2-Codex bao gồm phát hiện lỗ hổng trong quá trình tạo mã. Các nhóm cần quét sâu hơn có thể sử dụng các công cụ chuyên dụng như Claude Code Security, cung cấp xác minh nhiều giai đoạn với lọc dương tính giả.

Hỗ Trợ Môi Trường Windows

OpenAI đã cải thiện hiệu suất phát triển Windows của GPT-5.2-Codex, giải quyết vấn đề tối ưu hóa thiên hướng Unix của các mô hình trước đó.

Giá GPT-5.2-Codex

Bậc	Chi Phí Mỗi Triệu Token
Đầu vào	$1,75
Đầu ra	$14,00
Đầu vào lưu bộ nhớ đệm	$0,175 (giảm 90%)

GPT-5.2-Codex có sẵn trên tất cả các nền tảng Codex cho người dùng ChatGPT trả phí và như một mô hình API độc lập.

Ý Nghĩa Của GPT-5.2-Codex Cho Lập Trình Tự Chủ

Bản phát hành phản ánh xu hướng chuyển đổi toàn ngành từ hoàn thành mã sang các tác nhân lập trình bền vững. Codex của OpenAI, Claude Code của Anthropic và GitHub Agentic Workflows đều nhắm đến các tác vụ kỹ thuật nhiều bước với sự can thiệp tối thiểu của con người.

Câu hỏi thường gặp

GPT-5.2-Codex là gì?

GPT-5.2-Codex là biến thể tối ưu hóa cho lập trình của mô hình GPT-5.2 từ OpenAI, phát hành ngày 14 tháng 1 năm 2026. Mô hình được xây dựng đặc biệt cho quy trình lập trình tự chủ, nơi mô hình thực hiện các phiên kỹ thuật phần mềm nhiều bước liên tục. Đạt 56,4% trên SWE-Bench Pro và 64,0% trên Terminal-Bench 2.0, cải thiện so với mô hình GPT-5.2 cơ bản ở mức 55,6% và 62,2%. Mô hình hỗ trợ cửa sổ ngữ cảnh 400K đầu vào và 128K đầu ra.

GPT-5.2-Codex có giá bao nhiêu?

GPT-5.2-Codex có giá $1,75 mỗi triệu token đầu vào và $14 mỗi triệu token đầu ra. Đầu vào được lưu bộ nhớ đệm được giảm 90%, đưa giá thực tế xuống $0,175 mỗi triệu token. Điều này rẻ hơn đáng kể so với Claude Opus 4.6 ở mức $5/$25 mỗi triệu token, mặc dù hai mô hình khác nhau về hiệu suất benchmark và bộ tính năng.

Nén ngữ cảnh trong GPT-5.2-Codex là gì?

Nén ngữ cảnh là tính năng nén ngữ cảnh hội thoại trước đó trong khi vẫn giữ nguyên trạng thái tác vụ quan trọng. Điều này cho phép GPT-5.2-Codex duy trì các phiên lập trình nhiều giờ mà không mất dấu phạm vi dự án. Khi phiên tiến gần đến giới hạn cửa sổ ngữ cảnh, mô hình tóm tắt ngữ cảnh cũ thay vì loại bỏ, cho phép thực hiện các tác vụ lập trình dài hơn và phức tạp hơn mà không cần khởi động lại.

GPT-5.2-Codex so với Claude Opus 4.6 như thế nào?

Trên Terminal-Bench 2.0, Claude Opus 4.6 giữ điểm cao nhất, dẫn trước GPT-5.2-Codex với 64,0%. Trên SWE-Bench Pro, GPT-5.2-Codex đạt 56,4%. Hai mô hình có cách tiếp cận khác nhau: GPT-5.2-Codex cung cấp ngữ cảnh đầu vào lớn hơn (400K token so với 200K tiêu chuẩn của Claude) và giá thấp hơn, trong khi Claude Opus 4.6 cung cấp agent teams và điểm benchmark cao hơn trên các tác vụ suy luận như Humanity's Last Exam.