Code Velocity
مدل‌های هوش مصنوعی

GPT-5.2-Codex: مدل کدنویسی عاملی OpenAI

·6 دقیقه مطالعه·OpenAI·منبع اصلی
اشتراک‌گذاری
نمودار بنچمارک GPT-5.2-Codex با نمایش امتیازات SWE-Bench Pro و Terminal-Bench 2.0 در مقایسه با مدل پایه GPT-5.2

نتایج بنچمارک GPT-5.2-Codex

OpenAI در ۱۴ ژانویه ۲۰۲۶، پنج هفته پس از مدل پایه GPT-5.2، مدل GPT-5.2-Codex را منتشر کرد. این مدل کدنویسی عاملی را هدف قرار می‌دهد: جلسات چندمرحله‌ای که مدل برنامه‌ریزی می‌کند، کد می‌نویسد، تست‌ها را اجرا می‌کند و روی خطاها تکرار می‌کند.

این مدل ۵۶.۴٪ در SWE-Bench Pro (بالاتر از ۵۵.۶٪ GPT-5.2 پایه) و ۶۴.۰٪ در Terminal-Bench 2.0 (بالاتر از ۶۲.۲٪) کسب کرد. هر دو بنچمارک وظایف کدنویسی دنیای واقعی را آزمایش می‌کنند، نه تولید کد ایزوله.

GPT-5.2-Codex در مقابل GPT-5.2 در مقابل Claude Opus 4.6

بنچمارکGPT-5.2-CodexGPT-5.2Claude Opus 4.6
SWE-Bench Pro۵۶.۴٪۵۵.۶٪
Terminal-Bench 2.0۶۴.۰٪۶۲.۲٪#1
پنجره زمینه (ورودی)400K128K200K (1M بتا)
توکن‌های خروجی128K128K128K

GPT-5.2-Codex هزینه و عملکرد را متوازن می‌کند. Claude Opus 4.6 در Terminal-Bench 2.0 و Humanity's Last Exam پیشتاز است، در حالی که GPT-5.2-Codex در قیمت و اندازه پنجره زمینه رقابت می‌کند.

ویژگی‌های کلیدی برای توسعه‌دهندگان

فشرده‌سازی زمینه

مانند ویژگی فشرده‌سازی Claude Opus 4.6، GPT-5.2-Codex زمینه قبلی را فشرده می‌کند و در عین حال وضعیت وظیفه را حفظ می‌کند. این امکان جلسات کدنویسی چندساعته را فراهم می‌سازد که مدل کل پروژه را حتی زمانی که مکالمه از پنجره زمینه فراتر می‌رود، پیگیری می‌کند.

تکمیل وظایف بلندمدت

این مدل برای وظایفی که مراحل زیادی را شامل می‌شوند بهینه شده است: بازسازی‌های بزرگ، مهاجرت‌های پایگاه کد و پیاده‌سازی ویژگی‌های چندفایلی. وقتی یک رویکرد شکست می‌خورد، GPT-5.2-Codex تنظیم و تلاش مجدد می‌کند به جای اینکه وظیفه را از نو شروع کند.

تشخیص آسیب‌پذیری داخلی

GPT-5.2-Codex شامل تشخیص آسیب‌پذیری در حین تولید کد است. تیم‌هایی که به اسکن عمیق‌تر نیاز دارند می‌توانند از ابزارهای اختصاصی مانند Claude Code Security استفاده کنند که تأیید چندمرحله‌ای با فیلتر کردن مثبت‌های کاذب ارائه می‌دهد.

پشتیبانی از محیط ویندوز

OpenAI عملکرد توسعه ویندوز GPT-5.2-Codex را بهبود بخشید و بهینه‌سازی یونیکس‌محور مدل‌های قبلی را برطرف کرد.

قیمت‌گذاری GPT-5.2-Codex

سطحهزینه به‌ازای هر میلیون توکن
ورودی$1.75
خروجی$14.00
ورودی کش‌شده$0.175 (تخفیف ۹۰٪)

GPT-5.2-Codex در تمام سطوح Codex برای کاربران پولی ChatGPT و به‌عنوان مدل API مستقل در دسترس است.

معنای GPT-5.2-Codex برای کدنویسی عاملی

این انتشار بازتاب‌دهنده تغییر سراسری صنعت از تکمیل کد به عامل‌های کدنویسی مداوم است. Codex از OpenAI، Claude Code از Anthropic و GitHub Agentic Workflows همگی وظایف مهندسی چندمرحله‌ای را با حداقل مداخله انسانی هدف قرار می‌دهند.

سوالات متداول

GPT-5.2-Codex چیست؟
GPT-5.2-Codex نسخه بهینه‌شده برای کدنویسی از مدل GPT-5.2 توسط OpenAI است که در ۱۴ ژانویه ۲۰۲۶ منتشر شد. این مدل به‌طور خاص برای گردش‌های کاری کدنویسی عاملی ساخته شده است که مدل جلسات مهندسی نرم‌افزار مداوم و چندمرحله‌ای را اجرا می‌کند. با امتیاز ۵۶.۴٪ در SWE-Bench Pro و ۶۴.۰٪ در Terminal-Bench 2.0، نسبت به ۵۵.۶٪ و ۶۲.۲٪ مدل پایه GPT-5.2 بهبود یافته است. این مدل از پنجره زمینه ۴۰۰هزار توکن ورودی و ۱۲۸هزار توکن خروجی پشتیبانی می‌کند.
هزینه GPT-5.2-Codex چقدر است؟
GPT-5.2-Codex ۱.۷۵ دلار به‌ازای هر میلیون توکن ورودی و ۱۴ دلار به‌ازای هر میلیون توکن خروجی هزینه دارد. ورودی‌های کش‌شده ۹۰٪ تخفیف دریافت می‌کنند و نرخ مؤثر کش‌شده را به ۰.۱۷۵ دلار به‌ازای هر میلیون توکن می‌رسانند. این به‌طور قابل‌توجهی ارزان‌تر از Claude Opus 4.6 با $5/$25 به‌ازای هر میلیون توکن است، هرچند دو مدل در عملکرد بنچمارک و مجموعه ویژگی‌ها متفاوت هستند.
فشرده‌سازی زمینه در GPT-5.2-Codex چیست؟
فشرده‌سازی زمینه ویژگی‌ای است که زمینه مکالمه قبلی را فشرده می‌کند و در عین حال وضعیت بحرانی وظیفه را حفظ می‌کند. این امکان را به GPT-5.2-Codex می‌دهد تا جلسات کدنویسی چندساعته را بدون از دست دادن دامنه پروژه حفظ کند. وقتی یک جلسه به محدودیت پنجره زمینه نزدیک می‌شود، مدل زمینه قدیمی‌تر را خلاصه می‌کند به جای اینکه آن را حذف کند و این امکان وظایف کدنویسی طولانی‌تر و پیچیده‌تر را بدون شروع مجدد فراهم می‌سازد.
GPT-5.2-Codex در مقایسه با Claude Opus 4.6 چگونه است؟
در Terminal-Bench 2.0، Claude Opus 4.6 بالاترین امتیاز را دارد و از ۶۴.۰٪ GPT-5.2-Codex جلوتر است. در SWE-Bench Pro، GPT-5.2-Codex امتیاز ۵۶.۴٪ کسب می‌کند. دو مدل رویکردهای متفاوتی دارند: GPT-5.2-Codex زمینه ورودی بزرگ‌تر (۴۰۰هزار توکن در مقابل ۲۰۰هزار استاندارد Claude) و قیمت پایین‌تر ارائه می‌دهد، در حالی که Claude Opus 4.6 تیم‌های عامل و امتیازات بنچمارک بالاتر در وظایف استدلال مانند Humanity's Last Exam را ارائه می‌دهد.

به‌روز بمانید

آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.

اشتراک‌گذاری