GPT-5.2-Codex: OpenAI کا ایجنٹک کوڈنگ ماڈل

GPT-5.2-Codex بینچ مارک نتائج

OpenAI نے GPT-5.2-Codex کو 14 جنوری 2026 کو جاری کیا، بنیادی GPT-5.2 ماڈل کے پانچ ہفتے بعد۔ یہ ایجنٹک کوڈنگ کو نشانہ بناتا ہے: کئی مراحل پر مشتمل سیشنز جہاں ماڈل منصوبہ بندی کرتا ہے، کوڈ لکھتا ہے، ٹیسٹ چلاتا ہے، اور ناکامیوں پر دوبارہ کوشش کرتا ہے۔

ماڈل SWE-Bench Pro پر 56.4% (بنیادی GPT-5.2 کے 55.6% سے اوپر) اور Terminal-Bench 2.0 پر 64.0% (62.2% سے اوپر) اسکور کرتا ہے۔ دونوں بینچ مارکس حقیقی دنیا کے کوڈنگ ٹاسکس کا تجربہ کرتے ہیں، الگ تھلگ کوڈ تخلیق کا نہیں۔

GPT-5.2-Codex بمقابلہ GPT-5.2 بمقابلہ Claude Opus 4.6

بینچ مارک	GPT-5.2-Codex	GPT-5.2	Claude Opus 4.6
SWE-Bench Pro	56.4%	55.6%	—
Terminal-Bench 2.0	64.0%	62.2%	#1
سیاق و سباق ونڈو (ان پٹ)	400K	128K	200K (1M بیٹا)
آؤٹ پٹ ٹوکنز	128K	128K	128K

GPT-5.2-Codex لاگت اور کارکردگی میں توازن رکھتا ہے۔ Claude Opus 4.6 Terminal-Bench 2.0 اور Humanity's Last Exam میں سرفہرست ہے، جبکہ GPT-5.2-Codex قیمت اور سیاق و سباق ونڈو کے سائز میں مقابلہ کرتا ہے۔

ڈیولپرز کے لیے اہم خصوصیات

سیاق و سباق کی تکثیف

Claude Opus 4.6 کی تکثیف خصوصیت کی طرح، GPT-5.2-Codex ٹاسک اسٹیٹ کو محفوظ رکھتے ہوئے پرانے سیاق و سباق کو دبا دیتا ہے۔ یہ کئی گھنٹوں کے کوڈنگ سیشنز کو ممکن بناتا ہے جہاں ماڈل پوری پراجیکٹ کو ٹریک کرتا ہے چاہے گفتگو سیاق و سباق ونڈو سے تجاوز کر جائے۔

طویل المدت ٹاسک تکمیل

ماڈل کئی مراحل پر مشتمل کاموں کے لیے بہتر بنایا گیا ہے: بڑی ری فیکٹرنگ، کوڈ بیس منتقلی، اور کئی فائلوں کی فیچر نفاذ۔ جب کوئی نقطہ نظر ناکام ہوتا ہے تو GPT-5.2-Codex ٹاسک دوبارہ شروع کرنے کی بجائے ایڈجسٹ کرتا ہے اور دوبارہ کوشش کرتا ہے۔

بلٹ ان خطرات کی نشاندہی

GPT-5.2-Codex کوڈ تخلیق کے دوران خطرات کی نشاندہی شامل کرتا ہے۔ گہری اسکیننگ کی ضرورت والی ٹیمیں Claude Code Security جیسے مخصوص ٹولز استعمال کر سکتی ہیں، جو فالس پازیٹو فلٹرنگ کے ساتھ کثیر مرحلہ تصدیق پیش کرتا ہے۔

Windows ماحول کی حمایت

OpenAI نے GPT-5.2-Codex کی Windows ترقیاتی کارکردگی کو بہتر بنایا، پچھلے ماڈلز کی Unix مرکوز اصلاح کو حل کیا۔

GPT-5.2-Codex قیمت

درجہ	فی ملین ٹوکنز لاگت
ان پٹ	$1.75
آؤٹ پٹ	$14.00
کیشڈ ان پٹ	$0.175 (90% رعایت)

GPT-5.2-Codex ادائیگی کرنے والے ChatGPT صارفین کے لیے تمام Codex پلیٹ فارمز پر اور بطور مستقل API ماڈل دستیاب ہے۔

ایجنٹک کوڈنگ کے لیے GPT-5.2-Codex کا کیا مطلب ہے

یہ ریلیز کوڈ تکمیل سے مستقل کوڈنگ ایجنٹس کی طرف صنعت بھر کی تبدیلی کی عکاسی کرتی ہے۔ OpenAI کا Codex، Anthropic کا Claude Code، اور GitHub Agentic Workflows سب کم سے کم انسانی مداخلت کے ساتھ کئی مراحل کے انجینئرنگ ٹاسکس کو نشانہ بناتے ہیں۔

اکثر پوچھے جانے والے سوالات

GPT-5.2-Codex کیا ہے؟

GPT-5.2-Codex OpenAI کے GPT-5.2 ماڈل کا کوڈنگ کے لیے بہتر بنایا گیا ورژن ہے، جو 14 جنوری 2026 کو جاری کیا گیا۔ یہ خاص طور پر ایجنٹک کوڈنگ ورک فلوز کے لیے بنایا گیا ہے جہاں ماڈل مسلسل، کئی مراحل پر مشتمل سافٹ ویئر انجینئرنگ سیشنز چلاتا ہے۔ یہ SWE-Bench Pro پر 56.4% اور Terminal-Bench 2.0 پر 64.0% اسکور کرتا ہے، بنیادی GPT-5.2 کے 55.6% اور 62.2% سے بہتر۔ ماڈل 400K ان پٹ اور 128K آؤٹ پٹ سیاق و سباق ونڈو کی حمایت کرتا ہے۔

GPT-5.2-Codex کی قیمت کتنی ہے؟

GPT-5.2-Codex کی قیمت فی ملین ان پٹ ٹوکنز $1.75 اور فی ملین آؤٹ پٹ ٹوکنز $14 ہے۔ کیشڈ ان پٹس پر 90% رعایت ملتی ہے، جس سے مؤثر کیشڈ شرح $0.175 فی ملین ٹوکنز ہو جاتی ہے۔ یہ Claude Opus 4.6 کی $5/$25 فی ملین ٹوکنز کی قیمت سے نمایاں طور پر سستا ہے، اگرچہ دونوں ماڈلز بینچ مارک کارکردگی اور خصوصیات میں مختلف ہیں۔

GPT-5.2-Codex میں سیاق و سباق کی تکثیف کیا ہے؟

سیاق و سباق کی تکثیف ایک خصوصیت ہے جو اہم ٹاسک اسٹیٹ کو محفوظ رکھتے ہوئے پرانے گفتگو کے سیاق و سباق کو دبا دیتی ہے۔ یہ GPT-5.2-Codex کو پراجیکٹ کے دائرہ کار سے محروم ہوئے بغیر کئی گھنٹوں کے کوڈنگ سیشنز جاری رکھنے کی اجازت دیتی ہے۔ جب سیشن سیاق و سباق ونڈو کی حد کے قریب پہنچتا ہے تو ماڈل پرانے سیاق و سباق کو حذف کرنے کی بجائے خلاصہ بنا دیتا ہے، جس سے دوبارہ شروع کیے بغیر طویل اور پیچیدہ کوڈنگ ٹاسک ممکن ہوتے ہیں۔

GPT-5.2-Codex کا Claude Opus 4.6 سے کیا موازنہ ہے؟

Terminal-Bench 2.0 پر Claude Opus 4.6 سب سے اوپر ہے، GPT-5.2-Codex کے 64.0% سے آگے۔ SWE-Bench Pro پر GPT-5.2-Codex 56.4% اسکور کرتا ہے۔ دونوں ماڈلز مختلف نقطہ نظر اپناتے ہیں: GPT-5.2-Codex بڑا ان پٹ سیاق و سباق (400K ٹوکنز بمقابلہ Claude کے 200K معیاری) اور کم قیمت پیش کرتا ہے، جبکہ Claude Opus 4.6 ایجنٹ ٹیمز اور Humanity's Last Exam جیسے استدلالی کاموں میں زیادہ بینچ مارک اسکورز پیش کرتا ہے۔