AI ایجنٹس تیزی سے اپنی صلاحیتوں کو وسعت دے رہے ہیں، ویب براؤز کرنے سے لے کر پیچیدہ معلومات حاصل کرنے اور صارفین کی جانب سے کارروائیاں انجام دینے تک۔ اگرچہ یہ پیش رفت بے مثال افادیت اور کارکردگی کا وعدہ کرتی ہے، لیکن وہ ایک ہی وقت میں نفیس نئے حملے کی سطحیں بھی متعارف کراتی ہیں۔ ان میں سب سے اہم پرامپٹ انجیکشن ہے—ایک ایسا طریقہ جہاں بدنیتی پر مبنی ہدایات کو بیرونی مواد میں شامل کیا جاتا ہے، جس کا مقصد ایک AI ماڈل کو غیر ارادی اقدامات کرنے پر مجبور کرنا ہے۔ OpenAI ان حملوں میں ایک اہم ارتقاء کو اجاگر کرتا ہے: وہ تیزی سے سوشل انجینئرنگ کے ہتھکنڈوں کی نقل کرتے ہیں، جس کے لیے دفاعی حکمت عملیوں میں بنیادی تبدیلی کی ضرورت ہے، سادہ ان پٹ فلٹرنگ سے لے کر مضبوط سسٹمیٹک ڈیزائن تک۔
ابھرتا ہوا خطرہ: پرامپٹ انجیکشن اور سوشل انجینئرنگ
ابتدائی طور پر، پرامپٹ انجیکشن حملے اکثر سیدھے ہوتے تھے، جیسے کہ ایک وکیپیڈیا مضمون میں براہ راست مخالفانہ کمانڈز کو شامل کرنا جسے ایک AI ایجنٹ پروسیس کر سکتا ہے۔ ابتدائی ماڈلز، ایسے مخالفانہ ماحول میں تربیت کے وقت کے تجربے کی کمی کی وجہ سے، ان واضح ہدایات کی بغیر کسی سوال کے پیروی کرنے کا رجحان رکھتے تھے۔ تاہم، جیسے جیسے AI ماڈل پختہ ہوئے اور زیادہ نفیس ہوتے گئے، ایسی کھلی تجاویز کے خلاف ان کی کمزوری کم ہو گئی۔ اس نے حملہ آوروں کو زیادہ باریک بینی والے طریقے تیار کرنے پر اکسایا جو سوشل انجینئرنگ کے عناصر کو شامل کرتے ہیں۔
یہ ارتقاء اہم ہے کیونکہ یہ محض ایک بدنیتی پر مبنی سٹرنگ کی شناخت سے آگے بڑھ جاتا ہے۔ اس کے بجائے، یہ AI سسٹمز کو ایک وسیع سیاق و سباق کے اندر گمراہ کن یا ہیرا پھیری والے مواد کے خلاف مزاحمت کرنے کا چیلنج دیتا ہے، بالکل اسی طرح جیسے ایک انسان کو سوشل انجینئرنگ کا سامنا کرنا پڑے گا۔ مثال کے طور پر، 2025 کا ایک پرامپٹ انجیکشن حملہ جو OpenAI کو رپورٹ کیا گیا تھا، اس میں ایک ایسی ای میل تیار کرنا شامل تھا جو بظاہر بے ضرر لگ رہی تھی لیکن اس میں ایسی ہدایات شامل تھیں جو ایک AI اسسٹنٹ کو حساس ملازم ڈیٹا نکالنے اور اسے "تعمیل کی توثیق کے نظام" کو جمع کرانے پر مجبور کرنے کے لیے ڈیزائن کی گئی تھیں۔ اس حملے نے ٹیسٹنگ میں 50% کامیابی کی شرح کا مظاہرہ کیا، جو جائز لگنے والی درخواستوں کو بدنیتی پر مبنی ہدایات کے ساتھ ملانے کی تاثیر کو ظاہر کرتا ہے۔ ایسے پیچیدہ حملے اکثر روایتی "AI فائر والنگ" سسٹمز کو بائی پاس کر جاتے ہیں، جو عام طور پر سادہ ہیروسٹکس کی بنیاد پر ان پٹس کی درجہ بندی کرنے کی کوشش کرتے ہیں، کیونکہ ان باریک بینی والی ہیرا پھیری کا پتہ لگانا اتنا ہی مشکل ہو جاتا ہے جتنا کہ مکمل صورتحال کے سیاق و سباق کے بغیر جھوٹ یا غلط معلومات کو پہچاننا۔
انسانی ہم منصب کے طور پر AI ایجنٹس: سوشل انجینئرنگ دفاع سے سبق
ان جدید پرامپٹ انجیکشن تکنیکوں کا مقابلہ کرنے کے لیے، OpenAI نے ایک نظریاتی تبدیلی اپنائی ہے، مسئلے کو انسانی سوشل انجینئرنگ کے نقطہ نظر سے دیکھ کر۔ یہ نقطہ نظر تسلیم کرتا ہے کہ ہدف ہر بدنیتی پر مبنی ان پٹ کی بہترین شناخت نہیں ہے، بلکہ AI ایجنٹس اور سسٹمز کو اس طرح ڈیزائن کرنا ہے کہ ہیرا پھیری کا اثر شدید طور پر محدود ہو، چاہے حملہ جزوی طور پر کامیاب ہی کیوں نہ ہو۔ یہ سوچ کسی تنظیم کے اندر انسانی ملازمین کے لیے سوشل انجینئرنگ کے خطرات کو سنبھالنے کے مترادف ہے۔
ایک انسانی کسٹمر سروس ایجنٹ پر غور کریں جسے رقم کی واپسی یا گفٹ کارڈ جاری کرنے کی صلاحیت دی گئی ہے۔ جبکہ ایجنٹ کا مقصد کسٹمر کی خدمت کرنا ہے، وہ مسلسل بیرونی ان پٹس کے سامنے رہتا ہے—جن میں سے کچھ ہیرا پھیری پر مبنی یا یہاں تک کہ جبری ہو سکتے ہیں۔ تنظیمیں قواعد، حدود اور قطعی نظاموں کو نافذ کر کے اس خطرے کو کم کرتی ہیں۔ مثال کے طور پر، ایک کسٹمر سروس ایجنٹ کے پاس رقم کی واپسی کی تعداد پر ایک حد ہو سکتی ہے جو وہ جاری کر سکتا ہے، یا مشکوک درخواستوں کو جھنڈا لگانے کے لیے مخصوص طریقہ کار۔ اسی طرح، ایک AI ایجنٹ، جو صارف کی جانب سے کام کر رہا ہے، کو فطری حدود اور حفاظتی اقدامات کا حامل ہونا چاہیے۔ AI ایجنٹس کو اس "تین اداکار والے نظام" (صارف، ایجنٹ، بیرونی دنیا) کے اندر تصور کر کے، جہاں ایجنٹ کو ممکنہ طور پر مخالف بیرونی ان پٹس سے نمٹنا پڑتا ہے، ڈیزائنرز لچک پیدا کر سکتے ہیں۔ یہ نقطہ نظر تسلیم کرتا ہے کہ کچھ حملے ناگزیر طور پر پھسل جائیں گے، لیکن اس بات کو یقینی بناتا ہے کہ ان کے نقصان کی صلاحیت کم سے کم ہو۔ یہ اصول OpenAI کی طرف سے تعینات جوابی اقدامات کے ایک مضبوط سوٹ کی بنیاد ہے۔
| دفاعی اصول | تفصیل | انسانی سسٹمز سے مشابہت | فائدہ |
|---|---|---|---|
| حد بندی | ایجنٹ کی صلاحیتوں اور کارروائیوں کو پہلے سے طے شدہ، محفوظ حدود تک محدود کرنا، غیر مجاز یا بہت وسیع کارروائیوں کو روکنا۔ | اخراجات کی حدود، اجازت کے درجے، ملازمین کے لیے پالیسی کا نفاذ۔ | جزوی طور پر سمجھوتہ شدہ ایجنٹ کے باوجود ممکنہ نقصان کو کم کرتا ہے۔ |
| شفافیت | ممکنہ طور پر خطرناک یا حساس کارروائیوں کو انجام دینے سے پہلے واضح صارف کی تصدیق کی ضرورت۔ | استثنائی صورتحال میں مینیجر کی منظوری، اہم ڈیٹا انٹری کی دوہری جانچ۔ | حساس کارروائیوں کو اوور رائیڈ یا تصدیق کرنے کا اختیار صارفین کو دیتا ہے، کنٹرول کو یقینی بناتا ہے۔ |
| سینڈ باکسنگ | ایجنٹ کی کارروائیوں کو الگ کرنا، خاص طور پر بیرونی ٹولز یا ایپلی کیشنز کے ساتھ تعامل کرتے وقت، ایک محفوظ، نگرانی شدہ ماحول میں۔ | حساس سسٹمز تک محدود رسائی، تقسیم شدہ نیٹ ورک ماحول۔ | بدنیتی پر مبنی کارروائیوں کو بنیادی سسٹمز کو متاثر کرنے یا ڈیٹا کے اخراج سے روکتا ہے۔ |
| سیاق و سباق کا S&S | مشکوک ڈیٹا فلو یا غیر مجاز ترسیلات کے لیے ان پٹ سورسز اور آؤٹ پٹ سنکس کا تجزیہ کرنا، ایسے نمونوں کی نشاندہی کرنا جو بدنیتی پر مبنی ارادے کی نشاندہی کرتے ہیں۔ | ڈیٹا لاس پریوینشن (DLP) سسٹمز، اندرونی خطرے کا پتہ لگانے کے پروٹوکول۔ | غیر مجاز ڈیٹا کے اخراج کی کوششوں کی نشاندہی اور انہیں روکتا ہے۔ |
| مخالفانہ تربیت | AI ماڈلز کو ہیرا پھیری والی زبان، فریب دہ ہتھکنڈوں اور سوشل انجینئرنگ کی کوششوں کو پہچاننے اور ان کے خلاف مزاحمت کرنے کے لیے مسلسل تربیت دینا۔ | سیکیورٹی آگاہی کی تربیت، فشنگ اور اسکیم کی کوششوں کو پہچاننا۔ | ایجنٹ کی بدنیتی پر مبنی مواد کا پتہ لگانے اور اسے جھنڈا لگانے کی فطری صلاحیت کو بہتر بناتا ہے۔ |
ChatGPT میں OpenAI کے کثیر جہتی دفاع
OpenAI اس سوشل انجینئرنگ ماڈل کو روایتی سیکیورٹی انجینئرنگ تکنیکوں کے ساتھ ضم کرتا ہے، خاص طور پر ChatGPT کے اندر "سورس سنک تجزیہ"۔ اس فریم ورک میں، ایک حملہ آور کو دو اہم اجزاء کی ضرورت ہوتی ہے: اثر و رسوخ کو انجیکشن کرنے کے لیے ایک "سورس" (مثلاً، غیر معتبر بیرونی مواد) اور ایک خطرناک صلاحیت کا فائدہ اٹھانے کے لیے ایک "سنک" (مثلاً، معلومات منتقل کرنا، کسی بدنیتی پر مبنی لنک کی پیروی کرنا، یا کسی سمجھوتہ شدہ ٹول کے ساتھ تعامل کرنا)۔ OpenAI کا بنیادی مقصد ایک بنیادی سیکیورٹی کی توقع کو برقرار رکھنا ہے: خطرناک کارروائیاں یا حساس معلومات کی ترسیل کبھی بھی خاموشی سے یا مناسب حفاظتی اقدامات کے بغیر نہیں ہونی چاہیے۔
ChatGPT کے خلاف بہت سے حملے اسسٹنٹ کو خفیہ گفتگو کی معلومات نکالنے اور اسے کسی بدنیتی پر مبنی تیسرے فریق کو پہنچانے کے لیے دھوکہ دینے کی کوشش کرتے ہیں۔ اگرچہ OpenAI کی حفاظتی تربیت اکثر ایجنٹ کو ایسی درخواستوں کو مسترد کرنے کی طرف لے جاتی ہے، ان معاملات کے لیے جہاں ایجنٹ قائل ہو جاتا ہے، ایک اہم تخفیف کی حکمت عملی Safe Url ہے۔ یہ طریقہ کار خاص طور پر اس وقت پتہ لگانے کے لیے ڈیزائن کیا گیا ہے جب گفتگو کے دوران حاصل کی گئی معلومات کو کسی بیرونی تیسرے فریق کے URL پر منتقل کیا جا رہا ہو۔ ایسے نایاب واقعات میں، سسٹم یا تو معلومات کو صارف کو واضح تصدیق کے لیے دکھاتا ہے یا ٹرانسمیشن کو مکمل طور پر روک دیتا ہے، ایجنٹ کو صارف کی درخواست کو پورا کرنے کے لیے ایک متبادل، محفوظ طریقہ تلاش کرنے کی ترغیب دیتا ہے۔ یہ ڈیٹا کے اخراج کو روکتا ہے چاہے ایجنٹ عارضی طور پر سمجھوتہ کر جائے۔ ایجنٹ سے چلنے والے لنک تعاملات کے خلاف حفاظت کے بارے میں مزید معلومات کے لیے، صارف وقف بلاگ پوسٹ، جب ایک AI ایجنٹ ایک لنک پر کلک کرتا ہے تو اپنے ڈیٹا کو محفوظ رکھنا، سے رجوع کر سکتے ہیں۔
ایجنٹک AI میں Safe URL اور سینڈ باکسنگ کا کردار
Safe Url میکانزم، جو حساس ڈیٹا کی ترسیل کا پتہ لگانے اور اسے کنٹرول کرنے کے لیے ڈیزائن کیا گیا ہے، صرف لنک کلکس سے آگے اپنی حفاظتی رسائی کو بڑھاتا ہے۔ اسی طرح کے حفاظتی اقدامات اٹلس میں نیویگیشنز اور بک مارکس اور ڈیپ ریسرچ میں سرچ اور نیویگیشن فنکشنز پر لاگو ہوتے ہیں۔ یہ ایپلی کیشنز فطری طور پر AI ایجنٹس کو وسیع بیرونی ڈیٹا سورسز کے ساتھ تعامل کرنے پر مجبور کرتی ہیں، جس سے بیرونی ڈیٹا کے لیے مضبوط کنٹرولز انتہائی اہم ہو جاتے ہیں۔
مزید برآں، ChatGPT Canvas اور ChatGPT Apps جیسی ایجنٹک خصوصیات ایک ہی سیکیورٹی فلسفے کو اپناتی ہیں۔ جب ایجنٹس فعال ایپلی کیشنز بناتے اور استعمال کرتے ہیں، تو یہ آپریشنز ایک محفوظ سینڈ باکس ماحول کے اندر محدود ہوتے ہیں۔ یہ سینڈ باکسنگ غیر متوقع مواصلات یا کارروائیوں کا پتہ لگانے کی اجازت دیتی ہے۔ خاص طور پر، کوئی بھی ممکنہ طور پر حساس یا غیر مجاز تعاملات واضح صارف کی رضامندی کی درخواست کو متحرک کرتے ہیں، یہ یقینی بناتے ہوئے کہ صارفین کو اپنے ڈیٹا اور ایجنٹ کے رویے پر حتمی کنٹرول حاصل ہو۔ یہ کثیر جہتی نقطہ نظر، سورس سنک تجزیہ کو سیاق و سباق کی آگاہی، صارف کی رضامندی، اور سینڈ باکسڈ ایگزیکیوشن کے ساتھ ملا کر، ابھرتے ہوئے پرامپٹ انجیکشن اور سوشل انجینئرنگ حملوں کے خلاف ایک مضبوط دفاع تشکیل دیتا ہے۔ یہ ایجنٹک صلاحیتیں کس طرح محفوظ طریقے سے عملی جامہ پہنائی جا رہی ہیں اس بارے میں مزید تفصیل کے لیے، ایجنٹک AI کو عملی جامہ پہنانا (حصہ 1: اسٹیک ہولڈرز کے لیے ایک رہنما) پر مباحثوں سے رجوع کریں۔
مخالفانہ حملوں کے خلاف خود مختار ایجنٹس کو مستقبل کے لیے تیار کرنا
مخالف بیرونی دنیا کے ساتھ محفوظ تعامل کو یقینی بنانا صرف ایک مطلوبہ خصوصیت نہیں بلکہ مکمل طور پر خودمختار AI ایجنٹس کی ترقی کے لیے ایک ضروری بنیاد ہے۔ OpenAI کی سفارش ہے کہ ڈویلپرز جو AI ماڈلز کو اپنی ایپلی کیشنز میں ضم کرتے ہیں، وہ یہ غور کریں کہ ایک انسانی ایجنٹ کو اسی طرح کی اعلیٰ درجے کی صورتحال میں کن کنٹرولز کا سامنا کرنا پڑے گا اور AI سسٹم کے اندر ان مشابہہ حدود کو نافذ کریں۔
اگرچہ زیادہ سے زیادہ ذہین AI ماڈلز کی خواہش ہے کہ وہ بالآخر انسانی ایجنٹس کے مقابلے میں سوشل انجینئرنگ کے خلاف زیادہ مؤثر طریقے سے مزاحمت کریں، لیکن یہ ہر ایپلی کیشن کے لیے فوری طور پر قابل عمل یا لاگت مؤثر ہدف نہیں ہے۔ لہذا، بلٹ ان حدود اور نگرانی کے ساتھ سسٹمز کو ڈیزائن کرنا اہم رہتا ہے۔ OpenAI AI ماڈلز کے خلاف سوشل انجینئرنگ کے مضمرات پر مسلسل تحقیق کرنے اور جدید دفاع تیار کرنے کے لیے پرعزم ہے۔ یہ نتائج ان کے ایپلیکیشن سیکیورٹی آرکیٹیکچرز اور ان کے AI ماڈلز کے لیے جاری تربیت کے عمل دونوں میں ضم کیے جاتے ہیں، جو ایک مسلسل بدلتے ہوئے خطرے کے منظر نامے میں AI سیکیورٹی کے لیے ایک فعال اور موافقت پذیر نقطہ نظر کو یقینی بناتے ہیں۔ یہ دور اندیشی والی حکمت عملی کا مقصد AI ایجنٹس کو طاقتور اور فطری طور پر قابل اعتماد بنانا ہے، جو AI ایکو سسٹم میں سیکیورٹی کو بڑھانے کی کوششوں کی بازگشت ہے، جس میں بدنیتی پر مبنی AI استعمالات کو ناکام بنانا جیسے اقدامات شامل ہیں۔
اکثر پوچھے جانے والے سوالات
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
اپ ڈیٹ رہیں
تازہ ترین AI خبریں اپنے ان باکس میں حاصل کریں۔
