AI ایجنٹس: سوشل انجینئرنگ کے ساتھ پرامپٹ انجیکشن کے خلاف مزاحمت

AI ایجنٹس تیزی سے اپنی صلاحیتوں کو وسعت دے رہے ہیں، ویب براؤز کرنے سے لے کر پیچیدہ معلومات حاصل کرنے اور صارفین کی جانب سے کارروائیاں انجام دینے تک۔ اگرچہ یہ پیش رفت بے مثال افادیت اور کارکردگی کا وعدہ کرتی ہے، لیکن وہ ایک ہی وقت میں نفیس نئے حملے کی سطحیں بھی متعارف کراتی ہیں۔ ان میں سب سے اہم پرامپٹ انجیکشن ہے—ایک ایسا طریقہ جہاں بدنیتی پر مبنی ہدایات کو بیرونی مواد میں شامل کیا جاتا ہے، جس کا مقصد ایک AI ماڈل کو غیر ارادی اقدامات کرنے پر مجبور کرنا ہے۔ OpenAI ان حملوں میں ایک اہم ارتقاء کو اجاگر کرتا ہے: وہ تیزی سے سوشل انجینئرنگ کے ہتھکنڈوں کی نقل کرتے ہیں، جس کے لیے دفاعی حکمت عملیوں میں بنیادی تبدیلی کی ضرورت ہے، سادہ ان پٹ فلٹرنگ سے لے کر مضبوط سسٹمیٹک ڈیزائن تک۔

ابھرتا ہوا خطرہ: پرامپٹ انجیکشن اور سوشل انجینئرنگ

ابتدائی طور پر، پرامپٹ انجیکشن حملے اکثر سیدھے ہوتے تھے، جیسے کہ ایک وکیپیڈیا مضمون میں براہ راست مخالفانہ کمانڈز کو شامل کرنا جسے ایک AI ایجنٹ پروسیس کر سکتا ہے۔ ابتدائی ماڈلز، ایسے مخالفانہ ماحول میں تربیت کے وقت کے تجربے کی کمی کی وجہ سے، ان واضح ہدایات کی بغیر کسی سوال کے پیروی کرنے کا رجحان رکھتے تھے۔ تاہم، جیسے جیسے AI ماڈل پختہ ہوئے اور زیادہ نفیس ہوتے گئے، ایسی کھلی تجاویز کے خلاف ان کی کمزوری کم ہو گئی۔ اس نے حملہ آوروں کو زیادہ باریک بینی والے طریقے تیار کرنے پر اکسایا جو سوشل انجینئرنگ کے عناصر کو شامل کرتے ہیں۔

یہ ارتقاء اہم ہے کیونکہ یہ محض ایک بدنیتی پر مبنی سٹرنگ کی شناخت سے آگے بڑھ جاتا ہے۔ اس کے بجائے، یہ AI سسٹمز کو ایک وسیع سیاق و سباق کے اندر گمراہ کن یا ہیرا پھیری والے مواد کے خلاف مزاحمت کرنے کا چیلنج دیتا ہے، بالکل اسی طرح جیسے ایک انسان کو سوشل انجینئرنگ کا سامنا کرنا پڑے گا۔ مثال کے طور پر، 2025 کا ایک پرامپٹ انجیکشن حملہ جو OpenAI کو رپورٹ کیا گیا تھا، اس میں ایک ایسی ای میل تیار کرنا شامل تھا جو بظاہر بے ضرر لگ رہی تھی لیکن اس میں ایسی ہدایات شامل تھیں جو ایک AI اسسٹنٹ کو حساس ملازم ڈیٹا نکالنے اور اسے "تعمیل کی توثیق کے نظام" کو جمع کرانے پر مجبور کرنے کے لیے ڈیزائن کی گئی تھیں۔ اس حملے نے ٹیسٹنگ میں 50% کامیابی کی شرح کا مظاہرہ کیا، جو جائز لگنے والی درخواستوں کو بدنیتی پر مبنی ہدایات کے ساتھ ملانے کی تاثیر کو ظاہر کرتا ہے۔ ایسے پیچیدہ حملے اکثر روایتی "AI فائر والنگ" سسٹمز کو بائی پاس کر جاتے ہیں، جو عام طور پر سادہ ہیروسٹکس کی بنیاد پر ان پٹس کی درجہ بندی کرنے کی کوشش کرتے ہیں، کیونکہ ان باریک بینی والی ہیرا پھیری کا پتہ لگانا اتنا ہی مشکل ہو جاتا ہے جتنا کہ مکمل صورتحال کے سیاق و سباق کے بغیر جھوٹ یا غلط معلومات کو پہچاننا۔

انسانی ہم منصب کے طور پر AI ایجنٹس: سوشل انجینئرنگ دفاع سے سبق

ان جدید پرامپٹ انجیکشن تکنیکوں کا مقابلہ کرنے کے لیے، OpenAI نے ایک نظریاتی تبدیلی اپنائی ہے، مسئلے کو انسانی سوشل انجینئرنگ کے نقطہ نظر سے دیکھ کر۔ یہ نقطہ نظر تسلیم کرتا ہے کہ ہدف ہر بدنیتی پر مبنی ان پٹ کی بہترین شناخت نہیں ہے، بلکہ AI ایجنٹس اور سسٹمز کو اس طرح ڈیزائن کرنا ہے کہ ہیرا پھیری کا اثر شدید طور پر محدود ہو، چاہے حملہ جزوی طور پر کامیاب ہی کیوں نہ ہو۔ یہ سوچ کسی تنظیم کے اندر انسانی ملازمین کے لیے سوشل انجینئرنگ کے خطرات کو سنبھالنے کے مترادف ہے۔

ایک انسانی کسٹمر سروس ایجنٹ پر غور کریں جسے رقم کی واپسی یا گفٹ کارڈ جاری کرنے کی صلاحیت دی گئی ہے۔ جبکہ ایجنٹ کا مقصد کسٹمر کی خدمت کرنا ہے، وہ مسلسل بیرونی ان پٹس کے سامنے رہتا ہے—جن میں سے کچھ ہیرا پھیری پر مبنی یا یہاں تک کہ جبری ہو سکتے ہیں۔ تنظیمیں قواعد، حدود اور قطعی نظاموں کو نافذ کر کے اس خطرے کو کم کرتی ہیں۔ مثال کے طور پر، ایک کسٹمر سروس ایجنٹ کے پاس رقم کی واپسی کی تعداد پر ایک حد ہو سکتی ہے جو وہ جاری کر سکتا ہے، یا مشکوک درخواستوں کو جھنڈا لگانے کے لیے مخصوص طریقہ کار۔ اسی طرح، ایک AI ایجنٹ، جو صارف کی جانب سے کام کر رہا ہے، کو فطری حدود اور حفاظتی اقدامات کا حامل ہونا چاہیے۔ AI ایجنٹس کو اس "تین اداکار والے نظام" (صارف، ایجنٹ، بیرونی دنیا) کے اندر تصور کر کے، جہاں ایجنٹ کو ممکنہ طور پر مخالف بیرونی ان پٹس سے نمٹنا پڑتا ہے، ڈیزائنرز لچک پیدا کر سکتے ہیں۔ یہ نقطہ نظر تسلیم کرتا ہے کہ کچھ حملے ناگزیر طور پر پھسل جائیں گے، لیکن اس بات کو یقینی بناتا ہے کہ ان کے نقصان کی صلاحیت کم سے کم ہو۔ یہ اصول OpenAI کی طرف سے تعینات جوابی اقدامات کے ایک مضبوط سوٹ کی بنیاد ہے۔

دفاعی اصول	تفصیل	انسانی سسٹمز سے مشابہت	فائدہ
حد بندی	ایجنٹ کی صلاحیتوں اور کارروائیوں کو پہلے سے طے شدہ، محفوظ حدود تک محدود کرنا، غیر مجاز یا بہت وسیع کارروائیوں کو روکنا۔	اخراجات کی حدود، اجازت کے درجے، ملازمین کے لیے پالیسی کا نفاذ۔	جزوی طور پر سمجھوتہ شدہ ایجنٹ کے باوجود ممکنہ نقصان کو کم کرتا ہے۔
شفافیت	ممکنہ طور پر خطرناک یا حساس کارروائیوں کو انجام دینے سے پہلے واضح صارف کی تصدیق کی ضرورت۔	استثنائی صورتحال میں مینیجر کی منظوری، اہم ڈیٹا انٹری کی دوہری جانچ۔	حساس کارروائیوں کو اوور رائیڈ یا تصدیق کرنے کا اختیار صارفین کو دیتا ہے، کنٹرول کو یقینی بناتا ہے۔
سینڈ باکسنگ	ایجنٹ کی کارروائیوں کو الگ کرنا، خاص طور پر بیرونی ٹولز یا ایپلی کیشنز کے ساتھ تعامل کرتے وقت، ایک محفوظ، نگرانی شدہ ماحول میں۔	حساس سسٹمز تک محدود رسائی، تقسیم شدہ نیٹ ورک ماحول۔	بدنیتی پر مبنی کارروائیوں کو بنیادی سسٹمز کو متاثر کرنے یا ڈیٹا کے اخراج سے روکتا ہے۔
سیاق و سباق کا S&S	مشکوک ڈیٹا فلو یا غیر مجاز ترسیلات کے لیے ان پٹ سورسز اور آؤٹ پٹ سنکس کا تجزیہ کرنا، ایسے نمونوں کی نشاندہی کرنا جو بدنیتی پر مبنی ارادے کی نشاندہی کرتے ہیں۔	ڈیٹا لاس پریوینشن (DLP) سسٹمز، اندرونی خطرے کا پتہ لگانے کے پروٹوکول۔	غیر مجاز ڈیٹا کے اخراج کی کوششوں کی نشاندہی اور انہیں روکتا ہے۔
مخالفانہ تربیت	AI ماڈلز کو ہیرا پھیری والی زبان، فریب دہ ہتھکنڈوں اور سوشل انجینئرنگ کی کوششوں کو پہچاننے اور ان کے خلاف مزاحمت کرنے کے لیے مسلسل تربیت دینا۔	سیکیورٹی آگاہی کی تربیت، فشنگ اور اسکیم کی کوششوں کو پہچاننا۔	ایجنٹ کی بدنیتی پر مبنی مواد کا پتہ لگانے اور اسے جھنڈا لگانے کی فطری صلاحیت کو بہتر بناتا ہے۔

ChatGPT میں OpenAI کے کثیر جہتی دفاع

OpenAI اس سوشل انجینئرنگ ماڈل کو روایتی سیکیورٹی انجینئرنگ تکنیکوں کے ساتھ ضم کرتا ہے، خاص طور پر ChatGPT کے اندر "سورس سنک تجزیہ"۔ اس فریم ورک میں، ایک حملہ آور کو دو اہم اجزاء کی ضرورت ہوتی ہے: اثر و رسوخ کو انجیکشن کرنے کے لیے ایک "سورس" (مثلاً، غیر معتبر بیرونی مواد) اور ایک خطرناک صلاحیت کا فائدہ اٹھانے کے لیے ایک "سنک" (مثلاً، معلومات منتقل کرنا، کسی بدنیتی پر مبنی لنک کی پیروی کرنا، یا کسی سمجھوتہ شدہ ٹول کے ساتھ تعامل کرنا)۔ OpenAI کا بنیادی مقصد ایک بنیادی سیکیورٹی کی توقع کو برقرار رکھنا ہے: خطرناک کارروائیاں یا حساس معلومات کی ترسیل کبھی بھی خاموشی سے یا مناسب حفاظتی اقدامات کے بغیر نہیں ہونی چاہیے۔

ChatGPT کے خلاف بہت سے حملے اسسٹنٹ کو خفیہ گفتگو کی معلومات نکالنے اور اسے کسی بدنیتی پر مبنی تیسرے فریق کو پہنچانے کے لیے دھوکہ دینے کی کوشش کرتے ہیں۔ اگرچہ OpenAI کی حفاظتی تربیت اکثر ایجنٹ کو ایسی درخواستوں کو مسترد کرنے کی طرف لے جاتی ہے، ان معاملات کے لیے جہاں ایجنٹ قائل ہو جاتا ہے، ایک اہم تخفیف کی حکمت عملی Safe Url ہے۔ یہ طریقہ کار خاص طور پر اس وقت پتہ لگانے کے لیے ڈیزائن کیا گیا ہے جب گفتگو کے دوران حاصل کی گئی معلومات کو کسی بیرونی تیسرے فریق کے URL پر منتقل کیا جا رہا ہو۔ ایسے نایاب واقعات میں، سسٹم یا تو معلومات کو صارف کو واضح تصدیق کے لیے دکھاتا ہے یا ٹرانسمیشن کو مکمل طور پر روک دیتا ہے، ایجنٹ کو صارف کی درخواست کو پورا کرنے کے لیے ایک متبادل، محفوظ طریقہ تلاش کرنے کی ترغیب دیتا ہے۔ یہ ڈیٹا کے اخراج کو روکتا ہے چاہے ایجنٹ عارضی طور پر سمجھوتہ کر جائے۔ ایجنٹ سے چلنے والے لنک تعاملات کے خلاف حفاظت کے بارے میں مزید معلومات کے لیے، صارف وقف بلاگ پوسٹ، جب ایک AI ایجنٹ ایک لنک پر کلک کرتا ہے تو اپنے ڈیٹا کو محفوظ رکھنا، سے رجوع کر سکتے ہیں۔

ایجنٹک AI میں Safe URL اور سینڈ باکسنگ کا کردار

Safe Url میکانزم، جو حساس ڈیٹا کی ترسیل کا پتہ لگانے اور اسے کنٹرول کرنے کے لیے ڈیزائن کیا گیا ہے، صرف لنک کلکس سے آگے اپنی حفاظتی رسائی کو بڑھاتا ہے۔ اسی طرح کے حفاظتی اقدامات اٹلس میں نیویگیشنز اور بک مارکس اور ڈیپ ریسرچ میں سرچ اور نیویگیشن فنکشنز پر لاگو ہوتے ہیں۔ یہ ایپلی کیشنز فطری طور پر AI ایجنٹس کو وسیع بیرونی ڈیٹا سورسز کے ساتھ تعامل کرنے پر مجبور کرتی ہیں، جس سے بیرونی ڈیٹا کے لیے مضبوط کنٹرولز انتہائی اہم ہو جاتے ہیں۔

مزید برآں، ChatGPT Canvas اور ChatGPT Apps جیسی ایجنٹک خصوصیات ایک ہی سیکیورٹی فلسفے کو اپناتی ہیں۔ جب ایجنٹس فعال ایپلی کیشنز بناتے اور استعمال کرتے ہیں، تو یہ آپریشنز ایک محفوظ سینڈ باکس ماحول کے اندر محدود ہوتے ہیں۔ یہ سینڈ باکسنگ غیر متوقع مواصلات یا کارروائیوں کا پتہ لگانے کی اجازت دیتی ہے۔ خاص طور پر، کوئی بھی ممکنہ طور پر حساس یا غیر مجاز تعاملات واضح صارف کی رضامندی کی درخواست کو متحرک کرتے ہیں، یہ یقینی بناتے ہوئے کہ صارفین کو اپنے ڈیٹا اور ایجنٹ کے رویے پر حتمی کنٹرول حاصل ہو۔ یہ کثیر جہتی نقطہ نظر، سورس سنک تجزیہ کو سیاق و سباق کی آگاہی، صارف کی رضامندی، اور سینڈ باکسڈ ایگزیکیوشن کے ساتھ ملا کر، ابھرتے ہوئے پرامپٹ انجیکشن اور سوشل انجینئرنگ حملوں کے خلاف ایک مضبوط دفاع تشکیل دیتا ہے۔ یہ ایجنٹک صلاحیتیں کس طرح محفوظ طریقے سے عملی جامہ پہنائی جا رہی ہیں اس بارے میں مزید تفصیل کے لیے، ایجنٹک AI کو عملی جامہ پہنانا (حصہ 1: اسٹیک ہولڈرز کے لیے ایک رہنما) پر مباحثوں سے رجوع کریں۔

مخالفانہ حملوں کے خلاف خود مختار ایجنٹس کو مستقبل کے لیے تیار کرنا

مخالف بیرونی دنیا کے ساتھ محفوظ تعامل کو یقینی بنانا صرف ایک مطلوبہ خصوصیت نہیں بلکہ مکمل طور پر خودمختار AI ایجنٹس کی ترقی کے لیے ایک ضروری بنیاد ہے۔ OpenAI کی سفارش ہے کہ ڈویلپرز جو AI ماڈلز کو اپنی ایپلی کیشنز میں ضم کرتے ہیں، وہ یہ غور کریں کہ ایک انسانی ایجنٹ کو اسی طرح کی اعلیٰ درجے کی صورتحال میں کن کنٹرولز کا سامنا کرنا پڑے گا اور AI سسٹم کے اندر ان مشابہہ حدود کو نافذ کریں۔

اگرچہ زیادہ سے زیادہ ذہین AI ماڈلز کی خواہش ہے کہ وہ بالآخر انسانی ایجنٹس کے مقابلے میں سوشل انجینئرنگ کے خلاف زیادہ مؤثر طریقے سے مزاحمت کریں، لیکن یہ ہر ایپلی کیشن کے لیے فوری طور پر قابل عمل یا لاگت مؤثر ہدف نہیں ہے۔ لہذا، بلٹ ان حدود اور نگرانی کے ساتھ سسٹمز کو ڈیزائن کرنا اہم رہتا ہے۔ OpenAI AI ماڈلز کے خلاف سوشل انجینئرنگ کے مضمرات پر مسلسل تحقیق کرنے اور جدید دفاع تیار کرنے کے لیے پرعزم ہے۔ یہ نتائج ان کے ایپلیکیشن سیکیورٹی آرکیٹیکچرز اور ان کے AI ماڈلز کے لیے جاری تربیت کے عمل دونوں میں ضم کیے جاتے ہیں، جو ایک مسلسل بدلتے ہوئے خطرے کے منظر نامے میں AI سیکیورٹی کے لیے ایک فعال اور موافقت پذیر نقطہ نظر کو یقینی بناتے ہیں۔ یہ دور اندیشی والی حکمت عملی کا مقصد AI ایجنٹس کو طاقتور اور فطری طور پر قابل اعتماد بنانا ہے، جو AI ایکو سسٹم میں سیکیورٹی کو بڑھانے کی کوششوں کی بازگشت ہے، جس میں بدنیتی پر مبنی AI استعمالات کو ناکام بنانا جیسے اقدامات شامل ہیں۔

اصل ماخذ

https://openai.com/index/designing-agents-to-resist-prompt-injection/

اکثر پوچھے جانے والے سوالات

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

اپ ڈیٹ رہیں

تازہ ترین AI خبریں اپنے ان باکس میں حاصل کریں۔

شیئر کریں