عوامل هوش مصنوعی به سرعت در حال گسترش قابلیتهای خود هستند، از مرور وب گرفته تا بازیابی اطلاعات پیچیده و اجرای اقدامات به نمایندگی از کاربران. در حالی که این پیشرفتها نویدبخش کارایی و فایده بیسابقهای هستند، همزمان سطوح حمله جدید و پیچیدهای را نیز معرفی میکنند. اصلیترین آنها تزریق پرامپت است – روشی که در آن دستورالعملهای مخرب در محتوای خارجی جاسازی میشوند، با هدف دستکاری مدل هوش مصنوعی برای انجام اقدامات ناخواسته. OpenAI یک تکامل حیاتی در این حملات را برجسته میکند: آنها به طور فزایندهای از تاکتیکهای مهندسی اجتماعی تقلید میکنند که نیازمند تغییر اساسی در استراتژیهای دفاعی از فیلترینگ ساده ورودی به طراحی سیستمی قوی است.
تهدید در حال تکامل: تزریق پرامپت و مهندسی اجتماعی
در ابتدا، حملات تزریق پرامپت اغلب سرراست بودند، مانند جاسازی دستورات خصمانه مستقیم در یک مقاله ویکیپدیا که یک عامل هوش مصنوعی ممکن است پردازش کند. مدلهای اولیه، که تجربه آموزشی در چنین محیطهای خصمانهای نداشتند، مستعد پیروی از این دستورالعملهای صریح بدون پرسش بودند. با این حال، با بلوغ و پیچیدهتر شدن مدلهای هوش مصنوعی، آسیبپذیری آنها در برابر چنین پیشنهادات آشکاری کاهش یافته است. این امر مهاجمان را به توسعه روشهای دقیقتر که عناصر مهندسی اجتماعی را در خود جای دادهاند، سوق داده است.
این تکامل قابل توجه است زیرا فراتر از صرفاً شناسایی یک رشته مخرب میرود. در عوض، سیستمهای هوش مصنوعی را به چالش میکشد تا در برابر محتوای گمراهکننده یا فریبنده در یک زمینه گستردهتر مقاومت کنند، تقریباً مانند آنچه که یک انسان با مهندسی اجتماعی مواجه میشود. به عنوان مثال، یک حمله تزریق پرامپت در سال ۲۰۲۵ که به OpenAI گزارش شد، شامل طراحی ایمیلی بود که به ظاهر بیضرر به نظر میرسید اما حاوی دستورالعملهای جاسازی شدهای بود که برای فریب یک دستیار هوش مصنوعی برای استخراج دادههای حساس کارمندان و ارسال آن به یک "سیستم اعتبارسنجی انطباق" طراحی شده بود. این حمله در آزمایشها موفقیت ۵۰ درصدی را نشان داد و اثربخشی ترکیب درخواستهای به ظاهر مشروع با دستورالعملهای مخرب را به نمایش گذاشت. چنین حملات پیچیدهای اغلب سیستمهای سنتی "فایروالگذاری هوش مصنوعی" را که معمولاً تلاش میکنند ورودیها را بر اساس روشهای اکتشافی ساده طبقهبندی کنند، دور میزنند، زیرا تشخیص این دستکاریهای دقیق بدون زمینه کامل موقعیتی به دشواری تشخیص دروغ یا اطلاعات نادرست میشود.
عوامل هوش مصنوعی به عنوان همتایان انسانی: درسهایی از دفاع در برابر مهندسی اجتماعی
برای مقابله با این تکنیکهای پیشرفته تزریق پرامپت، OpenAI یک تغییر پارادایم اتخاذ کرده و به مشکل از منظر مهندسی اجتماعی انسانی نگاه میکند. این رویکرد تشخیص میدهد که هدف، شناسایی کامل هر ورودی مخرب نیست، بلکه طراحی عوامل و سیستمهای هوش مصنوعی به گونهای است که تأثیر دستکاری به شدت محدود شود، حتی اگر یک حمله تا حدی موفقیت آمیز باشد. این طرز فکر مشابه مدیریت خطرات مهندسی اجتماعی برای کارکنان انسانی در یک سازمان است.
یک عامل خدمات مشتری انسانی را در نظر بگیرید که مسئولیت صدور بازپرداخت یا کارت هدیه را دارد. در حالی که عامل قصد خدمت به مشتری را دارد، به طور مداوم در معرض ورودیهای خارجی قرار میگیرد – که برخی از آنها ممکن است فریبنده یا حتی اجباری باشند. سازمانها این خطر را با پیادهسازی قوانین، محدودیتها و سیستمهای قطعی کاهش میدهند. به عنوان مثال، یک عامل خدمات مشتری ممکن است سقفی برای تعداد بازپرداختهایی که میتواند صادر کند داشته باشد، یا رویههای خاصی برای علامتگذاری درخواستهای مشکوک. به همین ترتیب، یک عامل هوش مصنوعی، در حالی که به نمایندگی از کاربر عمل میکند، باید دارای محدودیتها و محافظتهای ذاتی باشد. با تصور عوامل هوش مصنوعی در این "سیستم سه عاملی" (کاربر، عامل، دنیای خارجی)، که در آن عامل باید ورودیهای خارجی بالقوه خصمانه را مدیریت کند، طراحان میتوانند تابآوری را در سیستم ایجاد کنند. این رویکرد اذعان میکند که برخی حملات به ناچار نفوذ خواهند کرد، اما اطمینان میدهد که پتانسیل آسیب آنها به حداقل میرسد. این اصل زیربنای مجموعه قوی اقدامات متقابل است که توسط OpenAI به کار گرفته شده است.
| اصل دفاعی | توضیح | قیاس با سیستمهای انسانی | مزیت |
|---|---|---|---|
| محدودیت | محدود کردن قابلیتها و اقدامات عامل به مرزهای از پیش تعریف شده و ایمن، جلوگیری از عملیات غیرمجاز یا بیش از حد گسترده. | محدودیتهای هزینه، سطوح مجوز، اجرای سیاست برای کارکنان. | حتی در صورت آسیب جزئی به عامل، آسیبهای احتمالی را کاهش میدهد. |
| شفافیت | درخواست تأیید صریح کاربر برای اقدامات بالقوه خطرناک یا حساس قبل از اجرای آنها. | تأیید مدیر برای استثنائات، بررسی مجدد ورود دادههای حیاتی. | به کاربران امکان میدهد عملیات حساس را لغو یا تأیید کنند و کنترل را تضمین میکند. |
| سندباکسسازی | جداسازی اقدامات عامل، به ویژه هنگام تعامل با ابزارهای یا برنامههای خارجی، در یک محیط امن و نظارت شده. | دسترسی کنترل شده به سیستمهای حساس، محیطهای شبکه تقسیمبندی شده. | از تأثیر اقدامات مخرب بر سیستمهای اصلی یا سرقت دادهها جلوگیری میکند. |
| تحلیل متنی منبع-مصرفکننده | تحلیل منابع ورودی و مصرفکنندههای خروجی برای جریانهای داده مشکوک یا انتقالهای غیرمجاز، شناسایی الگوهایی که نشاندهنده نیت مخرب هستند. | سیستمهای پیشگیری از از دست رفتن دادهها (DLP)، پروتکلهای شناسایی تهدید داخلی. | تلاشهای غیرمجاز برای سرقت دادهها را شناسایی و مسدود میکند. |
| آموزش خصمانه | آموزش مداوم مدلهای هوش مصنوعی برای تشخیص و مقاومت در برابر زبان فریبنده، تاکتیکهای گمراهکننده و تلاشهای مهندسی اجتماعی. | آموزش آگاهی امنیتی، تشخیص فیشینگ و تلاشهای کلاهبرداری. | توانایی ذاتی عامل برای تشخیص و علامتگذاری محتوای مخرب را بهبود میبخشد. |
دفاعهای چندلایه OpenAI در ChatGPT
OpenAI این مدل مهندسی اجتماعی را با تکنیکهای سنتی مهندسی امنیت، به ویژه "تحلیل منبع-مصرفکننده"، در ChatGPT ادغام میکند. در این چارچوب، یک مهاجم به دو مؤلفه کلیدی نیاز دارد: یک "منبع" برای تزریق نفوذ (مانند محتوای خارجی نامعتبر) و یک "مصرفکننده" برای سوءاستفاده از یک قابلیت خطرناک (مانند انتقال اطلاعات، دنبال کردن یک لینک مخرب، یا تعامل با یک ابزار به خطر افتاده). هدف اصلی OpenAI حفظ یک انتظار امنیتی اساسی است: اقدامات خطرناک یا انتقال اطلاعات حساس هرگز نباید به صورت پنهانی یا بدون محافظتهای مناسب اتفاق بیفتند.
بسیاری از حملات علیه ChatGPT تلاش میکنند دستیار را فریب دهند تا اطلاعات مکالمه محرمانه را استخراج کرده و آن را به یک شخص ثالث مخرب منتقل کند. در حالی که آموزش ایمنی OpenAI اغلب باعث میشود عامل چنین درخواستهایی را رد کند، یک استراتژی کاهش خطر حیاتی برای مواردی که عامل متقاعد میشود، Safe Url است. این مکانیزم به طور خاص برای تشخیص زمانی طراحی شده است که اطلاعات یادگرفته شده در طول یک مکالمه ممکن است به یک URL خارجی شخص ثالث منتقل شود. در چنین موارد نادری، سیستم یا اطلاعات را برای تأیید صریح به کاربر نمایش میدهد یا انتقال را به طور کامل مسدود میکند و از عامل میخواهد تا راهی جایگزین و امن برای برآورده کردن درخواست کاربر پیدا کند. این کار از سرقت دادهها حتی در صورت به خطر افتادن موقت عامل جلوگیری میکند. برای اطلاعات بیشتر در مورد محافظت در برابر تعاملات لینک محور عامل، کاربران میتوانند به پست وبلاگ اختصاصی حفظ امنیت دادههای شما هنگامی که یک عامل هوش مصنوعی روی یک لینک کلیک میکند مراجعه کنند.
نقش Safe URL و سندباکسسازی در هوش مصنوعی عاملیتمحور
مکانیزم Safe Url که برای تشخیص و کنترل انتقال دادههای حساس طراحی شده است، دامنه حفاظتی خود را فراتر از صرفاً کلیک کردن روی لینکها گسترش میدهد. محافظتهای مشابهی برای ناوبریها و نشانکها در Atlas و برای عملکردهای جستجو و ناوبری در Deep Research اعمال میشود. این برنامهها ذاتاً شامل تعامل عوامل هوش مصنوعی با منابع داده خارجی وسیع میشوند، که کنترلهای قوی برای دادههای خروجی را ضروری میسازد.
علاوه بر این، ویژگیهای عاملیتمحور مانند ChatGPT Canvas و ChatGPT Apps فلسفه امنیتی مشابهی را اتخاذ میکنند. هنگامی که عوامل برنامههای کاربردی را ایجاد و استفاده میکنند، این عملیات در یک محیط سندباکس (sandbox) امن محصور میشوند. این سندباکسسازی امکان تشخیص ارتباطات یا اقدامات غیرمنتظره را فراهم میکند. نکته حیاتی این است که هر تعامل بالقوه حساس یا غیرمجاز، درخواستی برای رضایت صریح کاربر را آغاز میکند و اطمینان میدهد که کاربران کنترل نهایی بر دادههای خود و رفتار عامل را حفظ میکنند. این رویکرد چندلایه، با ترکیب تحلیل منبع-مصرفکننده با آگاهی متنی، رضایت کاربر و اجرای سندباکس، یک دفاع قوی در برابر حملات تزریق پرامپت و مهندسی اجتماعی در حال تکامل را تشکیل میدهد. برای جزئیات بیشتر در مورد نحوه عملیاتی شدن ایمن این قابلیتهای عاملیتمحور، به بحثهای مربوط به عملیاتی کردن هوش مصنوعی عاملیتمحور مراجعه کنید.
آیندهنگری در مورد عوامل خودمختار در برابر حملات خصمانه
تضمین تعامل ایمن با دنیای خارجی خصمانه، تنها یک ویژگی مطلوب نیست، بلکه یک پایه ضروری برای توسعه عوامل هوش مصنوعی کاملاً خودمختار است. توصیه OpenAI برای توسعهدهندگانی که مدلهای هوش مصنوعی را در برنامههای خود ادغام میکنند، این است که در نظر بگیرند یک عامل انسانی در یک موقعیت پرخطر مشابه چه کنترلهایی خواهد داشت و همان محدودیتهای مشابه را در سیستم هوش مصنوعی پیادهسازی کنند.
در حالی که آرزو این است که مدلهای هوش مصنوعی با حداکثر هوش در نهایت بتوانند در برابر مهندسی اجتماعی مؤثرتر از عوامل انسانی مقاومت کنند، این همیشه یک هدف فوری عملی یا مقرونبهصرفه برای هر برنامهای نیست. بنابراین، طراحی سیستمها با محدودیتها و نظارت داخلی همچنان حیاتی است. OpenAI متعهد است که به طور مداوم در مورد پیامدهای مهندسی اجتماعی علیه مدلهای هوش مصنوعی تحقیق کند و دفاعهای پیشرفتهای را توسعه دهد. این یافتهها هم در معماریهای امنیتی برنامههای کاربردی آنها و هم در فرآیندهای آموزش مداوم مدلهای هوش مصنوعی آنها ادغام میشوند و رویکردی فعال و تطبیقی را برای امنیت هوش مصنوعی در چشمانداز تهدید در حال تکامل تضمین میکنند. این استراتژی آیندهنگر با هدف ایجاد عوامل هوش مصنوعی قدرتمند و ذاتاً قابل اعتماد است، که بازتابی از تلاشها برای افزایش امنیت در سراسر اکوسیستم هوش مصنوعی، از جمله ابتکاراتی مانند مقابله با کاربردهای مخرب هوش مصنوعی میباشد.
سوالات متداول
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
بهروز بمانید
آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.
