Code Velocity
أمن الذكاء الاصطناعي

وكلاء الذكاء الاصطناعي: مقاومة حقن الأوامر من خلال الهندسة الاجتماعية

·5 دقائق للقراءة·OpenAI·المصدر الأصلي
مشاركة
وكلاء الذكاء الاصطناعي من OpenAI يقاومون هجمات حقن الأوامر والهندسة الاجتماعية

title: "وكلاء الذكاء الاصطناعي: مقاومة حقن الأوامر من خلال الهندسة الاجتماعية" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "ar" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "أمن الذكاء الاصطناعي" keywords:

  • وكلاء الذكاء الاصطناعي
  • حقن الأوامر
  • أمن الذكاء الاصطناعي
  • الهندسة الاجتماعية
  • أمن نماذج اللغة الكبيرة
  • ChatGPT
  • خصوصية البيانات
  • الهجمات الخبيثة
  • الذكاء الاصطناعي الوكيلي
  • OpenAI
  • هندسة الأمن
  • رابط آمن meta_description: "تعرف على كيفية تصميم OpenAI لوكلاء الذكاء الاصطناعي لمقاومة هجمات حقن الأوامر المتقدمة من خلال الاستفادة من استراتيجيات الدفاع ضد الهندسة الاجتماعية، مما يضمن أمنًا قويًا للذكاء الاصطناعي وخصوصية البيانات." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "وكلاء الذكاء الاصطناعي من OpenAI يقاومون هجمات حقن الأوامر والهندسة الاجتماعية" quality_score: 94 content_score: 93 seo_score: 95 companies:
  • OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
  • question: "ما هو حقن الأوامر في سياق وكلاء الذكاء الاصطناعي؟" answer: "يشير حقن الأوامر إلى نوع من الهجمات حيث يتم تضمين تعليمات ضارة بمهارة داخل محتوى خارجي يعالجه وكيل الذكاء الاصطناعي. الهدف هو التلاعب بالوكيل لأداء إجراءات أو الكشف عن معلومات لم يقصدها المستخدم أو يأذن بها. تستغل هذه الهجمات قدرة الذكاء الاصطناعي على تفسير التعليمات واتباعها، حتى لو كانت تلك التعليمات نشأت من مصدر غير موثوق به، مما يؤدي فعليًا إلى اختطاف سلوك الوكيل لأغراض عدائية. قد تكون الأشكال المبكرة أوامر مباشرة، لكن الأشكال المتقدمة تستفيد من الهندسة الاجتماعية لتكون أقل قابلية للكشف وأكثر إقناعًا، مما يتطلب تدابير مضادة متطورة للحفاظ على سلامة النظام وثقة المستخدم."
  • question: "كيف تطور حقن الأوامر، ولماذا هذا مهم؟" answer: "تطور حقن الأوامر من أوامر عدائية صريحة وبسيطة (مثل التعليمات المباشرة في صفحة الويب) إلى تكتيكات هندسة اجتماعية معقدة. غالبًا ما كانت الهجمات المبكرة يتم اكتشافها عن طريق التصفية الأساسية. ومع ذلك، مع تطور نماذج الذكاء الاصطناعي وأصبحت أكثر ذكاءً، بدأ المهاجمون في صياغة أوامر تدمج النية الخبيثة مع سياق يبدو مشروعًا، محاكين الهندسة الاجتماعية البشرية. هذا التحول مهم لأنه يعني أن الدفاعات لم يعد بإمكانها الاعتماد فقط على تحديد السلاسل الخبيثة. بدلاً من ذلك، يجب أن تعالج التحدي الأوسع لمقاومة المحتوى المضلل أو المتلاعب في سياقه، مما يتطلب نهجًا شموليًا ونظاميًا للأمن بدلاً من مجرد تصفية بسيطة للمدخلات."
  • question: "كيف تدافع OpenAI ضد هجمات حقن الأوامر التي تستخدم الهندسة الاجتماعية؟" answer: "تستخدم OpenAI استراتيجية دفاع متعددة الطبقات، مستوحاة من إدارة مخاطر الهندسة الاجتماعية البشرية. يتضمن ذلك منظور 'نظام من ثلاثة عوامل' (المستخدم، الوكيل، العالم الخارجي) حيث يتم وضع قيود على الوكلاء لتقييد التأثير المحتمل. تشمل التقنيات الرئيسية 'تحليل المصدر والمستقبل' للكشف عن تدفقات البيانات الخطرة، وآليات Safe Url التي تتطلب تأكيد المستخدم أو تحظر عمليات الإرسال الحساسة إلى أطراف ثالثة، والتطويق (sandboxing) لأدوات وكلاء الذكاء الاصطناعي مثل ChatGPT Canvas و Apps. الهدف الشامل هو ضمان عدم حدوث الإجراءات الحيوية أو عمليات نقل البيانات بصمت، مع إعطاء الأولوية دائمًا لسلامة المستخدم وموافقته للحفاظ على أمن قوي للذكاء الاصطناعي."
  • question: "ما هو Safe Url، وكيف يحمي وكلاء الذكاء الاصطناعي والمستخدمين؟" answer: "Safe Url هي استراتيجية تخفيف حاسمة طورتها OpenAI لحماية وكلاء الذكاء الاصطناعي والمستخدمين من تسريب البيانات غير المصرح به. يكشف هذا النظام عندما قد يتم نقل معلومات تعلمها وكيل الذكاء الاصطناعي أثناء محادثة أو تفاعل إلى عنوان URL خارجي لطرف ثالث قد يكون ضارًا. عند اكتشاف مثل هذا النقل، يتدخل Safe Url إما عن طريق عرض المعلومات الحساسة للمستخدم لتأكيد صريح قبل إرسالها، أو عن طريق حظر النقل بالكامل وتوجيه الوكيل لإيجاد طريقة بديلة وآمنة لتلبية طلب المستخدم. تضمن هذه الآلية بقاء البيانات الحساسة تحت سيطرة المستخدم، حتى لو تم التأثير على الوكيل لحظيًا من خلال حقن أوامر الهندسة الاجتماعية."
  • question: "لماذا تعد موافقة المستخدم حاسمة لوكلاء الذكاء الاصطناعي، خاصة مع القدرات الجديدة؟" answer: "تعتبر موافقة المستخدم أمرًا بالغ الأهمية لوكلاء الذكاء الاصطناعي، خاصة مع توسع قدراتهم لتشمل التصفح، والتفاعل مع الأدوات الخارجية، ونقل المعلومات. مع هجمات حقن الأوامر المتقدمة وتكتيكات الهندسة الاجتماعية، قد يتم خداع الوكيل لأداء إجراءات تعرض الخصوصية أو الأمن للخطر. يتطلب الحصول على موافقة صريحة من المستخدم للإجراءات التي قد تكون خطيرة – مثل نقل البيانات الحساسة، أو التنقل إلى مواقع خارجية، أو استخدام تطبيقات خارجية – يضمن احتفاظ المستخدمين بالتحكم النهائي. هذا يمنع الاختراقات الصامتة ويمكّن المستخدمين من تأكيد أو رفض الإجراءات، ويعمل كطبقة أخيرة حاسمة للدفاع ضد التلاعب والسلوك غير المصرح به، متماشيًا مع مبادئ خصوصية البيانات واستقلالية المستخدم."
  • question: "ما هو تحليل 'المصدر والمستقبل' في سياق أمن الذكاء الاصطناعي؟" answer: "تحليل المصدر والمستقبل هو نهج هندسة أمنية تستخدمه OpenAI لتحديد وتخفيف المخاطر المرتبطة بتدفق البيانات داخل أنظمة الذكاء الاصطناعي. في هذا الإطار، يشير 'المصدر' إلى أي آلية إدخال يمكن للمهاجم من خلالها التأثير على النظام، مثل المحتوى الخارجي غير الموثوق به، أو صفحات الويب، أو رسائل البريد الإلكتروني التي يعالجها وكيل الذكاء الاصطناعي. ويشير 'المستقبل' إلى قدرة أو إجراء، إذا تم استغلاله، يمكن أن يصبح خطيرًا في السياق الخاطئ، مثل نقل المعلومات إلى طرف ثالث، أو اتباع رابط ضار، أو تنفيذ أداة. من خلال تحليل المسارات المحتملة من المصادر إلى المستقبلات، يمكن لفرق الأمن تطبيق ضوابط لمنع حركة البيانات غير المصرح بها أو الإجراءات الخطيرة، حتى لو تعرض وكيل الذكاء الاصطناعي للاختراق جزئيًا بواسطة هجوم حقن أوامر. هذه الطريقة أساسية لضمان سلامة البيانات وأمن النظام."

وكلاء الذكاء الاصطناعي يوسعون قدراتهم بسرعة، من تصفح الويب إلى استرجاع المعلومات المعقدة وتنفيذ الإجراءات نيابة عن المستخدمين. وبينما تعد هذه التطورات بفوائد وكفاءة غير مسبوقة، فإنها تقدم في الوقت نفسه أسطح هجوم جديدة ومتطورة. من أبرز هذه الأسطح هو حقن الأوامر (prompt injection) — وهي طريقة يتم فيها تضمين تعليمات ضارة داخل محتوى خارجي، بهدف التلاعب بنموذج الذكاء الاصطناعي ليقوم بإجراءات غير مقصودة. تسلط OpenAI الضوء على تطور حاسم في هذه الهجمات: فهي تحاكي بشكل متزايد تكتيكات الهندسة الاجتماعية، مما يتطلب تحولًا جذريًا في استراتيجيات الدفاع من مجرد تصفية المدخلات إلى تصميم نظامي قوي.

## التهديد المتطور: حقن الأوامر والهندسة الاجتماعية
في البداية، كانت هجمات حقن الأوامر غالبًا مباشرة، مثل تضمين أوامر عدائية صريحة داخل مقال في ويكيبيديا قد يعالجه وكيل ذكاء اصطناعي. وكانت النماذج المبكرة، التي تفتقر إلى الخبرة التدريبية في مثل هذه البيئات العدائية، عرضة لاتباع هذه التعليمات الصريحة دون سؤال. ومع ذلك، مع نضوج نماذج الذكاء الاصطناعي وتطورها، تراجعت قابليتها للاختراق بمثل هذه الاقتراحات الواضحة. وقد دفع هذا المهاجمين إلى تطوير أساليب أكثر دقة تتضمن عناصر الهندسة الاجتماعية.

هذا التطور مهم لأنه يتجاوز مجرد تحديد سلسلة ضارة. وبدلاً من ذلك، فإنه يتحدى أنظمة الذكاء الاصطناعي لمقاومة المحتوى المضلل أو المتلاعب في سياق أوسع، تمامًا كما يواجه الإنسان الهندسة الاجتماعية. على سبيل المثال، تضمن هجوم حقن أوامر تم الإبلاغ عنه لـ OpenAI في عام 2025 صياغة بريد إلكتروني بدا بريئًا ولكنه احتوى على تعليمات مضمنة مصممة لخداع مساعد الذكاء الاصطناعي لاستخراج بيانات موظفين حساسة وتقديمها إلى "نظام التحقق من الامتثال". أظهر هذا الهجوم نسبة نجاح بلغت 50% في الاختبار، مما يدل على فعالية مزج الطلبات التي تبدو مشروعة مع التوجيهات الخبيثة. غالبًا ما تتجاوز هذه الهجمات المعقدة أنظمة "جدران حماية الذكاء الاصطناعي" التقليدية، التي تحاول عادةً تصنيف المدخلات بناءً على قواعد استدلالية بسيطة، لأن الكشف عن هذه التلاعبات الدقيقة يصبح صعبًا مثل التمييز بين الكذب أو المعلومات المضللة بدون سياق الوضع الكامل.

## وكلاء الذكاء الاصطناعي كنظرائهم من البشر: دروس من دفاعات الهندسة الاجتماعية
لمواجهة تقنيات حقن الأوامر المتقدمة هذه، تبنت OpenAI تحولًا نموذجيًا، حيث تنظر إلى المشكلة من خلال عدسة الهندسة الاجتماعية البشرية. يعترف هذا النهج بأن الهدف ليس التحديد المثالي لكل مدخل ضار، بل تصميم وكلاء وأنظمة الذكاء الاصطناعي بحيث يتم تقييد تأثير التلاعب بشكل كبير، حتى لو نجح الهجوم جزئيًا. هذه العقلية مماثلة لإدارة مخاطر الهندسة الاجتماعية للموظفين البشريين داخل المنظمة.

لننظر إلى وكيل خدمة عملاء بشري موكل بالقدرة على إصدار المبالغ المستردة أو بطاقات الهدايا. بينما يهدف الوكيل إلى خدمة العميل، فإنه يتعرض باستمرار لمدخلات خارجية — قد يكون بعضها متلاعبًا أو حتى قسريًا. تخفف المنظمات هذا الخطر من خلال تطبيق القواعد والقيود والأنظمة الحتمية. على سبيل المثال، قد يكون لدى وكيل خدمة العملاء سقف لعدد المبالغ المستردة التي يمكنه إصدارها، أو إجراءات محددة للإبلاغ عن الطلبات المشبوهة. وبالمثل، يجب أن يكون لدى وكيل الذكاء الاصطناعي، أثناء عمله نيابة عن المستخدم، قيود وضمانات متأصلة. من خلال تصور وكلاء الذكاء الاصطناعي ضمن "نظام من ثلاثة عوامل" (المستخدم، الوكيل، العالم الخارجي)، حيث يجب على الوكيل التنقل في مدخلات خارجية قد تكون معادية، يمكن للمصممين بناء المرونة. يقر هذا النهج بأن بعض الهجمات ستفلت حتمًا، لكنه يضمن تقليل احتمال الضرر. هذا المبدأ يدعم مجموعة قوية من التدابير المضادة التي تنشرها OpenAI.

| مبدأ الدفاع         | الوصف                                                                                                                                                                                                                                        | التشبيه بالأنظمة البشرية                                                         | الفائدة                                                                                               |
| :------------------ | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :----------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------- |
| **التقييد**        | تحديد قدرات وإجراءات الوكيل ضمن حدود آمنة ومحددة مسبقًا، لمنع العمليات غير المصرح بها أو واسعة النطاق بشكل مفرط.                                                                                                                             | حدود الإنفاق، مستويات التفويض، تطبيق السياسات للموظفين.                     | يقلل من الضرر المحتمل حتى لو تم اختراق الوكيل جزئيًا.                                                  |
| **الشفافية**      | طلب تأكيد صريح من المستخدم للإجراءات التي قد تكون خطيرة أو حساسة قبل تنفيذها.                                                                                                                                                            | موافقة المدير على الاستثناءات، التحقق المزدوج من إدخال البيانات الحساسة.       | يمكّن المستخدمين من تجاوز أو تأكيد العمليات الحساسة، مما يضمن التحكم.                                   |
| **التطويق (Sandboxing)** | عزل إجراءات الوكيل، خاصة عند التفاعل مع الأدوات أو التطبيقات الخارجية، ضمن بيئة آمنة ومراقبة.                                                                                                                                                   | الوصول المتحكم فيه إلى الأنظمة الحساسة، بيئات الشبكة المقسمة.              | يمنع الإجراءات الضارة من التأثير على الأنظمة الأساسية أو تسريب البيانات.                               |
| **تحليل المصدر والمستقبل السياقي** | تحليل مصادر المدخلات ومستقبلات المخرجات لتدفقات البيانات المشبوهة أو عمليات النقل غير المصرح بها، وتحديد الأنماط التي تشير إلى نية خبيثة.                                                                             | أنظمة منع فقدان البيانات (DLP)، بروتوكولات الكشف عن تهديدات المطلعين.     | يحدد ويحظر محاولات تسريب البيانات غير المصرح بها.                                                    |
| **التدريب العدائي** | تدريب نماذج الذكاء الاصطناعي باستمرار على التعرف على اللغة المتلاعبة، والتكتيكات الخادعة، ومحاولات الهندسة الاجتماعية ومقاومتها.                                                                                              | تدريب التوعية الأمنية، التعرف على محاولات التصيد والاحتيال.                     | يحسن قدرة الوكيل المتأصلة على اكتشاف المحتوى الخبيث والإبلاغ عنه. |

## دفاعات OpenAI متعددة الطبقات في ChatGPT
تدمج OpenAI نموذج الهندسة الاجتماعية هذا مع تقنيات هندسة الأمن التقليدية، وخاصة "تحليل المصدر والمستقبل"، ضمن ChatGPT. في هذا الإطار، يحتاج المهاجم إلى مكونين رئيسيين: "مصدر" لحقن التأثير (مثل المحتوى الخارجي غير الموثوق به) و"مستقبل" لاستغلال قدرة خطيرة (مثل نقل المعلومات، أو اتباع رابط ضار، أو التفاعل مع أداة مخترقة). الهدف الأساسي لـ OpenAI هو الحفاظ على توقع أمني أساسي: يجب ألا تحدث الإجراءات الخطيرة أو نقل المعلومات الحساسة بصمت أبدًا أو بدون ضمانات مناسبة.

تحاول العديد من الهجمات ضد ChatGPT خداع المساعد لاستخراج معلومات محادثة سرية وإرسالها إلى طرف ثالث خبيث. وبينما يؤدي تدريب OpenAI على السلامة غالبًا إلى رفض الوكيل لمثل هذه الطلبات، فإن استراتيجية التخفيف الحرجة للحالات التي يتم فيها إقناع الوكيل هي `Safe Url`. تم تصميم هذه الآلية خصيصًا للكشف عندما قد يتم نقل معلومات تم تعلمها أثناء محادثة إلى عنوان URL خارجي لطرف ثالث. في مثل هذه الحالات النادرة، يقوم النظام إما بعرض المعلومات للمستخدم لتأكيد صريح أو يحظر النقل بالكامل، ويوجه الوكيل لإيجاد طريقة بديلة وآمنة لتلبية طلب المستخدم. هذا يمنع تسريب البيانات حتى لو تم اختراق الوكيل لحظيًا. للحصول على مزيد من الرؤى حول الحماية من تفاعلات الروابط التي يقودها الوكيل، يمكن للمستخدمين الرجوع إلى منشور المدونة المخصص، [الحفاظ على أمان بياناتك عندما ينقر وكيل الذكاء الاصطناعي على رابط](https://openai.com/index/ai-agent-link-safety/).

## دور Safe URL والتطويق (Sandboxing) في الذكاء الاصطناعي الوكيلي
تمتد آلية `Safe Url`، المصممة للكشف عن نقل البيانات الحساسة والتحكم فيه، لتشمل حمايتها ما هو أبعد من مجرد نقرات الروابط. يتم تطبيق ضمانات مماثلة على عمليات التنقل والإشارات المرجعية داخل Atlas وعلى وظائف البحث والتنقل في Deep Research. تتضمن هذه التطبيقات بطبيعتها تفاعل وكلاء الذكاء الاصطناعي مع مصادر بيانات خارجية واسعة، مما يجعل الضوابط القوية للبيانات الصادرة أمرًا بالغ الأهمية.

علاوة على ذلك، تتبنى ميزات وكلاء الذكاء الاصطناعي مثل ChatGPT Canvas وتطبيقات ChatGPT فلسفة أمنية مماثلة. عندما يقوم الوكلاء بإنشاء واستخدام تطبيقات وظيفية، يتم تقييد هذه العمليات ضمن بيئة تطويق (sandbox) آمنة. يسمح هذا التطويق بالكشف عن الاتصالات أو الإجراءات غير المتوقعة. الأهم من ذلك، أن أي تفاعلات قد تكون حساسة أو غير مصرح بها تستدعي طلب موافقة صريحة من المستخدم، مما يضمن احتفاظ المستخدمين بالتحكم المطلق في بياناتهم وسلوك الوكيل. هذا النهج متعدد الطبقات، الذي يجمع بين تحليل المصدر والمستقبل مع الوعي السياقي وموافقة المستخدم والتنفيذ في بيئة تطويق، يشكل دفاعًا قويًا ضد هجمات حقن الأوامر والهندسة الاجتماعية المتطورة. لمزيد من التفاصيل حول كيفية تشغيل هذه القدرات الوكيلية بشكل آمن، ارجع إلى المناقشات حول [تشغيل الذكاء الاصطناعي الوكيلي](/ar/operationalizing-agentic-ai-part-1-a-stakeholders-guide).

## تأمين الوكلاء المستقلين ضد الهجمات العدائية في المستقبل
ضمان التفاعل الآمن مع العالم الخارجي العدائي ليس مجرد ميزة مرغوبة بل هو أساس ضروري لتطوير وكلاء ذكاء اصطناعي مستقلين بالكامل. توصي OpenAI للمطورين الذين يدمجون نماذج الذكاء الاصطناعي في تطبيقاتهم بالنظر في الضوابط التي يمتلكها الوكيل البشري في موقف مماثل عالي المخاطر وتطبيق هذه القيود المشابهة داخل نظام الذكاء الاصطناعي.

بينما نطمح إلى أن تقاوم نماذج الذكاء الاصطناعي الأكثر ذكاءً الهندسة الاجتماعية بشكل أكثر فعالية من الوكلاء البشريين، إلا أن هذا ليس دائمًا هدفًا ممكنًا أو فعالًا من حيث التكلفة الفورية لكل تطبيق. لذلك، يظل تصميم الأنظمة ذات القيود المضمنة والإشراف أمرًا بالغ الأهمية. تلتزم OpenAI بالبحث المستمر في تداعيات الهندسة الاجتماعية ضد نماذج الذكاء الاصطناعي وتطوير دفاعات متقدمة. يتم دمج هذه النتائج في كل من بنيات أمان تطبيقاتهم وعمليات التدريب المستمرة لنماذج الذكاء الاصطناعي الخاصة بهم، مما يضمن نهجًا استباقيًا وتكيفيًا لأمن الذكاء الاصطناعي في مشهد التهديدات المتطور باستمرار. تهدف هذه الاستراتيجية التطلعية إلى جعل وكلاء الذكاء الاصطناعي أقوياء وجديرين بالثقة بطبيعتهم، مرددة الجهود المبذولة لتعزيز الأمن عبر النظام البيئي للذكاء الاصطناعي، بما في ذلك مبادرات مثل [تعطيل الاستخدامات الخبيثة للذكاء الاصطناعي](/ar/disrupting-malicious-ai-uses).

الأسئلة الشائعة

What is prompt injection in the context of AI agents?
Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.
How has prompt injection evolved, and why is this significant?
Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.
How does OpenAI defend against social engineering prompt injection attacks?
OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.
What is Safe Url, and how does it protect AI agents and users?
Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.
Why is user consent crucial for AI agents, especially with new capabilities?
User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.
What is 'source-sink' analysis in the context of AI security?
Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

ابقَ على اطلاع

احصل على آخر أخبار الذكاء الاصطناعي في بريدك.

مشاركة