Süni İntellekt Agentləri: Sosial Mühəndisliklə Prompt İnjeksiya Hücumlarına Müqavimət

title: "Süni İntellekt Agentləri: Sosial Mühəndisliklə Prompt İnjeksiya Hücumlarına Müqavimət" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "az" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "Süni İntellekt Təhlükəsizliyi" keywords:

süni intellekt agentləri
prompt injeksiya
süni intellekt təhlükəsizliyi
sosial mühəndislik
LLM təhlükəsizliyi
ChatGPT
məlumat məxfiliyi
zərərli hücumlar
agentik süni intellekt
OpenAI
təhlükəsizlik mühəndisliyi
təhlükəsiz URL meta_description: "OpenAI-nin süni intellekt agentlərini sosial mühəndislik müdafiə strategiyalarından istifadə edərək təkmil prompt injeksiya hücumlarına necə müqavimət göstərdiyini öyrənin, möhkəm süni intellekt təhlükəsizliyini və məlumat məxfiliyini təmin edin." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAI süni intellekt agentləri prompt injeksiya və sosial mühəndislik hücumlarına müqavimət göstərir" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "Süni intellekt agentləri kontekstində prompt injeksiya nədir?" answer: "Prompt injeksiya, süni intellekt agentinin emal etdiyi xarici məzmuna zərərli təlimatların incəliklə yerləşdirildiyi bir hücum növünə aiddir. Məqsəd, agenti istifadəçi tərəfindən nəzərdə tutulmayan və ya icazə verilməyən hərəkətləri yerinə yetirməyə və ya məlumatları açıqlamağa məcbur etməkdir. Bu hücumlar, süni intellektin təlimatları şərh etmək və onlara əməl etmək qabiliyyətindən istifadə edir, hətta bu təlimatlar etibarsız bir mənbədən gəlsə belə, agentin davranışını zərərli məqsədlər üçün effektiv şəkildə qaçırır. Erkən formalar birbaşa əmrlər ola bilər, lakin təkmil formalar daha az aşkarlanabilən və daha inandırıcı olmaq üçün sosial mühəndislikdən istifadə edir, sistemin bütövlüyünü və istifadəçi etimadını qorumaq üçün mürəkkəb əks tədbirlər tələb edir."
question: "Prompt injeksiya necə inkişaf edib və bu niyə əhəmiyyətlidir?" answer: "Prompt injeksiya sadə, açıq düşmən əmrlərindən (məsələn, bir veb səhifədə birbaşa təlimatlar) mürəkkəb sosial mühəndislik taktikalarına qədər inkişaf etmişdir. Erkən hücumlar tez-tez əsas filtrləmə ilə aşkar edilirdi. Lakin, süni intellekt modelləri daha ağıllı olduqca, hücumçular zərərli niyyəti zahirən qanuni kontekstlə qarışdıran, insan sosial mühəndisliyini təqlid edən promptlar yaratmağa başladılar. Bu dəyişiklik əhəmiyyətlidir, çünki bu, müdafiənin artıq yalnız zərərli sətirləri müəyyən etməyə etibar edə bilməyəcəyi deməkdir. Bunun əvəzinə, onlar kontekstdə yanlış və ya manipulyativ məzmunla mübarizənin daha geniş problem həll etməlidirlər, bu da sadə giriş filtrləməsindən daha çox təhlükəsizliyə daha vahid, sistemli bir yanaşma tələb edir."
question: "OpenAI sosial mühəndislik prompt injeksiya hücumlarına qarşı necə müdafiə olunur?" answer: "OpenAI, insan sosial mühəndislik risklərinin idarə edilməsi ilə paralellər apararaq çoxqatlı müdafiə strategiyası tətbiq edir. Buraya agentlərə potensial təsiri məhdudlaşdırmaq üçün məhdudiyyətlər verilən 'üç aktyor sistemi' perspektivi (istifadəçi, agent, xarici dünya) daxildir. Əsas texnikalara təhlükəli məlumat axınlarını aşkar etmək üçün 'mənbə-kanal analizi', istifadəçi təsdiqini tələb edən və ya üçüncü tərəflərə həssas ötürmələri bloklayan Təhlükəsiz URL mexanizmləri və ChatGPT Canvas və Apps kimi agentik alətlər üçün sandboxing daxildir. Ümumi məqsəd, kritik hərəkətlərin və ya məlumat ötürmələrinin səssizcə baş verməməsini təmin etmək, möhkəm süni intellekt təhlükəsizliyini qorumaq üçün həmişə istifadəçi təhlükəsizliyini və razılığını prioritetləşdirməkdir."
question: "Təhlükəsiz URL nədir və o, süni intellekt agentlərini və istifadəçilərini necə qoruyur?" answer: "Təhlükəsiz URL, OpenAI tərəfindən icazəsiz məlumat sızmasından süni intellekt agentlərini və istifadəçilərini qorumaq üçün hazırlanmış kritik bir yumşaltma strategiyasıdır. O, süni intellekt agentinin bir söhbət və ya qarşılıqlı əlaqə zamanı öyrəndiyi məlumatların xarici, potensial olaraq zərərli, üçüncü tərəf URL-ə ötürülə biləcəyini aşkarlayır. Belə bir ötürmə aşkar edildikdə, Təhlükəsiz URL müdaxilə edərək ya həssas məlumatı göndərməzdən əvvəl açıq təsdiq üçün istifadəçiyə göstərir, ya da ötürməni tamamilə bloklayır və agentə istifadəçinin tələbini yerinə yetirmək üçün alternativ, təhlükəsiz bir üsul tapmağı göstəriş verir. Bu mexanizm, agent sosial mühəndislik prompt injeksiyası ilə anlıq olaraq təsirlənsə belə, həssas məlumatların istifadəçi nəzarətində qalmasını təmin edir."
question: "Xüsusilə yeni imkanlarla birlikdə süni intellekt agentləri üçün istifadəçi razılığı niyə vacibdir?" answer: "İstifadəçi razılığı süni intellekt agentləri üçün, xüsusilə onların imkanları internetdə gəzmək, xarici alətlərlə qarşılıqlı əlaqə qurmaq və məlumat ötürmək üçün genişləndikcə, son dərəcə vacibdir. Təkmil prompt injeksiya və sosial mühəndislik taktikaları ilə, bir agent məxfiliyi və ya təhlükəsizliyi təhlükə altına alan hərəkətləri yerinə yetirmək üçün aldadıla bilər. Həssas məlumatları ötürmək, xarici saytlara getmək və ya xarici tətbiqlərdən istifadə etmək kimi potensial təhlükəli hərəkətlər üçün açıq istifadəçi razılığı tələb etmək, istifadəçilərin son nəzarəti öz əlində saxlamasını təmin edir. Bu, səssiz pozuntuların qarşısını alır və istifadəçilərə hərəkətləri təsdiqləmək və ya rədd etmək imkanı verir, məlumat məxfiliyi və istifadəçi muxtariyyəti prinsiplərinə uyğun olaraq manipulyasiyaya və icazəsiz davranışlara qarşı kritik bir son müdafiə qatı rolunu oynayır."
question: "Süni intellekt təhlükəsizliyi kontekstində 'mənbə-kanal' analizi nədir?" answer: "Mənbə-kanal analizi, OpenAI tərəfindən süni intellekt sistemlərində məlumat axını ilə əlaqəli riskləri müəyyən etmək və azaltmaq üçün istifadə olunan bir təhlükəsizlik mühəndisliyi yanaşmasıdır. Bu çərçivədə, 'mənbə' bir hücumçunun sistemi təsirləndirə biləcəyi hər hansı bir giriş mexanizminə aiddir, məsələn, süni intellekt agenti tərəfindən emal olunan etibarsız xarici məzmun, veb səhifələr və ya e-poçtlar. 'Kanal' isə istifadə edildiyi təqdirdə yanlış kontekstdə təhlükəli ola biləcək bir imkan və ya hərəkətə aiddir, məsələn, məlumatı üçüncü tərəfə ötürmək, zərərli bir linkə keçmək və ya bir aləti icra etmək. Mənbələrdən kanallara potensial yolları təhlil edərək, təhlükəsizlik komandaları, süni intellekt agenti prompt injeksiya hücumu ilə qismən kompromisə uğrasa belə, icazəsiz məlumat hərəkətinin və ya təhlükəli hərəkətlərin qarşısını almaq üçün nəzarət tətbiq edə bilərlər. Bu metod məlumat bütövlüyünü və sistem təhlükəsizliyini təmin etmək üçün fundamental əhəmiyyətə malikdir."

Süni intellekt agentləri veb-brauzingdən tutmuş mürəkkəb məlumatların əldə edilməsinə və istifadəçilər adından hərəkətlərin icra edilməsinə qədər imkanlarını sürətlə genişləndirirlər. Bu irəliləyişlər misilsiz faydalılıq və səmərəlilik vəd etsə də, eyni zamanda mürəkkəb yeni hücum səthləri yaradır. Bunların arasında əsas yeri prompt injeksiya tutur - zərərli təlimatların xarici məzmuna yerləşdirildiyi, süni intellekt modelini gözlənilməz hərəkətləri yerinə yetirməyə manipulyasiya etməyi hədəfləyən bir metod. OpenAI bu hücumların kritik bir təkamülünü vurğulayır: onlar getdikcə sosial mühəndislik taktikalarını təqlid edərək, müdafiə strategiyalarında sadə giriş filtrləməsindən möhkəm sistemli dizayna əsaslı bir dəyişiklik tələb edir.

Təhlükənin Təkamülü: Prompt İnjeksiya və Sosial Mühəndislik

Əvvəlcə, prompt injeksiya hücumları tez-tez birbaşa idi, məsələn, bir süni intellekt agentinin emal edə biləcəyi bir Vikipediya məqaləsinə birbaşa düşmən əmrlərinin yerləşdirilməsi kimi. Erkən modellər, belə düşmən mühitlərində təlim-vaxtı təcrübəsi olmadığından, bu açıq təlimatlara heç bir sual vermədən əməl etməyə meylli idilər. Lakin, süni intellekt modelləri yetkinləşdikcə və daha mürəkkəb olduqca, bu qədər aşkar təkliflərə qarşı həssaslıqları azaldı. Bu, hücumçuları sosial mühəndislik elementlərini özündə birləşdirən daha incə metodlar hazırlamağa sövq etdi.

Bu təkamül əhəmiyyətlidir, çünki o, sadəcə zərərli sətiri müəyyən etməkdən kənara çıxır. Əvəzində, süni intellekt sistemlərini daha geniş bir kontekstdə, eynilə bir insanın sosial mühəndisliklə üzləşdiyi kimi, yanlış və ya manipulyativ məzmuna müqavimət göstərməyə çağırır. Məsələn, OpenAI-yə bildirilən 2025-ci il prompt injeksiya hücumu, süni intellekt köməkçisini həssas işçi məlumatlarını çıxarıb bir "uyğunluq yoxlama sisteminə" təqdim etməyə aldatmaq üçün nəzərdə tutulmuş daxili təlimatları ehtiva edən, zərərsiz görünən bir e-poçt yaratmağı əhatə edirdi. Bu hücum sınaqlarda 50% uğur nisbəti nümayiş etdirdi, qanuni səslənən sorğuları zərərli təlimatlarla qarışdırmağın effektivliyini göstərdi. Belə mürəkkəb hücumlar, adətən sadə heuristikalar əsasında girişləri təsnif etməyə çalışan ənənəvi "süni intellekt firewall" sistemlərini adətən keçir, çünki bu incə manipulyasiyaları aşkar etmək, tam vəziyyət konteksti olmadan bir yalanı və ya yanlış məlumatı ayırd etmək qədər çətinləşir.

İnsan Həmkarları Kimi Süni İntellekt Agentləri: Sosial Mühəndislik Müdafiəsindən Dərslər

Bu təkmil prompt injeksiya üsullarına qarşı mübarizə aparmaq üçün OpenAI, problemi insan sosial mühəndisliyinin prizmasından nəzərdən keçirərək bir paradiqma dəyişikliyi qəbul etmişdir. Bu yanaşma, məqsədin hər bir zərərli girişi mükəmməl şəkildə müəyyən etmək olmadığını, əksinə manipulyasiyanın təsirinin, hətta bir hücum qismən uğurlu olsa belə, ciddi şəkildə məhdudlaşdırılacağı şəkildə süni intellekt agentləri və sistemlərini dizayn etmək olduğunu qəbul edir. Bu düşüncə tərzi, bir təşkilat daxilində insan işçilər üçün sosial mühəndislik risklərini idarə etməyə bənzəyir.

Geri qaytarmalar və ya hədiyyə kartları vermək imkanı olan bir insan müştəri xidməti agentini düşünün. Agent müştəriyə xidmət etməyi hədəfləsə də, o, davamlı olaraq xarici girişlərə məruz qalır—bəziləri manipulyativ və ya hətta məcburedici ola bilər. Təşkilatlar bu riski qaydalar, məhdudiyyətlər və deterministik sistemlər tətbiq etməklə azaldırlar. Məsələn, bir müştəri xidməti agentinin verə biləcəyi geri qaytarmaların sayı üçün bir həddi və ya şübhəli sorğuları qeyd etmək üçün xüsusi prosedurları ola bilər. Eynilə, bir süni intellekt agenti, istifadəçi adından fəaliyyət göstərsə də, daxili məhdudiyyətlərə və mühafizə tədbirlərinə malik olmalıdır. Süni intellekt agentlərini bu "üç aktyor sistemi" (istifadəçi, agent, xarici dünya) daxilində təsəvvür etməklə, burada agent potensial düşmən xarici girişlərdə hərəkət etməlidir, dizaynerlər dayanıqlığı qura bilərlər. Bu yanaşma, bəzi hücumların qaçılmaz olaraq sürüşəcəyini qəbul edir, lakin onların zərər vermə potensialının minimuma endirilməsini təmin edir. Bu prinsip OpenAI tərəfindən tətbiq edilən möhkəm əks tədbirlər paketinin əsasını təşkil edir.

Müdafiə Prinsipi	Təsvir	İnsan Sistemlərinə Anologiya	Fayda
Məhdudiyyət	Agentin imkanlarını və hərəkətlərini əvvəlcədən müəyyən edilmiş, təhlükəsiz sərhədlərə məhdudlaşdırmaq, icazəsiz və ya həddindən artıq geniş əməliyyatların qarşısını almaq.	İşçilər üçün xərc limitləri, icazə səviyyələri, siyasətin tətbiqi.	Agent qismən kompromisə uğrasa belə, potensial zərəri azaldır.
Şəffaflıq	Potensial təhlükəli və ya həssas hərəkətlərin icra edilməzdən əvvəl açıq istifadəçi təsdiqini tələb etmək.	İstisnalar üçün menecer təsdiqi, kritik məlumat girişinin ikiqat yoxlanılması.	İstifadəçilərə həssas əməliyyatları ləğv etmək və ya təsdiqləmək imkanı verir, nəzarəti təmin edir.
Sandboxing	Agent hərəkətlərini, xüsusilə xarici alətlər və ya tətbiqlərlə qarşılıqlı əlaqədə olarkən, təhlükəsiz, nəzarət olunan bir mühitdə təcrid etmək.	Həssas sistemlərə nəzarətli giriş, seqmentləşdirilmiş şəbəkə mühitləri.	Zərərli hərəkətlərin əsas sistemlərə təsir etməsinin və ya məlumat sızmasının qarşısını alır.
Kontekstual S&S	Şübhəli məlumat axınları və ya icazəsiz ötürmələr üçün giriş mənbələrini və çıxış kanallarını təhlil etmək, zərərli niyyəti göstərən nümunələri müəyyən etmək.	Məlumat İtki Mühafizəsi (DLP) sistemləri, daxili təhlükə aşkarlama protokolları.	İcazəsiz məlumat sızması cəhdlərini müəyyən edir və bloklayır.
Düşmən Təlimi	Manipulyativ dili, aldatıcı taktikaları və sosial mühəndislik cəhdlərini tanımaq və onlara müqavimət göstərmək üçün süni intellekt modellərini davamlı olaraq öyrətmək.	Təhlükəsizlik şüuru təlimi, fişinq və fırıldaq cəhdlərini tanımaq.	Agentin zərərli məzmunu aşkar etmək və qeyd etmək qabiliyyətini artırır.

OpenAI-nin ChatGPT-də Çoxqatlı Müdafiəsi

OpenAI bu sosial mühəndislik modelini ənənəvi təhlükəsizlik mühəndisliyi üsulları, xüsusilə də ChatGPT daxilində "mənbə-kanal analizi" ilə birləşdirir. Bu çərçivədə, hücumçunun iki əsas komponentə ehtiyacı var: təsir etmək üçün bir "mənbə" (məsələn, etibarsız xarici məzmun) və təhlükəli bir qabiliyyətdən istifadə etmək üçün bir "kanal" (məsələn, məlumat ötürmək, zərərli bir linkə keçmək və ya təhlükəyə məruz qalmış bir alətlə qarşılıqlı əlaqə qurmaq). OpenAI-nin əsas məqsədi fundamental təhlükəsizlik gözləntisini qorumaqdır: təhlükəli hərəkətlər və ya həssas məlumatların ötürülməsi heç vaxt səssizcə və ya müvafiq təhlükəsizlik tədbirləri olmadan baş verməməlidir.

ChatGPT-yə qarşı bir çox hücum, köməkçini gizli söhbət məlumatlarını çıxarıb zərərli bir üçüncü tərəfə ötürməyə çalışır. OpenAI-nin təhlükəsizlik təlimi tez-tez agentin belə sorğuları rədd etməsinə səbəb olsa da, agentin razı olduğu hallarda kritik bir yumşaltma strategiyası Safe Url-dir. Bu mexanizm, bir söhbət zamanı öyrənilmiş məlumatların xarici üçüncü tərəf URL-ə ötürülə biləcəyini aşkar etmək üçün xüsusi olaraq hazırlanmışdır. Belə nadir hallarda, sistem ya məlumatı açıq təsdiq üçün istifadəçiyə göstərir, ya da ötürməni tamamilə bloklayır, agentə istifadəçinin tələbini yerinə yetirmək üçün alternativ, təhlükəsiz bir yol tapmağı göstəriş verir. Bu, agent anlıq olaraq kompromisə uğrasa belə, məlumat sızmasının qarşısını alır. Agent tərəfindən idarə olunan link qarşılıqlı əlaqələrinə qarşı qorunma haqqında əlavə məlumat üçün istifadəçilər Bir süni intellekt agenti linkə kliklədikdə məlumatlarınızı necə qorumaq olar adlı bloq yazısına müraciət edə bilərlər.

Agentik Süni İntellektdə Təhlükəsiz URL və Sandboxingin Rolu

Həssas məlumat ötürməsini aşkar etmək və idarə etmək üçün nəzərdə tutulmuş Safe Url mexanizmi, qoruyucu əhatə dairəsini sadəcə link kliklərindən kənara çıxarır. Oxşar təhlükəsizlik tədbirləri Atlas daxilində naviqasiyalara və əlfəcinlərə, həmçinin Dərin Axtarışda axtarış və naviqasiya funksiyalarına tətbiq edilir. Bu tətbiqlər, süni intellekt agentlərinin geniş xarici məlumat mənbələri ilə qarşılıqlı əlaqədə olmasını nəzərdə tutur, bu da çıxış məlumatları üçün möhkəm nəzarətləri vacib edir.

Bundan əlavə, ChatGPT Canvas və ChatGPT Apps kimi agentik xüsusiyyətlər oxşar təhlükəsizlik fəlsəfəsini qəbul edir. Agentlər funksional tətbiqlər yaratdıqda və istifadə etdikdə, bu əməliyyatlar təhlükəsiz bir sandboks mühitində məhdudlaşdırılır. Bu sandboxing gözlənilməz kommunikasiyaların və ya hərəkətlərin aşkar edilməsinə imkan verir. Ən əsası, hər hansı bir potensial həssas və ya icazəsiz qarşılıqlı əlaqələr açıq istifadəçi razılığı tələb edir, istifadəçilərin məlumatları və agentin davranışı üzərində son nəzarəti saxlamasını təmin edir. Mənbə-kanal analizini kontekstual məlumatlılıq, istifadəçi razılığı və sandboksda icra ilə birləşdirən bu çoxqatlı yanaşma, prompt injeksiya və sosial mühəndislik hücumlarına qarşı möhkəm bir müdafiə təşkil edir. Bu agentik imkanların təhlükəsiz şəkildə necə işlədiyini daha ətraflı öyrənmək üçün agentik süni intellektin işlədilməsi haqqında müzakirələrə müraciət edin.

Düşmən Hücumlarına Qarşı Muxtar Agentlərin Gələcək-Təhlükəsizliyinin Təmin Edilməsi

Düşmən xarici dünya ilə təhlükəsiz qarşılıqlı əlaqəni təmin etmək sadəcə arzu olunan bir xüsusiyyət deyil, tam muxtar süni intellekt agentlərinin inkişafı üçün zəruri bir təməldir. OpenAI-nin süni intellekt modellərini öz tətbiqlərinə inteqrasiya edən tərtibatçılar üçün tövsiyəsi, oxşar yüksək riskli vəziyyətdə insan agentinin hansı nəzarətlərə sahib olacağını nəzərdən keçirmək və bu analoji məhdudiyyətləri süni intellekt sisteminə tətbiq etməkdir.

Maksimal dərəcədə ağıllı süni intellekt modellərinin nəticədə insan agentlərindən daha effektiv şəkildə sosial mühəndisliyə müqavimət göstərməsi arzu olunsa da, bu hər bir tətbiq üçün həmişə mümkün və ya qənaətcil bir dərhal məqsəd deyil. Buna görə də, daxili məhdudiyyətlər və nəzarətlərlə sistemlərin dizaynı kritik olaraq qalır. OpenAI süni intellekt modellərinə qarşı sosial mühəndisliyin təsirlərini davamlı olaraq araşdırmağa və təkmil müdafiə yolları hazırlamağa sadiqdir. Bu tapıntılar həm onların tətbiq təhlükəsizlik arxitekturalarına, həm də süni intellekt modelləri üçün davamlı təlim proseslərinə inteqrasiya edilir, daima dəyişən təhlükə mühitində süni intellekt təhlükəsizliyinə proaktiv və adaptiv bir yanaşma təmin edir. Bu qabaqcıl strategiya, zərərli süni intellekt istifadələrini pozmaq kimi təşəbbüslər də daxil olmaqla, süni intellekt ekosistemində təhlükəsizliyi artırmaq səylərini əks etdirərək, süni intellekt agentlərini həm güclü, həm də əslində etibarlı etməyi hədəfləyir.

Orijinal mənbə

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Tez-tez Verilən Suallar

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Xəbərdar olun

Ən son AI xəbərlərini e-poçtunuza alın.

Paylaş