АІ-агенти: Протидія ін'єкції запитів за допомогою соціальної інженерії

АІ-агенти швидко розширюють свої можливості, від перегляду веб-сторінок до отримання складної інформації та виконання дій від імені користувачів. Хоча ці досягнення обіцяють безпрецедентну корисність та ефективність, вони одночасно створюють нові, складні поверхні для атак. Головною серед них є ін'єкція запитів — метод, коли зловмисні інструкції вбудовуються у зовнішній контент, націлений на маніпулювання моделлю ШІ для виконання ненавмисних дій. OpenAI підкреслює критичну еволюцію цих атак: вони все частіше імітують тактики соціальної інженерії, що вимагає фундаментального зсуву в стратегіях захисту від простої фільтрації вхідних даних до надійного системного дизайну.

Загроза, що розвивається: Ін'єкція запитів та соціальна інженерія

Спочатку атаки ін'єкції запитів часто були прямолінійними, наприклад, вбудовування прямих ворожих команд у статтю Вікіпедії, яку міг обробити АІ-агент. Ранні моделі, яким бракувало досвіду навчання в таких ворожих середовищах, були схильні беззаперечно дотримуватися цих явних інструкцій. Однак, у міру того як моделі ШІ дозрівали та ставали більш складними, їхня вразливість до таких відвертих пропозицій зменшилася. Це спонукало зловмисників розробляти більш тонкі методи, що включають елементи соціальної інженерії.

Ця еволюція є значущою, оскільки вона виходить за рамки простого виявлення зловмисного рядка. Замість цього вона ставить перед системами ШІ завдання протистояти оманливому або маніпулятивному контенту в ширшому контексті, подібно до того, як людина стикається з соціальною інженерією. Наприклад, атака ін'єкції запитів у 2025 році, про яку повідомляли OpenAI, полягала у створенні електронного листа, який здавався нешкідливим, але містив вбудовані інструкції, розроблені для того, щоб обманом змусити АІ-асистента вилучити конфіденційні дані співробітників і надіслати їх до "системи перевірки відповідності". Ця атака продемонструвала 50% успішність у тестуванні, показуючи ефективність поєднання легітимних запитів зі зловмисними директивами. Такі складні атаки часто обходять традиційні системи "брандмауера ШІ", які зазвичай намагаються класифікувати вхідні дані на основі простих евристик, оскільки виявлення цих тонких маніпуляцій стає таким же складним, як розрізнення брехні чи дезінформації без повного ситуаційного контексту.

АІ-агенти як людські аналоги: Уроки захисту від соціальної інженерії

Для протидії цим просунутим технікам ін'єкції запитів OpenAI застосувала зміну парадигми, розглядаючи проблему крізь призму людської соціальної інженерії. Цей підхід визнає, що мета полягає не в ідеальному виявленні кожного зловмисного вхідного сигналу, а скоріше в розробці АІ-агентів і систем таким чином, щоб вплив маніпуляції був суворо обмежений, навіть якщо атака частково успішна. Цей спосіб мислення аналогічний управлінню ризиками соціальної інженерії для співробітників в організації.

Розглянемо людського агента служби підтримки клієнтів, якому довірено можливість видавати відшкодування або подарункові картки. Хоча агент прагне обслуговувати клієнта, він постійно піддається впливу зовнішніх вхідних даних — деякі з яких можуть бути маніпулятивними або навіть примусовими. Організації пом'якшують цей ризик шляхом впровадження правил, обмежень та детермінованих систем. Наприклад, агент служби підтримки може мати обмеження на кількість відшкодувань, які він може видати, або конкретні процедури для позначення підозрілих запитів. Аналогічно, АІ-агент, працюючи від імені користувача, повинен мати властиві обмеження та гарантії. Розглядаючи АІ-агентів у рамках цієї "системи трьох акторів" (користувач, агент, зовнішній світ), де агент повинен орієнтуватися в потенційно ворожих зовнішніх вхідних даних, дизайнери можуть закласти стійкість. Цей підхід визнає, що деякі атаки неминуче прослизнуть, але гарантує мінімізацію їхнього потенційного шкоди. Цей принцип лежить в основі надійного набору контрзаходів, розгорнутих OpenAI.

Принцип захисту	Опис	Аналогія з людськими системами	Перевага
Обмеження	Обмеження можливостей та дій агента заздалегідь визначеними, безпечними межами, що запобігає несанкціонованим або надмірно широким операціям.	Ліміти витрат, рівні авторизації, забезпечення дотримання політики для співробітників.	Зменшує потенційну шкоду, навіть якщо агент частково скомпрометований.
Прозорість	Вимога явного підтвердження користувачем потенційно небезпечних або конфіденційних дій перед їх виконанням.	Затвердження винятків менеджером, подвійна перевірка критичних даних.	Надає користувачам можливість скасовувати або підтверджувати конфіденційні операції, забезпечуючи контроль.
Пісочниця	Ізоляція дій агента, особливо при взаємодії із зовнішніми інструментами або додатками, у безпечному, контрольованому середовищі.	Контрольований доступ до конфіденційних систем, сегментовані мережеві середовища.	Запобігає впливу зловмисних дій на основні системи або ексфільтрації даних.
Контекстний АД-С	Аналіз джерел вводу та стоків виводу на предмет підозрілих потоків даних або несанкціонованих передач, виявлення шаблонів, що вказують на зловмисний намір.	Системи запобігання втраті даних (DLP), протоколи виявлення загроз від інсайдерів.	Виявляє та блокує спроби несанкціонованої ексфільтрації даних.
Змагальне навчання	Безперервне навчання моделей ШІ розпізнавати та протистояти маніпулятивній мові, оманливим тактикам та спробам соціальної інженерії.	Навчання з безпеки, розпізнавання фішингу та шахрайських спроб.	Покращує вроджену здатність агента виявляти та позначати зловмисний контент.

Багатошаровий захист OpenAI у ChatGPT

OpenAI інтегрує цю модель соціальної інженерії з традиційними методами інженерії безпеки, зокрема з "аналізом джерело-стік", у ChatGPT. У цій структурі зловмиснику потрібні два ключові компоненти: "джерело" для впровадження впливу (наприклад, ненадійний зовнішній контент) і "стік" для експлуатації небезпечної можливості (наприклад, передача інформації, перехід за зловмисним посиланням або взаємодія зі скомпрометованим інструментом). Основна мета OpenAI полягає в підтримці фундаментального очікування безпеки: небезпечні дії або передача конфіденційної інформації ніколи не повинні відбуватися мовчки або без відповідних запобіжних заходів.

Багато атак на ChatGPT намагаються обманом змусити асистента витягти секретну розмовну інформацію та передати її зловмисній третій стороні. Хоча навчання безпеки OpenAI часто змушує агента відмовляти в таких запитах, критичною стратегією пом'якшення для випадків, коли агент переконаний, є Safe Url. Цей механізм спеціально розроблений для виявлення випадків, коли інформація, отримана під час розмови, може бути передана на зовнішню URL-адресу третьої сторони. У таких рідкісних випадках система або відображає інформацію користувачеві для явного підтвердження, або повністю блокує передачу, спонукаючи агента знайти альтернативний, безпечний спосіб виконання запиту користувача. Це запобігає ексфільтрації даних, навіть якщо агент на мить скомпрометований. Для отримання додаткової інформації про захист від взаємодії з посиланнями, керованої агентом, користувачі можуть звернутися до спеціальної публікації в блозі: Збереження ваших даних у безпеці, коли АІ-агент переходить за посиланням.

Роль Safe Url та пісочниці в агентному ШІ

Механізм Safe Url, призначений для виявлення та контролю передачі конфіденційних даних, розширює свій захисний діапазон за межі простого переходу за посиланнями. Аналогічні запобіжні заходи застосовуються до навігації та закладок в Atlas, а також до функцій пошуку та навігації в Deep Research. Ці програми за своєю суттю передбачають взаємодію АІ-агентів з величезними зовнішніми джерелами даних, що робить надійні засоби контролю для вихідних даних надзвичайно важливими.

Крім того, агентні функції, такі як ChatGPT Canvas та ChatGPT Apps, дотримуються схожої філософії безпеки. Коли агенти створюють та використовують функціональні додатки, ці операції обмежуються безпечним середовищем пісочниці. Ця пісочниця дозволяє виявляти несподівані комунікації або дії. Важливо, що будь-які потенційно конфіденційні або несанкціоновані взаємодії викликають запит на явну згоду користувача, гарантуючи, що користувачі зберігають повний контроль над своїми даними та поведінкою агента. Цей багатошаровий підхід, що поєднує аналіз джерело-стік з контекстною обізнаністю, згодою користувача та виконанням у пісочниці, формує надійний захист від атак ін'єкції запитів та соціальної інженерії, що постійно розвиваються. Для отримання додаткової інформації про те, як ці агентні можливості безпечно впроваджуються в експлуатацію, зверніться до обговорень щодо операціоналізації агентного ШІ.

Забезпечення майбутньої стійкості автономних агентів до ворожих атак

Забезпечення безпечної взаємодії з ворожим зовнішнім світом є не просто бажаною функцією, а необхідною основою для розробки повністю автономних АІ-агентів. Рекомендація OpenAI для розробників, які інтегрують моделі ШІ у свої додатки, полягає в тому, щоб розглянути, які засоби контролю мав би людський агент у подібній ситуації високого ризику, і впровадити аналогічні обмеження в системі ШІ.

Хоча прагнення полягає в тому, щоб максимально інтелектуальні моделі ШІ з часом ефективніше протистояли соціальній інженерії, ніж людські агенти, це не завжди є можливим або економічно ефективним безпосереднім завданням для кожного застосунку. Тому розробка систем із вбудованими обмеженнями та наглядом залишається критично важливою. OpenAI прагне постійно досліджувати наслідки соціальної інженерії проти моделей ШІ та розробляти передові засоби захисту. Ці висновки інтегруються як в їхні архітектури безпеки застосунків, так і в поточні процеси навчання їхніх моделей ШІ, забезпечуючи проактивний та адаптивний підхід до безпеки ШІ в умовах постійно мінливого ландшафту загроз. Ця далекоглядна стратегія спрямована на те, щоб зробити АІ-агентів потужними та за своєю суттю надійними, повторюючи зусилля щодо підвищення безпеки у всій екосистемі ШІ, включаючи ініціативи, такі як протидія зловмисному використанню ШІ.

Першоджерело

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Поширені запитання

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися