ИИ-агенты: Противостояние инъекциям промптов с помощью социальной инженерии

ИИ-агенты стремительно расширяют свои возможности: от просмотра веб-страниц до получения сложной информации и выполнения действий от имени пользователей. Хотя эти достижения обещают беспрецедентную полезность и эффективность, они одновременно создают новые, изощренные поверхности для атак. Главной среди них является инъекция промптов — метод, при котором вредоносные инструкции встраиваются во внешний контент с целью манипулирования ИИ-моделью для выполнения непреднамеренных действий. OpenAI подчеркивает критическую эволюцию этих атак: они все чаще имитируют тактики социальной инженерии, требуя фундаментального сдвига в стратегиях защиты от простой фильтрации ввода к надежному системному проектированию.

Развивающаяся угроза: инъекция промптов и социальная инженерия

Изначально атаки с инъекциями промптов часто были прямолинейными, например, встраивание прямых враждебных команд в статью Википедии, которую мог обрабатывать ИИ-агент. Ранние модели, не имевшие опыта обучения в таких враждебных средах, были склонны беспрекословно следовать этим явным инструкциям. Однако по мере того, как ИИ-модели созревали и становились более сложными, их уязвимость к таким явным предложениям уменьшалась. Это побудило злоумышленников разрабатывать более тонкие методы, включающие элементы социальной инженерии.

Эта эволюция значима, потому что она выходит за рамки простого выявления вредоносной строки. Вместо этого она бросает вызов ИИ-системам, заставляя их сопротивляться вводящему в заблуждение или манипулятивному контенту в более широком контексте, подобно тому, как человек сталкивается с социальной инженерией. Например, атака с инъекцией промпта в 2025 году, о которой сообщили OpenAI, включала создание электронного письма, которое казалось безобидным, но содержало встроенные инструкции, призванные обманом заставить ИИ-помощника извлечь конфиденциальные данные сотрудников и отправить их в "систему проверки соответствия". Эта атака показала 50%-ную успешность при тестировании, демонстрируя эффективность смешивания законно звучащих запросов с вредоносными директивами. Такие сложные атаки часто обходят традиционные "ИИ-брандмауэры", которые обычно пытаются классифицировать входные данные на основе простых эвристик, потому что обнаружение этих тонких манипуляций становится таким же трудным, как и распознавание лжи или дезинформации без полного ситуационного контекста.

ИИ-агенты как человеческие аналоги: уроки из защиты от социальной инженерии

Чтобы противостоять этим продвинутым техникам инъекции промптов, OpenAI принял смену парадигмы, рассматривая проблему через призму человеческой социальной инженерии. Этот подход признает, что цель состоит не в идеальной идентификации каждого вредоносного ввода, а скорее в проектировании ИИ-агентов и систем таким образом, чтобы влияние манипуляции было сильно ограничено, даже если атака частично удалась. Этот подход аналогичен управлению рисками социальной инженерии для сотрудников в организации.

Рассмотрим оператора службы поддержки, которому доверено выдавать возвраты или подарочные карты. Хотя агент стремится обслужить клиента, он постоянно подвергается воздействию внешних данных — некоторые из которых могут быть манипулятивными или даже принудительными. Организации снижают этот риск, внедряя правила, ограничения и детерминированные системы. Например, у оператора службы поддержки может быть ограничение на количество возвратов, которые он может выдать, или конкретные процедуры для пометки подозрительных запросов. Аналогично, ИИ-агент, действуя от имени пользователя, должен иметь присущие ему ограничения и меры безопасности. Концепция ИИ-агентов в рамках этой 'системы из трех акторов' (пользователь, агент, внешний мир), где агент должен навигировать в потенциально враждебных внешних условиях, позволяет разработчикам встраивать устойчивость. Этот подход признает, что некоторые атаки неизбежно будут проникать, но гарантирует минимизацию их потенциального вреда. Этот принцип лежит в основе надежного набора контрмер, развернутых OpenAI.

Принцип защиты	Описание	Аналогия с человеческими системами	Преимущество
Ограничение	Ограничение возможностей и действий агента заранее определенными, безопасными границами, предотвращение несанкционированных или слишком широких операций.	Лимиты расходов, уровни авторизации, обеспечение соблюдения политики для сотрудников.	Уменьшает потенциальный ущерб, даже если агент частично скомпрометирован.
Прозрачность	Требование явного подтверждения пользователя для потенциально опасных или конфиденциальных действий перед их выполнением.	Одобрение менеджера для исключений, перепроверка критически важных данных.	Дает пользователям возможность отменять или подтверждать конфиденциальные операции, обеспечивая контроль.
Песочница	Изоляция действий агента, особенно при взаимодействии с внешними инструментами или приложениями, в безопасной, контролируемой среде.	Контролируемый доступ к конфиденциальным системам, сегментированные сетевые среды.	Предотвращает воздействие вредоносных действий на основные системы или эксфильтрацию данных.
Контекстный АИИС	Анализ входных источников и выходных стоков на предмет подозрительных потоков данных или несанкционированных передач, выявление паттернов, указывающих на вредоносные намерения.	Системы предотвращения утечек данных (DLP), протоколы обнаружения внутренних угроз.	Выявляет и блокирует попытки несанкционированного извлечения данных.
Состязательное обучение	Непрерывное обучение ИИ-моделей распознаванию и сопротивлению манипулятивному языку, обманным тактикам и попыткам социальной инженерии.	Обучение осведомленности в области безопасности, распознавание фишинга и мошеннических попыток.	Улучшает врожденную способность агента обнаруживать и помечать вредоносный контент.

Многоуровневая защита OpenAI в ChatGPT

OpenAI интегрирует эту модель социальной инженерии с традиционными методами инженерии безопасности, в частности с "анализом источников и стоков", в рамках ChatGPT. В этой системе злоумышленнику необходимы два ключевых компонента: "источник" для внедрения воздействия (например, ненадежный внешний контент) и "сток" для эксплуатации опасной возможности (например, передача информации, переход по вредоносной ссылке или взаимодействие с скомпрометированным инструментом). Основная цель OpenAI — поддерживать фундаментальное ожидание безопасности: опасные действия или передача конфиденциальной информации никогда не должны происходить незаметно или без соответствующих мер предосторожности.

Многие атаки на ChatGPT пытаются обманом заставить помощника извлечь секретную информацию из разговора и передать ее вредоносной третьей стороне. Хотя обучение безопасности OpenAI часто приводит к тому, что агент отказывается от таких запросов, критически важной стратегией смягчения угроз в тех случаях, когда агент убежден, является Safe Url. Этот механизм специально разработан для обнаружения случаев, когда информация, полученная во время разговора, может быть передана на внешний URL-адрес третьей стороны. В таких редких случаях система либо отображает информацию пользователю для явного подтверждения, либо полностью блокирует передачу, предлагая агенту найти альтернативный, безопасный способ выполнения запроса пользователя. Это предотвращает эксфильтрацию данных, даже если агент на мгновение скомпрометирован. Для получения дополнительной информации о защите от взаимодействия с ссылками, управляемого агентом, пользователи могут обратиться к специальной записи в блоге: Защита ваших данных, когда ИИ-агент переходит по ссылке.

Роль Safe Url и песочницы в агентском ИИ

Механизм Safe Url, разработанный для обнаружения и контроля передачи конфиденциальных данных, распространяет свою защитную функцию не только на простые переходы по ссылкам. Аналогичные меры безопасности применяются к навигации и закладкам в Atlas, а также к функциям поиска и навигации в Deep Research. Эти приложения по своей природе включают взаимодействие ИИ-агентов с обширными внешними источниками данных, что делает надежный контроль исходящих данных первостепенным.

Более того, агентские функции, такие как ChatGPT Canvas и ChatGPT Apps, придерживаются аналогичной философии безопасности. Когда агенты создают и используют функциональные приложения, эти операции ограничиваются безопасной средой "песочницы". Эта "песочница" позволяет обнаруживать неожиданные коммуникации или действия. Важно отметить, что любые потенциально конфиденциальные или несанкционированные взаимодействия вызывают запрос на явное согласие пользователя, гарантируя, что пользователи сохраняют полный контроль над своими данными и поведением агента. Этот многоуровневый подход, сочетающий анализ источников и стоков с контекстной осведомленностью, согласием пользователя и изолированным выполнением, формирует надежную защиту от развивающихся атак с инъекциями промптов и социальной инженерией. Для получения более подробной информации о том, как эти агентские возможности безопасно используются, обратитесь к обсуждениям по внедрению агентского ИИ.

Защита автономных агентов от враждебных атак в будущем

Обеспечение безопасного взаимодействия с враждебным внешним миром — это не просто желательная функция, а необходимая основа для разработки полностью автономных ИИ-агентов. Рекомендация OpenAI для разработчиков, интегрирующих ИИ-модели в свои приложения, заключается в том, чтобы рассмотреть, какие средства контроля имел бы человек-агент в аналогичной ситуации с высокими ставками, и реализовать эти аналогичные ограничения в системе ИИ.

Хотя стремление состоит в том, чтобы максимально интеллектуальные ИИ-модели в конечном итоге противостояли социальной инженерии более эффективно, чем человеческие агенты, это не всегда является осуществимой или экономически эффективной немедленной целью для каждого приложения. Поэтому проектирование систем со встроенными ограничениями и надзором остается критически важным. OpenAI привержен непрерывному исследованию последствий социальной инженерии против ИИ-моделей и разработке продвинутых средств защиты. Эти выводы интегрируются как в архитектуры безопасности их приложений, так и в текущие процессы обучения их ИИ-моделей, обеспечивая проактивный и адаптивный подход к безопасности ИИ в постоянно меняющемся ландшафте угроз. Эта дальновидная стратегия направлена на то, чтобы сделать ИИ-агентов одновременно мощными и по своей природе надежными, отражая усилия по повышению безопасности во всей экосистеме ИИ, включая такие инициативы, как пресечение вредоносного использования ИИ.

Первоисточник

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Часто задаваемые вопросы

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Будьте в курсе

Получайте последние новости ИИ на почту.